国家外观设计专利检索公共服务系统图搜还挺准的，他们用的是什么模型来实现的？

用图片检索专利，国家外观设计专利检索公共服务系统似乎挺准的，只是交互体验太差，专利更新也比较慢。

可有大佬知道他们用什么模型来实现图片检索的，我试过 clip 和 dinov2 都达不到它这个效果。

https://d.cnipa.gov.cn/micro-portal/#/

fox0001

2025 年 7 月 13 日

类似的需求，我们用 dinov2-with-registers-giant ，取 CLS Tocken 。自动识别图片主体，效果比阿里云的图像搜索还好。

https://huggingface.co/facebook/dinov2-with-registers-giant

不过这个模型有个硬伤，很耗 GPU 。即使把输入的图片压缩成 224x224 ，生成向量仍需要 250ms 左右。

Suinn

1 月 20 日

@fox0001 大佬求教，最近我也在做这个方向但是效果不是很好，除了 dino 提取特征后进行相似度比较外，还有其他优化的方向吗

fox0001

1 月 20 日

@Suinn #2 图像方面，我也只是入门玩家。

一般的做法是，先从搜索图片提取“主体”，再用该“主体”去搜数据库。至于使用什么模型提取“主体”，可以试试 SAM3 ，但是该模型需要提示词或提示框。要注意，如果“主体”识别错误，结果也是错的。

DINOv3 也发布一段时间了，效果比 dinov2-with-registers 系列要好，可以试试。DINOv3 可以支持更高分辨率，但宽和高要取 16 的倍数。

另外，使用 DINOv3 做“微调”，也是一个方向。

Suinn

1 月 22 日

@fox0001 感谢，DINOv3 我前段时间也试过了，可能是我的场景类内相似度有点高，所以准确率不是特别好，我再研究研究

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1117877

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

国家外观设计专利检索公共服务系统 图搜还挺准的，他们用的是什么模型来实现的？

国家外观设计专利检索公共服务系统图搜还挺准的，他们用的是什么模型来实现的？