这些大模型也真的是狗

2025 年 11 月 22 日
 sch1111878

我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,

训练一圈下来识别率很低(当然这里可能是我写的代码都不行

训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好

今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊 咋地, 你说他们狗不狗

优点:
懂语义:它看过几十亿张图,知道"骑马的人"长啥样,不会被背景搞晕。
无需训练:不用洗数据,不用跑 epoch ,直接推理。
泛化强:全身照、半身照、卡通图都能认。
3953 次点击
所在节点    程序员
25 条回复
sch1111878
2025 年 11 月 26 日
@ykk 大佬这话说的狂了点 那这开源这么不堪怎么还这么出名了
ykk
2025 年 11 月 29 日
@sch1111878 在国内没人会把有业务价值的模型开源出去,要么边缘业务,要么低配模型,一家公司想在一个领域做好只能走自研,除非是做 toy

MobileNetV2 是 6 7 年前的东西了

做业务之前先做做竞品调研
sch1111878
2025 年 11 月 29 日
@ykk 谢谢, 主要是人少时间急, 现在看来 resnet50 这个看了几个相关的论文和文章, 都说这个比较好, 希望没踩坑
paopjian
2025 年 12 月 4 日
我也碰上了年龄 性别分类的任务, 你是用的什么模型做的? 我看 insightface 有点坑, 只有模型没代码了,
sch1111878
2025 年 12 月 25 日
@paopjian 现在用的 resnet50 速度上来了 但是准确度降低了
方便的话价格联系方式沟通下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1174419

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX