这些大模型也真的是狗

我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,

训练一圈下来识别率很低(当然这里可能是我写的代码都不行

训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好

今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊咋地, 你说他们狗不狗

优点：
懂语义：它看过几十亿张图，知道"骑马的人"长啥样，不会被背景搞晕。
无需训练：不用洗数据，不用跑 epoch ，直接推理。
泛化强：全身照、半身照、卡通图都能认。

ykk

2025 年 11 月 29 日

@sch1111878 在国内没人会把有业务价值的模型开源出去，要么边缘业务，要么低配模型，一家公司想在一个领域做好只能走自研，除非是做 toy

MobileNetV2 是 6 7 年前的东西了

做业务之前先做做竞品调研

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.