大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗？

24 天前

monstericeer

最近在测试 Qwen3-VL ，Doubao-seed-2 这类的目标识别能力，尤其是豆包在很多复杂场景不需要训练就能标注得非常准确，能够在用法上更加灵活，对比 yolo 需要大量的训练数据，不断迭代。想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练，或者直接用在生产环境？

2944 次点击

所在节点

程序员

27 条回复

cairnechen

23 天前

@monstericeer 通用大模型处理图片都会缩放，视觉估算坐标的时候漂移很严重，gemini 我没试过，GPT5.4 和 opus 基本都是残废，而且官方文档不可信，claude vision 文档说单边大于 1580px 总像素>1.15M 才会缩放，实际比这严格很多 800 * 600 都会缩放，一缩放就别指望坐标能准确了

wonderfulcxm

23 天前

用的，旅游时就用 minimax token plan ，自带了一个里的 image 01 ，在 openclaw 里识别我随手拍的照片根据内容重命名放进 google drive ，识别的还挺好的。

wonderfulcxm

23 天前

哦，你做训练啊，我还以为个人用，误会哈哈。

coldstars

22 天前

@monstericeer 我的无人机低空场景的，正在尝试小的 vml 比如 qwen3.5 0.8B 辅助做决策

coldstars

22 天前

@commoccoom 我也是巡检

monstericeer

22 天前

@coldstars 飞行决策吗？我目前还不敢接到控制这块

commoccoom

20 天前

@coldstars 怎么决策？我们都是按航点飞

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1202985

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.