大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗?

24 天前
 monstericeer

最近在测试 Qwen3-VL ,Doubao-seed-2 这类的目标识别能力,尤其是豆包在很多复杂场景不需要训练就能标注得非常准确,能够在用法上更加灵活,对比 yolo 需要大量的训练数据,不断迭代。 想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练,或者直接用在生产环境?

2944 次点击
所在节点    程序员
27 条回复
cairnechen
23 天前
@monstericeer 通用大模型处理图片都会缩放,视觉估算坐标的时候漂移很严重,gemini 我没试过,GPT5.4 和 opus 基本都是残废,而且官方文档不可信,claude vision 文档说单边大于 1580px 总像素>1.15M 才会缩放,实际比这严格很多 800 * 600 都会缩放,一缩放就别指望坐标能准确了
wonderfulcxm
23 天前
用的,旅游时就用 minimax token plan ,自带了一个里的 image 01 ,在 openclaw 里识别我随手拍的照片根据内容重命名放进 google drive ,识别的还挺好的。
wonderfulcxm
23 天前
哦,你做训练啊,我还以为个人用,误会哈哈。
coldstars
22 天前
@monstericeer 我的无人机低空场景的,正在尝试小的 vml 比如 qwen3.5 0.8B 辅助做决策
coldstars
22 天前
@commoccoom 我也是巡检
monstericeer
22 天前
@coldstars 飞行决策吗?我目前还不敢接到控制这块
commoccoom
20 天前
@coldstars 怎么决策?我们都是按航点飞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1202985

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX