为什么 LLM 不擅长数饺子？

sillydaddy

2025 年 2 月 19 日

容易眩晕产生幻觉。你数你也晕。

xuchkang171

2025 年 2 月 19 日

智能驾驶都 L3 了，GPT 都能像人似的视频通话了，LLM 对图片进行描述时也知道方位。LLM 识别图片时，肯定有每个物品的坐标信息，剩下的工作不是统计一下就行了吗？

xuchkang171

2025 年 2 月 19 日

@sillydaddy 哈哈，数了不到十个，犯懒直接掏出 AI 想让 AI 让我数，结果发现平日里各个几乎无所不能的 LLM 却没一个能帮我数饺子。

paopjian

2025 年 2 月 19 日

你真把 LLM 当万能答题机了? 有专门数签子的 AI, 想数饺子要么找更强模型要么专门训练

chanlk

2025 年 2 月 19 日

你可以用大量的饺子图片去训练一个专属的数饺子 AI ，准确率可以极高, 训练出来的模型也很小，普通电脑都可以跑。

defaw

2025 年 2 月 19 日

有数数用的专用模型，倒也犯不着直接用 vl 模型数数

aogu555

2025 年 2 月 19 日

答案就在标题里，LLM 全称叫‌‌ [大型语言模型] （ Large Language Model ）

yaron1123

2025 年 2 月 19 日

现在多模态大模型的视觉编码器倾向于提取图像整体特征，对每个物品的坐标定位是差的

pkoukk

2025 年 2 月 19 日

因为 LLM 叫语言模型，不叫视觉模型，这个需求你可以找 cv

wclebb

2025 年 2 月 19 日

我放 ChatGPT 去数了，因不能粘贴 AI 答案。
意思说大概在 97 ～ 100 个左右。

LianOuPaiGuT

2025 年 2 月 19 日

@mazyi 一共 81 个,AI 都是瞎编的

AshPenn

2025 年 2 月 19 日

我用豆包数了一下，回答是：图中饺子共 86 个。它们整齐地摆放在盖帘上，下面还有一盆饺子馅呢。

SmiteChow

2025 年 2 月 19 日

人工智障而已，不要抱有侥幸心理。

v2tex

2025 年 2 月 19 日

挺好，以后就拿这个图测试 AI 的智能程度

maojun

2025 年 2 月 19 日

我发现很多不了解 LLM 的人喜欢把它当作某种神力…数东西就找 cv 嘛

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1112497

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.