之前和几个同学一直在研究一个问题:大模型算八字到底什么水平?跟真正的命理师比差多远?
为了搞清楚这个问题,我们做了个 benchmark——用全球命理师大赛的真题( 200 道四选一),同时考 AI 和人类顶级命理师,数据和代码全部开源。
先说结论,四选一随机猜是 25%:
| 年份 | 最强通用 AI | 准确率 | 大赛冠军 | 大赛季军 |
|---|---|---|---|---|
| 2025 | DeepSeek-V3 | 37.0% | 50.0% | 45.0% |
| 2024 | Gemini-3-Pro | 38.5% | 50.0% | 45.0% |
| 2023 | GPT-5.1 | 36.0% | 37.5% | 32.5% |
| 2022 | DeepSeek-V3 | 36.0% | 40.0% | 35.0% |
几个有意思的发现:
八字不是简单的查表。天干地支、十神、大运流年之间的组合关系非常复杂,需要多步推理:先看全局格局,再分析当前时间段的关键力量,最后映射到具体事件。
通用大模型缺少这种结构化的推理链路,容易"看起来说得头头是道,但逻辑链断了"。
我们在论文里提出了一个结构化推理协议( SRP ),让 AI 按固定步骤分析:
用了 SRP 之后部分领域提升很明显:
基于这套方法,我们做了一个产品 AuraMate 灵伴,把结构化推理引擎产品化了。在 2022 和 2023 年的数据上,灵伴的准确率已经超过了大赛季军。
做这个研究的初衷是觉得命理这个领域一直缺少标准化的评测方法,大家都说自己准但没有可比较的基准。希望这个 benchmark 能让这个领域更透明一些。欢迎讨论 🙏
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.