我们用命理大赛真题做了个 AI benchmark，结果挺意外的

之前和几个同学一直在研究一个问题：大模型算八字到底什么水平？跟真正的命理师比差多远？

为了搞清楚这个问题，我们做了个 benchmark——用全球命理师大赛的真题（ 200 道四选一），同时考 AI 和人类顶级命理师，数据和代码全部开源。

测试结果

先说结论，四选一随机猜是 25%：

年份	最强通用 AI	准确率	大赛冠军	大赛季军
2025	DeepSeek-V3	37.0%	50.0%	45.0%
2024	Gemini-3-Pro	38.5%	50.0%	45.0%
2023	GPT-5.1	36.0%	37.5%	32.5%
2022	DeepSeek-V3	36.0%	40.0%	35.0%

几个有意思的发现：

AI 不是瞎蒙的 —— 稳定在 36-38%，显著高于 25% 的随机基线
**2023 年 GPT-5.1 (36%) 已经超过了大赛季军 (32.5%)**，跟冠军只差 1.5 个百分点
即便是人类冠军，准确率也就 37.5%-50%，八字推理确实是个极难的任务

为什么八字对 AI 来说这么难？

八字不是简单的查表。天干地支、十神、大运流年之间的组合关系非常复杂，需要多步推理：先看全局格局，再分析当前时间段的关键力量，最后映射到具体事件。

通用大模型缺少这种结构化的推理链路，容易"看起来说得头头是道，但逻辑链断了"。

结构化推理（ SRP ）的效果

我们在论文里提出了一个结构化推理协议（ SRP ），让 AI 按固定步骤分析：

全局扫描（五行平衡、日主强弱）
力量排序（当前时间段最关键的作用力）
事件推断（根据核心力量推断对应事件）

用了 SRP 之后部分领域提升很明显：

流年运势：+8~10 个百分点
事业发展：最高 +15 个百分点
学业：最高 +30 个百分点

基于这套方法，我们做了一个产品 AuraMate 灵伴，把结构化推理引擎产品化了。在 2022 和 2023 年的数据上，灵伴的准确率已经超过了大赛季军。

开源 & 体验

详细分析文章： https://auramate.net/article/ai-bazi-reasoning-benchmark
产品体验： https://auramate.net

做这个研究的初衷是觉得命理这个领域一直缺少标准化的评测方法，大家都说自己准但没有可比较的基准。希望这个 benchmark 能让这个领域更透明一些。欢迎讨论 🙏

sunnysab

3 月 29 日

您好！用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下，仓库见 https://github.com/sunnysab/BaziQA

结果如下：
OpenAI GPT-5.4 Multi-turn 30.83%
OpenAI GPT-5.4 Structured 31.33%
Gemini-3.1-Pro-Preview Multi-turn 38.33%
Gemini-3.1-Pro-Preview Structured 33.33%

本以为新模型会好一些，但似乎 GPT5.4 并没有什么提升，而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异（我不知道我用的库准不准，来源： https://github.com/china-testing/bazi ）

很有意思的、针对 LLM 的测试角度。从我个人经验看，在使用 AI 做推理前，可以让它回答自己过去的事，这也是测试准确性的方法。