欢迎批评,也是 vibe coding 的产物,我是在尝试学习数学和物理相关理论的时候结合编码学的一些自己的看法在做实验,当然实验内容大部分也是 vibe coding 的产物,现有基准是这个模型在本地学习 fineweb 数据集,架构没有词典层,只有字符学习和相关纯数学架构和编码尝试的情况下可以涌现类英语语义结构,而且训练和展开输出均是显存和内存优化形式的,大家可以尝试自己分析和使用一下,相关的思考方式和架构本身也在代码中注释了,如果用其他 ai 去分析该项目会对其数学结构有不同看法,当然可能是我的思考角度导致我的用语和提示词导致其结构偏移和我的用语没有广泛被接受的问题。请大家批评指正,我尽力提高我自己。 项目地址: https://github.com/makai891124-prog/H2Q-MicroStream