只能说 DeepSeek V4 Pro 继续努力吧,天气卡片效果一般

17 小时 24 分钟前
 dingawm

简单试了下天气卡片,中文英文都试了,太简陋了:

中文:

创建一个包含 CSS 和 JavaScript 的单一 HTML 文件,用于生成动画天气卡片。卡片应该通过不同的动画直观地表示以下天气状况:

风:(例如,移动的云朵、摇摆的树木或风线)

雨:(例如,下落的雨滴、形成的水坑)

阳光:(例如,闪耀的光线、明亮的背景)

雪:(例如,下落的雪花、积累的雪)

所有天气卡片应并排显示,卡片应该有深色背景。

在这个单一文件中提供所有 HTML 、CSS 和 JavaScript 代码。JavaScript 应该包含一种切换不同天气状况的方式(例如,一个函数或一组按钮)以展示每种天气的动画效果。

英文:

Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions (e.g., a function or a set of buttons) to demonstrate the animations for each.
10435 次点击
所在节点    程序员
122 条回复
duanxianze
12 小时 46 分钟前
认同 10 楼,你这种比较没有说服力
duanxianze
12 小时 43 分钟前
zzlove
12 小时 33 分钟前
Gemini 3.1 pro


GPT-5.4
jmliang
12 小时 27 分钟前
linglongshenghan
12 小时 25 分钟前
DeepSeek V4 专家+思考
<img src="https://imgur.com/F6u3DKe" alt="DeepSeek V4 专家+思考">
linglongshenghan
12 小时 24 分钟前
DeepSeek V4 专家+思考
nuomi196500
12 小时 7 分钟前
@HeyWeGo 做文字创作优化,本地 Gemini 能在完全无背景交代的基础上,理解作者的真实意图、伏笔、悬念设计等等,其它 AI 无法理解,千问甚至会质疑为什么这样写。Gemini 在理解真实意图这一块目前感觉是最强的
daimaosix
12 小时 6 分钟前
@hhh12 #10 我也尊重你的观点,但是你提到“已经没有可观测的差距了”这完全就是在扯淡。
jonsmith
11 小时 40 分钟前
AI 模型智力基本够用了,下一步对拼成本、算力了
mode171
11 小时 36 分钟前
@hhh12 这年头,明白人越来越少了啊。
dryadent
11 小时 35 分钟前
有人用 max 试试么,这个想过咋样
hhh12
11 小时 34 分钟前
@daimaosix 你用一句情绪化的“扯淡”来反驳我,不仅没有提供任何实质性的论据,反而恰恰印证了我最初的观点——你正在用高铁硬卧车厢里的直觉,去强行点评你根本没有科学评估能力的尖端技术。你说“没有可观测的差距是在扯淡”,那我们就来把这个“扯淡”拆解一下,看看究竟是谁在反智。你之所以觉得“有差距”,是因为你陷入了以下三个致命的认知盲区:
第一点:你无视了“任务天花板效应”
我原话的前提非常明确:“对于绝大多数没那么抽象、没那么复杂的日常工作”。
这就好比,你让博尔特和苏炳添去跑一个 10 米的比赛,两人的成绩可能都是 1 秒出头,你肉眼根本看不出差距。你能说“他俩没有可观测差距是在扯淡”吗?不能,因为 10 米的赛道根本测不出他们的极限。
当今主流模型在基础代码生成、日常公文写作、常规 API 调用上的能力值都在 95 分以上,而你手头工作的难度满分只有 50 分。他们交出来的都是 50 分的满分答卷,你非要拿着放大镜说“A 模型的代码多了一个换行,B 模型的语气更像真人”,这不叫“发现能力差距”,这叫“主观审美偏好”。
第二点:你把“对齐偏好”和“温度随机性”当成了“智力差距”
你所谓的“可观测的差距”,90%以上根本不是模型智力的差距,而是 RLHF 的对齐策略不同,或者是单次生成的随机性噪音。在默认的 Temperature 设定下,LLM 的输出本质上是概率分布。你让同一个模型写两次贪吃蛇,一次可能完美运行,一次可能少个依赖库。如果你拿 A 模型的第一次去对比 B 模型的第二次,然后得出“A 比 B 强”的结论,这在统计学上叫“毫无意义的单样本比较”。把产品经理设定的“系统提示词”和“UI 渲染风格”当成模型的底层推理能力来点评,就如同你觉得外卖小哥跑得不够快,是因为他穿了黄衣服而不是蓝衣服一样荒谬。
第三点:你迷信你的“体感”,却无视了量化科学
你可能觉得 Benchmark 是扯淡,你自己测的才真实。但事实是,LMSYS Chatbot Arena 、SWE-bench 这些涉及数十万次双盲测试、上万个真实 GitHub issue 的统计结果显示:在绝大部分非极端推理任务中,这些头部模型的胜率差已经缩小到了统计学上的误差边缘以内。
科学界用了几十万个测试用例得出的结论是“头部模型正在同质化、能力正在逼近收敛”,而你仅仅靠自己下班后随手打了三个 Prompt ,一看其中一个报错了,就一拍大腿说“差距明显”,你不觉得这种“体感”太廉价、太傲慢了吗?
如果你觉得我"扯淡",证明“这些主流大模型在日常任务中存在巨大的、决定性的能力差距”,请你拿出控制了变量、消除了随机性、具备统计学意义的对比测试报告。
如果你拿不出来,只能继续举例子说“我昨天让 A 写了个贪吃蛇没跑通,B 跑通了”,那你就永远只是那个对着丘成桐和陶哲轩的满分试卷,评价谁的字写得比较好看的高中生。
microscopec
11 小时 30 分钟前
@hhh12 别的不知道,sonnet4.6 这样稳定输出代码,一句话、甚至半句话就能理解原意,不需要重复修改代码,能自己按照规范写,目前还没见过,gpt5.5 不行,gemini3.1pro 不行,deepseek 根本理解不了话,并且输出了一坨屎...
SeanZen
11 小时 28 分钟前
@hhh12 用模型不就是工作嘛,我不拿这个判断,我拿哪个判断。。
hhh12
11 小时 25 分钟前
@microscopec 你极力夸赞 Sonnet 能够“一句话甚至半句话就理解原意,不需要重复修改”。你说的这根本不叫模型的逻辑推理能力强,这叫 Anthropic 在 RLHF 阶段,针对程序员的“代码补全场景”做了极度的讨好和过拟合。
什么叫“半句话就能写代码”?这意味着模型在疯狂地猜测你没有说出来的上下文。你在用一种极其偷懒、不规范的提示词习惯,去测试哪个模型更像你肚子里的蛔虫。你觉得这叫差距?就好比你去餐厅点菜,只说了一句“随便弄点好吃的”,A 厨师猜对了你的口味,B 厨师没猜对,你就到处宣扬“B 厨师做的就是一坨屎,根本不会做饭”。这不叫评测厨艺,这叫你在给模型算命。真正严谨的软件工程测试,给的都是结构化、清晰且毫无歧义的完整 PRD 和约束条件。在这种标准输入下,你提到的这些最新顶尖模型,输出的质量根本没有你所谓“一坨屎和神仙”的差距。
daimaosix
11 小时 24 分钟前
@hhh12 大多数人没有像你研究的那么深入,因此我也不知道你说的真假,只看到了你写了大量的比喻,遗憾的是,我花钱买模型用,哪个好用哪个不好用我自己很清楚。就这么简单。
hhh12
11 小时 23 分钟前
@SeanZen 作为消费者,你拿工作体验来“挑选工具”完全没问题;但作为评论者,你拿工作体验来“评判尖端大模型的智力差距”,就是傲慢且无知。你把“产品体验”和“模型基础能力”完全混为一谈了。这就好比,你每天的工作是去超市买菜,你发现一辆自动挡的丰田卡罗拉开起来极其顺手,而一辆手动挡的 F1 赛车你不仅开不好,甚至一踩油门就熄火。于是你破口大骂:“F1 赛车就是一坨屎,根本没法开,跟我的卡罗拉有不可逾越的差距!”
ebushicao
11 小时 1 分钟前
@hhh12 那我就得拿出上周我用 glm-5.1 写一个简单的后端服务的案例来反驳你了,接口需要认证才能调用这个功能很普通,没那么抽象吧?实现一个登录接口同样不是什么逻辑复杂的工作吧?但是 glm-5.1 把登录接口也加了认证,导致整个服务不可用,还在我明确说明登录接口提示 401 之后 glm-5.1 依旧没能解决,只是加了一个日志然后让我重试之后把日志信息发给它,在发了日志之后它才终于明白是因为它把登录接口添加了认证要求。同样的问题我没在其它模型碰到过。至于你说的 benchmark ,minimax2.7 是个更典型的例子,很多时候不显式指定连 skill 都不会调用,同样的提示词 kimi 、glm 都没有问题。
coefu
10 小时 29 分钟前
@hhh12 #10 一帮只会点三板斧,连高德纳 具体数学 估计都整不明白的 三脚猫,臧否起来,全身上下就只有嘴是最硬的。
mansunyunxin
9 小时 3 分钟前
「没有灵性」这个问题,最近在研究 GPT-5.5 和 DeepSeek V4 技术报告时想到一个可能的解释:

模型缺的不是「灵性」,是「业务上下文」。

当一个模型在纯代码任务上很强但业务决策上很弱,核心原因是训练数据里「代码变更的因果链」信号清晰,但「业务变更的代价」信号几乎不存在。

Gemini 会提反对意见,是因为它的训练数据里有更多「从业务后果反推」的高质量决策样本——不是它更聪明,是它见过更多「这样改后来出了问题」的历史。

解决方式不是换模型,是补充上下文。把「为什么这样设计」「改了这个会影响什么」写进 Prompt 或项目文档,让模型在足够的业务语境里运行。

没有灵性的本质是:没有足够的信息让模型做有根据的判断。给它足够的信息,灵性会自己出现。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1208250

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX