类 Manus 的 UI Agent 完全是个伪需求,前端已经没活路了

2025 年 4 月 3 日
 FaustY

现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。

但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。

让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。

5611 次点击
所在节点    程序员
39 条回复
wyntalgeer
2025 年 4 月 3 日
那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢
scarlex
2025 年 4 月 3 日
要不你先做一个出来,革掉大厂的命?
musi
2025 年 4 月 3 日
要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?
foolishcrab
2025 年 4 月 3 日
纯视觉 agent 一样可以绕过所有 app 营销内容,难道到时候又要变成爬虫攻防?

这个问题根本就不是技术问题,纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议,但是 manus 这种形式目前来看是最不可能的未来方向
june4
2025 年 4 月 3 日
OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味?再用语音细致地确认要点哪个?
aboutier
2025 年 4 月 3 日
未来马斯克的脑机接口, 谁 tm 还玩手机,直接内置芯片不好吗?

到时候大家上架的都是马斯克的脑机接口商店。
nathandoge
2025 年 4 月 3 日
基本上绝大部分手机 app ,未来都可以通过 agent 一句话来搞定
zzhirong
2025 年 4 月 3 日
对话框也属于 UI ,我感觉并不适合所有场景,就订餐来说,食物长什么样的,店铺评价如何,要几双筷子,有哪些优惠,如何支付,外卖送到哪了等等,这些信息用自然语言来呈现不一定最佳。还有打车,你如何精确描述你的目的地,以及到哪接你,以及你可接受的价格。
mumbler
2025 年 4 月 3 日
@june4
@zzhirong
agent 可以显示一个页面来展示菜单,点击就行,不一定非要语音交互
renmu
2025 年 4 月 3 日
连网页都嫌弃用户可以屏蔽广告,还想做自动化,把自己的命给革了?
xiaohupro
2025 年 4 月 3 日
理想很美好,这就像 GC 主义的终极目标,是个美好的目标,但是奈何公司和平台之间是要考虑自己利益的,能实现完美的共赢几乎不可能。
zzhirong
2025 年 4 月 3 日
@mumbler 你要选择你要点外卖功能,(搜索你想吃的)然后选择店铺,选择你要点的东西,选择收货地址,写备注,这不就是目前 app 在做的事情么?我想不到哪里还可以优化。
sn0wdr1am
2025 年 4 月 3 日
你以为的是:

美团,滴滴,把接口交给类 Manus 的 UI Agent ,美团,滴滴药丸。

实际上可能的是:

美团,滴滴,等每个公司搞一个 AI ,UI Agent 。


实际上,这十几年来,资本在干的事情是,把用户从公共互联网,引流到自己的私域( APP ,小程序,网站,平台)。

资本好不容易把用户圈进自己的鱼塘,会轻易让别人抢走?

想多了。

后面会怎么发展,我们静观其变好了。
mumbler
2025 年 4 月 3 日
@zzhirong #12 这是人机交互,不是 APP 那种,一个界面能解决所有问题,页面是 AI 实时写的,直达目标,不需要你点一层一层目录进去,收货地址,支付更是不需要自己动手
june4
2025 年 4 月 3 日
@mumbler 想象一下浏览器也是 ai 接口,关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少,对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键,命令相当于当场编程。
zzhirong
2025 年 4 月 3 日
我认为,信息压缩也是有极限的,有些东西无论以何种方式呈现,最终还是要呈现,你可以改进压缩算法,但是它的极限就在那,你没办法不说出你的需求,就能得到结果,最多做一些优化(比如常用地址只要选择就可以了,而不用重复输入)。话说,真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧)?
mumbler
2025 年 4 月 3 日
@june4 #15 都 AI 了,还用 tab 吗,压根不会用浏览器这种东西了,整个系统只有一个 UI ,就是人机对话 agent ,想要看什么给你显示什么,内容全是为你实时生成的
zzhirong
2025 年 4 月 3 日
@mumbler 你要吃什么,在哪个店铺,要点多少数量,收货地址是哪,餐具要多少,有无口味要求(可能一个人吃,也可能几个人吃)这些可以做哪些优化?一个界面呈现所有选项么?
mumbler
2025 年 4 月 3 日
@zzhirong #18 想象一下,大领导有一个美女秘书,到饭点了,秘书会拿个手机让领导亲自点么?

真实场景是: 美女用温柔的声音问领导中午想吃点什么,附近有个素菜馆不错要不要试试,领导说想吃点肉,好,那咱们吃个秘制猪脚饭吧,领导说行吧,一会饭就送来了
lawted
2025 年 4 月 3 日
推荐阅读 https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://study.congcong.us/t/1123081

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX