屏蔽噪音,Manus 给我的 3 个启发

前几天由 Monica 团队出品的 Manus 刷屏了整个中国互联网,甚至连 A 股也颇受震动。但是由于营销的问题,这款产品目前也遭受了巨大的非议。

我自己从体感上不喜欢自媒体夸张式的报道,我也无法验证这种夸张的报道到底是 Manus 团队的有意为之还是因为他们的市场公关人员没有做好风险把控导致的,但是我认为这些事情都是不值得费口舌的。

工作了接近 9 年(如果算上实习 就是接近 10 年)之后,我其实已经很难对一个产品产生兴奋,Manus 的视频是在晚上发布的,当天晚上我已经激动地睡不着了,一直在脑子里面尝试组合我知道的那些技术手段,在思考怎么把这个产品逆向出来。

所以这篇文章我想讨论的并不是这个产品到底是不是 DeepSeek 式的创新,因为其实这并不重要,我更多地想从一个产品经理的角度聊一下我受到了这个产品的哪些启发。

启发一:如果无法确保结果是正确的,就要尽可能展示过程,并且允许干预

AI 产品和先前的互联网 C 端产品其实是有很大的差别,最大的差别就是这更像是一个付费的“工具软件”,毕竟目前大模型还没有因为数据飞轮而受益的案例,几乎所有免费用户对公司来说都是负担,所以大部分 AI 工具都是收费的,只有个别财大气粗的大公司会免费提供应用给用户使用。

即使是字节,旗下的 AI 应用也只有豆包是免费的,coze 这样 tokens 消耗大户也是需要付费使用的。

免费和付费最大的区别就是用户对于交付物的预期,我举两个我自己曾经在使用 Monica 遇到过的例子:

  • 每个月 100 次付费高级查询,点击一下高级查询,AI 直接报错没有出结果,但是查询次数被扣了;
  • 付费 AI 智能搜索,显示引用了 30 篇结果,但是没有给出完整的引用列表;

这上面两个例子甚至都不涉及什么引用的内容答非所问,AI 有幻觉这些不太好解决的问题,很多都是工程问题,我自然是把这些作为 Bug 提交给 Monica 团队了,Monica 团队的同学则非常友善的给我送了会员。

上面两个例子其实蕴含了一个以往的互联网公司产品经理很少接触过的概念,就是付费软件需要确保交付效果,交付效果过差是存在赔付或者补偿风险的。

如果结合上面这个例子,我们再来看 Manus 的设计,就会发现他们做的非常聪明。

受制于模型本身的能力,模型能容纳的上下文的大小,整个工程链路的复杂程度等等一系列的问题,Manus 的成功率其实并不算太高。

AI Agent 往往需要编排多个任务,最后汇总结果,而 AI 本身因为底层原理、模型的幻觉、上下文限制等原因,在执行任务的时候就存在失败的风险,更不要提准召率的问题了。

假如 AI 执行一个任务的成功水平是 95%,一个大型任务需要 10 个子任务,如果我们假定大型任务依赖于这 10 个子任务都执行成功,那么成功的概率就是 0.95 的 10 次方,也就是 59.9%,相当于用 3 次就要失败 1 次,这谁受得了?而且实际上很多时候根本不止 10 个子任务。

结合上面我所说的付费软件的赔付问题,这很可能会导致用户直接爆炸。

要怎么解决?很简单,把过程尽可能详细的展示出来,很多时候大家使用 DeepSeek R1 觉得很惊艳,并不是惊艳于最后的结果,而是吃惊于它的思考过程,对于 Agent 来说这个道理也是相通的。

结果错了没关系,至少把过程清晰的展示出来,好让我知道我付的钱 AI 都干了些什么,里面有没有一些过程是我可以修改一下就复用的。

Manus 在这件事情上做的非常彻底,首先我们看官方的 Use Case 就可以发现他们做了非常完善的重播回放机制,并且允许每个普通用户分享自己的聊天。

设计了一个名为 todo.md 的机制,给用户详细展示了 Agent 在完成问题时计划做的事情,如果你觉得 Manus 的 todo 有问题,完全可以在聊天框内要求它修改 todo,也可以人工检查某个步骤时要求它回过去修改某个步骤。

可干预还会带来一个额外的效果,就是 AI 可以主动在自己无法进行任务的时候寻求人类的帮助,这是一个非常有价值的功能,因为很多时候 AI 完成不了任务其实就差一个小小的卡点。

坦率来说 todo.md 这个设计是我从 Manus 里面获得的最大的惊喜,从我自己的角度看我认为这是产品设计的灵魂所在。

当然那种直接执行失败的任务,我觉得在扣费机制上面还有待商榷。

启发二:尽可能相信机器,减少产品设计层面本身的人工干预

Manus 的团队在分享自己设计里面的时候,强调了减少人工干预,让智能去探索。

这里的人工干预指的是 Manus 的开发团队需要尽可能减少人工干预,而不是不允许用户干预,这是两个概念,比如开发团队不要在里面去设置一些分类的专家流程,也不要去一些流程控制器之类的事情,尽可能让 AI 自行探索,自行设计任务,自行选择使用什么工具。

这个理念其实也是比较先进的,最近和 AI 打交道,尤其是落地了 AI 产品的人都会发现自己经常为了效果做了一些工程优化(比如内置了面向一些场景的 Workflow),结果模型更新之后,效果比原来好多了,工程优化瞬间就失去了价值,甚至成为了拖油瓶。

工程优化不是不能做,Manus 做了非常多的工程优化,但是他们的工程优化更多是在强化一些模型的延伸能力,比如帮助模型浏览网页,解压缩文件等等,他们多给模型做手,脚,眼和记事本(长期记忆,好记性不如烂笔头),这些都是大模型无论怎么发展都需要的辅助设施,Manus 团队尽量不会为了具体任务的效果去干预模型的大脑,虽然还是做了一些微调。

同时受限于 Manus 团队的人力物力,他们并没有像 Open AI 的 DeepSearch 那样把查询节点做到了模型的推理过程里面去,简而言之,不够“端到端”。

但是不够“端到端”的好处就是用户可以干预过程,所以哪个路线更加优秀其实在我看来是见仁见智的。

总而言之我认为这是一个非常值得学习的思路,一定程度上平衡了模型能力与人工干预的边界,简单地说就是有 workflow 的机制,但是让 AI 去生成 workflow,而不是人工提前编写好。我在先前撰写的《如何成为一个“懂”AI 的产品经理》中也多次提到过尽量不要去和模型卷性能,那是没有意义的。

不过在特定领域其实人工编写 workflow 也会有很多好处,比如确保产出的一致性,降低成本等,还是需要根据具体的业务场景来判定具体采用什么方案,对于 Manus 这样野心很大的团队来说,不在 workflow 上面花时间完全是正确的选择。

在计算广告领域,减少人类干预的全自动投放系统已经逐渐成为主流,人类的洞察已经跟不上机器的匹配精准水平了。在新闻阅读领域,推荐系统早就取代了人类编辑不知道多少年,人类编辑的工作也逐渐从页面编排转向了精品内容的生产。

尽管这些工作里面还是会有大量的人类,但是他们更多是服务于更加复杂的诉求,比如品牌形象的建设,比如平台内容调性的提升这些更加多元的指标,如果是优化 CTR 或者 CPM 这种明确的目标,机器比人更有优势。

从这个角度来说,Manus 的野心是很大的,但是考虑到人类给 AI Agent 布置的任务优化目标显然很难用一个简单的目标函数去描述,所以这里面还是需要大量的用户干预,想要真正的实现全自动还有很长的路要走。

我认为 Manus 在探索一个更好的人机协同的交互这件事情上提供了非常好的范式。哪些问题机器解决,哪些问题人工解决,需要机器解决的就尽量全自动,少干预,需要人工处理的就尽量白盒化。

启发三:产品创新本身就值得夸赞

在部分自媒体宣传的时候,把 Manus 比做 DeepSeek 级别的突破,而后又有不少人质疑这种宣传是否合理。

其实从我自己的角度来看,二者本身没有可比性。

  • 成名路径上:DeepSeek 是墙外开花墙内香,而 Manus 是国内先火爆,目前在海外也有一些关注;
  • 创新点:DeepSeek 的创新点主要来自于底层优化与新颖的训练方法,而 Manus 的创新点在于整合了尽可能多的工具,并且通过很好的产品设计证明了通用 Agent 的可行性。

但是二者有一个共同点,那就是他们都极大的降低了人们使用 AI 的门槛,同时也会极大的刺激行业的发展。

在 DeepSeek R1 之前,普通人想要用好 AI,需要写很长的提示词,R1 明显是拉低了普通人使用 AI 的门槛。而在 Manus 诞生之前,自主的 AI Agent 几乎是没有被普及的,大家更加倾向于使用 Coze 或者 Dify 这样的流程控制器去限制 AI 的行动,编排这种流程的门槛是非常高的,如果没有批量自动化的需求流程编排几乎是没有意义的。Manus 显然把步骤超长的任务的使用门槛降到了很低的水平。

DeepSeek 通过发表论文的方式提供了大量的技术细节,而 Manus 本身就是产品+工程的创新,看到就了解背后的技术实现方案也是很正常的。

他们都为了行业的发展提供了巨大动力,并且自己也收获颇丰。不能因为 Manus 是一个比较容易被逆向复现的产品,就否认它在产品设计和工程实现上的创新,更不能说一个容易复现的创新就是泡沫,这是一个非常奇怪的指责。

从我自己的角度也很反感一部分自媒体对 Manus 的过度吹捧,我甚至觉得这是 Manus 团队一定程度上“默许”的。但是这种宣传策略和会遮挡产品设计本身的创新,而且实际上这也让 Manus 团队收获颇丰,说一句诛心的话,他们团队现在至少可以卖一个不错的价钱了,里面的人如果想要跳槽,也可以水涨船高。

所以我自己觉得 Manus 确实是实现了 DeepSeek 级别的创新,只不过我的判断标准并不是来自于 Manus 这玩意有多难开发,有没有让硅谷对中国创造感到恐惧这些角度,我觉得还是应该从促进行业发展的角度看问题。

路在何方?

但是总体来说我个人觉得 Manus 团队在未来会面临比较激烈的竞争,原因有三:

  1. Manus 所在的团队非常精悍,但是 Agent 的核心是产品设计和工程实现,也就是说他们会比 DeepSeek 更难建造护城河,Manus 团队花费 3 个月打造了第一个公开版本,但是开源团队很快就复刻了一个 OpenManus,同时作为一个通用的 Agent 产品,它也几乎没办法面向垂直行业积累行业数据,要怎么应对竞争是一个很大的问题;
  2. Manus 的泛用性很大程度上取决于互联网的开放程度,举例来说,我希望 AI 帮我订个机票或者订个外卖这显然是做不到的,甚至它的信息源很多都不是专业的学术数据库,信息源比较差,因为掌握了供应链资源的互联网大厂/传统公司显然并不愿意把 API 提供出来,因为他们不希望自己沦为纯粹的管道。如果 Manus 进一步增强页面操作的能力,那么这种“新型爬虫”最后会变成 Manus 与传统大厂的对抗,甚至可能引发 AI 时代的3Q大战;
  3. 通用 VS 垂直,目前来看模型能力和工程层面的基建都不足以支撑通用 Agent 进一步扩展自己的生产力,但是垂直领域则很有可能受益于 Manus 的方案,尤其是一些有现成应用场景的公司,比如携程就完全可以依托于自己的供应链和内容资源,打造一个 AI 旅行管家。某种角度来说通用性甚至可能会成为一个包袱,比如我做一个法律行业的 SaaS,我完全可以用大量的法律判例直接作为微调的训练素材,但是这对于一个致力于做通用产品的公司来说是没有办法做的事;

但是无论如何这确实是近半年来让我觉得最兴奋的产品了,至少作为一个产品经理,我对 Manus 的热情远大于 DeepSeek R1。

因为我不太可能在我负责的产品上搭载 DeepSeek R1 的模型,太贵且没必要,但是 Manus 的产品工程创新给了我很多启发,我今年下半年乃至全年的绩效很可能就取决于我要怎么应用这些启发了。

此外我前段时间买了 1 万刀的英伟达,Agent 的普及显然会让 token 消耗大大增加,利好英伟达!(bushi)

喜欢此内容的人还喜欢

 

精选评论