我给Coze Space搞了个「极限挑战」!从做PPT到分析A股,它到底行不行?
Hey,大家好~ 👋
最近AI Agent这个概念非常火,之前的Manus在Deepseek R1爆火后也占据了好几天头条,各种文章都在吹它多厉害,说它能像人一样思考、干活、写代码,简直除了打灰无所不能。可惜当时邀请码非常少,有价无市,效果也是不达预期。最近字节跳动的Coze发布了Beta版本的Coze Space,可以看作是字节跳动版的Manus。当时Manus刚出时,我心里就犯嘀咕了:真有这么神?🤔这次有机会体验内测版的Coze Space,准备上手一测。
光听别人说没意思,实践是检验真理的唯一标准!于是,我就拉来了Coze Space(以下简称小C),给它精心设计了一套“期末大作业”级别的极限挑战!
“考纲”超硬核!看看小C都要挑战啥?
鉴于豆包智商的提升,我直接跳过了那些“小儿科”的简单任务。
办公基础技能考察:
- 报告小能手? 让它自己查资料写个研究报告,比如金融行业的市场分析,还得像模像样!
- PPT美工上线? 能不能根据报告自动生成PPT?拒绝辣眼睛排版!
- Excel数据处理大师? 从乱七八糟的文档里提取数据填表,做点简单的数据分析、画个图表啥的。
专业知识大考验:
- 法学知识懂多少? 扔给它一份合同,让它找找里面的“坑”(法律风险点)。
- 计算机老本行? 帮我分析个技术文档,或者比较下不同数据库的优劣。
- 金融知识也不能少! 简单分析个财报,解释下金融术语。
生活小助理模式:
- 旅游规划师上线! 这个我超期待!结合高德地图的MCP,让它帮我规划旅游路线,找好吃的、好玩的,还要考虑时间和预算!😎
终极魔鬼任务:A股市场分析!
- 这个绝对是重头戏!我让小A研究新能源汽车和人工智能两个热门赛道,找出有潜力的A股公司,分析基本面、风险点,最后还要构建一个模拟投资组合并生成一份投资分析报告!是不是听着就超刺激?!🤯
测试过程 & 我的“阅卷”标准
测试的时候,我就像个严格的甲方爸爸(误),给小C下达任务指令,然后就默默观察它的“思考过程”和最终提交的“作业”。
我可不只是看它最后交没交东西,我的“阅卷”标准是:
- 任务完成度: 做完了吗?
- 结果质量: 报告专业吗?PPT能看吗?Excel数据对吗?旅游路线靠谱吗?A股分析是瞎扯还是真有两把刷子?
- 聪明程度(自主性): 中途需不需要我这个“监考老师”疯狂提示?能不能自己发现问题、调整策略?
- 效率: 干活效率怎么样?
- 工具使用: 高德地图等工具用得怎么样?返回的数据处理得明白不?
- 抗压能力: 遇到报错、模糊指令时,会不会原地崩溃?能不能挣扎一下?
测评结果大公开:“小C”是学霸还是学渣?
经过一番“惨无人道”的测试,我对小C的表现有了个大概的画像。总的来说结果嘛… 只能说,有被惊艳到!🤩
高光时刻 (OMG Moments ✨):
- 办公自动化Pro Max:报告/PPT/Excel手到擒来
表格一定要会用excel
比如说要求查询上证50的成分股并输出xlsx文件,手到擒来

展示一定要会用PPT
让它制作一个ppt的话也是毫不费工夫,效果也很能看得过去,虽然说空话比较多,但如果上下文充足可以有效避免上面的情况。


抓行业报告能力更是让我叹为观止,因为这个完全在我的日常生活与专业领域之外,起码已经唬住了我这样一个外行。还可以生成一个网页进行展示,非常全面。

- 信息搜集小能手:全自动,自搜索
查找资料、搜集新闻、调用高德地图查个地点信息啥的,速度确实快,比我自己查半天方便多了。爆赞!👍
比如说查询陕师大附近的陕菜馆,和高德地图的MCP配合的相当不错,查询也很快速,而且导出了excel表格,虽然我不知道为什么查陕菜馆高德地图会返回一堆不相干的结果,但是这与我们的小C毫无关系。


再比如说询问“分析PayPal在中国大陆运营需要注意的主要数据合规要求(结合《网络安全法》、《个人信息保护法》等),输出一份合规要点备忘录。”时可以根据思考自动进行查询,一共进行了两次思考与15次查询,起码我本人的查询效率是没有这么高的。

- MCP调用能手,玩转旅游规划!
高德地图与飞常准都有接入的MCP,因此做个旅游规划非常轻松。虽然它没去过各个景点,但是可以通过查询经纬度来进行旅游规划,属于是叹为观止。

- 鲁棒性不错,脑子转的过来
在用户提供模糊信息时,它可以在思考后向用户提供额外信息,而不是像传统LLM一样想当然。

另外写代码出错也可以自己根据报错修改,当然Trae与Cursor已经很有这样做的经验了。

- 直面终极挑战:A股分析任务,能唬住外行
我的要求是“深入研究并分析过去 6 个月A 股市场中‘新能源汽车产业链上游(如锂矿、正负极材料、隔膜、电解液等)’和‘人工智能应用(如 AI 芯片、计算机视觉、自然语言处理相关的上市公司)’这两个赛道。基于你的分析,从每个赛道中筛选出 3-5 只具有较高投资潜力的 A 股上市公司。为你筛选出的公司构建一个模拟投资组合。最终生成一份详细的投资分析报告与一个用于展示的网页”
这需要它分析A股特定赛道、筛选公司、构建模拟组合的,我本来以为小C会直接“躺平”。但没想到,它居然真的按照复杂的指令,一步步去尝试了!
最惊喜的是,它首先可以生成一个蓝图,如何能理解并尝试执行这个多阶段的复杂流程:先做行业研究 -> 再筛选公司 -> 然后分析公司 -> 最后构建组合。虽然说这个深度思考非常dp(doubao 1.5 pro thinking真是把dp学透了)。

它展现出的信息搜集和整合能力是超强的,能够快速抓取宏观政策、行业动态、公司公告等多维度信息,在不到5分钟内进行了27次查询。

虽然最终它没有给出具体的投资配置,查询的数据也不止六个月,但它驾驭这种复杂任务流程的能力本身,就足够让人印象深刻了!这已经超越了简单的问答和指令执行,向着“自主解决问题”迈出了一大步!🤯毕竟这个任务执行了足足22分钟。
呃…倒也还有提升空间 (Uh-oh Moments 🤔):
拆解一下大概可以分为两个方面。
LLM本身能力限制
尽管说豆包现在知耻而后勇,深度思考模型有了很大长进,但是比起SOTA还是差得太多,比如说尽管获取了地点的经纬度,但是完全没有意识到可以把相近的景点放到一天参观,而是平均分配了,而且丝毫没有意识到可以查询网络抄作业。太老实了。
简直不敢想如果用上SOTA,人会变得多么开朗。

MCP插件限制
这里就是插件提供的信息不够了,比如说高德地图没有提供餐厅评分,飞常准没有提供机票价格,没办法。
总而言之:未来可期!✨
这次聚焦于复杂任务的测评,让我看到了AI Agent惊人的潜力和进化速度!
- 它在信息整合、结构化输出、遵循复杂流程、以及调用外部工具(API)方面展现出的能力,已经远超很多人的想象。
- 它处理那些需要多步骤思考、跨领域知识初步应用、整合多种信息来源的任务时,虽然结果不一定完美,但其展现出的“尝试解决”的过程和能力框架,本身就非常了不起!
- 工具调用是亮点,但也依赖工具本身。 能调用高德地图MCP规划路线很酷,但如果MCP返回信息不准或者它理解错了MCP参数,结果也会跑偏。Garbage in, garbage out.
感觉就像看到了一个超级学霸的雏形,虽然现在可能在某些难题上还会卡壳,但它的学习速度和潜力是肉眼可见的!
未来已来,AI Agent真的能成为我们强大的伙伴!真是期待它继续进化,带来更多惊喜!
PS. 本来不怎么待见字节跳动的,结果用字节的产品越来越多
PPS. Coze Space里还有两个专业agent,欢迎大家体验。