
本文为节选内容
更多报告,关注公众号:得算多未来产业研究
随着大模型竞争加快、政策鼓励研发投入、更多企业参与AI研究等因素,应用层面的AI Agent推进速度加快。智能体大致可以分为六类,根据他们被设计出的特点,可以作用在不同的应用领域上。不同类别的智能体给予应用层面上更多研发方向,像目前关注度较高的自动驾驶技术、智能电网控制、能源管理等都能被垂类智能体覆盖。结合多模态大模型,自动化和情感需求类智能体已落地。但商业化智能体仍需考虑成本问题,由于智能体之间的交互过程可能出现错误循环且输出结果不一定符合需求,tokens成本远高于普通LLMs。

1、自动化类:微软智能体AutoGen
微软研发的AutoGen是一种多智能体沟通的模型,这些智能体通过对话完成任务。实验发现这种多智能体沟通模式可以有效提高AI解决问题的准确性以及成果的完整性。使用AutoGen,开发者可以灵活定义智能体交互行为。微软的研究证明了该框架在包括解决数学、编码、问题解答、运筹学、在线决策、娱乐等问题上的有效性。
AutoGen需要两个以上的智能体形成交流模式,其中智能体可以由大语言模型LLMs、人类、工具来扮演。当一个需求被提出,智能体会开始灵活交流,他可以是多个智能体向需求人汇报的模式(Hierarchical Chat)或者是像研讨会一样随意讨论(Joint Chat)。在官方给出的示例中,智能体之间的沟通确实减少了人工交互,其有能力自己修复出现的问题并给出满意的答案。
在AutoGen智能体程序中,人类充当需求发起者,智能体通过不断使用工具并在相互交流中解决陆续出现的问题从而得到最终答案。在智能体交流过程中,人类可随时介入其中,若用户对最终结果不满意,可以重新提出需求,智能体就会继续优化答案。
AutoGen在四项实战应用的表现测试中均胜过单一大语言模型,实验发现智能体能增加AI完成任务的成功率以及模型的稳定性。数学计算:分别测试了AI在完成整个数学题库和随机120道题目的表现,AutoGen的成功率远超各类语言模型。数据库检索问答:先建立一个RAG数据库,然后对智能体进行问答测试,看其能否追踪到正确的答案。其F1-score越高,说明模型更稳定;Recall体现了分类模型对样本的识别能力。Recall越高,说明模型对样本的识别能力越强。从数据看出纯AutoGen模型的表现略高于其他组合。ALFWorld(Adaptive Learning Framework World)研究:ALFWorld是专门用于研究和开发智能体的仿真环境,在其虚拟世界中,包含了各种场景、任务和智能体需要完成的挑战。ALFWorld实验发现3个智能体的成功率高于2个智能体,说明随着交互的智能体变多,智能体间互相纠错的能力有所提升。但对于AutoGen的实验也提到多智能体可能会导致错误循环(智能体之间反馈错误但一直无法解决),这也是降低成功率的因素之一。OptiGuid:是专门设计来通过自然语言处理,解读和指导复杂供应链优化决策。在用不同语言模型运行OptiGuide时,发现多智能体协作模式的成绩显著高于单智能体。其中多GPT4智能体协作运行OptiGuide时,F1-score和Recall分别能达到96%和98%。
展开全文2、情感需求类:陪伴型智能体
智能体另一大应用领域就是提供拟人情感陪伴类服务。陪伴类的智能体拥有长期记忆,让用户与其聊天中产生熟悉且亲切的感觉。随着大模型不断迭代,陪伴类智能体更加立体,能提供更高的情绪价值。目前国内情绪消费类市场潜力较大,在如今紧凑的生活节奏之下,国民孤独感增加,而陪伴类智能体或受益于这样的大环境。根据GIA(Global Industry Analysts)的研究,DennyYin提出该行业规模预计到2026年增长到2000亿美元。
情感沟通类智能体上线,收获大量用户好评。在大模型出现之前,一些利用心理学CBT沟通技术的产品已经在市面上广泛存在,例如Weobot、wysa等。随着大模型的发展和迭代,智能体已经能被打造成心理咨询师或塔罗师的角色。用户通过倾诉生活中的烦恼,并在与智能体沟通中寻求情绪宣泄。目前一款治愈系的软件“林间聊愈室”上线后获得了大量好评,AppStore评分4.7,多数用户给出了五星好评。其中产品使用小动物的角色设定降低了用户的戒备心,加上治愈的画风和场景设计,打造独特的用户体验。
3、商业化智能体效能讨论:成本与价值间的博弈
打造智能体并不是0成本,大语言模型的token消耗就是最直观的成本展示。由于智能体的运行机制内包含反思和深度学习,这使得其在token消耗方面比传统大语言模型高。相比于单智能体,多智能体又多了一层交互端的消耗,当多个智能体讨论且进入错误循环中,无效成本将会显著提升。所以在效能方面,对智能体进行成本讨论以及优化策略十分重要。
在商用智能体中,更先进的大语言模型代表更好的用户体验,但随之而来的是极速上升的成本。目前GPT4的价格是GPT3.5turbo的十倍,而且由于智能体之间交互的特性,在输出过程中往往伴随着更高的token消耗。若最终输出的长度超出模型token限制,则不得不调用更高版本的模型例如GPT4-32K,成本又是GPT4的两倍。
在实际测试中,使用搭载GPT4的智能体模型查找新闻并进行总结梳理。这部分的单次消耗是42000个tokens,成本是1.5美元。在实际应用中,假设一天需要统计的股票新闻大约有120家公司,则成本为35.8美元,按照汇率1:7.14折合人民币255.5元。而且智能体并不是完美的,在运行过程中出现幻觉或错误循环也是常事。例如智能体在找不到合适新闻的时候会进行大量重复的内容输出,人工介入纠错又会增加一定成本。
商业化智能体在成本和最终产品中会有一定博弈,若将智能体运用到股票交易等对精准度需求极高的行业中,产品或引入更多智能体进行协作以提高模型的稳定性,则成本上升。如果运行成本高于其创造的价值时,该智能体模型就失去了商业化的能力。目前多数智能体应用仅停留在测试阶段,市场中的用户需要更理性的看待智能体商业发中能带来的效益。
)
)
)
)
)
)
)
)

)
)
)
)
)
)
)