AI智能体是当前学界非常热门的前沿话题,被许多专家认为是大型模型发展的下一个方向。复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学和MetaAI的研究人员最近发现,AI智能体在现实世界中的规划能力仍然很差。他们对GPT-4Turbo、GeminiPro和Mixtral8x7B等大型模型智能体进行了全面评估,结果发现所有这些模型智能体都无法成功完成任务,即使是表现最好的模型,成功率也仅为0.6%。对于对大型模型的规划能力和智能体感兴趣的研究人员来说,这是一个新的挑战。(手动狗头)看来,让智能体在现实世界中完成复杂的规划任务还有很长的路要走。
规划是被认为是人类智能的一个重要特征,它建立在多种能力之上,包括使用工具收集信息并做出决策的能力,记录中间阶段的计划以进行深入思考的能力,依赖世界模型通过模拟运行来探索不同的计划方案的能力,以及其他众多能力,如试错学习、基于案例的推理、回溯等。长期以来,研究人员一直在努力让AI智能体模仿人类的规划能力,但这些努力大多局限于受限制的环境中。这是因为AI尚未具备达到人类水平规划所需的认知基础。在人类面临几乎无限制的环境中,让AI智能体稳定工作仍然是一个遥不可及的目标。
随着LLM智能体的出现,情况开始发生变化。由LLM驱动的语言智能体成为2023年的热门话题,许多人预言它们将在2024年被广泛应用于现实世界中。为什么呢?这是因为LLM智能体可能填补了早期AI智能体在认知基础方面的缺失!它们使用语言作为思考和交流的工具,展示了包括工具使用和多种推理形式在内的多种能力,这使它们与众不同。这让人们产生了信心:它们是否能够完成以前的智能体无法完成的复杂的规划任务呢?为了回答这个问题,研究人员开发了一个名为TravelPlanner的新的规划基准,该基准专门针对我们日常生活中经常遇到的旅行规划情景。即使对于人类来说,这项任务也充满挑战并且非常耗时,但是大多数情况下可以成功完成,只需使用合适的工具并投入足够的时间。
当语言智能体接收到一个查询请求时,它的任务是通过多种搜索工具来收集必要的信息。根据收集到的信息,智能体需要制定一个旅行计划,该计划不仅要准确满足用户的需求,还必须符合常识和基本原则。制定一个优秀的旅行计划并不容易,即使是专业标注人员平均也需要12分钟来完成一个计划的标注。对于我们来说,评估AI制定的计划是否合格还是相对容易的。如果AI智能体能够实现这一点,就能够证明它自身确实是一个非常有价值的工具。
TravelPlanner提供了一个丰富的沙盒环境,包含了约400万条从互联网爬取的数据,这些数据可以通过6种工具进行访问。研究人员还精心准备了1225个不同的用户查询,每个查询都有不同的约束条件。那么,目前的语言智能体是否能够进行旅行规划呢?结果令人失望——目前还不能。研究人员对当前最先进的大型语言模型(如GPT-4、Gemini、Mixtral等)和规划策略(如ReAct、Reflexion等)进行了全面评估,但最高的成功率仅为0.6%(在1000次尝试中仅有6次成功)。在保持任务焦点、使用正确的工具收集信息或同时处理多个约束方面,LLM智能体都遇到了重重困难。不过,与此同时,LLM智能体能够尝试解决如此复杂的问题本身就是一个巨大的进步。而TravelPlanner有望成为一个非常有意义的测试平台,帮助未来的LLM智能体在复杂环境中实现接近人类水平的规划能力。
智能体如何进行规划呢?向LLM提出问题:“我想从西雅图去加州,时间是2023年11月6日到10日,预算为6000美元,需要能接受宠物并且有整套房子。”LLM回答说:“我可以帮你分析这个难题,并通过各种有效的工具收集信息。”LLM将需求拆分为两个方面的要求。