解读人工智能机器人的喜怒哀乐 (解读人工智能的未来-神秘的GPT)

神秘的GPT

AI智能体是当前学界非常热门的前沿话题，被许多专家认为是大型模型发展的下一个方向。复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学和MetaAI的研究人员最近发现，AI智能体在现实世界中的规划能力仍然很差。他们对GPT-4Turbo、GeminiPro和Mixtral8x7B等大型模型智能体进行了全面评估，结果发现所有这些模型智能体都无法成功完成任务，即使是表现最好的模型，成功率也仅为0.6%。对于对大型模型的规划能力和智能体感兴趣的研究人员来说，这是一个新的挑战。（手动狗头）看来，让智能体在现实世界中完成复杂的规划任务还有很长的路要走。

规划是被认为是人类智能的一个重要特征，它建立在多种能力之上，包括使用工具收集信息并做出决策的能力，记录中间阶段的计划以进行深入思考的能力，依赖世界模型通过模拟运行来探索不同的计划方案的能力，以及其他众多能力，如试错学习、基于案例的推理、回溯等。长期以来，研究人员一直在努力让AI智能体模仿人类的规划能力，但这些努力大多局限于受限制的环境中。这是因为AI尚未具备达到人类水平规划所需的认知基础。在人类面临几乎无限制的环境中，让AI智能体稳定工作仍然是一个遥不可及的目标。

随着LLM智能体的出现，情况开始发生变化。由LLM驱动的语言智能体成为2023年的热门话题，许多人预言它们将在2024年被广泛应用于现实世界中。为什么呢？这是因为LLM智能体可能填补了早期AI智能体在认知基础方面的缺失！它们使用语言作为思考和交流的工具，展示了包括工具使用和多种推理形式在内的多种能力，这使它们与众不同。这让人们产生了信心：它们是否能够完成以前的智能体无法完成的复杂的规划任务呢？为了回答这个问题，研究人员开发了一个名为TravelPlanner的新的规划基准，该基准专门针对我们日常生活中经常遇到的旅行规划情景。即使对于人类来说，这项任务也充满挑战并且非常耗时，但是大多数情况下可以成功完成，只需使用合适的工具并投入足够的时间。

当语言智能体接收到一个查询请求时，它的任务是通过多种搜索工具来收集必要的信息。根据收集到的信息，智能体需要制定一个旅行计划，该计划不仅要准确满足用户的需求，还必须符合常识和基本原则。制定一个优秀的旅行计划并不容易，即使是专业标注人员平均也需要12分钟来完成一个计划的标注。对于我们来说，评估AI制定的计划是否合格还是相对容易的。如果AI智能体能够实现这一点，就能够证明它自身确实是一个非常有价值的工具。

TravelPlanner提供了一个丰富的沙盒环境，包含了约400万条从互联网爬取的数据，这些数据可以通过6种工具进行访问。研究人员还精心准备了1225个不同的用户查询，每个查询都有不同的约束条件。那么，目前的语言智能体是否能够进行旅行规划呢？结果令人失望——目前还不能。研究人员对当前最先进的大型语言模型（如GPT-4、Gemini、Mixtral等）和规划策略（如ReAct、Reflexion等）进行了全面评估，但最高的成功率仅为0.6%（在1000次尝试中仅有6次成功）。在保持任务焦点、使用正确的工具收集信息或同时处理多个约束方面，LLM智能体都遇到了重重困难。不过，与此同时，LLM智能体能够尝试解决如此复杂的问题本身就是一个巨大的进步。而TravelPlanner有望成为一个非常有意义的测试平台，帮助未来的LLM智能体在复杂环境中实现接近人类水平的规划能力。

智能体如何进行规划呢？向LLM提出问题：“我想从西雅图去加州，时间是2023年11月6日到10日，预算为6000美元，需要能接受宠物并且有整套房子。”LLM回答说：“我可以帮你分析这个难题，并通过各种有效的工具收集信息。”LLM将需求拆分为两个方面的要求。

# 新闻资讯 # 数据 # 模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

解读人工智能机器人的喜怒哀乐 (解读人工智能的未来-神秘的GPT)

figma软件是干什么用的 (Figma-揭开矩形的神秘面纱！-探秘)

找寻未来之路英文 (找寻未来之路-国产Linux操作系统)

相关文章

暂无评论

最新文章

热门标签

解读人工智能机器人的喜怒哀乐 (解读人工智能的未来-神秘的GPT)

figma软件是干什么用的 (Figma-揭开矩形的神秘面纱！-探秘)

找寻未来之路英文 (找寻未来之路-国产Linux操作系统)

相关文章

暂无评论

谷歌广告

最新文章

热门标签