研究：GPT-4 在执行多项现实任务中击败其他大语言模型_中国微山网

本文概要:

1. GPT-4在大型语言模型中表现出色，取得最高总分4.41。

2. GPT-4在几乎所有领域都领先于其他模型，只有在网购任务中，GPT-3.5表现更好。

(资料图片仅供参考)

3. 开源模型整体表现不佳，远远落后于商业模型和 GPT-3.5。

市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明，GPT-4在这一领域脱颖而出。

编程客栈（）8月11日消息:最新的研究显示，在 “现实世界语用任务” 中，GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。

“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅python助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。

操作系统:LLM必须执行与计算机操作系统的使用相关的任务。

数据库:这个环境是关于LLM如何与数据库合作。

知识图:此环境测试LLM如何使用知识图。

数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。

横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。python

预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。

互android联网购物:此场景测试LLM在与在线购物相关的任务上的表现。

网页浏览:基于 Mind2Web 数据集，此场景测试LLM执行与使用互联网相关的任务的能力。

结果显示，GphpPT-4以最高总分4.41领先于其他模型，在几乎所有领域都表现出色，只在网购任务中稍逊于 GPT-3.5。

竞争对手 Anthropic 的 Claude 模型紧随其后，总得分为2.77，领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比，GPT-4的优势更加明显，开源模型的平均得分只有0.42。

研究人员指出，开源模型在所有复杂任务中普遍表现不佳，远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界，以编程客栈便进行更广泛的性能比较。

推荐内容

研究：GPT-4 在执行多项现实任务中击败其他大语言模型

2023-08-11
文明出行交通安全共同守护

2023-08-11
欧洲天然气价格一度飙升40%：一场潜在罢工引发冬季供应“远忧”

2023-08-11
中信证券：厄尔尼诺已至，关注农业板块的结构性投资机会

2023-08-11
杜绝恶意“薅羊毛”需技术、监管两手抓

2023-08-11
四川发布山洪灾害蓝色预警，涉及这37 个县（市、区）

2023-08-11
梵文转换器中文翻译（梵文在线转换）

2023-08-11
王子富二代（富有王子）

2023-08-11
两天飙涨1400倍！多家公司出手

2023-08-11
字节跳动概念股板块8月10日跌0.09%，万润科技领跌，主力资金净流出3.29亿元

2023-08-11
干货分享红塔证券

2023-08-11
现金流量表的编制方法及计算公式汇总（现金流量表的编制方法及计算公式）

2023-08-10
【西街观察】王传福的眼泪也是一种掌声

2023-08-10
利用星震学探测恒星内部结构获进展

2023-08-10
中国发布丨水库拦蓄洪水、优化蓄滞洪区运用，他们这样迎战海河流域性大洪水

2023-08-10
美国夏威夷野火吞噬百年历史名镇，已造成36人死亡，居民跳海求生

2023-08-10
新能源汽车出海打响全球化保卫战

2023-08-10
win10麦克风没声音驱动 win10麦克风没声音

2023-08-10
复旦张江：上半年净利6843.75万元同比扭亏

2023-08-10
中国·大同第二届弹拨（琵琶）文化艺术节成功举办

2023-08-10
海口农商银行被罚60万元：因贷款管理不到位等

2023-08-10
[诉讼]空港股份(600463):空港股份关于控股子公司涉及诉讼

2023-08-10
宏源药业：公司尚无产品用于钩体病、霍乱、登革热等相关灾后传染病的防治

2023-08-10
昆明·磨憨上海企联专场宣介会今举办

2023-08-10
最后的英雄(关于最后的英雄的简介)

2023-08-10
京东买机械师电脑享学生专属福利机械师曙光16Pro等多款电竞本热销

2023-08-10
港股异动 | 捷利交易宝(08017)跌超16% 近一月累跌86% 一季度营利双降

2023-08-10
大数据外汇(请问有谁知道贵阳大数据里有一个平台叫天汇国际做外汇交易的到底正规不？

2023-08-10
只知道奥特戒指能变身？艾斯奥特曼都没想到，奥特戒指还有这功能

2023-08-10
众信旅游（002707）：股价5分钟涨速大于5%（08-10）

2023-08-10
生肖虎风水秘笈：打造最适合你的风水宝地！建议转发收藏

2023-08-10
回应了！CD1925酒吧：涉事男子为酒吧顾客非工作人员

2023-08-10
老年人点赞的“杭江味道”啥滋味跟着记者到这家老年食堂探一探

2023-08-10
国家发改委：督促地方建立失信惩戒制度

2023-08-10
天水市武山县洛门市场监管所开展夜市食品安全监督检查

2023-08-10
赛伦生物等6只科创板股融资余额增幅超10%

2023-08-10
复兴号车头上有雨刷器吗？网友：地表最强小飞棍

2023-08-10
*ST搜特：公司股票和可转债已被终止上市将在8月11日被深交所摘牌

2023-08-10
奥运冠军王濛被带走调查？工作室最新回应

2023-08-10
圣湘生物(688289.SH)主要股东朱锦伟拟减持不超2%股份

2023-08-10
周二热门中概股多数下跌理想跌超8% 小鹏、蔚来跌超5%

2023-08-10
时计嘉年华

2023-08-10
滨离宫恩赐庭园介绍（滨离宫恩赐庭园）

2023-08-09
深交所：针对性减免京津冀、东北地区上市公司费用

2023-08-09
【天海祐希乙女向97.0】～月光光心慌慌(偽)～

2023-08-09
“黄晓明和蒋欣终于官宣了，恭喜！”

2023-08-09
凌云股份：子公司遭受暴雨灾害影响

2023-08-09
朗新科技(300682.SZ)：拟回购2亿元-3亿元公司股份用于注销并减少公司注册资本

2023-08-09
2023~2024 年属于 AI 建设爆发期大量需求集中在 AI Training 芯片

2023-08-09
HarmonyOS NEXT新能力，一站式高效开发HarmonyOS应用

2023-08-09