环球动态:大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型

2023-05-22 10:25:30 来源: 商业新知网

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用,我们目前尚不明晰。因此,LLM 的测评非常重要。

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了 测试 。结果表明,Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品,而 MPT 还没有准备好在现实世界中使用。


【资料图】

近日,CMU 副教授 Graham Neubig 对已有七种聊天机器人进行了详细测评,并制作了一个实现自动比较的开源工具,最后形成了一份测评报告。

在这份报告中,测评者展示了一些聊天机器人的初步评估、比较结果,目的是让人们更容易地了解最近出现的所有开源模型以及基于 API 的模型现状。

具体来说,测评者创建了一个新的开源工具包 ——Zeno Build,用于评估 LLM。该工具包结合了:(1)通过 Hugging Face 或在线 API 使用开源 LLM 的统一界面;(2)使用 Zeno 浏览和分析结果的在线界面,以及(3)使用 Critique 对文本进行 SOTA 评估的指标。

具体结果参加:https://zeno-ml-chatbot-report.hf.space/

以下是评估结果汇总:

测评者评估了 7 种语言模型:GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo);

这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的;

ChatGPT 拔得头筹,但开源模型 Vicuna 也很有竞争力;

测评者发现,使用具有较长上下文窗口的 chat-tuned 模型非常重要;

在对话的前几个回合,prompt 工程对于提升模型对话的表现非常有用,但在有更多上下文的后期回合中,效果就不那么明显了;

即使是像 ChatGPT 这样强大的模型也存在很多明显的问题,比如出现幻觉、未能探求更多信息、给出重复内容等。

以下是评测的详细信息。

设置

模型概况

测评者 使用的是 DSTC11 客户服务数据集 。DSTC11 是一个对话系统技术挑战赛的数据集,旨在支持更具信息性和吸引力的任务导向对话,通过利用评论帖子中的主观知识来实现。

DSTC11 数据集包含多个子任务,如多轮对话、多领域对话等等。例如,其中一个子任务是基于电影评论的多轮对话,其中用户和系统之间的对话旨在帮助用户找到适合他们口味的电影。

他们测试了以下 7 个模型 :

GPT-2:2019 年的一个经典语言模型。测评者把它作为一个基线加入,看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。

LLaMa:一个最初由 Meta AI 训练的语言模型,使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型,以下开源模型采用的也是同等规模版本;

Alpaca:一个基于 LLaMa 的模型,但进行了指令调优;

Vicuna:一个基于 LLaMa 的模型,为基于聊天机器人的应用做了进一步的明确调整;

MPT-Chat:一个以类似于 Vicuna 的方式从头开始训练的模型,它有一个更商业化的许可;

Cohere Command:Cohere 推出的一个基于 API 的模型,进行了指令遵循方面的微调;

ChatGPT(gpt-3.5-turbo):标准的基于 API 的聊天模型,由 OpenAI 研发。

对于所有的模型,测评者使用了默认的参数设置。其中包括温度(temperature)为 0.3,上下文窗口(context window)为 4 个先前的对话轮次,以及一个标准的 prompt: 「You are a chatbot tasked with making small-talk with people」。

评价指标

测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的:

chrf:测量字符串的重叠度;

BERTScore:衡量两个语篇之间嵌入的重叠程度;

UniEval Coherence:预测输出与前一个聊天回合的连贯性如何。

他们还测量了长度比,用输出的长度除以黄金标准的人类回复的长度,以此衡量聊天机器人是否啰嗦。

更进一步的分析

为了更深入地挖掘结果,测评者使用了 Zeno 的分析界面,特别是使用了它的报告生成器,根据对话中的位置(开始、早期、中期和后期)和人类回应的黄金标准长度(短、中、长)对例子进行细分,使用其探索界面来查看自动评分不佳的例子,并更好地了解每个模型的失败之处。

结果

模型的总体表现如何?

根据所有这些指标,gpt-3.5-turbo 是明显的赢家;Vicuna 是开源的赢家;GPT-2 和 LLaMa 不是很好,表明了直接在聊天中训练的重要性。

这些排名也与 lmsys chat arena 的排名大致相符,lmsys chat arena 使用人类 A/B 测试来比较模型,但 Zeno Build 的结果是在没有任何人类评分的情况下获得的。

关于输出长度,gpt3.5-turbo 比其他模型的输出要冗长得多,而且看起来,在聊天方向进行调优的模型一般都会给出冗长的输出。

黄金标准响应长度的准确性

接下来,测评者使用 Zeno report UI 进行深入挖掘。首先,他们按照人类回复的长度将准确性分别进行了测量。他们将回复分为短(≤35 个字符)、中等(36-70 个字符)和长(≥71 个字符)三个类别,并对它们的准确性进行了单独的评估。

gpt-3.5-turbo 和 Vicuna 即使在更长的对话轮次中也能保持准确性,而其他模型的准确性则有所下降。

接下来的问题是上下文窗口大小有多重要?测评者用 Vicuna 进行了实验,上下文窗口的范围是 1-4 个之前的语篇。当他们增加上下文窗口时,模型性能上升,表明更大的上下文窗口很重要。

测评结果显示,较长的上下文在对话的中间和后期尤其重要,因为这些位置的回复没有那么多的模板,更多的是依赖于之前所说的内容。

当试图生成黄金标准较短的输出时(可能是因为有更多的歧义),更多的上下文尤为重要。

prompt 有多重要?

测评者尝试了 5 个不同的 prompt,其中 4 个是通用的,另外一个是专门为保险领域的客服聊天任务量身定制的:

标准的:「你是一个聊天机器人,负责与人闲聊。」

友好的:「你是一个善良、友好的聊天机器人,你的任务是用一种让人感到愉快的方式与人闲聊。」

有礼貌的:「你是一个非常有礼貌的聊天机器人,说话非常正式,尽量避免在回答中犯任何错误。」

愤世嫉俗的:「你是一个愤世嫉俗的聊天机器人,对世界有着非常黑暗的看法,通常喜欢指出任何可能存在的问题。」

保险行业专用的:「你是 Rivertown 保险服务台的工作人员,主要帮助解决保险索赔问题。」

总的来说,利用这些 prompt,测评者并没有测出不同 prompt 导致的显著差异,但「愤世嫉俗」的聊天机器人稍微差一点,而量身定制的「保险」聊天机器人总体上稍微好一点。

在对话的第一个回合中,不同 prompt 带来的差异尤其明显,这表明当没有什么其他上下文可以利用时,prompt 是最重要的。

发现的错误以及可能的缓解措施

最后,测评者使用 Zeno 的 exploration UI ,试图通过 gpt-3.5-turbo 找到可能的错误。具体来说,他们查看了所有 chrf 较低(<0.1)的例子,并手动查看了这些例子以发现趋势。

Probe 的失败

有时模型无法在实际需要时 Probe(探测)更多信息,例如模型在处理号码这一事件中尚未完善(电话号码必须是 11 位数字,模型给出的数字长度与答案不匹配)。这时可以通过修改 prompt 来缓解,以提醒模型某些信息所需的长度。

内容重复

有时,同样的内容会重复多次,比如聊天机器人在这里说了两次「谢谢」。

回答合理,但与人类方式不同

有时候,这种响应是合理的,只是与人类的反应不同。

以上就是评测结果。最后,测评者希望这份报告对研究者有所帮助!如果你继续想尝试其他模型、数据集、prompt 或其他超参数设置,可以跳转到 zeno-build 存储库上的聊天机器人示例进行尝试。

标签:

环球动态:大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。

05-22 10:25:30

【环球报资讯】台湾花莲织娘连美惠的广西“母亲”

中新网南宁5月21日电题:台湾花莲织娘连美惠的广西“母亲”作者蒋雪林许耀艺“我妈妈过世时,我竟然没办...

05-22 10:05:14

每日简讯:乡镇公务员好考吗四川(乡镇公务员好考吗)

1、乡镇公务员好考。2、原因是:乡镇的行政单位,其本身就身处在基层,大部分可以报考的工作岗位都不会要求

05-22 09:33:38

环球时讯:沙皮狗一般多少钱_沙皮狗一般多少钱一只

想必现在有很多小伙伴对于沙皮狗一般多少钱一只方面的知识都比较想要了解,那么今天小好小编就为大家收集了

05-22 09:08:11

港股早报| 呷哺集团开启付费会员模式 百度“希壤”负责人离职 每日热讯

呷哺集团创始人豪言,今年付费会员收入达6――16亿元;泡泡玛特东南亚布局提速,马来西亚首店落地;百度转

05-22 08:05:47

辛柏青和朱媛媛唱幸福的两口子_辛柏青和朱媛媛_当前最新

1、1993年,辛柏青以倒数第二名的成绩考入中戏,与刘敏涛、王千源等人成为同班同学,在班上遇到大美女朱媛

05-22 07:17:44

【环球热闻】微博借钱逾期四天延迟还款会不会上征信

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后

05-22 05:52:00

测字打分测试_测字打分 全球今头条

1、李媛:  繁体拼音笔划五行吉凶  李李li7火吉  媛媛yuan12火吉  天格->8(金)  人格-

05-22 04:00:47

脑洞大侦探救救圣诞老人怎么过(解谜37关救救圣诞老人攻略图)|环球速看料

音频解说1、>>>>>《脑洞大侦探》全关卡通关攻略大全2、>>>>>《脑洞大侦探》解谜全关卡通关攻略3、>>>>>《脑洞

05-22 00:42:47

双盲夫妻为给孩子择校 唯一住房出售款400余万被骗 全国助残日检察院发8万司法救助金 环球热闻

当检察官来到这个盲人家庭,发现昏暗的小屋中满满都是书籍。原来,这对双盲的夫妻有一个爱看书爱学习的孩子

05-21 22:13:43

心疼球王!大巴黎队长警告主场球迷:不要嘘梅西,姆巴佩也该背锅 当前滚动

目前,梅西仍然是巴黎圣日耳曼的一名球员,但最近几周他被主场球迷狂嘘。在周日晚上对阵欧塞尔之前,巴黎圣

05-21 21:11:54

全球新资讯:垓下之战

1、垓下之战是汉高帝五年十二月(公元前203年12月—前202年1月),在楚汉战争中,楚汉两军在垓下(今安徽省

05-21 19:52:30

几何画板免安装版 环球滚动

1、几何画板是有几何画板中文官网的,你可以到几何画板官网上下载,服务中心还有很多的教程。2、除此之外,

05-21 19:02:44

国投电力:前4月上网电量500.3亿千瓦时 同比增21.57%

国投电力5月21日公告,2023年1-4月,公司境内控股企业累计完成发电量513 4亿千瓦时,上网电量500 3亿千瓦时

05-21 17:49:14

中国西藏发展论坛中外嘉宾赴西藏大学了解藏文古籍保护现状_每日讯息

5月19日,2023年·中国西藏发展论坛中外嘉宾参访团一行前往西藏大学图书馆了解藏文古籍的抢救、保护和整理

05-21 16:44:34

焦点速讯:562幅影像、119件实物、4部专题片 向老艺术家致敬!

原标题:562幅影像、119件实物、4部专题片向老艺术家致敬!以“崇德尚艺潜心耕耘”为主题的第六届中国文...

05-21 15:56:31

茉莉的花期是多少天 茉莉哪时候会开花呢|每日资讯

1、茉莉花期有150天左右,一般每年的6-10月都是茉莉花开花的时间,但是生长在不同地区的植株开花的时间也会

05-21 14:46:51

世界视讯!Qt QSS美化 基础知识

QSS加载方式方式一: myDialog->setStyleSheet( "QLineEdit{background-color:yellow} "); nameEdit->set

05-21 13:46:39

环球讯息:环球热推荐:王菲陪李嫣游法国合照流出,李嫣17岁生日在即越大越漂亮_环球速看料

(相关资料图)乐坛天后王菲曾经历两段婚姻,与首任丈夫、内地摇滚歌手窦唯育有一女窦靖童,王菲2005年改嫁内

05-21 12:28:00

天天精选!我的世界比较器合成表_我的世界比较器

1、红石比较器有两个输入。两个输入端分别是红宝石比较器的背面和侧面。我们就把后面的输入命名为A,侧面的

05-21 11:16:50

穆雷半场30分掘金仅领先3分:湖人走出困局小里成奇兵 约基奇8中2

穆雷半场30分掘金仅领先3分:湖人走出困局小里成奇兵约基奇8中2,湖人,安迪·穆雷,丹佛掘金队,勒布朗詹姆斯,

05-21 10:21:51

跳舞作品怎么发才容易上热门(跳舞作品)

1、中国古代十大舞蹈,它们有:霓裳羽衣舞、胡旋舞、剑舞、盘鼓舞、清商乐舞、惊鸿舞、长袖舞、巴渝舞、浑

05-21 09:12:22

46件古丝绸之路古城遗址出土文物在新疆首展-环球观点

铜镜、陶佛面、红陶猴形佛像、串珠……托库孜萨来(唐王城)遗址考古发掘出土的46件文物近日在新疆图木...

05-21 08:24:06

全力应对汛情 保障安全供电!国网怀化供电公司在行动-每日快报

湖南日报·新湖南客户端5月21日讯(通讯员蒋叶子粟伟朱国萃)“拉开怀化变10千伏人防线怀南配电所支088...

05-21 07:06:21

广发e秒贷逾期7天查征信应该怎么做?

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后

05-21 05:49:59

《蜘蛛侠纵横宇宙》中文配音片段:彭昱畅虞书欣献声|环球微速讯

新浪电影报道,电影《蜘蛛侠:纵横宇宙》在520发布中文配音片段,彭昱畅、虞书欣分别为蜘蛛侠迈尔斯和蜘蛛

05-21 03:02:53

京东怎么货到付款?_京东货到付款怎么弄 全球热资讯

1、您是商家还是买家,买家的话在下订单的时候选择支付方式的时候选货到付款就可以了,如果是商家的话要联

05-21 00:08:06

童话故事丽丝

她用树叶和树枝给小狐狸搭建了一个小房子,并给它准备了食物和水。她每天都会来看望小狐狸,帮助它清洁伤口

05-20 22:07:00

环球观热点:3000元买个户外低音炮,但很好用,JBL Partybox音乐战将户外音响

前一段时间给新家装了一套JBLBAR1000回音壁,在家就能享受到堪比电影院的视听感受,随着天气逐渐变暖,前几

05-20 20:58:27

哈尔滨足疗店价格_哈尔滨足疗一条街

想必现在有很多小伙伴对于哈尔滨足疗一条街方面的知识都比较想要了解,那么今天小好小编就为大家收集了一些

05-20 19:55:23

焦点要闻:中国外汇市场指导委员会:人民币汇率能在合理均衡水平上保持基本稳定

中国国家外汇管理局19日发布消息称,近日中国外汇市场指导委员会(CFXC)2023年第一次会议在京召开。会议指出

05-20 19:04:19

火炬之光2狂战士加点_火炬之光2介绍

解答:1、先点暗影爆裂5级,保命位移技能。2、优先级满:破甲,风暴爪,刽子手。3、冰盾点10级,破碎风暴,

05-20 17:56:28

个人诫勉谈话检查书_诫勉谈话个人检查报告 观焦点

1、尊敬的____________:  您好!感谢您在百忙之中抽空看我写的检讨书!  我不想再为自己的错误找任何

05-20 16:47:26

起诉!起诉!300亿巨头又出大事|百事通

股东纠葛之际,中炬高新两名“土生土长”的高管被起诉。5月19日晚间,中炬高新发布公告称,公司获悉,副...

05-20 15:57:25

世界最新:世体:飞利浦将成为巴萨衣袖广告商,首年赞助800万欧&逐年增长

直播吧5月20日讯西班牙媒体《世界体育报》报道,巴萨已经就衣袖广告的赞助合同与飞利浦达成一致,双方将签

05-20 14:43:54

【播资讯】国产新冠药自费价格进一步探底,部分地区医保报销比例95%

新冠治疗药物的价格再次引发关注。近期,江苏省南京市医疗保障局发布《关于新冠治疗药临时纳入基本医疗保险

05-20 13:51:36

风云侠客令兑换码汇总大全_世界热资讯

风云侠客令兑换码怎么获得?游戏中的礼包兑换码非常多,今天小编就给大家带来一些通用礼包码,这些礼包兑换

05-20 12:27:26

长焦人像成就爱意表达,华为P60 Pro助力520留最美回忆-全球今日报

长焦人像成就爱意表达,华为P60Pro助力520留最美回忆,手机,变焦镜,长焦镜头,华为p60pro

05-20 11:29:07

远兴能源董秘回复:公司产品销售价格随行就市 天天视点

远兴能源(000683)05月20日在投资者关系平台上答复了投资者关心的问题。

05-20 10:40:52

农村土地所有权和使用权_土地所有权和使用权

1、土地所有权和使用权这两个权利都是物权中的概念。2、他们的具体区别主要表现在两者本质不同、两者特点不

05-20 10:05:00

一觉醒来,空气中都是土味儿!北京已达严重污染,预计转好时间——

北京的小伙伴今天醒来有没有感觉空气中弥漫着一股土味儿(情话)受上游沙尘传输和冷空气影响,今天白天,北

05-20 09:09:01

亲测很灵!武汉这些地方表白100%成功! 全球快讯

520,一个有爱的日子。这座城市天生就适合谈恋爱,而你天生就适合我的灵魂。坐轮渡看一场江上日落,与蓝天

05-20 07:59:15

前沿热点:征缴社会保险费及行政复议纠纷案开庭 石景山区区长出庭应诉

19日,一起征缴社会保险费决定及行政复议纠纷的“双被告”行政诉讼案在北京市第一中级人民法院开庭审理...

05-20 07:01:38

当前讯息:装修图纸剖面图怎么看_剖面图怎么看

1、做剖面图时会说明剖线的选择。2、你看看剖线在哪里。3、2、剖面图的横坐标标明各点的位置,可以判断方向

05-20 05:44:22

全球速看:这份新报告里,写了好多个“难”字!

「见实科技:47万从业者的私域智库」今日二条:见实的AI测试观察今日三条:更新17条私域动态昨天(5月18日

05-20 04:16:29

又双叒叕是救人救火!中通司机师傅们,太帅了!

每天,都有无数位中通驾驶员奔波在全国各地的公路上,传递着一个个承载着心意的快件。在运输的过程中,当他

05-20 01:17:26

上大学怎么修双学位_大学双学位怎么修-世界关注

1、方法 步骤1报名时间。2、一般大学双修学位都是在大一学期结束后,大二学期开始时可以根据具体情况选择另

05-19 22:47:37

游戏优化器有用吗_什么游戏优化软件比较好-全球观点

想必现在有很多小伙伴对于什么游戏优化软件比较好方面的知识都比较想要了解,那么今天小好小编就为大家收集

05-19 21:51:51

今日讯!欧洲银行的春天结束了?一季度净利息收入环比下降

欧洲银行的春天结束了?一季度净利息收入环比下降,存款,净利息,净息差,欧洲银行

05-19 21:10:25

全球今日报丨雾里看花电视剧演员表_雾里看花电视剧

1、那英的《雾里看花》2、喜欢那英的歌是1991播出的电视连续剧《山不转水转》主题曲开始,1995年春节晚会上

05-19 20:01:49

【环球报资讯】台湾花莲织娘连美惠的广西“母亲”
每日简讯:乡镇公务员好考吗四川(乡镇公务员好考吗)
环球时讯:沙皮狗一般多少钱_沙皮狗一般多少钱一只
港股早报| 呷哺集团开启付费会员模式 百度“希壤”负责人离职 每日热讯
辛柏青和朱媛媛唱幸福的两口子_辛柏青和朱媛媛_当前最新
【环球热闻】微博借钱逾期四天延迟还款会不会上征信
测字打分测试_测字打分 全球今头条
脑洞大侦探救救圣诞老人怎么过(解谜37关救救圣诞老人攻略图)|环球速看料
双盲夫妻为给孩子择校 唯一住房出售款400余万被骗 全国助残日检察院发8万司法救助金 环球热闻
心疼球王!大巴黎队长警告主场球迷:不要嘘梅西,姆巴佩也该背锅 当前滚动
全球新资讯:垓下之战
几何画板免安装版 环球滚动
国投电力:前4月上网电量500.3亿千瓦时 同比增21.57%
中国西藏发展论坛中外嘉宾赴西藏大学了解藏文古籍保护现状_每日讯息
焦点速讯:562幅影像、119件实物、4部专题片 向老艺术家致敬!
茉莉的花期是多少天 茉莉哪时候会开花呢|每日资讯
世界视讯!Qt QSS美化 基础知识
环球讯息:环球热推荐:王菲陪李嫣游法国合照流出,李嫣17岁生日在即越大越漂亮_环球速看料
天天精选!我的世界比较器合成表_我的世界比较器
穆雷半场30分掘金仅领先3分:湖人走出困局小里成奇兵 约基奇8中2
跳舞作品怎么发才容易上热门(跳舞作品)
46件古丝绸之路古城遗址出土文物在新疆首展-环球观点
全力应对汛情 保障安全供电!国网怀化供电公司在行动-每日快报
广发e秒贷逾期7天查征信应该怎么做?
《蜘蛛侠纵横宇宙》中文配音片段:彭昱畅虞书欣献声|环球微速讯
京东怎么货到付款?_京东货到付款怎么弄 全球热资讯
童话故事丽丝
环球观热点:3000元买个户外低音炮,但很好用,JBL Partybox音乐战将户外音响
哈尔滨足疗店价格_哈尔滨足疗一条街
焦点要闻:中国外汇市场指导委员会:人民币汇率能在合理均衡水平上保持基本稳定
火炬之光2狂战士加点_火炬之光2介绍
个人诫勉谈话检查书_诫勉谈话个人检查报告 观焦点
起诉!起诉!300亿巨头又出大事|百事通
世界最新:世体:飞利浦将成为巴萨衣袖广告商,首年赞助800万欧&逐年增长
【播资讯】国产新冠药自费价格进一步探底,部分地区医保报销比例95%
风云侠客令兑换码汇总大全_世界热资讯
长焦人像成就爱意表达,华为P60 Pro助力520留最美回忆-全球今日报
远兴能源董秘回复:公司产品销售价格随行就市 天天视点
农村土地所有权和使用权_土地所有权和使用权
一觉醒来,空气中都是土味儿!北京已达严重污染,预计转好时间——
亲测很灵!武汉这些地方表白100%成功! 全球快讯
前沿热点:征缴社会保险费及行政复议纠纷案开庭 石景山区区长出庭应诉
当前讯息:装修图纸剖面图怎么看_剖面图怎么看
全球速看:这份新报告里,写了好多个“难”字!
又双叒叕是救人救火!中通司机师傅们,太帅了!
上大学怎么修双学位_大学双学位怎么修-世界关注
游戏优化器有用吗_什么游戏优化软件比较好-全球观点
今日讯!欧洲银行的春天结束了?一季度净利息收入环比下降
全球今日报丨雾里看花电视剧演员表_雾里看花电视剧
当前热讯:顺丰控股:4月速运物流业务营收同比增长27.29%
X 广告
行业动态
X 广告

Copyright ©  2015-2022 华东植物网版权所有  备案号:京ICP备2022016840号-41   联系邮箱:2 913 236 @qq.com