别把大型语言模型当人类，停止对它们的测试幻想

一只妮子呀 • 2024年09月25日 15:00 • 作者专栏 • 阅读 1

　　研究人员没有使用图像，而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示：“我从零开始创建了这个数据集。我从来没听说过这样的事。”...

　　研究人员没有使用图像，而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示：“我从零开始创建了这个数据集。我从来没听说过这样的事。”

　　米切尔对韦伯的工作表示赞赏，称其论文“既有趣又富有启发性”，并认为这项研究的执行非常出色。然而，她也提出了一些保留意见。米切尔开发了自己的类比推理测试，称为ConceptARC，该测试使用了从ARC（抽象与推理挑战）数据集中提取的编码形状序列，该数据集由谷歌研究员Francois Chollet开发。在米切尔的实验中，GPT-4的得分低于同类测试中的人类表现。

　　米切尔进一步指出，将图像编码为数字序列（或矩阵）使得程序更容易解决问题，因为这消除了难题的视觉成分。她强调：“解决数字矩阵并不等于解决雷文的问题。”

脆弱的测试

　　大型语言模型的性能表现出脆弱性。在人类之间，可以合理地假设在某项测试中得分高的人在类似测试中也会表现良好。然而，对于大型语言模型而言，情况并非如此：对测试进行微小调整可能会导致其成绩大幅下降。

　　来自英国剑桥大学的心理学家露西·切克指出：“总体而言，当前对人工智能的评估方式尚不足以让我们真正了解这些模型的能力。测试一个系统在特定任务中的表现是合理的，但将其结果推广到一般能力则没有意义。”

　　例如，微软的一组研究人员在今年3月发表的一篇论文中声称在GPT-4中发现了“人工通用智能的火花”。该团队使用一系列测试评估大型语言模型。在其中一个实验中，他们询问GPT-4如何将一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子以稳定的方式堆叠。GPT-4的回答是：“把笔记本电脑放在鸡蛋上，屏幕朝下，键盘朝上。笔记本电脑将紧贴书本和鸡蛋的边界，其平坦坚硬的表面将为下一层提供稳定的平台。”

　　虽然这个建议看似合理，但当米切尔尝试提出类似问题时，让GPT-4将一根牙签、一碗布丁、一杯水和一块棉花糖堆在一起时，GPT-4的建议是将牙签插入布丁中，再将棉花糖插在牙签上，最后将满满一杯水放在棉花糖上。邮件的结尾还附上了一句警告：“请记住，这个堆栈很脆弱，可能不太稳定。在建造和处理时要小心，避免泄漏或事故。”

本文来自作者[一只妮子呀]投稿，不代表顺荔号立场，如若转载，请注明出处：http://dazhongjiaotong.com/zlan/202409-881.html

1 4

本文作者

一只妮子呀签约作者

0 文章

888 评论

1 粉丝

我是顺荔号的签约作者[一只妮子呀],本篇文章《别把大型语言模型当人类，停止对它们的测试幻想》主要讲述了:　　研究人员没有使用图像，而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示：“我从零开始创建了这个数据集。我从来没听说过这样的事。”...

知识分享

苹果或将为下一代iPhone SE引入OLED屏幕

　　第四代iPhoneSE可能会采用OLED显示屏，这一信息来自其供应链的新传闻。据《日经亚洲》报道，三星已经开始从京东方和LG显示器订购OLED显示屏，以为这款手机配备显示屏。　　关于苹果可能放弃LCD技术的传言已经存在一年多，最近的报道显示，苹果正准备在几个月内发布新款iPhoneSE。

青山暮雪
2024年09月13日
14
百科经验

越南与韩国深化中小企业协作

　　河内——2023年周三，越南计划投资部与韩国中小企业与创业部在河内举行了双边合作委员会的第一次会议，旨在加强两国中小企业与创业公司之间的合作。　　韩国总统尹锡烈于2023年6月对越南进行了国事访问，并强调了中小企业合作的重要性。此次委员会的成立将促进两国企业家之间的相互了解，并加强在各自优

浪推晚风
2024年09月13日
13
作者专栏

特朗普在网络攻击后对马斯克的采访中显得语无伦次

　　洛杉矶：埃隆·马斯克接受采访　　在密苏里州，唐纳德·特朗普的竞选活动刚开始便遭遇挫折。次日，这位有争议的企业家马斯克表示，他的社交媒体平台遭遇了网络攻击。被标榜为“无限制”的平台，谈话开始晚了半个多小时，导致许多人无法现场收听，这对两位参与者而言都是一个尴尬的局面。　　马斯克在之前被称为

书生天宇
2024年09月17日
12
常识大全

SpaceX因未提交星链安全数据遭遇17.5万美元罚款，埃隆·马斯克面临挑战

　　在周五，美国联邦航空管理局（FAA）对SpaceX公司提出了一项17.5万美元（近145亿卢比）的民事罚款，原因是该公司未能在2022年8月发射星链卫星之前向FAA提交必要的安全数据。　　FAA表示，SpaceX被要求在发射尝试前至少七天直接向该机构提交被称为发射碰撞分析轨迹数据的信息。这些

长莹公子
2024年09月17日
11
科普解惑

“内塔尼亚胡：对真主党的决战才刚开始”

　　以色列总理本雅明·内塔尼亚胡（BenjaminNetanyahu）近日表示，对以色列的袭击“不是故事的结局”。在此之前，以色列战机于周日对黎巴嫩南部的数十个目标进行了空袭，旨在挫败真主党（Hezbollah）被指控为准备发动重大袭击的计划。　　伊朗支持的真主党在周日宣布，已开始使用大量无人

云觞烬
2024年09月19日
10
科普解惑

《卫报》认为工党经济论述需超越对保守党遗产的指责

　　赢得选举的简单口号与迎接新一届政府的复杂任务之间总是存在着鲜明的对比。对于工党而言，挑战尤其严峻，因为基尔·斯塔默爵士（SirKeirStarmer）在竞选时的主要承诺只有一个词：“改变”。除了部长办公室里的新面孔，对大多数人来说，现实在一段时间内仍然会感到更多的是相同的。　　周三公布的

乐悦mio
2024年09月21日
10
百科经验

15岁男孩在安特里姆因向警察投掷汽油弹被捕

　　在卡里克弗格斯，两名警察在检查一辆废弃汽车时遭遇了两枚汽油弹的袭击。事件发生在今天凌晨1点左右，所幸没有警员受到物体击中或受伤。　　一名15岁的男孩因涉嫌在可疑情况下藏有汽油弹、投掷汽油弹、行为不检及袭击警方而被当场逮捕。（图片来源网络，侵删）　　北爱尔兰警察局（PSNI）位于安特里姆的

以亦
2024年09月21日
9
百科经验

法航与泛亚航空延长暂停贝鲁特航班

　　巴黎，APP-UrduPoint/PakistanPoint新闻-2024年8月6日　　法国航空公司于周二宣布，由于对加沙战争可能蔓延的担忧，其飞往贝鲁特的航班及其低成本子公司Transavia的航班将暂停至至少周四。（图片来源网络，侵删）　　该航空公司向法新社表示，自7月

一只小宸呀
2024年09月22日
11
知识分享

欧元区8月通胀回落至2.2%，市场预期欧洲央行将继续降息

　　市场预计，随着价格压力的缓解，欧洲央行将进一步降息。　　欧元区8月份的通货膨胀率降至2.2%，为三年来的最低水平，这增强了市场对欧洲央行将在下月降息的预期。初步数据显示，这一通胀率与路透社的调查预测一致，低于上个月的2.6%。（图片来源网络，侵删）　　荷兰国际集团（ING）的欧元区经济学

筝弘
2024年09月22日
8
知识分享

惠灵顿的水资源管理逐步向好，但仍面临潜在挑战

惠灵顿地区水资源管理面临挑战　　水资源限制的风险主要源于惠灵顿地区近一半的水通过泄漏流失。当地市长们已向居民发出警告，尽管已建立积极的用水模式，但在即将到来的夏季，仍需尽可能节约用水。（图片来源网络，侵删）　　去年夏天，惠灵顿、赫特谷和波里鲁瓦面临高达60%的三级限水风险。惠灵顿水务公司将这

妃慰
2024年09月24日
5

发表回复

本站作者后才能评论

评论列表（4条）

一只妮子呀 2024年09月25日

我是顺荔号的签约作者“一只妮子呀”！

回复
一只妮子呀 2024年09月25日

希望本篇文章《别把大型语言模型当人类，停止对它们的测试幻想》能对你有所帮助！

回复
一只妮子呀 2024年09月25日

本站[顺荔号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
一只妮子呀 2024年09月25日

本文概览：　　研究人员没有使用图像，而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示：“我从零开始创建了这个数据集。我从来没听说过这样的事。”...

回复

别把大型语言模型当人类，停止对它们的测试幻想

脆弱的测试

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们