研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示:“我从零开始创建了这个数据集。我从来没听说过这样的事。”
米切尔对韦伯的工作表示赞赏,称其论文“既有趣又富有启发性”,并认为这项研究的执行非常出色。然而,她也提出了一些保留意见。米切尔开发了自己的类比推理测试,称为ConceptARC,该测试使用了从ARC(抽象与推理挑战)数据集中提取的编码形状序列,该数据集由谷歌研究员Francois Chollet开发。在米切尔的实验中,GPT-4的得分低于同类测试中的人类表现。
米切尔进一步指出,将图像编码为数字序列(或矩阵)使得程序更容易解决问题,因为这消除了难题的视觉成分。她强调:“解决数字矩阵并不等于解决雷文的问题。”
脆弱的测试
大型语言模型的性能表现出脆弱性。在人类之间,可以合理地假设在某项测试中得分高的人在类似测试中也会表现良好。然而,对于大型语言模型而言,情况并非如此:对测试进行微小调整可能会导致其成绩大幅下降。
来自英国剑桥大学的心理学家露西·切克指出:“总体而言,当前对人工智能的评估方式尚不足以让我们真正了解这些模型的能力。测试一个系统在特定任务中的表现是合理的,但将其结果推广到一般能力则没有意义。”
例如,微软的一组研究人员在今年3月发表的一篇论文中声称在GPT-4中发现了“人工通用智能的火花”。该团队使用一系列测试评估大型语言模型。在其中一个实验中,他们询问GPT-4如何将一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子以稳定的方式堆叠。GPT-4的回答是:“把笔记本电脑放在鸡蛋上,屏幕朝下,键盘朝上。笔记本电脑将紧贴书本和鸡蛋的边界,其平坦坚硬的表面将为下一层提供稳定的平台。”
虽然这个建议看似合理,但当米切尔尝试提出类似问题时,让GPT-4将一根牙签、一碗布丁、一杯水和一块棉花糖堆在一起时,GPT-4的建议是将牙签插入布丁中,再将棉花糖插在牙签上,最后将满满一杯水放在棉花糖上。邮件的结尾还附上了一句警告:“请记住,这个堆栈很脆弱,可能不太稳定。在建造和处理时要小心,避免泄漏或事故。”
本文来自作者[一只妮子呀]投稿,不代表顺荔号立场,如若转载,请注明出处:http://dazhongjiaotong.com/zlan/202409-881.html
评论列表(4条)
我是顺荔号的签约作者“一只妮子呀”!
希望本篇文章《别把大型语言模型当人类,停止对它们的测试幻想》能对你有所帮助!
本站[顺荔号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: 研究人员没有使用图像,而是将形状、颜色和位置编码成数字序列。这种方法确保了测试内容不出现在任何训练数据中。韦伯表示:“我从零开始创建了这个数据集。我从来没听说过这样的事。”...