美国加州大学圣地亚哥分校(UCSD)发布了一项研究成果,宣称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”,证明大语言模型通过了图灵测试。其中,GPT-4.5被判断为人类的比例高达73%,显著高于真实人类参与者被选中的比例。
本文引用地址:
由英国数学家和计算机科学家Alan Turing于1950年提出,他称之为“模仿游戏”。图灵设想,如果一名提问者在通过文本交流时无法区分对方是机器还是人类,那么这个机器可能具备类似人类的智能。在三方图灵测试中,提问者需与一名人类和一台机器进行对话,并准确辨识出人类身份。
GPT4.5比人还像人
该研究测试了三款人工智能模型:GPT-4o、LLaMa 3.1 405B和GPT-4.5。实验中,人类参与者通过分屏界面与一名人类和一个AI对话系统进行五分钟的测试对话。每轮结束后,提问者需判断哪一方是人类。研究人员在两种条件下评估了这些AI模型的表现:
· NO-PERSONA:基础指令模式,默认简短指令,如“假装你是人类”;
· PERSONA:要求模型扮演特定角色,附带详细设定,例如“内向、熟悉互联网文化、使用俚语的年轻人”。
左:AI胜率表现;右:判断置信度分布结果显示,在PERSONA模式下,GPT-4.5的胜率为73%,表明提问者常常将其误认为是人类,这一比例显著高于人类对话者被评估者识别成人类的概率(63%);LLaMa-3.1被评估者识别成人类的概率为56%,与人类对话者没有显著差异。换句话说,LLaMa-3.1可以装得非常像人,而GPT4.5可以装得比人还像人。
作为对比,2023年,UCSD的研究人员公开进行了一次图灵测试,在律师资格考试中获得高分的GPT-4表现相当出色,在41%的游戏中,评委认为它与人类无异。而它的前身GPT-3.5只通过了14%的游戏。
在对话中,提问者主要进行日常闲聊,61% 的互动涉及询问日常生活和个人细节,50% 的互动则深入探讨社会和情感层面,如观点、情感、幽默感和个人经历,19%还直接询问对话人是否为人类。
测试人员更倾向于引用语言风格、对话流畅性以及个性之类的社会情感因素,而不是传统上与智力相关的因素,如知识和推理能力。最准确的判决,集中在对话人回答问题时的直接性,以及在某些情况下表现出的无知。
提问比例(左)和平均准确率及95%置信区间(右)这些结果首次提供了明确的实验证据,表明至少有一种人工智能系统通过了标准的三方图灵测试。这一结论对于理解大型语言模型所展现出的智能类型,以及这些系统可能带来的社会和经济影响,都具有重要的意义。研究作者认为,这些AI系统有望在依赖简短对话的经济角色中无缝补充甚至取代人类劳动力。他们进一步表示:“更广泛地说,这些系统可能成为难以区分的替代品,适用于从在线陌生人对话到与朋友、同事乃至浪漫伴侣的交流等各种社交场景。”
需要注意的是,那些控制AI、控制「伪人」的巨头,将攫取影响人类用户意见和行为的权力。最后,正如伪钞贬低了真实货币一样,这些模拟互动可能会削弱真实人类互动的价值。大语言模型带来的最严重的危害之一可能发生在当人们没有意识到他们正在与AI而非人类互动时。
三方测试的特殊性要求模型必须在与真人的直接比较中“更显人类”。因此,虽然表层缺陷会导致失败,但成功必须依赖更深层的拟真能力。图灵测试本质上测量的是拟人性(humanlikeness)而非直接智能。
更多人关注智能的社交情感维度:语言使用是否拟人、是否展现鲜明个性等。这暗示传统智能标准可能已不再是区分人机的有效指标。在计算机已精通逻辑运算的今天,社交智能似乎成为人类最后的技术堡垒。
ChatGPT在发布后的两年多时间里,表现出了一些非常类似人类的行为,这让一些人怀疑,计算机的智力水平是否正在接近人类。很显然,图灵测试存在一定的局限性。AI能够在聊天上骗过人类并不意味着它们拥有了真正的智能,毕竟,智能与否并不全凭语言沟通这一个领域来判断。大多数计算机科学家认为,机器的智力水平还不能与人类相提并论,科学家们依然在探索更好的评估方式来衡量AI的能力。
试图测试智力的麻烦在于,这首先取决于人们如何定义智力。是模式识别能力、创新能力,还是创造音乐或喜剧等创意的能力?因此,如果我们没有就人工智能中的『I』达成一致,那么我们怎么能建立通用人工智能(AGI)呢?
AI加速突破极限
图灵测试过于依赖语言交流的能力,忽略了智能的其他维度。近年来,基准测试成为AI能力评估的新趋势。GSM8K(基于小学数学题数据集的测试)、Humaneval和MMLU(大规模多任务语言理解测试),不同的测试专注于不同的领域,但它们依旧存在局限性。比如,有些模型可能在训练中已经对测试数据集进行了“预习”,最后的高分并不代表真实的能力。那么,被数据“污染”的测试沦为套路,就失去了参考价值。
此外,大模型还存在跨学科整合能力不足,难以同时处理文本、图像和专业术语。但是,AI攻克基准测试的速度将远超预期。比如,在评估高级数学推理和创造性解题能力的MATH测试中,前沿大模型的解题正确率从10%到90%仅用了3年。大模型的能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍。
当机器智能逼近人类时,其他差异维度反而凸显 —— 人类不是智能的唯一载体。最终,智能的多元性决定了任何单一测试都不具决定性。图灵测试的价值在于其通过人机交互产生的动态证据,这与当前s评估中静态化、程式化的基准测试形成互补。当在「机器是否智能」的争论中越陷越深时,或许更应反思:我们究竟希望测量什么?以及为什么测量?
人类大脑与AI之间有着显著差异 —— 人类大脑拥有的神经元约为860亿个,其复杂的突触连接数达100万亿。相对而言,即便是拥有1.76万亿参数的GPT-4,其神经网络的复杂程度亦远不及人类大脑。
相比评测集(用于评估人工智能模型性能的数据集)的评价成绩,更值得关注的是,大模型在我们工作生活中的应用程度和在各个行业的渗透程度,才能更好地估计模型在长期社会工程操作中的能力。在某些情况下,比如试图在海量数据中做出发现,计算机最好有自己的抽象方法;但在与人交互的情况下,例如驾驶汽车,以人类的方式理解世界就非常重要。
作为AI时代的三大核心引擎,电力、算力和智力的能力均在加速倍增,我们即将迎来一个重要且意义深远的智能革命时代。回顾历史,信息革命历经了50个摩尔定律的倍增周期,历时80年。而密度定律的倍增周期仅为3.3个月,按照这个标准,从2020年开始,仅用13年左右就可完成智能革命的周期。
0 条