首頁(yè) 宏祥資訊這項(xiàng)蘋(píng)果人工智能研究表明ChatGPT和其他聊天機(jī)器人實(shí)際上無(wú)法推理

這項(xiàng)蘋(píng)果人工智能研究表明ChatGPT和其他聊天機(jī)器人實(shí)際上無(wú)法推理

2024-10-22 19:11:17 來(lái)源｜互聯(lián)網(wǎng)

OpenAI 和 Google 等公司會(huì)告訴您，生成式 AI 體驗(yàn)的下一個(gè)重大進(jìn)步即將到來(lái)。 ChatGPT 的 o1-preview 重大升級(jí)旨在證明下一代體驗(yàn)。 o1-preview 可供 ChatGPT Plus 和其他高級(jí)訂閱者使用，據(jù)說(shuō)可以推理。當(dāng)試圖找到需要復(fù)雜推理的復(fù)雜問(wèn)題的解決方案時(shí)，這樣的人工智能工具應(yīng)該更有用。

但如果蘋(píng)果研究人員的一篇新的人工智能論文的結(jié)論是正確的，那么 ChatGPT o1 和所有其他 genAI 模型實(shí)際上無(wú)法推理。相反，他們只是簡(jiǎn)單地匹配訓(xùn)練數(shù)據(jù)集中的模式。是的，他們非常擅長(zhǎng)提出解決方案和答案。但這只是因?yàn)樗麄円?jiàn)過(guò)類(lèi)似的問(wèn)題并且能夠預(yù)測(cè)答案。

蘋(píng)果的人工智能研究表明，改變數(shù)學(xué)問(wèn)題中不會(huì)愚弄孩子的瑣碎變量或添加不會(huì)改變解決問(wèn)題方式的文本可以顯著影響大型語(yǔ)言模型的推理性能。

Apple 的研究可通過(guò)此鏈接作為預(yù)印本版本，詳細(xì)介紹了研究人員進(jìn)行的實(shí)驗(yàn)類(lèi)型，以了解不同法學(xué)碩士的推理性能有何不同。他們研究了 Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等專(zhuān)有模型。

各種測(cè)試的結(jié)論都是相同的：法學(xué)碩士無(wú)法真正推理。相反，他們?cè)噲D復(fù)制他們?cè)谟?xùn)練期間可能看到的推理步驟。

科學(xué)家們開(kāi)發(fā)了 GSM8K 基準(zhǔn)測(cè)試的一個(gè)版本，這是一組用于測(cè)試人工智能模型的 8000 多個(gè)小學(xué)數(shù)學(xué)應(yīng)用題。 Apple 的測(cè)試稱(chēng)為 GSM-Symbolic，涉及對(duì)數(shù)學(xué)問(wèn)題進(jìn)行簡(jiǎn)單的更改，例如修改角色的名稱(chēng)、關(guān)系和數(shù)字。

以下推文中的圖片提供了一個(gè)示例。 “蘇菲”是一道數(shù)玩具題的主角。用其他名稱(chēng)替換名稱(chēng)并更改數(shù)字不應(yīng)改變 ChatGPT 等推理 AI 模型的性能。畢竟，改變這些細(xì)節(jié)，小學(xué)生也能解決問(wèn)題。

3/ 介紹 GSM-Symbolic——我們用于測(cè)試法學(xué)碩士數(shù)學(xué)推理極限的新工具。我們從 #GSM8K 測(cè)試集創(chuàng)建符號(hào)模板，從而能夠生成大量實(shí)例并設(shè)計(jì)可控實(shí)驗(yàn)。我們生成 50 個(gè)獨(dú)特的 GSM 符號(hào)… pic.twitter.com/6lqH0tbYmX

— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日

Apple 科學(xué)家表明，在處理 GSM-Symbolic 測(cè)試時(shí)，所有模型的平均準(zhǔn)確度下降了 10%。一些模型的表現(xiàn)比其他模型更好，GPT-4o 的準(zhǔn)確率從 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。

8/ 這就引出了一個(gè)問(wèn)題：這些模型是否真正理解數(shù)學(xué)概念？隆重推出#GSM_NoOp！我們添加了一個(gè)看似相關(guān)但對(duì)整體推理沒(méi)有貢獻(xiàn)的子句（因此是“無(wú)操作”）?？纯唇酉聛?lái)會(huì)發(fā)生什么！ pic.twitter.com/P3I4kyR56L

— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日

這并不是蘋(píng)果公司進(jìn)行的唯一測(cè)試。他們還向人工智能提出了數(shù)學(xué)問(wèn)題，其中包含與解決問(wèn)題并不真正相關(guān)的陳述。

這是人工智能必須解決的原始問(wèn)題：

周五，奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日，他采摘的獼猴桃數(shù)量是周五的兩倍。奧利弗有多少個(gè)獼猴桃？

這是它的一個(gè)版本，其中包含一個(gè)無(wú)關(guān)緊要的陳述，即有些獼猴桃比其他獼猴桃要?。?/p>

周五，奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日，他采摘的獼猴桃數(shù)量是周五的兩倍，但其中有五個(gè)比平均水平要小一些。奧利弗有多少個(gè)獼猴桃？

兩種情況的結(jié)果應(yīng)該是相同的，但法學(xué)碩士從總數(shù)中減去了較小的奇異果。顯然，如果你是一個(gè)具有推理能力的人工智能，你就不會(huì)數(shù)較小的水果。

將這些“看似相關(guān)但最終無(wú)關(guān)緊要的陳述”添加到 GSM-Symbolic 模板中會(huì)導(dǎo)致法學(xué)碩士“災(zāi)難性的表現(xiàn)下降”。某些型號(hào)的性能下降了 65%。即使是 o1-preview 也遇到了困難，與 GSM8K 相比，性能下降了 17.5%。

有趣的是，我用 o1-preview 測(cè)試了同樣的問(wèn)題，ChatGPT 能夠推斷出所有水果都是可數(shù)的，盡管它們的大小。

這項(xiàng)蘋(píng)果人工智能研究表明ChatGPT和其他聊天機(jī)器人實(shí)際上無(wú)法推理 ChatGPT o1-preview 解決了 kiwi 問(wèn)題。圖片來(lái)源：Chris Smith，BGR

蘋(píng)果研究員 Mehrdad Farajtabar 在 X 上有一個(gè)帖子，涵蓋了蘋(píng)果為新的 GSM-Symbolic 基準(zhǔn)測(cè)試所做的更改，其中包括更多示例。它還涵蓋了準(zhǔn)確性的變化。您可以在此鏈接中找到完整的研究。

1/ 大型語(yǔ)言模型 (LLM) 真的能推理嗎？或者它們只是復(fù)雜的模式匹配器？在我們最新的預(yù)印本中，我們通過(guò)對(duì) Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及領(lǐng)先的封閉模型（包括……）的大規(guī)模研究來(lái)探索這個(gè)關(guān)鍵問(wèn)題。

— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日

蘋(píng)果并沒(méi)有在這里追趕競(jìng)爭(zhēng)對(duì)手；它只是試圖確定當(dāng)前的 genAI 技術(shù)是否允許這些法學(xué)碩士進(jìn)行推理。值得注意的是，蘋(píng)果還沒(méi)有準(zhǔn)備好提供可以推理的 ChatGPT 替代方案。

也就是說(shuō)，看看 OpenAI、谷歌、Meta 和其他公司未來(lái)如何挑戰(zhàn)蘋(píng)果的發(fā)現(xiàn)將會(huì)很有趣。也許他們會(huì)設(shè)計(jì)其他方法來(lái)衡量他們的人工智能并證明他們可以推理。如果有的話，蘋(píng)果的數(shù)據(jù)可能會(huì)被用來(lái)改變法學(xué)碩士的推理訓(xùn)練方式，特別是在需要準(zhǔn)確性的領(lǐng)域。

上一篇：英雄聯(lián)盟心之鋼裝備獨(dú)特使用技巧全解析

下一篇：最后一頁(yè)