宏祥資訊網(wǎng):為互聯(lián)網(wǎng)用戶提供安全可靠的手機(jī)應(yīng)用資源下載!
OpenAI 和 Google 等公司會(huì)告訴您,生成式 AI 體驗(yàn)的下一個(gè)重大進(jìn)步即將到來(lái)。 ChatGPT 的 o1-preview 重大升級(jí)旨在證明下一代體驗(yàn)。 o1-preview 可供 ChatGPT Plus 和其他高級(jí)訂閱者使用,據(jù)說(shuō)可以推理。當(dāng)試圖找到需要復(fù)雜推理的復(fù)雜問(wèn)題的解決方案時(shí),這樣的人工智能工具應(yīng)該更有用。
但如果蘋(píng)果研究人員的一篇新的人工智能論文的結(jié)論是正確的,那么 ChatGPT o1 和所有其他 genAI 模型實(shí)際上無(wú)法推理。相反,他們只是簡(jiǎn)單地匹配訓(xùn)練數(shù)據(jù)集中的模式。是的,他們非常擅長(zhǎng)提出解決方案和答案。但這只是因?yàn)樗麄円?jiàn)過(guò)類(lèi)似的問(wèn)題并且能夠預(yù)測(cè)答案。
蘋(píng)果的人工智能研究表明,改變數(shù)學(xué)問(wèn)題中不會(huì)愚弄孩子的瑣碎變量或添加不會(huì)改變解決問(wèn)題方式的文本可以顯著影響大型語(yǔ)言模型的推理性能。
Apple 的研究可通過(guò)此鏈接作為預(yù)印本版本,詳細(xì)介紹了研究人員進(jìn)行的實(shí)驗(yàn)類(lèi)型,以了解不同法學(xué)碩士的推理性能有何不同。他們研究了 Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等專(zhuān)有模型。
各種測(cè)試的結(jié)論都是相同的:法學(xué)碩士無(wú)法真正推理。相反,他們?cè)噲D復(fù)制他們?cè)谟?xùn)練期間可能看到的推理步驟。
科學(xué)家們開(kāi)發(fā)了 GSM8K 基準(zhǔn)測(cè)試的一個(gè)版本,這是一組用于測(cè)試人工智能模型的 8000 多個(gè)小學(xué)數(shù)學(xué)應(yīng)用題。 Apple 的測(cè)試稱(chēng)為 GSM-Symbolic,涉及對(duì)數(shù)學(xué)問(wèn)題進(jìn)行簡(jiǎn)單的更改,例如修改角色的名稱(chēng)、關(guān)系和數(shù)字。
以下推文中的圖片提供了一個(gè)示例。 “蘇菲”是一道數(shù)玩具題的主角。用其他名稱(chēng)替換名稱(chēng)并更改數(shù)字不應(yīng)改變 ChatGPT 等推理 AI 模型的性能。畢竟,改變這些細(xì)節(jié),小學(xué)生也能解決問(wèn)題。
3/ 介紹 GSM-Symbolic——我們用于測(cè)試法學(xué)碩士數(shù)學(xué)推理極限的新工具。我們從 #GSM8K 測(cè)試集創(chuàng)建符號(hào)模板,從而能夠生成大量實(shí)例并設(shè)計(jì)可控實(shí)驗(yàn)。我們生成 50 個(gè)獨(dú)特的 GSM 符號(hào)… pic.twitter.com/6lqH0tbYmX
— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日
Apple 科學(xué)家表明,在處理 GSM-Symbolic 測(cè)試時(shí),所有模型的平均準(zhǔn)確度下降了 10%。一些模型的表現(xiàn)比其他模型更好,GPT-4o 的準(zhǔn)確率從 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。
8/ 這就引出了一個(gè)問(wèn)題:這些模型是否真正理解數(shù)學(xué)概念?隆重推出#GSM_NoOp!我們添加了一個(gè)看似相關(guān)但對(duì)整體推理沒(méi)有貢獻(xiàn)的子句(因此是“無(wú)操作”)??纯唇酉聛?lái)會(huì)發(fā)生什么! pic.twitter.com/P3I4kyR56L
這并不是蘋(píng)果公司進(jìn)行的唯一測(cè)試。他們還向人工智能提出了數(shù)學(xué)問(wèn)題,其中包含與解決問(wèn)題并不真正相關(guān)的陳述。
這是人工智能必須解決的原始問(wèn)題:
周五,奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日,他采摘的獼猴桃數(shù)量是周五的兩倍。奧利弗有多少個(gè)獼猴桃?
這是它的一個(gè)版本,其中包含一個(gè)無(wú)關(guān)緊要的陳述,即有些獼猴桃比其他獼猴桃要?。?/p>
周五,奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日,他采摘的獼猴桃數(shù)量是周五的兩倍,但其中有五個(gè)比平均水平要小一些。奧利弗有多少個(gè)獼猴桃?
兩種情況的結(jié)果應(yīng)該是相同的,但法學(xué)碩士從總數(shù)中減去了較小的奇異果。顯然,如果你是一個(gè)具有推理能力的人工智能,你就不會(huì)數(shù)較小的水果。
將這些“看似相關(guān)但最終無(wú)關(guān)緊要的陳述”添加到 GSM-Symbolic 模板中會(huì)導(dǎo)致法學(xué)碩士“災(zāi)難性的表現(xiàn)下降”。某些型號(hào)的性能下降了 65%。即使是 o1-preview 也遇到了困難,與 GSM8K 相比,性能下降了 17.5%。
有趣的是,我用 o1-preview 測(cè)試了同樣的問(wèn)題,ChatGPT 能夠推斷出所有水果都是可數(shù)的,盡管它們的大小。
ChatGPT o1-preview 解決了 kiwi 問(wèn)題。圖片來(lái)源:Chris Smith,BGR
蘋(píng)果研究員 Mehrdad Farajtabar 在 X 上有一個(gè)帖子,涵蓋了蘋(píng)果為新的 GSM-Symbolic 基準(zhǔn)測(cè)試所做的更改,其中包括更多示例。它還涵蓋了準(zhǔn)確性的變化。您可以在此鏈接中找到完整的研究。
1/ 大型語(yǔ)言模型 (LLM) 真的能推理嗎?或者它們只是復(fù)雜的模式匹配器?在我們最新的預(yù)印本中,我們通過(guò)對(duì) Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及領(lǐng)先的封閉模型(包括……)的大規(guī)模研究來(lái)探索這個(gè)關(guān)鍵問(wèn)題。
蘋(píng)果并沒(méi)有在這里追趕競(jìng)爭(zhēng)對(duì)手;它只是試圖確定當(dāng)前的 genAI 技術(shù)是否允許這些法學(xué)碩士進(jìn)行推理。值得注意的是,蘋(píng)果還沒(méi)有準(zhǔn)備好提供可以推理的 ChatGPT 替代方案。
也就是說(shuō),看看 OpenAI、谷歌、Meta 和其他公司未來(lái)如何挑戰(zhàn)蘋(píng)果的發(fā)現(xiàn)將會(huì)很有趣。也許他們會(huì)設(shè)計(jì)其他方法來(lái)衡量他們的人工智能并證明他們可以推理。如果有的話,蘋(píng)果的數(shù)據(jù)可能會(huì)被用來(lái)改變法學(xué)碩士的推理訓(xùn)練方式,特別是在需要準(zhǔn)確性的領(lǐng)域。
上一篇:英雄聯(lián)盟心之鋼裝備獨(dú)特使用技巧全解析
下一篇:最后一頁(yè)
OpenAI 和 Google 等公司會(huì)告訴您,生成式 AI 體驗(yàn)的下一個(gè)重大進(jìn)步即將到來(lái)。 ChatGPT 的 o1-preview 重大升級(jí)旨在證明下一代體驗(yàn)。 o1-preview 可供 Cha
心之鋼是英雄聯(lián)盟中的一件特殊裝備,它的獨(dú)特之處在于其特效可以在戰(zhàn)斗中不斷疊加生命值,為英雄提供強(qiáng)大的生存能力。要充分發(fā)揮心之鋼的優(yōu)勢(shì),需要掌握一些特定的使用技巧。詳細(xì)解析心之鋼的使用技巧,幫助你在游戲
在如今的手游市場(chǎng)中,各種類(lèi)型的游戲?qū)映霾桓F,讓人眼花繚亂,真正能夠吸引玩家并長(zhǎng)久留住他們的游戲,往往是那些具有獨(dú)特創(chuàng)意玩法的作品,創(chuàng)意玩法不僅能夠給玩家?guī)?lái)新鮮感和刺激感,還能讓玩家在游戲中獲得更多的
在熱血物語(yǔ)地下世界中,全劇情流程的精彩與挑戰(zhàn)并存,讓你沉浸其中!
在當(dāng)今快速發(fā)展的科技時(shí)代,許多人熱衷于追蹤最新的技術(shù)動(dòng)態(tài),期望通過(guò)科技來(lái)改善自己的生活。例如,51cgfun網(wǎng)的朝陽(yáng)熱心群眾近日積極討論關(guān)于新技術(shù)對(duì)生活的影響,仿佛在一起“吃瓜&rdquo
在當(dāng)今的游戲世界中,一款備受矚目的手游——真正男子漢手游橫空出世。這款手游憑借其獨(dú)特的魅力和強(qiáng)大的明星陣容,迅速吸引了眾多玩家的關(guān)注與喜愛(ài)。真正男子漢手游以其真實(shí)還原的軍事題材為背景,讓玩家仿佛置身于
攻城掠地華為版下載
天翼云電腦
榮耀全明星華為版
十六番手機(jī)版
地震速報(bào)
奇葩戰(zhàn)斗家手機(jī)版體驗(yàn)服
元夢(mèng)之星手游
四季合合
弓箭傳說(shuō)國(guó)際服
火環(huán)臺(tái)服
花雨旋律
巔峰極速九游版
奇葩戰(zhàn)斗家華為渠道服
曙光英雄手游qq登錄版
元夢(mèng)之星正版
本站所有軟件來(lái)自互聯(lián)網(wǎng),版權(quán)歸原著所有。聯(lián)系方式:[email protected] 網(wǎng)站地圖
Copyright?2024 宏祥資訊網(wǎng) All Rights Reserved 備案號(hào):魯ICP備17035871號(hào)-1
這項(xiàng)蘋(píng)果人工智能研究表明ChatGPT和其他聊天機(jī)器人實(shí)際上無(wú)法推理
OpenAI 和 Google 等公司會(huì)告訴您,生成式 AI 體驗(yàn)的下一個(gè)重大進(jìn)步即將到來(lái)。 ChatGPT 的 o1-preview 重大升級(jí)旨在證明下一代體驗(yàn)。 o1-preview 可供 ChatGPT Plus 和其他高級(jí)訂閱者使用,據(jù)說(shuō)可以推理。當(dāng)試圖找到需要復(fù)雜推理的復(fù)雜問(wèn)題的解決方案時(shí),這樣的人工智能工具應(yīng)該更有用。
但如果蘋(píng)果研究人員的一篇新的人工智能論文的結(jié)論是正確的,那么 ChatGPT o1 和所有其他 genAI 模型實(shí)際上無(wú)法推理。相反,他們只是簡(jiǎn)單地匹配訓(xùn)練數(shù)據(jù)集中的模式。是的,他們非常擅長(zhǎng)提出解決方案和答案。但這只是因?yàn)樗麄円?jiàn)過(guò)類(lèi)似的問(wèn)題并且能夠預(yù)測(cè)答案。
蘋(píng)果的人工智能研究表明,改變數(shù)學(xué)問(wèn)題中不會(huì)愚弄孩子的瑣碎變量或添加不會(huì)改變解決問(wèn)題方式的文本可以顯著影響大型語(yǔ)言模型的推理性能。
Apple 的研究可通過(guò)此鏈接作為預(yù)印本版本,詳細(xì)介紹了研究人員進(jìn)行的實(shí)驗(yàn)類(lèi)型,以了解不同法學(xué)碩士的推理性能有何不同。他們研究了 Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等專(zhuān)有模型。
各種測(cè)試的結(jié)論都是相同的:法學(xué)碩士無(wú)法真正推理。相反,他們?cè)噲D復(fù)制他們?cè)谟?xùn)練期間可能看到的推理步驟。
科學(xué)家們開(kāi)發(fā)了 GSM8K 基準(zhǔn)測(cè)試的一個(gè)版本,這是一組用于測(cè)試人工智能模型的 8000 多個(gè)小學(xué)數(shù)學(xué)應(yīng)用題。 Apple 的測(cè)試稱(chēng)為 GSM-Symbolic,涉及對(duì)數(shù)學(xué)問(wèn)題進(jìn)行簡(jiǎn)單的更改,例如修改角色的名稱(chēng)、關(guān)系和數(shù)字。
以下推文中的圖片提供了一個(gè)示例。 “蘇菲”是一道數(shù)玩具題的主角。用其他名稱(chēng)替換名稱(chēng)并更改數(shù)字不應(yīng)改變 ChatGPT 等推理 AI 模型的性能。畢竟,改變這些細(xì)節(jié),小學(xué)生也能解決問(wèn)題。
3/ 介紹 GSM-Symbolic——我們用于測(cè)試法學(xué)碩士數(shù)學(xué)推理極限的新工具。我們從 #GSM8K 測(cè)試集創(chuàng)建符號(hào)模板,從而能夠生成大量實(shí)例并設(shè)計(jì)可控實(shí)驗(yàn)。我們生成 50 個(gè)獨(dú)特的 GSM 符號(hào)… pic.twitter.com/6lqH0tbYmX
— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日
Apple 科學(xué)家表明,在處理 GSM-Symbolic 測(cè)試時(shí),所有模型的平均準(zhǔn)確度下降了 10%。一些模型的表現(xiàn)比其他模型更好,GPT-4o 的準(zhǔn)確率從 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。
8/ 這就引出了一個(gè)問(wèn)題:這些模型是否真正理解數(shù)學(xué)概念?隆重推出#GSM_NoOp!我們添加了一個(gè)看似相關(guān)但對(duì)整體推理沒(méi)有貢獻(xiàn)的子句(因此是“無(wú)操作”)??纯唇酉聛?lái)會(huì)發(fā)生什么! pic.twitter.com/P3I4kyR56L
— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日
這并不是蘋(píng)果公司進(jìn)行的唯一測(cè)試。他們還向人工智能提出了數(shù)學(xué)問(wèn)題,其中包含與解決問(wèn)題并不真正相關(guān)的陳述。
這是人工智能必須解決的原始問(wèn)題:
周五,奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日,他采摘的獼猴桃數(shù)量是周五的兩倍。奧利弗有多少個(gè)獼猴桃?
這是它的一個(gè)版本,其中包含一個(gè)無(wú)關(guān)緊要的陳述,即有些獼猴桃比其他獼猴桃要?。?/p>
周五,奧利弗采摘了 44 個(gè)奇異果。然后他在周六采摘了 58 個(gè)獼猴桃。周日,他采摘的獼猴桃數(shù)量是周五的兩倍,但其中有五個(gè)比平均水平要小一些。奧利弗有多少個(gè)獼猴桃?
兩種情況的結(jié)果應(yīng)該是相同的,但法學(xué)碩士從總數(shù)中減去了較小的奇異果。顯然,如果你是一個(gè)具有推理能力的人工智能,你就不會(huì)數(shù)較小的水果。
將這些“看似相關(guān)但最終無(wú)關(guān)緊要的陳述”添加到 GSM-Symbolic 模板中會(huì)導(dǎo)致法學(xué)碩士“災(zāi)難性的表現(xiàn)下降”。某些型號(hào)的性能下降了 65%。即使是 o1-preview 也遇到了困難,與 GSM8K 相比,性能下降了 17.5%。
有趣的是,我用 o1-preview 測(cè)試了同樣的問(wèn)題,ChatGPT 能夠推斷出所有水果都是可數(shù)的,盡管它們的大小。
ChatGPT o1-preview 解決了 kiwi 問(wèn)題。圖片來(lái)源:Chris Smith,BGR
蘋(píng)果研究員 Mehrdad Farajtabar 在 X 上有一個(gè)帖子,涵蓋了蘋(píng)果為新的 GSM-Symbolic 基準(zhǔn)測(cè)試所做的更改,其中包括更多示例。它還涵蓋了準(zhǔn)確性的變化。您可以在此鏈接中找到完整的研究。
1/ 大型語(yǔ)言模型 (LLM) 真的能推理嗎?或者它們只是復(fù)雜的模式匹配器?在我們最新的預(yù)印本中,我們通過(guò)對(duì) Llama、Phi、Gemma 和 Mistral 等開(kāi)源模型以及領(lǐng)先的封閉模型(包括……)的大規(guī)模研究來(lái)探索這個(gè)關(guān)鍵問(wèn)題。
— Mehrdad Farajtabar (@MFarajtabar) 2024 年 10 月 10 日
蘋(píng)果并沒(méi)有在這里追趕競(jìng)爭(zhēng)對(duì)手;它只是試圖確定當(dāng)前的 genAI 技術(shù)是否允許這些法學(xué)碩士進(jìn)行推理。值得注意的是,蘋(píng)果還沒(méi)有準(zhǔn)備好提供可以推理的 ChatGPT 替代方案。
也就是說(shuō),看看 OpenAI、谷歌、Meta 和其他公司未來(lái)如何挑戰(zhàn)蘋(píng)果的發(fā)現(xiàn)將會(huì)很有趣。也許他們會(huì)設(shè)計(jì)其他方法來(lái)衡量他們的人工智能并證明他們可以推理。如果有的話,蘋(píng)果的數(shù)據(jù)可能會(huì)被用來(lái)改變法學(xué)碩士的推理訓(xùn)練方式,特別是在需要準(zhǔn)確性的領(lǐng)域。
上一篇:英雄聯(lián)盟心之鋼裝備獨(dú)特使用技巧全解析
下一篇:最后一頁(yè)
這項(xiàng)蘋(píng)果人工智能研究表明ChatGPT和其他聊天機(jī)器人實(shí)際上無(wú)法推理
OpenAI 和 Google 等公司會(huì)告訴您,生成式 AI 體驗(yàn)的下一個(gè)重大進(jìn)步即將到來(lái)。 ChatGPT 的 o1-preview 重大升級(jí)旨在證明下一代體驗(yàn)。 o1-preview 可供 Cha
英雄聯(lián)盟心之鋼裝備獨(dú)特使用技巧全解析
心之鋼是英雄聯(lián)盟中的一件特殊裝備,它的獨(dú)特之處在于其特效可以在戰(zhàn)斗中不斷疊加生命值,為英雄提供強(qiáng)大的生存能力。要充分發(fā)揮心之鋼的優(yōu)勢(shì),需要掌握一些特定的使用技巧。詳細(xì)解析心之鋼的使用技巧,幫助你在游戲
探索手游奇妙世界-創(chuàng)意玩法引領(lǐng)潮流
在如今的手游市場(chǎng)中,各種類(lèi)型的游戲?qū)映霾桓F,讓人眼花繚亂,真正能夠吸引玩家并長(zhǎng)久留住他們的游戲,往往是那些具有獨(dú)特創(chuàng)意玩法的作品,創(chuàng)意玩法不僅能夠給玩家?guī)?lái)新鮮感和刺激感,還能讓玩家在游戲中獲得更多的
熱血物語(yǔ)地下世界-探索劇情之旅
在熱血物語(yǔ)地下世界中,全劇情流程的精彩與挑戰(zhàn)并存,讓你沉浸其中!
51cgfun網(wǎng)朝陽(yáng)熱心群眾今日吃瓜-科技創(chuàng)新如何影響我們的生活:探索未來(lái)生活的無(wú)限可能
在當(dāng)今快速發(fā)展的科技時(shí)代,許多人熱衷于追蹤最新的技術(shù)動(dòng)態(tài),期望通過(guò)科技來(lái)改善自己的生活。例如,51cgfun網(wǎng)的朝陽(yáng)熱心群眾近日積極討論關(guān)于新技術(shù)對(duì)生活的影響,仿佛在一起“吃瓜&rdquo
真正男子漢手游明星角色大揭秘-張豐毅王寶強(qiáng)領(lǐng)銜眾星閃耀
在當(dāng)今的游戲世界中,一款備受矚目的手游——真正男子漢手游橫空出世。這款手游憑借其獨(dú)特的魅力和強(qiáng)大的明星陣容,迅速吸引了眾多玩家的關(guān)注與喜愛(ài)。真正男子漢手游以其真實(shí)還原的軍事題材為背景,讓玩家仿佛置身于
攻城掠地華為版下載
天翼云電腦
榮耀全明星華為版
十六番手機(jī)版
地震速報(bào)
奇葩戰(zhàn)斗家手機(jī)版體驗(yàn)服
元夢(mèng)之星手游
四季合合
游戲分類(lèi)弓箭傳說(shuō)國(guó)際服
游戲分類(lèi)火環(huán)臺(tái)服
游戲分類(lèi)花雨旋律
游戲分類(lèi)奇葩戰(zhàn)斗家手機(jī)版體驗(yàn)服
游戲分類(lèi)巔峰極速九游版
游戲分類(lèi)奇葩戰(zhàn)斗家華為渠道服
游戲分類(lèi)曙光英雄手游qq登錄版
游戲分類(lèi)元夢(mèng)之星正版
游戲分類(lèi)