斯坦福大學(xué)研究發(fā)現(xiàn),AI聊天機(jī)器人ChatGPT的表現(xiàn)很不穩(wěn)定
時(shí)間:2023-09-08 22:48:08
(相關(guān)資料圖)
IT之家 9 月 7 日消息,斯坦福大學(xué)的一項(xiàng)新研究發(fā)現(xiàn),熱門生成式人工智能(AI)聊天機(jī)器人 ChatGPT 的能力在幾個(gè)月內(nèi)有所波動。
斯坦福大學(xué)的團(tuán)隊(duì)評估了 ChatGPT 在幾個(gè)月內(nèi)如何處理不同的任務(wù)。他們發(fā)現(xiàn),ChatGPT 的能力隨時(shí)間的推移而出現(xiàn)了不一致。目前,ChatGPT 有兩個(gè)版本 —— 免費(fèi)的 模型和更智能、更快速的付費(fèi) GPT-4 版本。 研究人員發(fā)現(xiàn),GPT-4 在 3 月份能夠有效地解決數(shù)學(xué)問題,識別質(zhì)數(shù)的準(zhǔn)確率為 %。 三個(gè)月后,其準(zhǔn)確率下降到了 % 。而另一方面, 卻變得更好,從 % 的準(zhǔn)確率提高到了 %。
研究人員還注意到,在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學(xué)計(jì)算機(jī)科學(xué)教授 James Zou 稱:“當(dāng)我們調(diào)整一個(gè)大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時(shí),那可能會有很多意想不到的后果,可能會損害這個(gè)模型在其他任務(wù)上的表現(xiàn)…… 這個(gè)模型回答問題的方式有各種各樣的相互依賴性,這可能導(dǎo)致我們觀察到的一些惡化行為。”
研究人員認(rèn)為,結(jié)果并不能真正反映 ChatGPT 性能的準(zhǔn)確性狀態(tài), 而是顯示了微調(diào)模型帶來的意外后果 。本質(zhì)上, 當(dāng)修改模型的一部分來改善一個(gè)任務(wù)時(shí),其他任務(wù)可能會受到影響 。為什么會這樣很難確定,因?yàn)闆]有人知道 ChatGPT 是如何運(yùn)作的,而且它的代碼也不是開源的。
隨著時(shí)間的推移,研究人員注意到,ChatGPT 的回答不僅變得不太準(zhǔn)確,而且還停止了解釋其推理過程。
由于 ChatGPT 的運(yùn)作方式,要研究和衡量它的表現(xiàn)可能很困難,這項(xiàng)研究強(qiáng)調(diào)了觀察和評估驅(qū)動 ChatGPT 等工具的大型語言模型(LLM)性能變化的必要性。該研究已經(jīng)在 arXiv 上發(fā)布,并正在等待同行評審,IT之家附鏈接在此。
相關(guān)稿件
斯坦福大學(xué)研究發(fā)現(xiàn),AI聊天機(jī)器人ChatGPT的表現(xiàn)很不穩(wěn)定
“為早日住上好小區(qū)”:一老舊小區(qū)居民親自清拆違建
口腔健康一點(diǎn)通|什么是智齒?智齒到底需不需要拔?一起來看看
廈門深挖潛力探索地下開發(fā) 挺進(jìn)城市第二空間
“法式”生活丨花12萬元買的車位卻無法停車 遇到這種事你該咋辦?
梅西自2018年1月至今任意球打進(jìn)31球,點(diǎn)球也打進(jìn)31球
我國秋糧陸續(xù)進(jìn)入成熟期 長勢總體正常豐收有希望
海南熱帶雨林國家公園霸王嶺分局:維護(hù)雨林自然資源,保護(hù)生物多樣性,助力生態(tài)產(chǎn)業(yè)發(fā)展
“金九”首周鋼材庫存延續(xù)去化 終端拿貨意愿不及往年同期
迎接“金九銀十”旅游黃金季,武漢野生動物王國彩翼谷展示區(qū)開放
慧博云通:余浩累計(jì)質(zhì)押股數(shù)為1100萬股
俄大使揭幕金磚國家鈔票,統(tǒng)一貨幣即將到來,美金融霸權(quán)將被打破
武漢白癜風(fēng)醫(yī)院哪家好-導(dǎo)致頭部白癜風(fēng)的原因有哪些
首付80萬起擁有上海3房!華二+世外+特斯拉+千億產(chǎn)業(yè)=國企全新住宅2.5萬/㎡!
美網(wǎng)-薩巴倫卡首盤吞蛋2-1逆轉(zhuǎn)凱斯 進(jìn)決賽將與高芙爭冠