ChatGPT是美國(guó)OpenAI公司去年11月發(fā)布的一款人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具,去年11月30日推出以來(lái),60天內(nèi)月活用戶直接破億,被認(rèn)為是史上用戶增長(zhǎng)最快的消費(fèi)級(jí)應(yīng)用。
寫(xiě)代碼、文案,做數(shù)學(xué)題,進(jìn)行不同語(yǔ)言之間的翻譯,ChatGPT的強(qiáng)大功能讓學(xué)習(xí)人工智能相關(guān)專業(yè)的復(fù)旦大學(xué)碩士研究生張嘯天感到既震驚又興奮。
“我主要讓它寫(xiě)代碼,包括一些技術(shù)問(wèn)題,解決方案。我感覺(jué)到它很聰明,篤定它可以通過(guò)圖靈測(cè)試。但它的極限是什么?我想知道它究竟有多聰明?!?/p>
于是,去年12月,張嘯天和兩位同學(xué)一起搜集了2010年到2022年的高考全國(guó)卷試題,剔除部分含有圖片的題目,讓ChatGPT作答。
經(jīng)過(guò)近5個(gè)月的測(cè)試,近日,ChatGPT的高考測(cè)試報(bào)告新鮮出爐。包括選擇題、填空題和問(wèn)答題在內(nèi),ChatGPT共回答了2811道題目。結(jié)果顯示, ChatGPT更擅長(zhǎng)文科,在歷史、地理、政治上取得了不錯(cuò)的成績(jī);而在生物、化學(xué)、物理等理科學(xué)科上表現(xiàn)不佳,尤其在物理上。
高考全國(guó)卷滿分為750分。復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院碩士研究生宗一告訴看看新聞Knews記者,“綜合歷年得分情況,ChatGPT做文科卷的得分會(huì)更高一些,接近400分;理科題的話,只有300分出頭。”。
對(duì)于ChatGPT“文強(qiáng)理弱”的偏科情況,該項(xiàng)目的負(fù)責(zé)人、復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬解釋說(shuō),與文科試題側(cè)重考察常識(shí)不同,理科試題更關(guān)注邏輯推理能力,這恰恰是目前通用人工智能模型的短板。
據(jù)悉,通過(guò)對(duì)超過(guò)1萬(wàn)億個(gè)人類詞匯和1700億個(gè)模型參數(shù)進(jìn)行高效迭代訓(xùn)練,ChatGPT具備強(qiáng)大的自我學(xué)習(xí)、推理和歸納總結(jié)能力。既然如此,為何它的“高考”成績(jī)卻不太理想呢?
邱錫鵬認(rèn)為,一方面是因?yàn)楦呖荚囶}確實(shí)有難度;另一方面,測(cè)試成績(jī)與評(píng)價(jià)方式相關(guān)?!霸缙谖覀儾捎玫氖侨斯ぴu(píng)分,發(fā)現(xiàn)ChatGPT的水平大概可以達(dá)到500分。現(xiàn)在我們使用了更嚴(yán)格的方式,也就是機(jī)器評(píng)分,所以成績(jī)有一定的波動(dòng)?!?/p>
值得注意的是,此次測(cè)試的版本為ChatGPT-3.5。隨著該模型不斷升級(jí)迭代,它的能力會(huì)越來(lái)越強(qiáng)。此次測(cè)試除了了解ChatGPT的高考水平外,研究團(tuán)隊(duì)還有一個(gè)更大膽的設(shè)想。
“我們構(gòu)造一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集可以用來(lái)衡量不同大型語(yǔ)言模型的效果。因?yàn)楝F(xiàn)在不同的公司、單位、機(jī)構(gòu)都在做自己的大模型,那么就是說(shuō)我們就要有一個(gè)客觀的評(píng)價(jià)標(biāo)準(zhǔn)。大家都說(shuō)自己的模型水平可以達(dá)到ChatGPT的百分之七八十,到底怎么樣,需要有一個(gè)客觀的測(cè)試。我認(rèn)為高考評(píng)測(cè)是比較客觀綜合的一種測(cè)試方式?!鼻皴a鵬表示,未來(lái)該數(shù)據(jù)集將大有可為。
(看看新聞Knews記者:周智敏 徐瑋)
劍網(wǎng)行動(dòng)舉報(bào)電話:12318(市文化執(zhí)法總隊(duì))、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評(píng)論
暫無(wú)評(píng)論,快來(lái)發(fā)表你的評(píng)論吧