前段時(shí)間DeepSeek是火爆出圈了,不僅在科技界引起了廣泛的震動(dòng),很多普通人現(xiàn)在也開始在使用DeepSeek,甚至有的政府機(jī)構(gòu)也開始在應(yīng)用上引入了DeepSeek。那大家可能也很好奇,為什么中國(guó)在人工智能時(shí)代會(huì)不斷地有火爆的產(chǎn)品,中國(guó)的整個(gè)科創(chuàng)生態(tài)到底有什么樣的優(yōu)勢(shì)?復(fù)旦大學(xué)中國(guó)研究院的特邀研究員汪濤老師給出了相關(guān)演講。
汪濤老師演講的主題是中文在人工智能時(shí)代的優(yōu)勢(shì)。 DeepSeek之所以爆火,主要并不是它技術(shù)上獲得了突破性的進(jìn)展,而主要是其效率獲得了數(shù)量級(jí)的提升,從而使得它可以在相同性能的情況下,成本可以下降將近二十多倍。之所以如此,是因?yàn)檠邪l(fā)團(tuán)隊(duì)幾乎是將各種可能提升效率的技術(shù)都充分地進(jìn)行了挖掘。比如說更多地采用底層編碼的語(yǔ)言PTX,一般來說越是更底層的編程語(yǔ)言,它的效率就會(huì)越高,但是編程的難度也會(huì)越大。另外還有適當(dāng)?shù)亟档途?,比如采用一個(gè)字節(jié)的8比特浮點(diǎn)運(yùn)算,而不是32比特,從而這就可以成倍地減少存儲(chǔ)量和運(yùn)算量。
這個(gè)在人工智能里面有一個(gè)專業(yè)的術(shù)語(yǔ)是叫量化,另外還有采用蒸餾的方法,可以極大地減少參數(shù)的數(shù)量。另外還有混合專家架構(gòu),專業(yè)術(shù)語(yǔ)叫MoE。多頭潛在注意力技術(shù),這個(gè)專業(yè)的術(shù)語(yǔ)叫MLA。這些技術(shù)本身并不是說完全是DeepSeek獨(dú)創(chuàng)的,原來在美國(guó)人工智能的這個(gè)產(chǎn)業(yè)界的專業(yè)人員也知道這些技術(shù),但為什么DeepSeek把這些技術(shù)充分利用了呢?現(xiàn)在就談一個(gè)大家比較容易理解的,也確實(shí)非常有興趣,有意思的一個(gè)方面:就是中文在人工智能時(shí)代它的技術(shù)優(yōu)勢(shì)。
DeepSeek充分利用了中文的這種優(yōu)勢(shì),所以在它爆火之后,很多人開始關(guān)注到這個(gè)問題。
如果我們回顧一下兩百多年來的歷史,我們對(duì)于中文在現(xiàn)代科技中的作用,是經(jīng)歷了一個(gè)變化的過程的。
在中國(guó)古代,對(duì)周邊在文化上有壓倒性的這樣的優(yōu)勢(shì)。其他地區(qū)對(duì)中國(guó)是非常仰慕的心態(tài)。但隨著中國(guó)在近代的落后,尤其是甲午戰(zhàn)爭(zhēng)中國(guó)失敗了以后,導(dǎo)致很多中國(guó)知識(shí)階層開始反思我們自己,那首先反思的就是我們的文化,也包括自己的語(yǔ)言文字。這種反思很快就發(fā)展到極端了,甚至有人認(rèn)為漢字阻礙了中國(guó)進(jìn)入現(xiàn)代科技文明。也有人認(rèn)為中國(guó)應(yīng)當(dāng)放棄中文的這個(gè)象形文字,方塊字的這樣的一個(gè)基本的形態(tài),要改成拼音的字母文字。
隨著以電子計(jì)算機(jī)為代表的信息技術(shù)出現(xiàn)以后,中文在計(jì)算機(jī)鍵盤輸入上存在一定的困難。因?yàn)橛?jì)算機(jī)的鍵盤它是來自英文的打字機(jī),所以輸入英文當(dāng)然是最簡(jiǎn)單方便的。因此,過去曾經(jīng)認(rèn)為中文阻礙了中國(guó)進(jìn)入現(xiàn)代科技文明的觀點(diǎn)和思潮,在信息技術(shù)時(shí)代又再一次沉渣泛起。但是,二十世紀(jì)八十年代,中國(guó)科技界在漢字輸入上做了大量的工作,在當(dāng)時(shí)被稱為是叫“萬碼奔騰”。這些漢字輸入的工作在很大程度上降低了中文電腦輸入的困難。其中比較著名和主流的有五筆字型輸入法,也叫王碼,是王永民先生發(fā)明的。那么另外一個(gè)常用的輸入法是拼音輸入法。雖然客觀上說,直到今天中文還是比英文等字母文字的鍵盤輸入稍微麻煩那么一點(diǎn)點(diǎn)。但是這些中文輸入法,在很大程度上,已經(jīng)有效解決了中文的計(jì)算機(jī)的輸入問題。甚至在五筆字型這個(gè)輸入法的基礎(chǔ)上,充分地采用詞組輸入以后,它的輸入效率甚至還可以超過英文的輸入。
到了人工智能時(shí)代,這個(gè)情況發(fā)生了很大的逆轉(zhuǎn),為什么中文在人工智能中存在這樣的一個(gè)技術(shù)優(yōu)勢(shì)呢?主要有以下這些原因:
首先是漢字非常的規(guī)整,或者說它非常整齊。漢字無論是書寫還是發(fā)音,它的尺寸都是一樣的,就空間的大小尺寸和它發(fā)音的時(shí)間長(zhǎng)短尺寸都非常整齊。這種規(guī)整對(duì)于計(jì)算機(jī)的處理是非常方便的。比如要進(jìn)行語(yǔ)音識(shí)別,中文每個(gè)字的發(fā)音都是聲母加韻母,發(fā)音的長(zhǎng)度一樣,這樣的話就相對(duì)比較容易區(qū)分出一句話中的每一個(gè)字的發(fā)音。而相比之下,英文一個(gè)單詞的長(zhǎng)度,從一個(gè)字母到十幾個(gè)字母的都有,這樣的字母文字,每個(gè)單詞它發(fā)音的長(zhǎng)度可能都是不一樣的。像英文里面的“祝賀”,是congratulations,這就有15個(gè)字母。我們可能會(huì)好奇,那最長(zhǎng)的英文單詞會(huì)有多少個(gè)字母呢?如果我們到網(wǎng)上去搜索的話,可能會(huì)發(fā)現(xiàn)很多不一樣的答案。還有一個(gè)問題是很多英文的句子,它的發(fā)音會(huì)有連讀的情況,比如說what’s your name,那么這就更加難以區(qū)分出每個(gè)單詞,雖然現(xiàn)在這些問題在人工智能的語(yǔ)音識(shí)別中都已經(jīng)解決了,但是它解決的技術(shù)難度,確實(shí)它要比中文要困難很多,需要更大的運(yùn)算量,幾乎所有的字母文字都存在這個(gè)問題。
第二個(gè)是漢字的信息密度一般比字母文字要高。這個(gè)體現(xiàn)在很多方面。漢字它是一個(gè)表意文字,內(nèi)涵很豐富,可以用詞組、成語(yǔ)等很少的漢字就能表達(dá)非常豐富的含義。尤其像文言文,它的信息密度就更高了。對(duì)于人工智能來說,最終它體現(xiàn)是相同含義的一段語(yǔ)言或文字,在計(jì)算機(jī)中間需要有多少存儲(chǔ)量和計(jì)算量。一般來說,中文的存儲(chǔ)量和計(jì)算量它都是最少的。如果我們對(duì)比一下書面相同內(nèi)容的中文和英文或其他的字母文字,中文一般都是頁(yè)數(shù)或者它的幅面是最少的。但我們要注意,這個(gè)并不是說完全絕對(duì)的,因?yàn)橛⑽囊灿腥思业膬?yōu)點(diǎn),比如說它相對(duì)比較嚴(yán)謹(jǐn),所以在比較嚴(yán)謹(jǐn)?shù)囊恍┱撐幕蚍晌臅锩?,有可能英文的信息密度與中文的差異就沒有那么大了。但是由于絕大多數(shù)情況下,中文的信息密度的確是比較高的,所以在人工智能的訓(xùn)練中,相同內(nèi)容中文訓(xùn)練的存儲(chǔ)量和計(jì)算量就會(huì)比較少。這是中文效率優(yōu)勢(shì)的第二個(gè)體現(xiàn)。
第三個(gè)是它的穩(wěn)定性。漢字是相對(duì)比較穩(wěn)定的一種語(yǔ)言,我們今天所使用的漢字與幾千年前的甲骨文大都是非常接近的。對(duì)于新出現(xiàn)的事物,漢字是通過常用的一些字去建立新的詞組來進(jìn)行適應(yīng),并且這樣的詞組今天天然地會(huì)存在有規(guī)律性分類的這樣的一些特性。比如說是機(jī)器這個(gè)里面的機(jī)這個(gè)字,可以組成拖拉機(jī)、播種機(jī)、飛機(jī)、紡織機(jī)、發(fā)動(dòng)機(jī)、蒸汽機(jī)、計(jì)算機(jī),如此之多的機(jī)器漢字都可以用機(jī)這個(gè)形成詞組來表達(dá)。漢字的穩(wěn)定性對(duì)人工智能帶來的好處是訓(xùn)練的參數(shù)可以更少,有效的重復(fù)訓(xùn)練可以更多,那么準(zhǔn)確性就更高。
相比之下,英文每年都會(huì)增加大量的新詞,常用的單詞都可能會(huì)發(fā)生變化。當(dāng)然我們提到中文在人工智能時(shí)代的技術(shù)優(yōu)勢(shì),并不是要把它過度地拔高,只是從以上不同技術(shù)時(shí)代,中文技術(shù)優(yōu)劣勢(shì)的變化過程中,希望我們能更客觀地看待我們中國(guó)自己的文化。在進(jìn)入人工智能時(shí)代,我們更應(yīng)該發(fā)揮中文的優(yōu)勢(shì),使得中國(guó)在人工智能時(shí)代可以獲得更快的發(fā)展,并且有更好的經(jīng)濟(jì)效益。從我們對(duì)自己語(yǔ)言的態(tài)度變化中,我們應(yīng)該獲得一些啟示:就是如何用科學(xué)的態(tài)度去看待自己的文化。所謂利弊或者優(yōu)勢(shì)、劣勢(shì),它永遠(yuǎn)是相對(duì)特定的要求來說的。我們不能說遇到某種劣勢(shì)就簡(jiǎn)單地去否定我們自己的文化,也不能遇到優(yōu)勢(shì)就自我膨脹,科學(xué)的態(tài)度就是如果它是劣勢(shì),我們就應(yīng)該想辦法通過一些技術(shù)改進(jìn),去消除或者減少這種劣勢(shì)。如果是優(yōu)勢(shì)呢,我們就應(yīng)該想辦法去充分地開發(fā)利用它,即使是潛在的優(yōu)勢(shì),如果你不去充分地開發(fā)利用它也不會(huì)自動(dòng)地體現(xiàn)出來,或者說它體現(xiàn)得不夠充分。
編輯: | 劉清揚(yáng) |
責(zé)編: | 范燕菲 |
劍網(wǎng)行動(dòng)舉報(bào)電話:12318(市文化執(zhí)法總隊(duì))、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評(píng)論
暫無評(píng)論,快來發(fā)表你的評(píng)論吧