規(guī)模是做好生成式人工智能的撒手锏,大數(shù)據(jù)、大模型和大算力對(duì)于生成式人工智能缺一不可。”在近日舉行的第七屆數(shù)字中國(guó)峰會(huì)之中國(guó)移動(dòng)人工智能生態(tài)大會(huì)上,中國(guó)工程院院士、鵬城實(shí)驗(yàn)室主任、北京大學(xué)博雅講習(xí)教授高文表示。高文院士回顧了人工智能發(fā)展的三次浪潮,并對(duì)影響當(dāng)下生成式人工智能發(fā)展的關(guān)鍵因素進(jìn)行了分析。
歷經(jīng)三次浪潮
1956年夏天,美國(guó)達(dá)特茅斯學(xué)院舉行了一場(chǎng)研討會(huì),在會(huì)上麥卡錫首提“人工智能”,標(biāo)志著人工智能元年的到來(lái)。追憶歷史,高文表示,從1956年開始人工智能經(jīng)歷了三次浪潮:以推理研究為主的第一次浪潮,持續(xù)20年左右時(shí)間;以專家系統(tǒng)為主的第二次浪潮,持續(xù)30年左右時(shí)間;以及從2006年開始的第三次浪潮。其中第三次浪潮又包括兩大技術(shù)進(jìn)展:從2009年開始的判別式人工智能,從2018年開始的生成式人工智能。
2009年,華裔科學(xué)家李飛飛和李凱教授提出imageNet(圖像網(wǎng)絡(luò)),一石激起千層浪,業(yè)界八仙過(guò)海各顯神通,紛紛基于imageNet提出各自的判別式人工智能算法,直到2012年深度神經(jīng)元網(wǎng)絡(luò)出現(xiàn),以絕對(duì)優(yōu)勢(shì)令其他算法黯然失色,將百花齊放的格局進(jìn)行收斂。2015年微軟研究院何凱明、孫劍等聯(lián)合提出ResNet(殘差網(wǎng)絡(luò)),又將判別式人工智能帶到了新高度。此后,從深度神經(jīng)網(wǎng)絡(luò)DNN到卷積神經(jīng)網(wǎng)絡(luò)CNN再到循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,深度網(wǎng)絡(luò)快速迭代,不斷走向新的技術(shù)高度。
“判別式人工智能以模式識(shí)別見長(zhǎng),如圖像分類、人臉識(shí)別、智能監(jiān)測(cè)等,如今廣泛應(yīng)用的人臉識(shí)別正是判別式人工智能的應(yīng)用。判別式人工智能與人的對(duì)象認(rèn)知學(xué)習(xí)接近,可以根據(jù)學(xué)習(xí)速度、記憶規(guī)模、判別準(zhǔn)確度判斷其結(jié)果好壞。”高文分析。
大語(yǔ)言模型破解長(zhǎng)語(yǔ)言序列難題
不過(guò),判別式人工智能通過(guò)在神經(jīng)網(wǎng)絡(luò)中輸入大量數(shù)據(jù)進(jìn)行快速判別,擅長(zhǎng)圖像和矩陣識(shí)別,對(duì)于長(zhǎng)語(yǔ)言序列則力不從心。在這樣的形勢(shì)下,大語(yǔ)言模型應(yīng)運(yùn)而生,致力于解決長(zhǎng)語(yǔ)言序列問(wèn)題,而生成式人工智能則是大語(yǔ)言模型的最主要突破。
高文表示,自2018年開始生成式人工智能快速迭代,從大語(yǔ)言模型LLM到ChatGPT再到Sora多模態(tài),萬(wàn)變不離其宗的是底層關(guān)鍵技術(shù)GPT(生成式預(yù)訓(xùn)練模型)。GPT引入注意力機(jī)制,使得一個(gè)長(zhǎng)串中無(wú)論相隔多遠(yuǎn)的兩個(gè)相關(guān)數(shù)據(jù)都能連接在一起,并訓(xùn)練出關(guān)聯(lián)度。“GPT的核心算法是用大量序列做大模型預(yù)訓(xùn)練,關(guān)鍵是注意力機(jī)制。由于GPT算法對(duì)業(yè)界并無(wú)差別,因此具體應(yīng)用效果取決于學(xué)習(xí)速度、記憶規(guī)模、表達(dá)準(zhǔn)確度等。”高文認(rèn)為。
雖然如今ChatGPT如火如荼,但是GPT起初并沒有激起太多漣漪。這是因?yàn)镚PT使用起來(lái)問(wèn)題較多:給出的答案要么過(guò)于簡(jiǎn)單,要么過(guò)于復(fù)雜,要么不合規(guī),存在意識(shí)形態(tài)、文化習(xí)慣、行業(yè)差別等方面的問(wèn)題。
ChatGPT的出現(xiàn)改變了這一現(xiàn)象,使得業(yè)界對(duì)于人工智能的印象和投入力度大為改觀。不過(guò)從底層技術(shù)看,從GPT到ChatGPT并沒有改變,其不同在于:一是ChatGPT增加了InstructionGPT指令,通過(guò)微調(diào)、對(duì)齊和抑制,使得回答更加“人模人樣”;二是引入基于人類反饋的增強(qiáng)學(xué)習(xí)RLHF,解決合規(guī)問(wèn)題和垂應(yīng)用適配等。
大數(shù)據(jù)、大模型和大算力缺一不可
在中國(guó)移動(dòng)人工智能生態(tài)大會(huì)上,中國(guó)移動(dòng)發(fā)布了“萬(wàn)千百”智能基座,其中,“萬(wàn)”指“萬(wàn)”卡互聯(lián)并行加速算力供給,中國(guó)移動(dòng)年內(nèi)將投產(chǎn)3個(gè)近兩萬(wàn)卡超大規(guī)模單體智算中心和12個(gè)區(qū)域智算中心,廣泛升級(jí)1500個(gè)邊緣節(jié)點(diǎn),為全社會(huì)提供澎湃算力。
中國(guó)移動(dòng)在智算中心方面的規(guī)模投入并非個(gè)例,隨著生成式人工智能的發(fā)展,全國(guó)各地多個(gè)智算中心如雨后春筍不斷出現(xiàn),而這背后的原因是人工智能的發(fā)展需要算力支撐。
“生成式人工智能做得好不好,規(guī)模是決性定因素。”高文一語(yǔ)道出其中關(guān)鍵。
高文表示,GPT和Sora等人工智能生成技術(shù)并沒有提出理論革新,與20年前的人工智能神經(jīng)網(wǎng)絡(luò)理論本質(zhì)上并無(wú)差異。生成式人工智能的突破得益于大數(shù)據(jù)、大模型和大算力,這三個(gè)“大”缺一不可。特別是算力,如今千卡是入門級(jí)規(guī)模,要想做大模型必須有萬(wàn)卡級(jí)。
對(duì)于規(guī)模,OpenAI等公司也有深刻見解:如果能用規(guī)模解決問(wèn)題,就無(wú)需動(dòng)用新的算法。不僅如此,OpenAI還提出了“假設(shè)性三公理”,已被AI領(lǐng)域奉為圭臬。
第一條公理,苦澀的教訓(xùn)。多年來(lái)人工智能的研究者們一直試著將人類已知的知識(shí)構(gòu)建到他們的智能體中,但是屢戰(zhàn)屢敗。成功的極少數(shù)案例都是使用規(guī)模計(jì)算,通過(guò)搜索和機(jī)器學(xué)習(xí)完成的。大規(guī)模、大算力和大數(shù)據(jù)是通用人工智能的必要條件。
第二條公理,規(guī)模即所需。一旦選擇了良好且通用的數(shù)據(jù)標(biāo)注、算法,就能夠找到一套通用的規(guī)律,數(shù)據(jù)越多,模型越大,效果就越好,而且這個(gè)規(guī)律在訓(xùn)練之前就可以預(yù)知效果。大規(guī)模是通用人工智能AGI的充分條件,大就是好。
第三條公理,涌現(xiàn)需規(guī)模。隨著規(guī)模的擴(kuò)大、數(shù)據(jù)的增加,大模型一定會(huì)涌現(xiàn)出前所未有的能力,這個(gè)能力可以被所有人看到。
最后,高文總結(jié)表示,判別式人工智能方興未艾,生成式人工智能如火如荼,關(guān)于下一波浪潮業(yè)界也有很多預(yù)測(cè),如無(wú)人駕駛、具身智能、人形機(jī)器等,但總體而言仍不得而知。未來(lái)充滿想象,值得我們期待,也需要業(yè)界有所作為。高文特別提到,中國(guó)的人工智能需要自己的大模型底座,只有這樣才能實(shí)現(xiàn)以中文語(yǔ)料和中國(guó)歷史為基礎(chǔ)的文明傳承。