《中國(guó)人工智能大模型地圖研究報(bào)告》指出,截至 2023 年 5 月底,國(guó)產(chǎn)超 10 億參數(shù)的 AI 大模型已達(dá) 79 個(gè),從全球分布來看,美中兩國(guó)大幅領(lǐng)先,超過全球總數(shù)的 80%。
隨著大模型發(fā)展成為 " 持久戰(zhàn) ",底層算力比拼也將在很大程度上決定大國(guó)博弈的終章。
因此,在 ChatGPT 出現(xiàn)后的九個(gè)多月里,已有不少大模型依托超大規(guī)模國(guó)產(chǎn)化算力底座,打造一條 " 算力—數(shù)據(jù)—算法—應(yīng)用 " 的全鏈條 AI 研發(fā)體系。
以網(wǎng)絡(luò)與計(jì)算技術(shù)見長(zhǎng)的陳紅陽,目前正帶領(lǐng)之江實(shí)驗(yàn)室圖計(jì)算研究中心投身到當(dāng)前一輪的大模型浪潮中。
" 一是研發(fā)基于圖計(jì)算的預(yù)訓(xùn)練大模型,二是進(jìn)行國(guó)產(chǎn)硬件適配,打造圖智能計(jì)算系統(tǒng)。這就是我們現(xiàn)在常說的‘軟硬件協(xié)同’。"
陳紅陽是網(wǎng)絡(luò)信息背景,曾在西南交通大學(xué)、中科院計(jì)算所、寧波中科集成電路設(shè)計(jì)中心、日本東京大學(xué)、UCLA 大學(xué),日本富士通研究所,參與過物聯(lián)網(wǎng)理論和算法研究、無線通信系統(tǒng)研發(fā),和信息與通信(ICT)技術(shù)國(guó)際標(biāo)準(zhǔn)化工作。
2020 年 7 月,陳紅陽回國(guó)加入之江實(shí)驗(yàn)室,他的研究重心也隨之變遷,轉(zhuǎn)向 " 智能計(jì)算 "(算力)。2022 年中,之江實(shí)驗(yàn)室和華東科技大學(xué)成立了圖計(jì)算聯(lián)合研究中心,目標(biāo)是打造軟硬件協(xié)同的圖計(jì)算的系統(tǒng),由陳紅陽擔(dān)任該中心副主任。
據(jù)悉,目前研究中心已推出 " 朱雀圖預(yù)訓(xùn)練大模型 ",以及高效圖計(jì)算平臺(tái) " 之江朱雀平臺(tái) "。該平臺(tái)能夠一站式賦能醫(yī)藥制造和生物育種等領(lǐng)域,并在今年與一家藥企簽署合作協(xié)議。
近日,雷峰網(wǎng)《醫(yī)健 AI 掘金志》推出《醫(yī)療大模型十人談》系列,探究國(guó)產(chǎn) AI 大模型如何邁向生態(tài)建設(shè),以及不同機(jī)構(gòu)在轉(zhuǎn)化落地上的布局和探索。以下是和陳紅陽的對(duì)話內(nèi)容,我們做了不改變?cè)獾木庉嬇c整理。
《醫(yī)健 AI 掘金志》:ChatGTP 加速了 " 計(jì)算智能時(shí)代 " 的到來。目前你帶領(lǐng)團(tuán)隊(duì)所做的 " 之江朱雀 " 平臺(tái),集齊了 GPT、圖計(jì)算、加速藥物發(fā)現(xiàn) 3 種技術(shù)能力,是否有過往經(jīng)歷的背書?
陳紅陽:目前我的研究線分為兩塊,來到之江實(shí)驗(yàn)室之前,我一直聚焦在網(wǎng)絡(luò)信息領(lǐng)域,當(dāng)時(shí)我和團(tuán)隊(duì)一起構(gòu)建了大型 ICT(信息通信技術(shù))系統(tǒng),像物聯(lián)網(wǎng)和 5G 系統(tǒng)。
2007 年到 2011 年,我博士去往日本東京大學(xué),參與無線傳感器網(wǎng)絡(luò)理論和算法研究。期間我去往美國(guó) UCLA 大學(xué)擔(dān)任訪問學(xué)者,在 Ali. H. Sayed 教授領(lǐng)導(dǎo)的實(shí)驗(yàn)室主要從事分布式信號(hào)處理研究。
而后進(jìn)入日本富士通研究所工作過十年(2011-2020)。大概是在 2017,2018 年,我參與了一些大數(shù)據(jù)平臺(tái)的研發(fā)工作,特別是為運(yùn)營(yíng)商的數(shù)據(jù)進(jìn)行挖掘和分析,從那時(shí)起,我慢慢從原來做的 " 連接 " 偏向了 " 計(jì)算 ",更確切是 " 智能計(jì)算 "。
同時(shí)期,之江實(shí)驗(yàn)室在 2017 年成立,加上我本身是浙江人,有過幾次接觸,所以我 2020 年 7 月回國(guó)并正式入職。因?yàn)槲矣芯W(wǎng)絡(luò)、計(jì)算、數(shù)據(jù)分析的背景,最初我是在 " 智能網(wǎng)絡(luò) " 研究中心,后來隨著之江實(shí)驗(yàn)室主攻 " 智能計(jì)算 " 這一戰(zhàn)略方向,我便做起了這方面的項(xiàng)目。
但我是怎么做起了圖計(jì)算呢?
大數(shù)據(jù)時(shí)代,圖計(jì)算已經(jīng)成為海量數(shù)據(jù)高效分析和挖掘的基礎(chǔ)性使能技術(shù),是近年包括美國(guó)在內(nèi)的各國(guó)在智能計(jì)算領(lǐng)域力爭(zhēng)的制高點(diǎn)。
為提升實(shí)驗(yàn)室在圖計(jì)算領(lǐng)域的研究實(shí)力和戰(zhàn)略地位,2022 年 6 月,之江實(shí)驗(yàn)室聯(lián)合華中科技大學(xué)于共同組建 " 圖計(jì)算聯(lián)合研究中心 ",預(yù)期實(shí)現(xiàn)圖計(jì)算從理論到系統(tǒng)、從原型到芯片、從專用到通用的逐步落地。
去年 ChatGPT 一躍成為全球創(chuàng)新的焦點(diǎn),我認(rèn)為自己需要順勢(shì)而為,發(fā)揮我在網(wǎng)絡(luò)和計(jì)算領(lǐng)域多年來的積累。
一是研發(fā) " 基于圖計(jì)算的預(yù)訓(xùn)練大模型 ",二是進(jìn)行 " 國(guó)產(chǎn)硬件適配 ",打造 " 圖智能計(jì)算系統(tǒng) "。這也是我們現(xiàn)在常說的 " 軟硬件協(xié)同 "。
目前大家所看到的之江朱雀平臺(tái),已經(jīng)接入了我們的 " 朱雀圖預(yù)訓(xùn)練大模型 "、集成了很多傳統(tǒng)的圖深度學(xué)習(xí)方法及自研的圖學(xué)習(xí)算法、而且已經(jīng)適配了華為的昇騰和鯤鵬芯片。因此在平臺(tái)上面,我們可以做很多科學(xué)計(jì)算問題,醫(yī)藥研發(fā)是其中很重要的一塊。
" 大規(guī)模高效圖計(jì)算平臺(tái) " 僅僅只是我們團(tuán)隊(duì)的一小步。從芯片、編程框架,到軟硬件平臺(tái)一體化設(shè)計(jì),最后打造一臺(tái)全國(guó)產(chǎn)自主可控的圖計(jì)算機(jī),才是我們圖計(jì)算中心的目標(biāo)。
《醫(yī)健 AI 掘金志》:國(guó)內(nèi)外企業(yè)更多是將圖計(jì)算技術(shù)研究消費(fèi)行為、電信詐騙、金融貿(mào)易等,你們?yōu)楹螌⑦@一技術(shù)用于生物制藥?
陳紅陽:確實(shí),近年來圖計(jì)算技術(shù)已經(jīng)擴(kuò)展到了非常多的領(lǐng)域。2021 年 7 月,Alphafold2 掀起了一股計(jì)算制藥的浪潮。我也是那時(shí)候開始著手將圖計(jì)算技術(shù)應(yīng)用于生物制藥領(lǐng)域。
從技術(shù)原理上說,藥物分子可以視為由原子和化學(xué)鍵構(gòu)成的圖,比如它的原子可以看成一個(gè) " 節(jié)點(diǎn) ",化學(xué)鍵可以看作是 " 邊 ",因此圖計(jì)算技術(shù)能很好地應(yīng)用于該領(lǐng)域,幫助預(yù)測(cè)化合物的性質(zhì)、相互作用、與靶點(diǎn)之間的相互作用等。目前我們團(tuán)隊(duì)開發(fā)的朱雀圖預(yù)訓(xùn)練大模型,主要是用圖結(jié)構(gòu)數(shù)據(jù)加速藥物發(fā)現(xiàn)。
為什么一定要重新開發(fā)這樣一款垂直大模型,根本原因是 ChatGPT 直接應(yīng)用到生物制藥領(lǐng)域,還存在很多不足:
一是無法把控可信性、二是在特定領(lǐng)域表現(xiàn)差、三是成本高昂。
如 Bert 和 ChatGPT 等,已在自然語言領(lǐng)域展現(xiàn)出了驚人的效果,但應(yīng)用到生物制藥領(lǐng)域則無法應(yīng)對(duì)生物領(lǐng)域的非歐結(jié)構(gòu)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡(luò)中的過平滑問題、數(shù)據(jù)標(biāo)簽稀缺、如何融入領(lǐng)域知識(shí),以及如何解決大數(shù)據(jù)大模型的工程問題等。
因此,我們必須要打造一款我們自己的 " 生物 GPT"。而且不能一味地堆數(shù)據(jù)量,還要將藥學(xué)的領(lǐng)域知識(shí)嵌入大模型中。
從這點(diǎn)講,我們的朱雀圖預(yù)訓(xùn)練大模型,是 " 知識(shí)圖譜 + 圖計(jì)算 + 大模型 " 三者互補(bǔ)而來,能夠很大程度上規(guī)避大模型 " 胡言亂語 " 的幻覺問題。
那么,在大量分子數(shù)據(jù)上完成自監(jiān)督預(yù)訓(xùn)練任務(wù)后,未來只需要在將得到的編碼器在下游任務(wù)上微調(diào)。如 DDI(藥物間的相互作用)、DTI(藥物與蛋白質(zhì)之間的相互作用)和 MPP(藥物性質(zhì)預(yù)測(cè)) 等,只需要做出很小的調(diào)整。整個(gè)流程沿襲了大模型的思路。
最終所有的功能都會(huì)集成在之江朱雀平臺(tái)上,我們會(huì)開放模型接口、算法、數(shù)據(jù)、算力,提供一個(gè)一站式的平臺(tái)。
《醫(yī)健 AI 掘金志》:所以醫(yī)藥研發(fā)只是朱雀圖計(jì)算平臺(tái)的其中一個(gè)應(yīng)用,你們?cè)谘邪l(fā)過程中遇到哪些技術(shù)和工程挑戰(zhàn)?
陳紅陽:國(guó)內(nèi)將圖計(jì)算大模型應(yīng)用到醫(yī)藥領(lǐng)域的團(tuán)隊(duì)并不多,大部分還是集中在金融、電商,以及社交網(wǎng)等領(lǐng)域。我們團(tuán)隊(duì)里最初沒有藥物化學(xué)背景的人,全靠自己去摸索,過程中寫了一本白皮書 --《之江實(shí)驗(yàn)室智能計(jì)算 " 數(shù)字反應(yīng)堆 " 白皮書——計(jì)算制藥篇》。當(dāng)然我們的理解沒有那么深,目的是從計(jì)算的角度理解制藥的東西,助力 AI4SCI。
朱雀圖計(jì)算平臺(tái)的研發(fā)過程中,主要有 3 個(gè)關(guān)鍵技術(shù)難題:
1) 建立知識(shí)融合的高效自適應(yīng)圖學(xué)習(xí)平臺(tái),研發(fā)高效圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜算法,解決科學(xué)圖計(jì)算和稀疏學(xué)習(xí)的知識(shí)融合問題;
2) 針對(duì)多學(xué)科科學(xué)圖學(xué)習(xí)中的算力與算子適配不足,及國(guó)產(chǎn)芯片集群的軟硬件不兼容問題,研發(fā)適配的智能圖算子,提高典型算法算子性能能 1 倍以上。
3) 針對(duì)多學(xué)科科學(xué)圖學(xué)習(xí)中的表示困難,圖架構(gòu)自動(dòng)學(xué)習(xí)能力不足,及圖生成缺乏領(lǐng)域知識(shí)等問題,利用多學(xué)科的預(yù)訓(xùn)練模型和領(lǐng)域知識(shí),研制圖架構(gòu)搜索、圖生成學(xué)習(xí)、圖表示學(xué)習(xí)及知識(shí)圖譜技術(shù)和預(yù)測(cè)算法軟件。
此外,數(shù)據(jù)是一個(gè)非技術(shù)的難題。
我們自己有大型細(xì)胞測(cè)序儀,也和良渚實(shí)驗(yàn)室的測(cè)序團(tuán)隊(duì)合作,他們產(chǎn)生的數(shù)據(jù)會(huì)到我們這邊來。而且作為國(guó)家戰(zhàn)略科技力量,最終平臺(tái)和數(shù)據(jù)都是開放開源的。
現(xiàn)在面臨的較大問題是靶標(biāo)發(fā)現(xiàn)和醫(yī)院數(shù)據(jù),能否通過分布式聯(lián)邦學(xué)習(xí)的方式共同使用。這塊我們拿到的只是少量的開源數(shù)據(jù)。
《醫(yī)健 AI 掘金志》:國(guó)內(nèi)外大模型發(fā)展路徑有何不同?
陳紅陽:在中美大模型的發(fā)展過程中,美國(guó)更注重技術(shù)的研發(fā)與創(chuàng)新,并在硬件和深度學(xué)習(xí)框架等方面取得了重要進(jìn)展。
例如 NVIDIA、Google 推出的適用于深度學(xué)習(xí)的專用芯片 GPU、TPU,還有包括 TensorFlow、PyTorch 在內(nèi)的開源框架,都處于世界領(lǐng)先地位。去年英偉達(dá)還推出了生科領(lǐng)域的大語言模型的框架 BioNemo。
相比之下,中國(guó)更聚焦在人工智能的應(yīng)用層面,探索如何實(shí)現(xiàn)其商業(yè)變現(xiàn)。所以未來會(huì)有三大生態(tài)層:基礎(chǔ)模型層、中間層和應(yīng)用層。
最底層當(dāng)然機(jī)會(huì)巨大,天花板會(huì)非常高,但風(fēng)險(xiǎn)也是最大的,因?yàn)槠脚_(tái)公司一定是少數(shù),好比很多操作系統(tǒng)最后只剩下 iOS 和安卓。但目前芯片緊缺、國(guó)產(chǎn)框架的生態(tài)圈不足、交叉學(xué)科人員的匱乏等,導(dǎo)致智能計(jì)算底層關(guān)鍵技術(shù)還是缺失的。
如果是做應(yīng)用層,風(fēng)險(xiǎn)就沒有那么大,而且每一個(gè)生產(chǎn)力領(lǐng)域都可能成長(zhǎng)出垂直領(lǐng)域的領(lǐng)先公司,但規(guī)??赡軣o法與平臺(tái)公司相比。
但國(guó)外開源大模型多于國(guó)內(nèi),造成一些公司拿著國(guó)外的開源代碼進(jìn)行 " 套殼 " 和微調(diào),并不利于生態(tài)建設(shè)。
《醫(yī)健 AI 掘金志》:現(xiàn)如今有這么多機(jī)構(gòu)做大模型,會(huì)不會(huì)陷入同質(zhì)化內(nèi)卷?
陳紅陽:確實(shí),越來越多的機(jī)構(gòu)開始涉足大模型的研發(fā)和應(yīng)用,截至今年 5 月底,中國(guó)研發(fā)的大模型數(shù)量排名全球第二,僅次于美國(guó),國(guó)內(nèi)超 10 億參數(shù)的大模型至少 79 個(gè)。這種情況下可能會(huì)導(dǎo)致同質(zhì)化內(nèi)卷。
自然語言處理、計(jì)算機(jī)視覺、推薦系統(tǒng),都是當(dāng)下大模型的熱門領(lǐng)域,當(dāng)研究方向都集中在這些領(lǐng)域,再加上相似的訓(xùn)練數(shù)據(jù)集和算法選擇,導(dǎo)致研發(fā)的大模型缺乏差異性和創(chuàng)新性。
而且這也消耗了大量社會(huì)資源。整體上國(guó)內(nèi)大模型尚處于追趕階段,面臨一些挑戰(zhàn),如核心算法不成熟、訓(xùn)練數(shù)據(jù)質(zhì)量低、實(shí)際落地效果不理想、生態(tài)圈不健全等問題。
當(dāng)然,也有學(xué)者開始關(guān)注新的研究方向,比如優(yōu)化訓(xùn)練算法與架構(gòu),探索大模型的可解釋性等。尤其是可解釋性對(duì)于自動(dòng)駕駛、智能家居、金融風(fēng)控、生命科學(xué)等應(yīng)用場(chǎng)景來說至關(guān)重要。
《醫(yī)健 AI 掘金志》:在大模型研究中,以企業(yè)為主導(dǎo)的方式,對(duì)比以實(shí)驗(yàn)室為主導(dǎo)的方式,會(huì)更有優(yōu)勢(shì)嗎?
陳紅陽:正如 " 閉源摧毀 UNIX,開源成就 Linux。"
實(shí)驗(yàn)室為主導(dǎo),使得開發(fā)人員可以騰出時(shí)間來解決尚未真正意義上的問題與解決,實(shí)現(xiàn)技術(shù)社區(qū)內(nèi)自然的分工協(xié)作?,F(xiàn)在市面上符合中國(guó)用戶習(xí)慣的高質(zhì)量大模型是十分欠缺的,這也是很多大型實(shí)驗(yàn)室決定開源的原因。
如果是純粹企業(yè)主導(dǎo),大模型更多走向閉源。其數(shù)據(jù)一般是私有的,更注重落地。但他們有幾億的或者幾十億的經(jīng)費(fèi),直接租用一年的算力資源,可以一年從頭到尾不間斷訓(xùn)練。
因?yàn)榇竽P偷挠?xùn)練本質(zhì)上就是一個(gè)超大的訓(xùn)練任務(wù),比如在 1000 張(或更多)GPU 卡上跑兩、三個(gè)月。測(cè)算了一下,購買 1000 張 H800 按市場(chǎng)價(jià),就要投入 3 億資金。即便是租用算力也容易以億元為計(jì)。通常實(shí)驗(yàn)室支撐不了如此大的成本。
《醫(yī)健 AI 掘金志》:大模型 " 智能涌現(xiàn) " 令人興奮,是否導(dǎo)致存在一些發(fā)展誤區(qū)?或者說大模型存在一定泡沫?
陳紅陽:過于追求參數(shù)規(guī)模,是大模型發(fā)展中存在的一大誤區(qū)。
僅僅增加模型的規(guī)模并不一定能夠帶來更好的性能,模型性能和其它許多因素相關(guān),比如網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量等。一味地堆疊參數(shù)量可能會(huì)帶來一些問題:
1,過擬合風(fēng)險(xiǎn)。導(dǎo)致模型泛化能力下降,雖然在訓(xùn)練集上表現(xiàn)良好,但在下游任務(wù)上表現(xiàn)不佳。
2,缺乏解釋性。大量參數(shù)使得模型的決策過程難以解釋,也就是我們常說的 " 黑盒問題 ",這使得大模型缺乏可解釋性和可信性。
3,資源不足。增加參數(shù)量可能會(huì)增加存儲(chǔ)、傳輸和計(jì)算資源的負(fù)擔(dān)。因此,在選擇模型規(guī)模時(shí),需要權(quán)衡具體任務(wù)要求、可用資源和訓(xùn)練數(shù)據(jù)大小等因素。
但國(guó)內(nèi)大模型還應(yīng)該繼續(xù)向前發(fā)展,太早的剎車反倒有可能形成泡沫。
《醫(yī)健 AI 掘金志》:下半年,生物垂類大模型的技術(shù)演變方向是怎樣的?
陳紅陽:一定程度上,未來的大模型應(yīng)用趨勢(shì)一定是 " 大模型 + 知識(shí) + 行業(yè)應(yīng)用 " 的模式。大模型將成為未來 AI 產(chǎn)品的操作系統(tǒng),將會(huì)催生全新的 " 模型即服務(wù) " 產(chǎn)業(yè)。
目前的大模型能夠?yàn)橛脩籼峁┗A(chǔ)的知識(shí)服務(wù),它就像一個(gè)不那么準(zhǔn)確的知識(shí)庫或搜索引擎,只能提供一些很基礎(chǔ)的服務(wù),而且無法保證準(zhǔn)確、可控和可解釋,這將極大限制它在實(shí)際場(chǎng)景的應(yīng)用。
因?yàn)橛脩魺o法接受胡說八道、不準(zhǔn)確、不負(fù)責(zé)任的服務(wù)。
所以,必須加上知識(shí),讓大模型可控、可追溯、可解釋,并且能夠更精準(zhǔn)地解決更專業(yè)的問題。
最后,大模型結(jié)合具體的應(yīng)用才能讓智能算法和平臺(tái)落地,只有滿足用戶各種各樣的個(gè)性化需求才能產(chǎn)生價(jià)值。