近日,關(guān)注深圳創(chuàng)新驅(qū)動與轉(zhuǎn)型升級的媒體采訪團(人民日報、新華社、光明日報、經(jīng)濟日報、中央人民廣播電臺、中國國際廣播電臺、中央電視臺、中新社、中國日報以及南方日報、廣東電視臺等媒體的60余位編輯記者)調(diào)研了位于深圳鹽田區(qū)的華大基因。
華大基因首席執(zhí)行官CEO楊爽透露,華大基因組建和運營的深圳國家基因庫一期建設已經(jīng)完工,“內(nèi)部裝修中,裝修完畢即可入駐。”該基因庫將打造“三庫兩平臺”,存儲、管理、利用好我國遺傳資源,為我國生命科學和生物經(jīng)濟發(fā)展提供支撐平臺。
梅永紅
此前,關(guān)于國家基因庫最為知名的新聞,則是去年9月,原山東濟寧市委副書記、市長梅永紅加盟華大基因,并出任深圳國家基因庫負責人。這一事件先后被各大媒體爭先報道,針對梅永紅的這一任職,華大基因董事長汪建曾公開表示,梅永紅曾有農(nóng)業(yè)部與科技部二十多年的工作經(jīng)歷,由他出任國家基因庫負責人,既符合他自身的興趣與志向,又能施展長期積累的科技管理經(jīng)驗、戰(zhàn)略運籌和綜合能力。
梅永紅接受媒體采訪時也曾表示,個人抱負能夠與國家戰(zhàn)略結(jié)合、生物經(jīng)濟前景中亦藏有巨大潛力,能夠用自己的能力為華大基因做一些工作、為中國的生物經(jīng)濟產(chǎn)業(yè)做一些有價值的事情,我就非常滿足了。
梅永紅眼中的深圳國家基因庫
2011年1月,國家發(fā)改委批復同意深圳依托華大基因組建國家基因庫。同年10月,國家發(fā)改委、財政部、工業(yè)和信息化部以及當時的衛(wèi)生部批復,深圳國家基因庫由深圳華大基因組建及運營,是國家“十二五”重點基礎(chǔ)能力建設項目。其位于深圳市大鵬街道下沙片區(qū)“禾塘仔”地塊,建設規(guī)模約116000平米,建筑外形基本參照了云南元陽哈尼梯田,分兩期建設,是繼美國國家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數(shù)據(jù)庫(DDBJ)之后的第四個國家級基因庫,
此前,梅永紅在即將接掌深圳國家基因庫時曾表示深圳國家基因庫被定義為“官辦民營”、“國家購買服務”的模式。”社會有能力、有資源投入一個平臺運營的時候,政府更多是提供政策的支持和提供資金購買服務,這樣效率會更高。在建設階段,國家基因庫的運營資金來自國家發(fā)改委、深圳市和華大基因三方,其中國家層面的資金占大頭,由發(fā)改委方面投入。按照目前規(guī)劃,基因庫投入使用后將由華大基因進行運行維護。
華大是在國家的支持下,構(gòu)建一個國家級平臺,跟社會上現(xiàn)有的各種機構(gòu)合作,形成一個開放、合作的平臺。這樣的一個平臺,不是華大一家能夠做得了的,一定要有國家的支持。這件事情首先是國家需要。國家需要平臺來支撐未來的生物經(jīng)濟。華大基因目前有著很強的基因解讀能力,在世界上也處于前列,我想這是國家選擇華大的重要原因。
2016年,除了總部建設之外,國家基因庫最需要的是足夠的樣本。借助國家和各部委的支持,盡快形成基因庫的聯(lián)盟,比如中科院、各大學和其他擁有自己基因庫的機構(gòu)。目前的基因資源都局限在各個機構(gòu)內(nèi)部,他希望能夠整合這些資源使它們可以被資源共享、開放利用。
我相信,國家立這個項,不僅僅是要建一個基因庫,更重要的是要建一個基因共享機制。“梅永紅解釋說,現(xiàn)在機構(gòu)們的開放度都不夠,基因資源一般是政府所有、機構(gòu)所有,甚至研究組個人所有,要推動它們之間進行開放合作,非常困難。
因此,要完成基因聯(lián)盟、實現(xiàn)基因共享,除了橫向與各個擁有基因資源的結(jié)構(gòu)溝通,梅永紅更重要的工作是要縱向與各部委進行協(xié)調(diào)溝通,進行”很好的頂層設計“,實現(xiàn)制度上的突破。
對這一涉及多方面政策和多部委的復雜制度突破該如何實現(xiàn),梅永紅說自己”一直在思考“:”我相信能夠突破。今天世界上很多國家都能做到,為什么我們就做不到呢?我不相信。“他認為,由社會系統(tǒng)來操盤這個國家級平臺,少了很多部門和系統(tǒng)的局限—可以用很多的機制去實現(xiàn)目標,比如市場機制、知識產(chǎn)權(quán)的機制、利益機制、人才機制等。
關(guān)于國家基因庫
國家基因庫的基本構(gòu)成
根據(jù)的介紹,國家基因庫著眼于為本國生命科學研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務平臺,儲存和管理本國特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個民族生存與發(fā)展的命脈,具有國家水平、服務國家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項目。
國家基因庫集生物資源樣本庫、生物信息數(shù)據(jù)庫和生物資源信息網(wǎng)絡為一體,通過建立高水平的生物資源樣本庫、高效的生物信息數(shù)據(jù)處理、存儲與管理系統(tǒng)以及覆蓋廣泛的聯(lián)盟網(wǎng)絡,有效保護、合理開發(fā)和利用我國生物資源及基因數(shù)據(jù)資源,充分調(diào)動、發(fā)揮及整合各地區(qū)、各單位的資源和技術(shù)優(yōu)勢,積極開展廣泛交流與合作,搭建信息資源研究開發(fā)的基礎(chǔ)性支撐平臺,提高我國生命科學研究水平和國際影響力,促進我國生物產(chǎn)業(yè)發(fā)展。
國家基因庫構(gòu)成
資源樣本的應用
國家基因庫以生物資源為依托,形成資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實現(xiàn)大資源、大數(shù)據(jù)、大科學、大產(chǎn)業(yè)的整合與應用。應用方向主要包括:人類健康、新型農(nóng)業(yè)、物種多樣性及生態(tài)環(huán)境保護。
基因庫資源樣本的應用
1、人類健康:數(shù)字健康管理、臨床檢測的準確率、疾病防治及生物制藥的針對性需要大樣本量數(shù)據(jù)的支撐,以便驗證技術(shù)的可靠性,確定最佳策略,同時充分考慮人群差異。
2、新型農(nóng)業(yè):動植物分子育種、功能基因的發(fā)掘、新能源的開發(fā)利用,需要以大量物種資源為基礎(chǔ),搭建大型基因型和表型數(shù)據(jù)庫,為育種者和開發(fā)者提供完整的信息指導,加快育種和開發(fā)進程。
3、物種多樣性及生態(tài)環(huán)境保護:通過收集和保存各種有價值的種質(zhì)資源,建立大規(guī)模的資源庫或保護區(qū),保護物種的多樣性,并闡明外界條件和生物之間的相互作用,對生態(tài)環(huán)境起到保護和監(jiān)測作用。
基因庫主要進展及科研成果
國家基因庫:生物資源庫
生物資源庫包括人類和非人兩種資源類型,其中非人資源方向包括動物細胞資源、植物種質(zhì)資源、微生物資源和海洋資源四大類型。通過收集人和非人兩個方向的不同來源和形式的資源樣本(動、植物活體細胞,微生物菌株,人類組織細胞,重要瀕危物種,血液和小分子等),形成大規(guī)模、高質(zhì)量、規(guī)范化的樣本資源庫。確保我國生物資源尤其是我國的特有物種、瀕危物種、具有重要經(jīng)濟價值和科學研究價值的物種以及生態(tài)系統(tǒng)物種種群的安全性,有效的保護我國生物資源的多樣性,可持續(xù)利用生物資源,為人類社會可持續(xù)發(fā)展提供物質(zhì)基礎(chǔ)。
樣本資源類型
國家基因庫:生物樣本庫
國家基因庫樣本庫致力于建立生物樣本庫建庫的標準規(guī)范,與聯(lián)盟伙伴分享建庫的流程和方法,共創(chuàng)科研思路,探索樣本利用的有效途徑,提升國內(nèi)樣本庫的整體水平。同時,國家基因庫樣本庫能為科研、醫(yī)藥、臨床等工作者提供實驗技術(shù)服務,并根據(jù)研究的需要提供和執(zhí)行全面的解決方案。國家基因庫大鵬基地的生物樣本庫存儲空間未來可拓展至8,000㎡,至2015底可存儲3,000萬份生物樣本的存儲。
樣本全程管理系統(tǒng)
該系統(tǒng)不僅能對樣本保存、出入庫進行管理,而且能對樣本的整個流程進行管理與監(jiān)控,包括樣本采集、運輸、前處理、保存、應用等整個樣本流向過程。另外,本系統(tǒng)設有端口,能與HIS等外部系統(tǒng)關(guān)聯(lián),做到信息全覆蓋。
樣本資源管理系統(tǒng)
大規(guī)模、多層次的樣本存儲空間
樣本庫服務項目
1)標準化建設咨詢。
通過聯(lián)盟建立覆蓋國內(nèi)乃至國際的生物資源信息網(wǎng)絡,共同搭建資源信息、技術(shù)、人才平臺,共同承擔重大項目,實現(xiàn)科學產(chǎn)業(yè)突破。并有由專業(yè)知識、經(jīng)驗豐富組成的國家基因庫團隊專注于為合作伙伴提供生物樣品庫基礎(chǔ)設施、設備耗材相關(guān)產(chǎn)品建議,實施標準流程、信息系統(tǒng)、質(zhì)量管理等平臺的搭建。
2)個性化保存。
依托大規(guī)模、高質(zhì)量、規(guī)范化的生物樣本資源及深圳華大基因研究院的核酸及蛋白測序技術(shù)、高性能計算平臺、國際領(lǐng)先水平的基因組科學研究,為廣大用戶提供樣品收集、組學數(shù)據(jù)獲得、全組貫穿分析、科研成果應用等一套個性化樣品保存和應用方案。
3)第三方實驗室服務。
擁有一支經(jīng)驗豐富、技術(shù)嫻熟的人才隊伍,并具備完善的標準資源,一流的實驗環(huán)境,低成本、高通量、自動化的生產(chǎn)設備,可以進行規(guī)?;纳a(chǎn),科學化的管理,高效的運營。我們本著“科技以人為本”的理念為廣大用戶提供包括樣品采集、樣品保存、樣品提取、樣品檢測等優(yōu)質(zhì)服務。
4)樣本庫解決方案。
國家基因庫能為需要建立樣本庫的合作伙伴提供樣本庫建設的指導支持及個性化的解決方案。擁有豐富樣本庫建設經(jīng)驗的團隊將從樣本庫建設前期的經(jīng)費預算、樣本庫及相關(guān)實驗室的規(guī)劃布局到硬件設施的配備、儀器軟件的配置等項目對樣本庫建立的整體規(guī)劃及各個相關(guān)方面進行梳理,并可根據(jù)實際需求派出技術(shù)人員進行樣本庫建設的現(xiàn)場支持與指導。同時,我們有專門的團隊可根據(jù)需求及樣本庫的實際情況,從前期樣本的收集、處理、運輸及保存到后期樣本在生物、醫(yī)學領(lǐng)域的應用提供個性化的解決方案和指導意見。
國家基因庫--生物信息數(shù)據(jù)庫
生物信息數(shù)據(jù)庫匯集包含基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組及臨床表型等數(shù)據(jù)信息,預計最終將達到500PB級別的巨量數(shù)據(jù)容量。將會成為“大數(shù)據(jù)”生物學時代研究生物生長發(fā)育、衰老、死亡以及向產(chǎn)業(yè)化推廣的有利工具。
大數(shù)據(jù)
依托國家基因庫資源樣本庫豐富的生物樣本資源及深圳華大基因研究院高通量測序平臺、高性能計算平臺、信息存儲能力和信息分析能力的支撐,生成海量數(shù)字化樣本資源。
生物信息數(shù)據(jù)庫-大數(shù)據(jù)
存儲和計算
與國家超算中心、深圳超算中心、廣州超算中心等機構(gòu)展開戰(zhàn)略性合作??偞鎯δ芰_到20PB,總峰值計算能力達到212Tflops,并擁有云存儲技術(shù),有能力為海量生物資源表型數(shù)據(jù)及組學數(shù)據(jù)進行存儲、處理和分析。
云存儲與計算模式
開放性平臺
?。?)存儲生物基因數(shù)據(jù):運用云存儲技術(shù),保存海量貫穿組學數(shù)據(jù),為后續(xù)研究提供數(shù)據(jù)保障。(2)提供生物信息檢索:國家基因庫為開放性、公益性科研平臺,向用戶提供生物信息檢索、比較、分析等服務。(3)服務生命科學研究:依托深圳華大基因研究院云計算與云存儲技術(shù),向各科研機構(gòu)提供生命科學研究平臺。
2015年7月份,國家基因庫聯(lián)合聯(lián)盟成員及合作伙伴共同搭建了E-BioBank資源信息共享平臺(簡稱“E-BioBank平臺”),將致力于國內(nèi)外生物資源的整合,并促進樣本的科學應用。該平臺先后建立了樣本定位、項目資源、技術(shù)支持、樣本庫目錄等四大模塊,分別從樣本庫建設、樣本采集、保存與管理、樣本應用等全方位多角度營造生物樣本庫行業(yè)的資源信息共享生態(tài)圈。據(jù)悉,平臺已整合人類、動物、植物、微生物等樣本資源55.6萬份,共享科研項目信息10余項,分享行業(yè)技術(shù)性文件400余份,與100多家單位建立聯(lián)盟合作關(guān)系。
國家基因庫戰(zhàn)略性意義及應用前景
國家基因庫著眼于為本國生命科學研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務平臺,儲存和管理本國特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個民族生存與發(fā)展的命脈,具有國家水平、服務國家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項目。國家基因庫以生物資源為依托,踐行從資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實現(xiàn)大資源、大數(shù)據(jù)、大科學、大產(chǎn)業(yè)的整合與應用。
此前國家基因庫執(zhí)行主任周欣電話會議精要
國家基因庫與華大基因的關(guān)系
華大通過深圳市政府提出建構(gòu)數(shù)據(jù)庫的提議,得到了深圳市政府的大力支持。2011年國家發(fā)改委批復同意深圳依托華大基因研究院組建國家基因庫?;驇煲黄诘慕ㄔO由國家、地方及華大基因共同投資建設,華大基因為承辦方。按照目前規(guī)劃基因庫投入使用后將由華大基因進行運行維護。
基因組項目目的是為了整個領(lǐng)域未來更好地發(fā)展。在未來不會出現(xiàn)華大基因和其他基因公司之間的惡性競爭。分享數(shù)據(jù)、資源整合、擴大平臺降低成本,達到1 1>2的效果使我們所追求的。
國家基因庫戰(zhàn)略性意義
目前世界范圍內(nèi)在美國、歐洲、日本有三個大的生物數(shù)據(jù)庫。我國近十年來生物科技發(fā)展迅猛但是沒有獨立的國家級的數(shù)據(jù)庫。我國生物科學家在國際期刊發(fā)表文章時無償將數(shù)據(jù)提交給外國數(shù)據(jù)庫,不但造成諸多不便,更使得國家遺傳資源長期外流。建立國家級的基因庫對于我國相關(guān)領(lǐng)域的發(fā)展有著長遠的意義。
我們希望將國家基因庫做成全世界第四大的基因數(shù)據(jù)庫。國際三大數(shù)據(jù)庫目前積累數(shù)據(jù)40-50PB。我們希望我國的基因庫最終可以達到幾百個PB的數(shù)據(jù)承載量。這樣大的數(shù)據(jù)體量與后端產(chǎn)業(yè)的發(fā)展機會甚至政策制定息息相關(guān)。從針對單一類型疾病的機理的研究,到基于大人群特別是健康人群的普適性篩查,科研方法在不斷改進?;诮y(tǒng)計學的數(shù)據(jù)分析讓我們可以得到更可信更有說服力的結(jié)論。當樣本庫數(shù)量達到一定程度時我們可以直接從數(shù)據(jù)庫信息得到疾病機理、療效的數(shù)據(jù),而不需要像過去做很多基礎(chǔ)性調(diào)研。未來發(fā)展方向是非常明確地:無論是科學領(lǐng)域還是相關(guān)產(chǎn)業(yè)或是政策制定都需要有提供大人群、大樣本、大數(shù)據(jù)的平臺進行支持。這是國家投入如此大人力物力建立這個國家級基因庫的根本原因。
建立樣本庫的必要性
基因庫計劃制定時深圳市政府做了前瞻性的提案:不僅要做數(shù)據(jù)庫還要樣本庫。所有關(guān)注的遺傳信息存在于樣本中,建立能夠追溯數(shù)據(jù)的樣本庫是非常有必要的。目前國際上三大數(shù)據(jù)庫均缺乏樣本庫的建構(gòu)。我們認為樣本和數(shù)據(jù)庫對于未來發(fā)展都很重要?,F(xiàn)在三大數(shù)據(jù)庫雖然經(jīng)過同行評審還是有錯誤和污染情況,如果有完善的樣本追溯系統(tǒng)則可以人為糾錯。例如育種行業(yè),如果可以把樣本及生物學信息(表型:毛色、彎直等等)整合則可以更好的指導育種。將樣本和數(shù)據(jù)有機關(guān)聯(lián)是我們的努力方向。
樣本庫構(gòu)成及形式
基因庫特別是樣本庫包括人、動植物,及代表生物多樣性的各種物種。樣本庫由人樣本及非人樣本組成。樣本的物種分布將由實際應用/科研需求的體量比重決定。目前已有樣本中約99%為人樣本,預計在未來樣本擴充過程中人樣本仍將占主導地位。與醫(yī)學相關(guān)的人樣本會占主要部分,體現(xiàn)了醫(yī)療、科研產(chǎn)業(yè)的分布情況?;驇鞓颖緮?shù)據(jù)體量目前還不能達到精準醫(yī)療/個性化醫(yī)療所需要的數(shù)據(jù)量。預期在2015年年底國家基因庫樣本庫可以達到1000萬份樣本,數(shù)據(jù)庫達到500PB數(shù)據(jù)量。目前國內(nèi)醫(yī)院領(lǐng)先的疾病研究科室(對某類疾病有較長的研究歷史及較強研究興趣)經(jīng)過十幾年積累后生物樣本庫的規(guī)模約10-20萬份。我們希望基因庫達到的1000萬樣本的體量體現(xiàn)了對未來我國科研、產(chǎn)業(yè)發(fā)展規(guī)模的預期。
采取多形式
保存。從活體到生殖細胞、組織、血樣、DNA、RNA。每個物種的保存形式、時間、體量需要按照需求(例如是否是科研用途為主)具體決定。我們希望以盡可能全的形式保存樣本,以方便今后在各個領(lǐng)域的應用。
對萬億市場的解讀
“萬億市場”的提出是對相關(guān)市場的一個引導,也是一個相對保守的估計。目前國家基因庫處于樣本搭建、數(shù)據(jù)整理過程。數(shù)據(jù)產(chǎn)生只是第一步,數(shù)據(jù)解釋分析是下一步過程。對于這樣大的市場,基因庫本身不可能承擔所有的外延及下游的項目。相信基因庫的建立會對所有與樣本和數(shù)據(jù)相關(guān)的下游產(chǎn)業(yè)起到很好的先導作用。基因庫的建構(gòu)主要承擔了這樣的責任:對下一步科研和產(chǎn)業(yè)的發(fā)展方向正確的認知和布局;在平臺的技術(shù)上和標準上甚至科研和產(chǎn)業(yè)的文化上起到先導的作用。同時基因庫的建立是一個多方合作、共同摸索的過程,是過去的研究和應用沒有涉及的高度。
美國國家生物技術(shù)信息中心(NCBI)
1988年,美國參議員ClaudePepper意識到信息計算機化過程方法對指導生物醫(yī)學研究的重要性,發(fā)起了在1988年11月4日建立國立生物技術(shù)信息中心(NCBI)的立法。NCBI是在NIH的國立醫(yī)學圖書館(NLM)的一個分支,其任務包括建立關(guān)于分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統(tǒng);實行關(guān)于用于分析生物學重要分子和復合物的結(jié)構(gòu)和功能的基于計算機的信息處理的先進方法的研究;加速生物技術(shù)研究者和醫(yī)藥治療人員對數(shù)據(jù)庫和軟件的使用;全世界范圍內(nèi)的生物技術(shù)信息收集的合作努力。
NCBI有一個多學科的研究小組包括計算機科學家、分子生物學家、數(shù)學家、生物化學家、實驗物理學家及結(jié)構(gòu)生物學家,集中于計算分子生物學的基本的和應用的研究。這些研究者不僅僅在基礎(chǔ)科學上做出重要貢獻,而且往往成為應用研究活動產(chǎn)生新方法的源泉。他們一起用數(shù)學和計算的方法研究在分子水平上的基本的生物醫(yī)學問題。這些問題包括基因的組織,序列的分析和結(jié)構(gòu)的預測。目前研究計劃的一些代表是:檢測和分析基因組織,重復序列形式,蛋白domain和結(jié)構(gòu)單元,建立人類基因組的基因圖譜,HIV感染的動力學數(shù)學模型,數(shù)據(jù)庫搜索中的序列錯誤影響的分析,開發(fā)新的數(shù)據(jù)庫搜索和多重序列對齊算法,建立非冗余序列數(shù)據(jù)庫,序列相似性的統(tǒng)計顯著性評估的數(shù)學模型,和文本檢索的矢量模型等。另外,NCBI研究者還堅持推動與NIH內(nèi)部其他研究所及許多科學院和政府的研究實驗室的合作。
歐洲生物信息研究所(EBI)
歐洲生物信息研究所建立于1994年,是歐洲分子生物學實驗室的一部分,致力于以信息學手段解答生命科學問題。主要研究任務包括為科學界提供免費生物信息資源、促進基礎(chǔ)研究、提供培訓和傳播行業(yè)尖端技術(shù)。為科學界建立和維護生物學數(shù)據(jù)庫,提供免費的數(shù)據(jù)和生物信息服務,支持生物學數(shù)據(jù)的存儲和挖掘,促進科技進步;通過生物信息學的基礎(chǔ)研究繼續(xù)推動生物學發(fā)展;為各個層次的科學工作者提供生物信息學培訓;支持幫助邊緣尖端科技成果向工業(yè)界的轉(zhuǎn)化;協(xié)調(diào)歐洲生物數(shù)據(jù)的提供。
歐洲生物信息研究所擁有超過20年生物信息學研究和服務經(jīng)驗,是全球收集和傳播生物數(shù)據(jù)、提供免費生物信息服務的歐洲節(jié)點。該所管理維護著世界最全面的分子生物數(shù)據(jù)庫,其中很多是生物學家熟悉的數(shù)據(jù)庫,例如ENA(核酸序列數(shù)據(jù)庫),Ensembl(基因組),ArrayExpress(基因表達數(shù)據(jù)),UniProtKB蛋白質(zhì)序列,InterPro(蛋白質(zhì)家族/域/蛋白指紋等)和PDBe(大分子結(jié)構(gòu))。
同時,歐洲生物信息研究所管理和維護著多個大型生物信息公共數(shù)據(jù)庫,跨基因組學,蛋白質(zhì)組學,化學信息學,轉(zhuǎn)錄組學,系統(tǒng)生物學等,同時創(chuàng)建了多種工具供讓研究人員分析和分享信息。歐洲生物信息研究所提供最優(yōu)質(zhì)的研究環(huán)境、無數(shù)跨學科的合作機會以及遍及世界各地的培訓課程。
日本DNA數(shù)據(jù)庫(DDBJ)
日本DNA數(shù)據(jù)庫DDBJ(DNADataBankofJapan),于1984年建立,是世界三大DNA數(shù)據(jù)庫之一,與NCBI的GenBank,EBI的EMBL數(shù)據(jù)庫共同組成國際DNA數(shù)據(jù)庫,每日都交換更新數(shù)據(jù)和信息,并主持兩個國際年會-國際DNA數(shù)據(jù)庫咨詢會議和國際DNA數(shù)據(jù)庫協(xié)作會議,互相交換信息,因此三個庫的數(shù)據(jù)實際上是相同的。
DDBJ主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號,信息來源主要是日本的研究機構(gòu),亦接受其他國家呈遞的序列,數(shù)據(jù)庫通過WWW環(huán)球網(wǎng),匿名FTP,e-mail或Gopher方式為廣大研究人員服務。
他們開發(fā)了SQmateh工具,用來搜索基因或蛋白質(zhì)中短的堿基或氨基酸序列區(qū)域,并建立了簡便且易操作的SOAP(simpleobjectaeeessprotoco1)服務器。它的數(shù)據(jù)主要通過Sakura和MST工具來完成。與NCBI,EBM共同構(gòu)成DNA三大數(shù)據(jù)庫,這三大數(shù)據(jù)中心各自收集序列數(shù)據(jù),并通過網(wǎng)絡每天進行數(shù)據(jù)交換。近來三大數(shù)據(jù)庫合作的項目主要包括TPA(tirdpannotation)、CON(struct)或CON(tig)和XML數(shù)據(jù)交換格式的建立。TPA是一種基于已有數(shù)據(jù)庫中的核酸序列產(chǎn)生的注釋數(shù)據(jù),它的格式與傳統(tǒng)的GenBank一樣,只是包含了“TPA”標簽。CON(struct)或CON(tig)用于存儲一些片段的拼接信息,這些片段是序列長度大于350000bp的核酸被分割而產(chǎn)生的,但這種長度限制在2004年6月就被取消。
華大基因首席執(zhí)行官CEO楊爽透露,華大基因組建和運營的深圳國家基因庫一期建設已經(jīng)完工,“內(nèi)部裝修中,裝修完畢即可入駐。”該基因庫將打造“三庫兩平臺”,存儲、管理、利用好我國遺傳資源,為我國生命科學和生物經(jīng)濟發(fā)展提供支撐平臺。
梅永紅
此前,關(guān)于國家基因庫最為知名的新聞,則是去年9月,原山東濟寧市委副書記、市長梅永紅加盟華大基因,并出任深圳國家基因庫負責人。這一事件先后被各大媒體爭先報道,針對梅永紅的這一任職,華大基因董事長汪建曾公開表示,梅永紅曾有農(nóng)業(yè)部與科技部二十多年的工作經(jīng)歷,由他出任國家基因庫負責人,既符合他自身的興趣與志向,又能施展長期積累的科技管理經(jīng)驗、戰(zhàn)略運籌和綜合能力。
梅永紅接受媒體采訪時也曾表示,個人抱負能夠與國家戰(zhàn)略結(jié)合、生物經(jīng)濟前景中亦藏有巨大潛力,能夠用自己的能力為華大基因做一些工作、為中國的生物經(jīng)濟產(chǎn)業(yè)做一些有價值的事情,我就非常滿足了。
梅永紅眼中的深圳國家基因庫
2011年1月,國家發(fā)改委批復同意深圳依托華大基因組建國家基因庫。同年10月,國家發(fā)改委、財政部、工業(yè)和信息化部以及當時的衛(wèi)生部批復,深圳國家基因庫由深圳華大基因組建及運營,是國家“十二五”重點基礎(chǔ)能力建設項目。其位于深圳市大鵬街道下沙片區(qū)“禾塘仔”地塊,建設規(guī)模約116000平米,建筑外形基本參照了云南元陽哈尼梯田,分兩期建設,是繼美國國家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數(shù)據(jù)庫(DDBJ)之后的第四個國家級基因庫,
此前,梅永紅在即將接掌深圳國家基因庫時曾表示深圳國家基因庫被定義為“官辦民營”、“國家購買服務”的模式。”社會有能力、有資源投入一個平臺運營的時候,政府更多是提供政策的支持和提供資金購買服務,這樣效率會更高。在建設階段,國家基因庫的運營資金來自國家發(fā)改委、深圳市和華大基因三方,其中國家層面的資金占大頭,由發(fā)改委方面投入。按照目前規(guī)劃,基因庫投入使用后將由華大基因進行運行維護。
華大是在國家的支持下,構(gòu)建一個國家級平臺,跟社會上現(xiàn)有的各種機構(gòu)合作,形成一個開放、合作的平臺。這樣的一個平臺,不是華大一家能夠做得了的,一定要有國家的支持。這件事情首先是國家需要。國家需要平臺來支撐未來的生物經(jīng)濟。華大基因目前有著很強的基因解讀能力,在世界上也處于前列,我想這是國家選擇華大的重要原因。
2016年,除了總部建設之外,國家基因庫最需要的是足夠的樣本。借助國家和各部委的支持,盡快形成基因庫的聯(lián)盟,比如中科院、各大學和其他擁有自己基因庫的機構(gòu)。目前的基因資源都局限在各個機構(gòu)內(nèi)部,他希望能夠整合這些資源使它們可以被資源共享、開放利用。
我相信,國家立這個項,不僅僅是要建一個基因庫,更重要的是要建一個基因共享機制。“梅永紅解釋說,現(xiàn)在機構(gòu)們的開放度都不夠,基因資源一般是政府所有、機構(gòu)所有,甚至研究組個人所有,要推動它們之間進行開放合作,非常困難。
因此,要完成基因聯(lián)盟、實現(xiàn)基因共享,除了橫向與各個擁有基因資源的結(jié)構(gòu)溝通,梅永紅更重要的工作是要縱向與各部委進行協(xié)調(diào)溝通,進行”很好的頂層設計“,實現(xiàn)制度上的突破。
對這一涉及多方面政策和多部委的復雜制度突破該如何實現(xiàn),梅永紅說自己”一直在思考“:”我相信能夠突破。今天世界上很多國家都能做到,為什么我們就做不到呢?我不相信。“他認為,由社會系統(tǒng)來操盤這個國家級平臺,少了很多部門和系統(tǒng)的局限—可以用很多的機制去實現(xiàn)目標,比如市場機制、知識產(chǎn)權(quán)的機制、利益機制、人才機制等。
關(guān)于國家基因庫
國家基因庫的基本構(gòu)成
根據(jù)的介紹,國家基因庫著眼于為本國生命科學研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務平臺,儲存和管理本國特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個民族生存與發(fā)展的命脈,具有國家水平、服務國家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項目。
國家基因庫集生物資源樣本庫、生物信息數(shù)據(jù)庫和生物資源信息網(wǎng)絡為一體,通過建立高水平的生物資源樣本庫、高效的生物信息數(shù)據(jù)處理、存儲與管理系統(tǒng)以及覆蓋廣泛的聯(lián)盟網(wǎng)絡,有效保護、合理開發(fā)和利用我國生物資源及基因數(shù)據(jù)資源,充分調(diào)動、發(fā)揮及整合各地區(qū)、各單位的資源和技術(shù)優(yōu)勢,積極開展廣泛交流與合作,搭建信息資源研究開發(fā)的基礎(chǔ)性支撐平臺,提高我國生命科學研究水平和國際影響力,促進我國生物產(chǎn)業(yè)發(fā)展。
國家基因庫構(gòu)成
資源樣本的應用
國家基因庫以生物資源為依托,形成資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實現(xiàn)大資源、大數(shù)據(jù)、大科學、大產(chǎn)業(yè)的整合與應用。應用方向主要包括:人類健康、新型農(nóng)業(yè)、物種多樣性及生態(tài)環(huán)境保護。
基因庫資源樣本的應用
1、人類健康:數(shù)字健康管理、臨床檢測的準確率、疾病防治及生物制藥的針對性需要大樣本量數(shù)據(jù)的支撐,以便驗證技術(shù)的可靠性,確定最佳策略,同時充分考慮人群差異。
2、新型農(nóng)業(yè):動植物分子育種、功能基因的發(fā)掘、新能源的開發(fā)利用,需要以大量物種資源為基礎(chǔ),搭建大型基因型和表型數(shù)據(jù)庫,為育種者和開發(fā)者提供完整的信息指導,加快育種和開發(fā)進程。
3、物種多樣性及生態(tài)環(huán)境保護:通過收集和保存各種有價值的種質(zhì)資源,建立大規(guī)模的資源庫或保護區(qū),保護物種的多樣性,并闡明外界條件和生物之間的相互作用,對生態(tài)環(huán)境起到保護和監(jiān)測作用。
基因庫主要進展及科研成果
國家基因庫:生物資源庫
生物資源庫包括人類和非人兩種資源類型,其中非人資源方向包括動物細胞資源、植物種質(zhì)資源、微生物資源和海洋資源四大類型。通過收集人和非人兩個方向的不同來源和形式的資源樣本(動、植物活體細胞,微生物菌株,人類組織細胞,重要瀕危物種,血液和小分子等),形成大規(guī)模、高質(zhì)量、規(guī)范化的樣本資源庫。確保我國生物資源尤其是我國的特有物種、瀕危物種、具有重要經(jīng)濟價值和科學研究價值的物種以及生態(tài)系統(tǒng)物種種群的安全性,有效的保護我國生物資源的多樣性,可持續(xù)利用生物資源,為人類社會可持續(xù)發(fā)展提供物質(zhì)基礎(chǔ)。
樣本資源類型
國家基因庫:生物樣本庫
國家基因庫樣本庫致力于建立生物樣本庫建庫的標準規(guī)范,與聯(lián)盟伙伴分享建庫的流程和方法,共創(chuàng)科研思路,探索樣本利用的有效途徑,提升國內(nèi)樣本庫的整體水平。同時,國家基因庫樣本庫能為科研、醫(yī)藥、臨床等工作者提供實驗技術(shù)服務,并根據(jù)研究的需要提供和執(zhí)行全面的解決方案。國家基因庫大鵬基地的生物樣本庫存儲空間未來可拓展至8,000㎡,至2015底可存儲3,000萬份生物樣本的存儲。
樣本全程管理系統(tǒng)
該系統(tǒng)不僅能對樣本保存、出入庫進行管理,而且能對樣本的整個流程進行管理與監(jiān)控,包括樣本采集、運輸、前處理、保存、應用等整個樣本流向過程。另外,本系統(tǒng)設有端口,能與HIS等外部系統(tǒng)關(guān)聯(lián),做到信息全覆蓋。
樣本資源管理系統(tǒng)
大規(guī)模、多層次的樣本存儲空間
樣本庫服務項目
1)標準化建設咨詢。
通過聯(lián)盟建立覆蓋國內(nèi)乃至國際的生物資源信息網(wǎng)絡,共同搭建資源信息、技術(shù)、人才平臺,共同承擔重大項目,實現(xiàn)科學產(chǎn)業(yè)突破。并有由專業(yè)知識、經(jīng)驗豐富組成的國家基因庫團隊專注于為合作伙伴提供生物樣品庫基礎(chǔ)設施、設備耗材相關(guān)產(chǎn)品建議,實施標準流程、信息系統(tǒng)、質(zhì)量管理等平臺的搭建。
2)個性化保存。
依托大規(guī)模、高質(zhì)量、規(guī)范化的生物樣本資源及深圳華大基因研究院的核酸及蛋白測序技術(shù)、高性能計算平臺、國際領(lǐng)先水平的基因組科學研究,為廣大用戶提供樣品收集、組學數(shù)據(jù)獲得、全組貫穿分析、科研成果應用等一套個性化樣品保存和應用方案。
3)第三方實驗室服務。
擁有一支經(jīng)驗豐富、技術(shù)嫻熟的人才隊伍,并具備完善的標準資源,一流的實驗環(huán)境,低成本、高通量、自動化的生產(chǎn)設備,可以進行規(guī)?;纳a(chǎn),科學化的管理,高效的運營。我們本著“科技以人為本”的理念為廣大用戶提供包括樣品采集、樣品保存、樣品提取、樣品檢測等優(yōu)質(zhì)服務。
4)樣本庫解決方案。
國家基因庫能為需要建立樣本庫的合作伙伴提供樣本庫建設的指導支持及個性化的解決方案。擁有豐富樣本庫建設經(jīng)驗的團隊將從樣本庫建設前期的經(jīng)費預算、樣本庫及相關(guān)實驗室的規(guī)劃布局到硬件設施的配備、儀器軟件的配置等項目對樣本庫建立的整體規(guī)劃及各個相關(guān)方面進行梳理,并可根據(jù)實際需求派出技術(shù)人員進行樣本庫建設的現(xiàn)場支持與指導。同時,我們有專門的團隊可根據(jù)需求及樣本庫的實際情況,從前期樣本的收集、處理、運輸及保存到后期樣本在生物、醫(yī)學領(lǐng)域的應用提供個性化的解決方案和指導意見。
國家基因庫--生物信息數(shù)據(jù)庫
生物信息數(shù)據(jù)庫匯集包含基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組及臨床表型等數(shù)據(jù)信息,預計最終將達到500PB級別的巨量數(shù)據(jù)容量。將會成為“大數(shù)據(jù)”生物學時代研究生物生長發(fā)育、衰老、死亡以及向產(chǎn)業(yè)化推廣的有利工具。
大數(shù)據(jù)
依托國家基因庫資源樣本庫豐富的生物樣本資源及深圳華大基因研究院高通量測序平臺、高性能計算平臺、信息存儲能力和信息分析能力的支撐,生成海量數(shù)字化樣本資源。
生物信息數(shù)據(jù)庫-大數(shù)據(jù)
存儲和計算
與國家超算中心、深圳超算中心、廣州超算中心等機構(gòu)展開戰(zhàn)略性合作??偞鎯δ芰_到20PB,總峰值計算能力達到212Tflops,并擁有云存儲技術(shù),有能力為海量生物資源表型數(shù)據(jù)及組學數(shù)據(jù)進行存儲、處理和分析。
云存儲與計算模式
開放性平臺
?。?)存儲生物基因數(shù)據(jù):運用云存儲技術(shù),保存海量貫穿組學數(shù)據(jù),為后續(xù)研究提供數(shù)據(jù)保障。(2)提供生物信息檢索:國家基因庫為開放性、公益性科研平臺,向用戶提供生物信息檢索、比較、分析等服務。(3)服務生命科學研究:依托深圳華大基因研究院云計算與云存儲技術(shù),向各科研機構(gòu)提供生命科學研究平臺。
2015年7月份,國家基因庫聯(lián)合聯(lián)盟成員及合作伙伴共同搭建了E-BioBank資源信息共享平臺(簡稱“E-BioBank平臺”),將致力于國內(nèi)外生物資源的整合,并促進樣本的科學應用。該平臺先后建立了樣本定位、項目資源、技術(shù)支持、樣本庫目錄等四大模塊,分別從樣本庫建設、樣本采集、保存與管理、樣本應用等全方位多角度營造生物樣本庫行業(yè)的資源信息共享生態(tài)圈。據(jù)悉,平臺已整合人類、動物、植物、微生物等樣本資源55.6萬份,共享科研項目信息10余項,分享行業(yè)技術(shù)性文件400余份,與100多家單位建立聯(lián)盟合作關(guān)系。
國家基因庫戰(zhàn)略性意義及應用前景
國家基因庫著眼于為本國生命科學研究和生物產(chǎn)業(yè)發(fā)展提供基礎(chǔ)性和支撐性服務平臺,儲存和管理本國特有的遺傳資源、生物信息和基因數(shù)據(jù),是維系一個民族生存與發(fā)展的命脈,具有國家水平、服務國家戰(zhàn)略需求的創(chuàng)新科研和產(chǎn)業(yè)基礎(chǔ)項目。國家基因庫以生物資源為依托,踐行從資源到科研到產(chǎn)業(yè)的全貫穿、全覆蓋模式,實現(xiàn)大資源、大數(shù)據(jù)、大科學、大產(chǎn)業(yè)的整合與應用。
此前國家基因庫執(zhí)行主任周欣電話會議精要
國家基因庫與華大基因的關(guān)系
華大通過深圳市政府提出建構(gòu)數(shù)據(jù)庫的提議,得到了深圳市政府的大力支持。2011年國家發(fā)改委批復同意深圳依托華大基因研究院組建國家基因庫?;驇煲黄诘慕ㄔO由國家、地方及華大基因共同投資建設,華大基因為承辦方。按照目前規(guī)劃基因庫投入使用后將由華大基因進行運行維護。
基因組項目目的是為了整個領(lǐng)域未來更好地發(fā)展。在未來不會出現(xiàn)華大基因和其他基因公司之間的惡性競爭。分享數(shù)據(jù)、資源整合、擴大平臺降低成本,達到1 1>2的效果使我們所追求的。
國家基因庫戰(zhàn)略性意義
目前世界范圍內(nèi)在美國、歐洲、日本有三個大的生物數(shù)據(jù)庫。我國近十年來生物科技發(fā)展迅猛但是沒有獨立的國家級的數(shù)據(jù)庫。我國生物科學家在國際期刊發(fā)表文章時無償將數(shù)據(jù)提交給外國數(shù)據(jù)庫,不但造成諸多不便,更使得國家遺傳資源長期外流。建立國家級的基因庫對于我國相關(guān)領(lǐng)域的發(fā)展有著長遠的意義。
我們希望將國家基因庫做成全世界第四大的基因數(shù)據(jù)庫。國際三大數(shù)據(jù)庫目前積累數(shù)據(jù)40-50PB。我們希望我國的基因庫最終可以達到幾百個PB的數(shù)據(jù)承載量。這樣大的數(shù)據(jù)體量與后端產(chǎn)業(yè)的發(fā)展機會甚至政策制定息息相關(guān)。從針對單一類型疾病的機理的研究,到基于大人群特別是健康人群的普適性篩查,科研方法在不斷改進?;诮y(tǒng)計學的數(shù)據(jù)分析讓我們可以得到更可信更有說服力的結(jié)論。當樣本庫數(shù)量達到一定程度時我們可以直接從數(shù)據(jù)庫信息得到疾病機理、療效的數(shù)據(jù),而不需要像過去做很多基礎(chǔ)性調(diào)研。未來發(fā)展方向是非常明確地:無論是科學領(lǐng)域還是相關(guān)產(chǎn)業(yè)或是政策制定都需要有提供大人群、大樣本、大數(shù)據(jù)的平臺進行支持。這是國家投入如此大人力物力建立這個國家級基因庫的根本原因。
建立樣本庫的必要性
基因庫計劃制定時深圳市政府做了前瞻性的提案:不僅要做數(shù)據(jù)庫還要樣本庫。所有關(guān)注的遺傳信息存在于樣本中,建立能夠追溯數(shù)據(jù)的樣本庫是非常有必要的。目前國際上三大數(shù)據(jù)庫均缺乏樣本庫的建構(gòu)。我們認為樣本和數(shù)據(jù)庫對于未來發(fā)展都很重要?,F(xiàn)在三大數(shù)據(jù)庫雖然經(jīng)過同行評審還是有錯誤和污染情況,如果有完善的樣本追溯系統(tǒng)則可以人為糾錯。例如育種行業(yè),如果可以把樣本及生物學信息(表型:毛色、彎直等等)整合則可以更好的指導育種。將樣本和數(shù)據(jù)有機關(guān)聯(lián)是我們的努力方向。
樣本庫構(gòu)成及形式
基因庫特別是樣本庫包括人、動植物,及代表生物多樣性的各種物種。樣本庫由人樣本及非人樣本組成。樣本的物種分布將由實際應用/科研需求的體量比重決定。目前已有樣本中約99%為人樣本,預計在未來樣本擴充過程中人樣本仍將占主導地位。與醫(yī)學相關(guān)的人樣本會占主要部分,體現(xiàn)了醫(yī)療、科研產(chǎn)業(yè)的分布情況?;驇鞓颖緮?shù)據(jù)體量目前還不能達到精準醫(yī)療/個性化醫(yī)療所需要的數(shù)據(jù)量。預期在2015年年底國家基因庫樣本庫可以達到1000萬份樣本,數(shù)據(jù)庫達到500PB數(shù)據(jù)量。目前國內(nèi)醫(yī)院領(lǐng)先的疾病研究科室(對某類疾病有較長的研究歷史及較強研究興趣)經(jīng)過十幾年積累后生物樣本庫的規(guī)模約10-20萬份。我們希望基因庫達到的1000萬樣本的體量體現(xiàn)了對未來我國科研、產(chǎn)業(yè)發(fā)展規(guī)模的預期。
采取多形式
保存。從活體到生殖細胞、組織、血樣、DNA、RNA。每個物種的保存形式、時間、體量需要按照需求(例如是否是科研用途為主)具體決定。我們希望以盡可能全的形式保存樣本,以方便今后在各個領(lǐng)域的應用。
對萬億市場的解讀
“萬億市場”的提出是對相關(guān)市場的一個引導,也是一個相對保守的估計。目前國家基因庫處于樣本搭建、數(shù)據(jù)整理過程。數(shù)據(jù)產(chǎn)生只是第一步,數(shù)據(jù)解釋分析是下一步過程。對于這樣大的市場,基因庫本身不可能承擔所有的外延及下游的項目。相信基因庫的建立會對所有與樣本和數(shù)據(jù)相關(guān)的下游產(chǎn)業(yè)起到很好的先導作用。基因庫的建構(gòu)主要承擔了這樣的責任:對下一步科研和產(chǎn)業(yè)的發(fā)展方向正確的認知和布局;在平臺的技術(shù)上和標準上甚至科研和產(chǎn)業(yè)的文化上起到先導的作用。同時基因庫的建立是一個多方合作、共同摸索的過程,是過去的研究和應用沒有涉及的高度。
美國國家生物技術(shù)信息中心(NCBI)
1988年,美國參議員ClaudePepper意識到信息計算機化過程方法對指導生物醫(yī)學研究的重要性,發(fā)起了在1988年11月4日建立國立生物技術(shù)信息中心(NCBI)的立法。NCBI是在NIH的國立醫(yī)學圖書館(NLM)的一個分支,其任務包括建立關(guān)于分子生物學,生物化學,和遺傳學知識的存儲和分析的自動系統(tǒng);實行關(guān)于用于分析生物學重要分子和復合物的結(jié)構(gòu)和功能的基于計算機的信息處理的先進方法的研究;加速生物技術(shù)研究者和醫(yī)藥治療人員對數(shù)據(jù)庫和軟件的使用;全世界范圍內(nèi)的生物技術(shù)信息收集的合作努力。
NCBI有一個多學科的研究小組包括計算機科學家、分子生物學家、數(shù)學家、生物化學家、實驗物理學家及結(jié)構(gòu)生物學家,集中于計算分子生物學的基本的和應用的研究。這些研究者不僅僅在基礎(chǔ)科學上做出重要貢獻,而且往往成為應用研究活動產(chǎn)生新方法的源泉。他們一起用數(shù)學和計算的方法研究在分子水平上的基本的生物醫(yī)學問題。這些問題包括基因的組織,序列的分析和結(jié)構(gòu)的預測。目前研究計劃的一些代表是:檢測和分析基因組織,重復序列形式,蛋白domain和結(jié)構(gòu)單元,建立人類基因組的基因圖譜,HIV感染的動力學數(shù)學模型,數(shù)據(jù)庫搜索中的序列錯誤影響的分析,開發(fā)新的數(shù)據(jù)庫搜索和多重序列對齊算法,建立非冗余序列數(shù)據(jù)庫,序列相似性的統(tǒng)計顯著性評估的數(shù)學模型,和文本檢索的矢量模型等。另外,NCBI研究者還堅持推動與NIH內(nèi)部其他研究所及許多科學院和政府的研究實驗室的合作。
歐洲生物信息研究所(EBI)
歐洲生物信息研究所建立于1994年,是歐洲分子生物學實驗室的一部分,致力于以信息學手段解答生命科學問題。主要研究任務包括為科學界提供免費生物信息資源、促進基礎(chǔ)研究、提供培訓和傳播行業(yè)尖端技術(shù)。為科學界建立和維護生物學數(shù)據(jù)庫,提供免費的數(shù)據(jù)和生物信息服務,支持生物學數(shù)據(jù)的存儲和挖掘,促進科技進步;通過生物信息學的基礎(chǔ)研究繼續(xù)推動生物學發(fā)展;為各個層次的科學工作者提供生物信息學培訓;支持幫助邊緣尖端科技成果向工業(yè)界的轉(zhuǎn)化;協(xié)調(diào)歐洲生物數(shù)據(jù)的提供。
歐洲生物信息研究所擁有超過20年生物信息學研究和服務經(jīng)驗,是全球收集和傳播生物數(shù)據(jù)、提供免費生物信息服務的歐洲節(jié)點。該所管理維護著世界最全面的分子生物數(shù)據(jù)庫,其中很多是生物學家熟悉的數(shù)據(jù)庫,例如ENA(核酸序列數(shù)據(jù)庫),Ensembl(基因組),ArrayExpress(基因表達數(shù)據(jù)),UniProtKB蛋白質(zhì)序列,InterPro(蛋白質(zhì)家族/域/蛋白指紋等)和PDBe(大分子結(jié)構(gòu))。
同時,歐洲生物信息研究所管理和維護著多個大型生物信息公共數(shù)據(jù)庫,跨基因組學,蛋白質(zhì)組學,化學信息學,轉(zhuǎn)錄組學,系統(tǒng)生物學等,同時創(chuàng)建了多種工具供讓研究人員分析和分享信息。歐洲生物信息研究所提供最優(yōu)質(zhì)的研究環(huán)境、無數(shù)跨學科的合作機會以及遍及世界各地的培訓課程。
日本DNA數(shù)據(jù)庫(DDBJ)
日本DNA數(shù)據(jù)庫DDBJ(DNADataBankofJapan),于1984年建立,是世界三大DNA數(shù)據(jù)庫之一,與NCBI的GenBank,EBI的EMBL數(shù)據(jù)庫共同組成國際DNA數(shù)據(jù)庫,每日都交換更新數(shù)據(jù)和信息,并主持兩個國際年會-國際DNA數(shù)據(jù)庫咨詢會議和國際DNA數(shù)據(jù)庫協(xié)作會議,互相交換信息,因此三個庫的數(shù)據(jù)實際上是相同的。
DDBJ主要向研究者收集DNA序列信息并賦予其數(shù)據(jù)存取號,信息來源主要是日本的研究機構(gòu),亦接受其他國家呈遞的序列,數(shù)據(jù)庫通過WWW環(huán)球網(wǎng),匿名FTP,e-mail或Gopher方式為廣大研究人員服務。
他們開發(fā)了SQmateh工具,用來搜索基因或蛋白質(zhì)中短的堿基或氨基酸序列區(qū)域,并建立了簡便且易操作的SOAP(simpleobjectaeeessprotoco1)服務器。它的數(shù)據(jù)主要通過Sakura和MST工具來完成。與NCBI,EBM共同構(gòu)成DNA三大數(shù)據(jù)庫,這三大數(shù)據(jù)中心各自收集序列數(shù)據(jù),并通過網(wǎng)絡每天進行數(shù)據(jù)交換。近來三大數(shù)據(jù)庫合作的項目主要包括TPA(tirdpannotation)、CON(struct)或CON(tig)和XML數(shù)據(jù)交換格式的建立。TPA是一種基于已有數(shù)據(jù)庫中的核酸序列產(chǎn)生的注釋數(shù)據(jù),它的格式與傳統(tǒng)的GenBank一樣,只是包含了“TPA”標簽。CON(struct)或CON(tig)用于存儲一些片段的拼接信息,這些片段是序列長度大于350000bp的核酸被分割而產(chǎn)生的,但這種長度限制在2004年6月就被取消。