近日,中國(guó)科學(xué)院北京基因組研究所生命與健康大數(shù)據(jù)中心開發(fā)了國(guó)際**、國(guó)內(nèi)頭個(gè)規(guī)模*大的基因組序列變異庫(kù)——GVM(Genome Variation Map)。該庫(kù)基于人工審編整合了多個(gè)物種的大量基因組序列單核苷酸多態(tài)位點(diǎn)和小的插入與刪除變異信息,是基因組序列變異信息匯交、管理與檢索的資源庫(kù)。研究成果以Genome Variation Map: a data repository of genome variations in BIG Data Center為題,在線發(fā)表在Nucleic Acids Research上。
基因組序列變異是基因組DNA水平發(fā)生的可遺傳變異,是生物多樣性的基礎(chǔ),是物種進(jìn)化、分子育種、優(yōu)良性狀選育、人類**等研究*為寶貴的遺傳資源。近年來(lái),隨著測(cè)序技術(shù)發(fā)展,越來(lái)越多物種的基因組被精細(xì)解析;物種內(nèi)遺傳多態(tài)變異位點(diǎn)也通過大規(guī)模的群體測(cè)序獲得,并廣泛應(yīng)用于復(fù)雜性狀的關(guān)聯(lián)解析。國(guó)際兩大數(shù)據(jù)中心NCBI和EBI旗下的dbSNP和EVA是主要的基因組序列變異資源庫(kù)。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar兩大數(shù)據(jù)庫(kù)停止接收非人物種的SNP提交信息,自2017年11月1日起停止非人物種的SNP在線查詢與提交。這對(duì)基于序列變異研究的科研人員造成了不便。
為此,GVM作為生命與健康大數(shù)據(jù)中心的核心數(shù)據(jù)資源庫(kù)之一,搜集了以二代測(cè)序和芯片技術(shù)為主要檢測(cè)手段的全基因組序列變異檢測(cè)的原始數(shù)據(jù),通過標(biāo)準(zhǔn)化的變異位點(diǎn)鑒定與注釋,獲得包括人、畜牧動(dòng)物、主要農(nóng)作物和其他資源物種在內(nèi)的19個(gè)物種共約50億的變異信息,8,884個(gè)個(gè)體的基因型數(shù)據(jù),并通過人工審編收錄了13,262條高質(zhì)量非人物種的基因型與表型知識(shí)數(shù)據(jù),整合了180,911條人變異位點(diǎn)的知識(shí)信息。其中,大熊貓、虎鯨、毛竹、橡膠、小麥?zhǔn)荊VM數(shù)據(jù)庫(kù)所特有的物種。
GVM開發(fā)了友好的數(shù)據(jù)提交、瀏覽、搜索和可視化功能。用戶可通過基因組位置、變異影響、基因名稱和基因功能等檢索變異位點(diǎn)信息,并下載數(shù)據(jù);可通過ftp服務(wù)下載VCF和FASTA文件格式的全基因變異信息;可在線或離線方式向系統(tǒng)提交數(shù)據(jù),這方便了科研人員的數(shù)據(jù)共享。
研究工作得到了中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、中科院國(guó)際大科學(xué)計(jì)劃、國(guó)家科技攻關(guān)計(jì)劃、國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)、國(guó)家自然基金項(xiàng)目、中科院百人計(jì)劃、中科院青年**促進(jìn)會(huì)等的資助。
論文標(biāo)題:Genome Variation Map: a data repository of genome variations in BIG Data Center
京公網(wǎng)安備 11010602006204號(hào)