最近,美國洛斯阿拉莫斯國家實驗室(LANL)的一個遺傳學小組和一國際財團聯合提出了一套旨在闡明可公開獲取的基因測序數據信息的質量標準。新標準最終可使遺傳研究人員開發出更有效的疫苗,或有助于公共健康部門或安全人員更迅速地應對潛在的公共衛生突發事件。
在最新一期的《科學》雜志上,LANL遺傳學家帕特里克·錢恩和他的同事提出了6個基因組測序數據標簽,可將基因測序數據按其完整性、準確性以及由此帶來的可靠性進行歸類。這些標簽可在公共數據庫中獲取,而目前使用的標簽僅為兩個。此項成果的重要性在于,研究人員必須每天使用這樣的數據,以對未知遺傳數據和已知生物體的遺傳數據進行相互參照,而有了這樣的新的分類標準,數據的獲取與對比工作的效率將大大提高。
每個生物體的細胞內都有DNA,由4個分子構建模塊(或稱堿基對)組成,堿基對排成特定序列時就可構成基因。這些基因序列可包含對生物體有益或有害的遺傳指令。基因組研究人員編目了數以千計的基因數據,并將其放在公眾數據庫中以供其他研究者使用。 然而,由于基因數據的復雜性,公共數據庫中的遺傳信息范圍從粗略到精致一概都有。過去,這些基因數據常被歸類為“草圖”和“成品”兩大類,給基因數據的準確性留下了太多的不確定性。
錢恩表示,在過去幾年里,基因測序技術已取得重大進步,公眾可獲得的基因數據已呈爆炸性增長,每天產生的堿基對序列數據量要比過去幾年產生的數據量還要多幾十億次。不同的測序技術具有不同的精確度。一個序列中的高度不確定性可能會引導研究人員走向一條耗時長達一年甚至數年的錯誤道路。因此,有必要建立一個標準,為研究人員提供對遺傳測序數據質量的明確評估。
錢恩聯合了大大小小的數個基因組測序中心,如美國能源部聯合基因組研究所、桑格研究所、人類微生物群系項目Jumpstart聯盟測序中心、密歇根州立大學以及安大略省癌癥研究所等,共同提議將現有的測序數據分類從兩大類充實為6大類。這6個標準涵蓋了從代表公眾提交最低要求的“標準草圖序列”到代表最高標準的“完成序列”,而“完成序列”的驗收標準是每10萬個堿基對中最多只能包含一個錯誤。
LANL基因科學小組負責人、聯合基因組研究所LANL研究中心主任克里斯·戴特表示,該項研究的目的是為了讓所有主要的基因組中心和基因組研究小組都能用上符合其需要的分類基因組測序數據。而為了盡可能保證基因組序列的完整性,一些較小的研究中心也可采用這個分類等級來建立和提交其研究成果,以幫助其他科學家了解既已完成的工作。(馮衛東)
Copyright ©1999-2024 chinanews.com. All Rights Reserved