耗資27億美元打造基因組計劃 , 精準讀取資料

你們相信嗎,一臺最普通的筆記本就能以最快的速度組裝整個基因組和宏基因組,包括微生物基因組。

實施基因組計劃編輯

麻省理工學院計算機科學與人工智慧實驗室教授、論文作者BonnieBerger說,“我們做到了,未來對於敗血症有關的疾病就能夠迅速的做出治療方案,能夠拯救更多的患者,”自從實施人類基因組計劃以來,這個領域已經有了很大的進步,2003年就完成了第一個人類基因組裝,共計花費了27億美元,研究人員表示,第三代測序技術提供了數以萬計鹼基對的兆兆位元組高質量基因組序列,但使用如此龐大的資料進行基因組組裝具有挑戰性。

使用了核苷酸短序列編輯

目前這項技術能夠對所有可能的讀取結果進行配對比較,為了更進一步的高效完成,將重點放在了語言模型上,研究人員開發了一種最小空間化的deBruin圖(mdBG),值得一提的是它使用了核苷酸短序列。

能夠準確的讀取資料編輯

研究人員用這個方法獲取了準確率非常高的資料,和太平洋生物科學公司提供的人類基因組資料,他們在評估的過程中發現,新軟體組裝高保真人類基因組資料,比Peregrine彙編器快81倍,記憶體使用量為1/18,比hifiasm彙編器快338倍,記憶體使用量為1/19,研究人員隨後又建立了一個包含661406個細菌基因組規模最大的索引,他們發現,這種新技術可以在13分鐘內搜尋到所有的耐藥基因,而使用標準序列比對需要7個小時。

省去了繁瑣的步驟編輯

Berger說:“我們對這項技術非常有信心,但是讓我們意想不到的是優化了程式碼之後真實資料竟然擴充套件的這麼好,”巴斯德研究所研究員、該研究參與者之一的RayanChikhi說:“新技術可以節省很多繁瑣的預處理步驟,比如後期校正的問題,”“我們還可以處理高達4%錯誤率的測序資料,”Berger補充說,Berger指出,雖然這個方法非常的實用,但是唯一的短板就是讀取時間長,目前牛津奈米孔的錯誤率為5%~12%,但很快能到達4%。

Berger說:“我們希望幫助科學家們建立快速的基因組檢測站點,超越可能會忽略基因組之間重要差異的PCR和標記陣列。”