《Nature》重磅 | 通過數據分析,機器學習發現近6000種未知病毒

雷鋒網消息,《Nature》雜誌近日發佈消息稱,研究人員利用人工智能發現了近6000種未知的病毒。這項工作是在3月15日由美國能源部(DOE)組織的一次會議上提出的,它展示了一種探索地球上巨大而未知的病毒多樣性的新工具。

從人類健康到垃圾降解,雖然病毒的影響力十分巨大,但它們卻很難被摸透。 科學家們無法在實驗室環境中培養大多數病毒,識別其基因序列的嘗試也往往無法進行,因為病毒的基因組很小並且進化得很快。

近年來,研究人員通過對來自不同環境的樣本進行DNA測序,來尋找未知的病毒。為了識別出現的微生物,研究人員搜索已知病毒和細菌的遺傳特徵,正如文字處理器的「查找」功能會突出顯示文檔中包含特定字母的單詞。但是這種方法經常失敗,因為病毒學家無法搜索他們不知道的東西。

不過,機器學習解決了這個問題,因為它可以發現海量信息中的新興模式。機器學習算法解析數據,從中學習,然後自主分類信息。

南加州大學洛杉磯分校的計算生物學家Jie Ren表示,「以前,人們沒有辦法很好地研究病毒,但現在我們有新工具可以找到它們。」

在最近的一項研究中,美國能源部聯合基因組研究所(JGI)的計算生物學家 Simon Roux 訓練計算機識別不常見的 Inoviridae 病毒家族的基因序列。這些病毒生存在細菌中並改變宿主的行為,例如,它們會使得引起霍亂的霍亂弧菌細菌毒性更強。在加州舊金山召開的會議上,他提出了自己的研究成果。他表示,在他的研究開始之前已經有不到100種基因組被發現。

Roux提出了一種機器學習算法,其中包含兩組數據:其中一組含有來自已知的Inoviridae的805個基因組序列,另一個含有來自細菌和其他類型病毒的約2000個基因序列。該算法可以找到區分它們的方法。

接下來,Roux 向模型饋送大量宏基因組學數據集。該計算機回收了超過10000種的Inoviridae基因組,並將其分成不同種類的集群。他說,其中一些集群之間的遺傳變異很大,以至於Inoviridae可能有很多家族。

雷鋒網了解到,在另一項研究中,巴西聖保羅大學的生物信息學家Deyvid Amgarten利用機器學習在城市動物園尋找肥料堆中的病毒。他編寫了算法來搜索病毒基因組的一些顯著特徵,例如給定長度的DNA鏈中的基因密度。訓練結束后,計算機復原了幾個似乎是新型的基因組,Amgarten表示。他在JGI會議上介紹了他的結果。最後一步是了解這些病毒產生的蛋白質,看看它們中的哪些會加速有機物質分解的速度。「我們想提高肥料的質量。」他說。

Amgarten 是從去年報告的一項機器學習工具即 Ren 的團隊開發的 VirFinder 中得到靈感的。VirFinder被設計為尋找 DNA 鹼基組合,例如 DNA 雙鏈中的 AT 或 GC。據雷鋒網了解,Ren將該算法應用於健康人和肝硬化患者(一種由肝炎、慢性酒精中毒引起的疾病)的基因組樣本。機器將取樣的病毒完成了分組之後,該團隊注意到樣本中某些特定類型的基因組在健康人群中相對更少或更多,這意味着這些基因組相關的病毒可能導致了疾病。

Ren的發現是一個引人注目的發現:生物醫學研究人員一直在想,病毒是否會導致一些難以捉摸的癥狀,如慢性疲勞綜合征(也稱為肌痛性腦脊髓炎)和炎症性腸病。康涅狄格州法明頓的Jackson基因組醫學實驗室的免疫學家Derya Unutmaz推測,病毒可能會引發一種破壞性炎症反應,或者他們可能會改變人體微生物群中細菌的行為,反過來會破壞新陳代謝和免疫系統。

Unutmaz說,通過應用機器學習,研究人員可以確定隱藏在患者身上的病毒。此外,由於AI有能力在海量數據集中尋找模式,這種方法也許可以將病毒數據與細菌相關聯,然後將癥狀數據與蛋白質變化聯繫起來。Unutmaz說,「機器學習甚至可以揭示我們從來沒有想過的問題。」

原文地址:https://www.nature.com/articles/d41586-018-03358-3


想在手機閱讀更多業界資訊資訊?下載【香港矽谷】Android應用
分享到Facebook
技術平台: Nasthon Systems