
人類蛋白質組 (Proteome) 就是人類所包含的所有蛋白質,類似人類基因組包含了所有人類基因那樣。破譯人類蛋白質的結構(可以理解為捲曲形狀),對於生物學、醫學,乃至整個生命科學具有無法估量的深遠影響。
「這是一本名副其實的世界蛋白質萬年曆。」DeepMind 在博客中寫道。
很多關注深度學習領域的朋友可能知道,DeepMind 多年前專為預測蛋白質結構而開發了 AlphaFold 算法。
上周,DeepMind 剛剛公開了 AlphaFold 2 系統的相關論文和源代碼。AlphaFold 2 被譽為「蛋白質摺疊結構預測」這一生物學方面長達50年重要問題的當前最優解,將準確性平均分提升到了92.4(百分制),誤差不超過一個原子的大小。
今天 Deepmind 發佈的蛋白質組預測圖,正是基於這項技術。
「感謝 AlphaFold 團隊長達5年的不懈努力,以及我們合作夥伴的幫助,我們現在終於可以將這些關鍵的信息公之於眾。」
今天 DeepMind 正式發佈的人類蛋白質組預測圖,包括了:
1)人類大約2萬種蛋白質當中,98.5%的蛋白質;
2)20種科研常用的重要生物體(如小鼠、果蠅、大腸桿菌等)的蛋白質。
DeepMind 還和歐洲生物信息研究所 (EMBL-EBI) 合作,將這些蛋白質結構預測圖,整理成一個 AlphaFold 蛋白質結構數據庫 ( AlphaFold Protein Structure Database, 簡稱 APDB) ,並且對全世界免費開放。
在這個數據庫中,輸入蛋白質的編號/名字/基因,或者生物名,即可快速查找到對應的蛋白質,並且查看 AlphaFold 2 預測的高準確度摺疊圖。
視頻來源:DeepMind
比如下圖中顯示的就是 PE-PGRS family protein PE_PGRS33。這是一種與結核病相關的蛋白質。數據庫包括了對蛋白的家族和基因信息等提供了相關介紹,並且提供一個可以拖拽交互的3D結構圖,其中顏色越冷的部分,表示 AlphaFold 在該部分的預測可信度越高:
該公司還宣布,在接下來的幾個月里,研究團隊還將繼續擴大 PDB 的內容,覆蓋所有目前已知的超過1億種蛋白質當中的絕大部分。
我們都聽說過蛋白質。想要了解一個蛋白質「長啥樣」,其實有多種視圖可以採用。比如:
1)空間填充圖,方便看到蛋白質分子結構;
2)飄帶圖,可以更加準確地顯示蛋白質當中的α-氨基酸分子鏈條的摺疊結構;
3)表面圖,可以看到蛋白質可以與水分子接觸的表面。
而今天我們主要討論的蛋白質摺疊結構就是通過飄帶圖所表示的。
為什麼了解和預測蛋白質摺疊結構很重要?
蛋白質其實是一種複雜的「生物機器」。每一種蛋白質都有其獨特的功能:有的負責在機體內運輸代謝物質,比如血紅蛋白;有的負責加速生物化學反應,比如澱粉酶;有的負責調節新陳代謝,比如胰島素;有的則直接構成生物機體組織,比如膠原蛋白等。
雖然功能多種多樣,但其實所有已知的蛋白質的結構都是由21種已知的氨基酸構成的。這些氨基酸當中也只包含碳、氫、氧、氮、硫和硒這六種元素。
但是,這些氨基酸在鏈條上的排列組合、鏈條的摺疊方式,以及最終摺疊的結構,決定了蛋白質的最終功能。
因此,準確了解蛋白質的摺疊結構對於生命科學、環境科學等人類目前面對的重要課題都十分關鍵。
DeepMind 本次發佈的內容讓人類對於自己物種蛋白質組所了解的信息翻了一倍。
一些蛋白質研究方面的頂級機構和人士,對這次 DeepMind 發佈的內容做出了極高的評價。
朴次茅斯大學生物酶技術創新中心主任 John McGeehan 教授表示,「過去我們花費數月甚至數年的工作,現在 AlphaFold 只用一個周末就可以做到。」
「被忽視疾病藥物研發倡議」(DNDI) 的 Ben Perry 相信,AlphaFold 將會開啟新的研究領域,「我們非常興奮地看到,最尖端的 AI 技術正在聚焦於幫助那些最貧困的人口。」
「我們相信,這個項目代表了截至目前 AI 對於推進科學知識進步,所作出的最有價值的貢獻,並且是 AI 能夠為人類帶來幫助的優秀案例,」DeepMind 在博客中寫道,「我們的發現將助力生物學和醫學在未來更多的新發現。」
註:封面圖來自於 DeepMind,版權屬於原作者。如果不同意使用,請儘快聯繫我們,我們會立即刪除。