編輯丨陳彩嫻
「AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科學領域蛋白質結構預測獲得諾獎就是 AI 巨大突破的高光時刻,諾獎之後 AlphaFold 的研發模式已經成為 AI for Science 的樣板。」程建林說道。
2025 年 1 月 5 日,雷峰網、AI 科技評論GAIR Live 品牌與 CASP 評估的優秀華人團隊聯合舉辦了一場主題為「諾獎之後的新篇章:蛋白質結構預測的機遇與挑戰」的線上圓桌沙龍。
圓桌主持人為江蘇理工學院教授常珊,並邀請了密蘇里大學計算機系教授程建林、山東大學教授楊建益、南開大學統計與數據科學學院教授鄭偉、浙江工業大學信息工程學院教授張貴軍以及江蘇理工學院研究員孔韌共同開啟了一場深度對話。
常珊是江蘇理工學院教授,現任中國細胞生物學學會功能基因組信息學與系統生物學分會委員,中國疫苗行業協會疫苗基礎研究專委會委員,中國中醫藥信息學會中醫臨床藥學分會理事。
程建林教授目前供職於美國密蘇里大學計算機系,他 1999 年赴美留學,2006 年在美國加州大學爾灣分校獲得了博士學位,並在 2004 年便開始參加 CASP,先後已經參加了 11 屆。
楊建益則是山東大學教授,他自 2011 年開始在密西根大學跟張陽教授做結構預測,至今已有十餘年。南開大學統計與數據科學學院教授,傳染病預防與溯源全國重點實驗室成員,鄭偉教授也是在張陽教授實驗室開始的結構預測的旅程,從 CASP12 起已經參加了5次 CASP——近 10 年的比賽。
張貴軍是浙江工業大學信息工程學院教授,做蛋白質結構預測有十幾年時間了,先後參加了兩屆 CASP。孔韌當前是江蘇理工學院的研究員,博士開始和常珊教授一同在北京工業大學王存新教授的實驗室做分子模擬以及蛋白質複合物結構預測。2015 年回國后,同常珊教授在江蘇理工學院組建了研究所,從 CASP13 開始參加。
幾位嘉賓都參加了本次第十六屆 CASP(Critical Assessment of Protein Structure Prediction)。CASP 作為自 1994 年以來每兩年進行一次的全球蛋白質結構預測競賽,楊建益將其比作諾獎的「孵化器」和科學研究的奧林匹克。
在此次圓桌會上,大家一一分享了參加 CASP 的心得,以及對於領域前沿進展和突破的洞察,單序列結構預測、多構象預測、RNA 結構預測、蛋白質-小分子複合體預測等也成為了下一階段亟待得到突破的問題:
鄭偉說道,「今年整體看 RNA 賽道無論是難度、數量還是細化上變化都非常明顯。也可以看出整個領域在蛋白質結構預測發展得相對來說比較成熟的情況下,大家的關注點可能漸漸要往 RNA 結構預測上產生一定傾斜了。」
同時,「多構象也是 CASP 一直想要增加的賽道,但是鑒於往年多構象的數據不太好採集,今年是首次作為獨立賽道設置了比賽,預測好多構象對後續的整個動態過程預測很重要。」但當前囿於真實數據的不足,還未能實現大的突破。
而在小分子預測方面,據孔韌介紹,「 AlphaFold 相對於傳統對接方法,已經表現出優勢,在某些靶點上比傳統對接方法要強,將來感覺可以把傳統的對接方法和 AlphaFold 的深度學習方法結合起來做綜合考慮和使用。」
不過, AlphaFold3 在使用模版和選擇模型等方面仍存不少提升空間。值得一提的是,嘉賓們也針對諾獎「預備役」展開了探討,其中單序列結構預測被屢次提及:
楊建益認為,「單序列結構預測研究的是蛋白質摺疊問題,AlphaFold 與 ESMFold 等方法本質上是數據驅動的結果,並未涉及蛋白質摺疊問題。如果未來蛋白質摺疊問題解決了,也將會是諾獎級的工作。」
程建林同樣看好,他表示,「單序列的結構預測是經典問題,當前 AlphaFold3、AlphaFold2 都依賴於多序列輸入,但是很多時候只能找到一個序列,能否精確預測出結構,這甚至可能產生第二個諾獎。」
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
CASP 16 的進步與突破
常珊:我們這次圓桌專註於結構預測方向,主要是受到 CASP 評估會的啟發,結構預測還有很多可以探討的問題。今天一共有八個議題,四個偏專業,四個偏科普。這次很多華人團隊都線下參加 CASP 評估會,對 CASP16 評估會有哪些印象深刻的事情?
程建林:這次 CASP 給我的印象一是參加的團隊比以前多,二是大陸科學家取得了了不起的成就,包括在座的老師,這次 CASP 大家在所有領域都達到了世界前列的水平。
楊建益:2024 年是我第一次線下參加 CASP,從觀眾角度來講,我印象最深的是會議全程四天,參加會議的人都在,不像很多會議大家參加到一半就走了,這是很大的區別。從組織者到報告人大家都非常專註,CASP 能堅持 16 屆 30 多年,我很感動。感覺 CASP 有點像諾獎的孵化器,大量結構生物學家、計算生物學家堅持長期主義,艱苦奮鬥,長期量變的積累才有了今天的突破。
鄭偉:剛才建林老師提到,中國大陸的參賽團隊明顯變多,我想補充一下,其實整個亞洲的團隊數量都是明顯變多的,上屆日本的團隊不少,這屆明顯感覺韓國的參賽團隊數量不少,整個亞洲的團隊數量可能差不多和歐美的持平,甚至快反超了。
近年 CASP 更傾向於解決實際的生物學問題,它的重要意義在於能指導結構生物學整體的發展方向,包括計算結構生物學裡我們到底應該做什麼、這個方向的發展前景是什麼。比賽其實更關注這種本質的問題,而不是為了比賽而比賽。
線下評估會主要在討論賽制或下一屆比賽應該怎麼做,這也是很多學者不願離開會場的原因之一。然後是近些年尤其是 CASP16 工業界課題組參賽熱情其實明顯下降了,大家可能都去卷大模型了,剩下學術界課題組還在堅守本心(笑)。
張貴軍:我今年沒有去會場,但看了現場 PPT 以後,非常贊成 CASP 是實驗而不是競賽這一原則,它更加關注的是生物學的 insight,而不僅僅是排名,這也估計是 CASP 評估的魅力所在。
孔韌:我是第一次在線下參加 CASP,現場氛圍確實非常好,討論也十分激烈。以前我們總說摺疊問題或者複合物結構預測問題,以 AlphaFold3 為代表的深度學習方法對於結構預測領域的每個特別問題都給出了相應較好的解決方案。
然後我聽了第一天主席講的歷史,他堅持在這個方向做了 30 年,整個科研生涯都堅持在解決結構預測的問題,我對此非常感慨,這是我們生命科學領域非常核心的存在,任何一個細胞或動物層面的生物特徵,追其根本是生物大分子的結構問題,結構正常或異常和生物學功能關係密切。
往屆比賽算法還不太發達,我們解決的主要是單體結構問題,但在整個細胞體系中,更多的是蛋白質 DNA、蛋白質 RNA 或者小分子形成的複雜體系,CASP 也可以看到解決複雜體系問題的趨向了。然後整個作用的過程是動態的,基於此,組委會提出將來要發展算法解決動態結構預測問題,這對生命科學研究來說意義重大。
常珊:我們進入下一個議題,本次比賽在蛋白質預測方面有什麼新進步?以及今後的發展趨勢是怎樣的?這個問題請楊建益和程建林老師來講一下。
楊建益:蛋白質單體結構預測是 CASP 從第一屆到現在一直都有的主題,這一屆跟以往的區別在於分階段預測,分為 phase 0、1、2,phase0 只提供序列信息,但不知道化學計量,這個預測比較有挑戰性,如果這部分預測錯會使結構預測得很差。第二階段會告知化學計量信息,第三階段提供了 MassiveFold 生成的基於 AlphaFold2 的 8000 個結構模型,供預測者挑選,從而改進預測結果。
進步方面其實是增量性的,許多團隊都是用 AlphaFold3、AlphaFold2 或自己的方法結合起來,其中有兩個 Baseline,AlphaFold3 的 Baseline 是 AF3-Server,AlphaFold2 的 Baseline 是 ColabFold,從 Baseline 來看,AlphaFold3 和AlphaFold2 相比確實有一定改進,但並不顯著,但 AlphaFold3 功能更全、可預測更多類型的生物分子結構。
還有個較大的進步在於抗體-抗原複合物結構預測。Dima 團隊結合 AlphaFold3、AlphaFold2,以及物理採樣方法 CluPro,通過 FFT 對接,生成大量候選結構模型,最後基於聚類和打分,篩選最優結構模型。但評估數據集較小,CASP16 只包含 8 個評估對象,不確定這類方法對於抗體-抗原複合物結構預測的泛化能力。
常珊:其實大家常有討論在預測過程中,人工干預究竟能起到多大的作用?
程建林:我覺得人工干預在選模型上是很難的事,因為當有幾個很不同的AlphaFold2 或 AlphaFold3 產生的結構,看起來都有可能,分數也差不多,很難確定哪個結構更好。
但在有些方面人工干預是有幫助的,特別是化學計量 phase0 的預測,這是個新引進的項目。很多時候我們不知道化學計量,而要預測結構需要先預測化學計量,這部分人工干預是有用的,因為可以去找現有的模板,這個模板提供有效的信息,然後結合這些信息產生結構模型,用模型的分數來評估。
然後,這次還有一個挑戰在於 AlphaFold3 是在比賽中間放出來的,在比賽前很多實驗室的系統已經在 AlphaFold2 的基礎上建好了,那 AlphaFold3 出來要怎麼變化或快速反應,能不能馬上接受並有效使用,也是影響實驗室成績的因素。鄭偉老師就跟我講他本來用 AlphaFold2 做得很好的,但是完全沒有用 AlphaFold3 ,所以表現就稍微下降了一點。
AlphaFold3 其實在大的複合物摺疊上功能上要比 AlphaFold2 好,特別是當有很多蛋白質時,AlphaFold2 產生不了很好的結果。此外,我也關注到在蛋白質和小分子複合物的預測中,有一項進展是人工智能方法趕上甚至超過了傳統對接方法,下屆 CASP 可能整個領域的水平都會上一個台階。
有關發展趨勢方面,感覺結構模型排序問題、選擇問題和質量評估問題都很有挑戰性。以前領域中主要障礙在於如何產生好的結構模型,現在很多時候能夠產生好的模型,抗體、抗原都能產生正確的結構,但無法選擇出來,這個問題沒有徹底解決。
化學計量的預測也很重要,目前 CASP16 中有的方法已經能在一定的人工支持下實現高性能,達到百分之七十幾的精度,但如何自動化以及繼續提高是很重要的。還有一個問題聚焦於大的複合體預測,就是當複合體中有幾十個或更多蛋白質形成時要怎樣預測結構,AlphaFold3、AlphaFold2 也沒有完全解決這個問題,這是之後需要突破的重要方向。
另外,單序列的結構預測也是經典問題,當前 AlphaFold3、AlphaFold2 都依賴於多序列輸入,但很多時候只能找到一個序列,能否精確預測出結構,這甚至可能產生第二個諾獎。
最後是人工智能,當前人工智能在蛋白質和小分子方面都已取得了突破,接下來會有很多應用,但我比較驚訝的是,在核酸結構預測中人工智能還未超過傳統方法,陳世傑老師這次在核酸 RNA 結構預測中取得了最好的成績,也用了 AlphaFold3,但大量使用的還是傳統方法,近兩年可能會看到人工智能的超越。
蛋白質預測新問題的挑戰和趨勢
常珊:單序列的蛋白質結構預測有可能揭示了蛋白質結構的一些機制,這是很重要的,核酸結構預測我們後面也會討論到。程老師剛剛也提到了蛋白質模型的排序、質量評估,還有蛋白質的多構象、複合物的問題,這也是目前比較有挑戰的部分,正好引出了我們的第三個議題蛋白質複合物組裝以及多構象預測,蛋白質模型質量評估等新問題,請鄭偉老師和張貴軍老師給大家介紹一下挑戰和發展趨勢。
鄭偉:我先講一下模型質量評估,目前在複合物結構預測中比較麻煩的問題在於,我們通過大量採樣,複合物備選的模型中其實有很多是接近於真實結構的,但還是默認的 QA 打分,模型的置信係數沒法把最好的排到前面,在我們開發的方法里,這個問題比較大。剛才建益老師也提到了抗體問題,今年賽后我們看了一下整個模型池,這幾個抗體複合物我們也做了大量採樣,結果也有很多正確的模型,但它們在排序里很低,這就引出了獨立 QA 方式的問題。
今年蛋白質模型質量評估問題上有幾個變化,往年大家傾向於做其他參賽者提交的模型排序以及常規的 QA 評測,今年引入了 MassiveFold 的模型質量評估,集成了各種改造版的 AlphaFold2 模型,大概產生 8000 個模型,CASP 有一個賽道就是在這些模型中重新選擇結果比較好的。另外,現在的 CASP 可能也更關注模型的自評估,這是從 CASP14 開始引入的,作為最後所有評估參賽表現的其中一個指標,QA 在整個蛋白質結構預測領域其實也日漸被重視。
但這個領域很難,我們今年也嘗試了參賽,賽前我們做了一個 QA 評估,想用其他第三方 QA 來給模型重新打分,但基本所有第三方都沒法把我們的模型選好,所以我們就想能不能不用 QA 選模型,而是用模型反作 QA,因此我們構建了一個 QA 深度學習模型,然後用我們的模型做為主要的參考對其他模型進行 QA 打分,這又引出了一個問題是 QA 到底應不應該脫離結果預測單獨去做,不過這部分問題可能還需要和建林、貴軍老師討論一下。
蛋白質複合物組裝這部分除了加入了 Phase0、1、2 之外,整體的體系也在變大,以往複合物組裝都是比較小的體系,就是兩個蛋白或者這兩個蛋白 copy 數不太多,化學計量數也比較小,A1B1、 A2B2 都算比較大的了,整個體系就是一兩千個氨基酸,今年大的複合物變得特別多,有的體系里可能包含了十幾個蛋白,甚至有的整個體系下來七八千個氨基酸。今年整個複合物的組裝,一是化學計量變得更加複雜,二是複合物的體系變得更大,整體感覺變難了。
多構象這塊其實是今年 CASP 一直想要增加的賽道,但鑒於往年多構象數據不太好採集,今年是首次作為獨立賽道設置,相對其他賽道,多構象不到 20 個結構,數量非常少。多構象在生物學裡其實很重要,因為生物過程不是靜態的,我們預測蛋白質結構其實大部分都是看某一個結構中間的狀態,是靜態的過程,但多構象是動態的,這對後續整個動態預測很重要。
但今年一是賽題難度大,二是沒有明確的評測指標,還處於起步階段,多構象預測相對其他賽道更難,數據量比較少,很難訓練一個比較常規的深度學習模型預測所有多構象問題,所以處理起來要 case by case,每個 case 都要人工花費很多精力。
從前景上來講,AlphaFold3 里用的擴散模型的結構模塊比 AlphaFold2 基於 Transformer 的結構模塊在 Benchmark 的時候效果好些,多構象預測比較好的發展方向是生成模型或 Diffusion 模型。
張貴軍:模型質量評估聽起來簡單,但是實現並不容易,現在的指標體系從單體遷徙到複合物上還存在很多問題,所以在 CASP 中針對複合物的模型質量評估也增加了很多的改進,比如在局部指標增加了 PatchQS 和 PatchDockQ 指標,在 CASP16 中,我們實驗室開發了一個基於兩個單模型和一個共識方法的 QA 框架,一般來講,通過共識方法判斷模型是否合適會受限於預測方法,因此,從 EMA 賽道的設置的初衷而言,發展單模型方法是重點方向之一。
EMA 整體上需要考慮打分、排序、選擇三個不同步驟,它們之間是有區別的。對於一個複合物模型而言,打分的對象有很多種,包括全局、局部、接口殘基、側鏈、原子的評估分數,然後將這些分數需要整合排序,最後根據生物學需要挑選出感興趣的模型。目前方式是挑選最佳模型,但在生物學功能問題中時,如果存在多構象問題時,單一的 TOP1 選擇方式並不理想。因為複合物模型可能存在兩種或以上的穩定功能構象。此外,CAPRI、CASP 在模型質量評估及打分方面的指標也是有區別的。在本屆 CASP16 中,除了 Guijunlab-QA 之外,我們實驗室還分別開發了 Guijunlab-Complex、Guijunlab-DeepAssembly 兩個服務器參加了複合物建模類別,通過盲測分別驗證一下 MSA 和模板兩個因素在高精度建模中的作用。
鄭偉老師的工作做得非常好,這也說明了從目前來看結構預測方法是超前於模型質量評估方法的,預測做得很好,預測的評估也會做得很好。但也會存在全新、預測做得不太好的蛋白,或者參賽隊伍間差異性較大的情況。此外,這屆 CASP 也考慮到了實驗結構的可靠性,從上屆開始組委會就已經在考慮是模型預測錯誤還是實驗結構測定誤差的問題了,這也表明計算建模方法已經成為實驗測定方法的有效環節。
化學計量學的評估也比較重要一個新問題,預測方面出現的新挑戰在評估方面都應該考慮。比如二聚體、三聚體、四聚體等計量學問題不僅可以搜模板,還可能從 MSA 中分析得到接口指紋,然後通過指紋判斷保守性的方式去解決。如果考慮到模板和 MSA 的話,實際上又歸到序列層面相互作用的問題,目前,我們也在針對基於序列的蛋白質相互作用方面開展工作。
另外一個需要關注的挑戰是多構象的問題。我一直想跟大家討論 MSA 在建模和評估方面的雙刃劍問題。CASP 多構象建模實踐表明,在 AlphaFold 中使用不同的 MSA 配對確實可以產生不同的構象,而且已經有成功的案例,是目前多構象預測的基本流程。但是,從第一性原理的角度來看,多構象信息應該包含在其序列之中。我覺得多構象預測之後應該可以從以下幾個考慮,通過蛋白質序列語言模型(也就是 AI)的方式,直接從單序列出發捕獲構象變換的語義關係;第二個方面直接在第一性原理上基礎上,考慮氨基酸的物理化學性質去預測動態構象。多構象模型精度評估同樣需要考慮以上問題,從序列語義、物理化學的第一性原理考慮去研究。最後我想談談 EMA 評估的指標體系,除了目前考慮的全局、局部、殘基之外,化學計量學的評估指標體系建立也很必要,在算法排序中,選擇 5 個模型中的 Best 模型可能更加合適,因為多構象、實驗測定誤差以及特定生物學場景需求,使得 TOP1 模型的並不是最理想的選擇。
還有一個問題我也想和各位老師探討,從我們現在的 EMA 角度來看,接口殘基的辨識率和精度兩個指標在 CASP 16 里存在衝突。本屆 CASP 16 給出了這兩個指標,但填寫精度數據時只給了一個地方填寫,現有的 PatchQA 和 PatchDockQ 是否有足夠的懲罰使得兩個指標一致?其 Rank 權重能否真正體現精度就是接口的可能性。最近我們重現了一下,如果不太考慮精度的話,接口辨識成功率是可以提升很多的但精度會下降很多。
在蛋白質複合物預測方面,我們專門從 MSA 改進方面開發了一個 Guijunlab-Complex 服務器,從模板改進方面,開發了一個 Guijunlab-DeepAssembly 服務器進行測試,此外考慮到遠程模板的重要性,開發了一個主要用於單體預測的 Guijunlab-Pathreader 服務器。從盲測測試效果上來看,基於 MSA 該進的性能優勢還是明顯的,這表明目前 AlphaFold2 和 AlphaFold3 在這個領域的成功應用,MSA 的改進仍然是目前的主流方式。
目前需要努力的方向在於化學計量學的預測,這部分工作的開展需要綜合考慮 MSA、模板的因素;另外,弱的交互作用的複合物預測也是 AI 方法的挑戰性問題,之前我們一直認為纏繞蛋白很難預測,但 AI 出現后已經有了一些成功案例(由於存在較大的接觸面積),與此相反,接觸面比較小的蛋白如果採用傳統組裝方法是相對容易實現,傳統方法和 AI 的整合,可能是應該此類問題的一種有效方式。
我也想請教程老師,多構象預測方法目前都是以不同的 MSA 配對、選用不用模板、調參生成大量模型,更為理想方法的應該是直接基於單序列。如果是基於 MSA 方式話,在不同的化學計量學下,可能存在的不同聚合關係,這種聚合關係使我們很難去完整預測所有靈活構象。
除了剛才說的這些問題之外,還需要注意的是,設計的算法應該是一個明確的、有界的步驟。目前廣泛採用 AlphaFold2、AlphaFold3,雖然考慮了精度,但並沒有充分地考慮時間複雜度和空間複雜度這兩個算法指標。之後 CASP 比賽中應該會考慮算法的效率問題。另外我覺得目前多構象預測領域存在的挑戰還是數據問題,現有的 MSA、模板數據是否能支撐推斷出動態信息,或者是否有良好整理的分子動力學模擬的數據。現在 AI 生成模型存在幻覺,但蛋白質是不允許存在幻覺的,PDB 庫中的動態結構、良好的 MD 數據將會有效地克服這一問題。
程建林:多構象預測現在有很多人開始做,最近微軟也開發了一個軟件預測分子動力學的模擬結果,這個領域非常重要,但問題在於沒有足夠的真實實驗數據來訓練模型。
理論上來說可以用多構象的實驗數據來微調現有的模型,比如微調 AlphaFold2、AlphaFold3,讓其產生多構象,甚至從單序列能夠產生多構象的結構,但做實驗拿到多構象的真實數據比較困難,我不知道現在蛋白質結構 PDB 數據庫中有多少這樣的數據能支撐我們的訓練,這是制約領域發展的重要問題。
質量評估和結構預測放在一起還是分開這個問題也很重要。自我的質量評估是有必要的,但同時從用戶角度來說,用戶需要用不同的軟件來產生模型,然後得到質量的評估,他們更需要的是獨立的、甚至是單模型的評估方法幫助他們選擇模型。另外是共識和單模型的質量評估方法,共識方法其實是很簡單的,就是看模型之間的相似性,然後進行排序,問題在於單模型方法還沒有突破共識方法,這是我們需要做的工作。
張貴軍:所以應該鼓勵單模型方法,而不是共識基線方法,這樣可能會壓制單模型方法的開發。
程建林:是的,我們也試了幾種方法,共識方法、單模型方法和共識、單模型的組合方法,最後在 CASP 的比賽中共識方法還是超過了其他方法,雖然單模型和共識結合的方法在我們自己的實驗中比共識方法好。共識方法目前沒有什麼大的突破,但是設了一個很高的界限,其他的方法還沒有系統地超過它,如果有一天單模型或少模型的方法能超過共識方法的話,這個領域才算取得了重要突破。
張貴軍:那現在自評估 AlphaFold2 里對一些無序片段的評估質量並不是太高,是不是意味着存在獨立於 AF 的第三方的預測和評估方法是非常有的必要的。
程建林:我覺得完全有必要,現在自評估其實也不錯,但有時高估一些模型的質量,所以需要獨立的質量評估。預測問題是產生結構模型,而評估是選擇最優模型,這是兩個不一樣的問題,都非常難,甚至難度可能是一樣的,只不過現在在結構產生上取得了很大的進展,而評估還需突破,但突破是可能發生的,目前評估的重要性已經被 CASP 提到了一個高度。
RNA 結構預測新進展
常珊:我們進入下一個議題,在 RNA 結構預測、核酸複合物結構預測方面,預測的數量和難度是不是都在提升?AlphaFold3 是否有明顯優勢?請鄭偉老師和楊建益老師來介紹一下進展。
鄭偉:我們今年是第一次做 RNA 賽道,今年 CASP 拔高了 RNA,上一屆 RNA 只有十幾個 target,大部分集中在 RNA 單體上,複雜度也不高,可能一兩百個鹼基已經算比較多,但這屆 RNA 或 DNA 相關共有 60 多個。
RNA 和蛋白質複合物結構預測有點像,也分為 phase0 和 phase1,phase0 不告知幾聚體,phase1 再告知,今年我們猜 phase0 不會太大,但意外的是大的 RNA 複合物比比皆是,14 個或 8 個 RNA 形成的複雜聚體非常多。
RNA 整個體系也很大,有好幾個 target 都超過了 5000 個氨基酸,無論是通過我們自己的方法還是 AlphaFold3,都比較難預測。因為當時 AlphaFold3 的 Server 的最大提交長度閾值大概設在 5000,很多 target 超過 5000,參賽者不太好預測。今年 RNA 細分賽道也很多,去年只有 RNA 單體,複合物很少,而且去年只有兩個蛋白質-核酸複合物target,今年大概十幾個 target。
核酸小分子上次也完全沒有 target,今年也設了幾個,整體看 RNA 賽道無論是難度、數量還是細化上變化都很明顯。也可以看出整個領域在蛋白質結構預測發展得相對比較成熟的情況下,大家的關注點漸漸要往 RNA 結構預測上產生傾斜了。
另外 AlphaFold3 在這個賽道上沒有優勢,不光這個賽道,AlphaFold3 在各個賽道上整體排名在 6 ~ 10 名之間,整體精度沒那麼理想,所以在結構預測這個領域,即使大家拿到了相同的 AlphaFold3 的 Server,用的過程中經驗也很重要,這也是大家排名不一樣的原因。
蛋白質核酸複合物結構預測是我們今年比較感興趣的方向,往屆受限於方法,很少有做蛋白核酸複合物的方法,發展主要在近兩年,之前也有一些基於 Docking 或其他的方法,但純 AI 完全從頭預測是從 David Baker的 RosettaFoldNA 提出來之後開始的,然後 AlphaFold3 把這個體系發展得相對來說比較好,但整體看這個領域還較難,主要原因在於有效的、能夠用來訓練的蛋白質核酸複合物數量不太多,大概 3 ~ 5 千個,這是制約蛋白質核酸複合物結構預測精度的原因之一。
今年其實還有幾個 target 是抗體蛋白加核酸的複合物,整體來看,大家預測出的結果比蛋白質抗體-抗原複合物精度差很多,尤其在核酸這部分,基本大家預測的結果相對來說很差。
楊建益:我再補充一下,上一屆 CASP 才引入 RNA,但那時只有 12 個 RNA,其中 8 個天然,4 個人工設計,人工設計最長有 700 多個核酸,天然的RNA都比較短,大概在幾十到一百左右。
這一屆類別明顯更多,包括複合物、小分子,甚至有 RNA 跟水分子的互作,整體上預測起來非常困難,尤其是複合物類型。我們課題組做的 trRosettaRNA 主要針對 RNA 單體而言,當前可用 AlphaFold3 與 RoseTTAFold NA 預測蛋白-RNA 結構,但其性能依然不理想。
就 RNA 單體而言,預測跟上屆比不見得更難,上屆難在人工設計,這部分無論 AI 還是傳統物理方法都做不好自動預測,但上一屆比賽中熊鵬團隊把人工設計的 RNA 做的很好。這屆 RNA 的精度不比上次低,我們自己方法的在 RNA 單體的平均 RMSD 大概 15 埃,上一屆是 20 埃以上,主要是人工設計的 RNA 做得不好,RMSD 都是三四十埃左右。
CASP16 的 RNA 通過 AI 預測的精度還是可接受的,但還沒那麼精準,人工經驗還是比較重要,這方面和蛋白區別特別大,在蛋白結構預測中,人工干預不一定有特別大幫助,但 RNA 中人工干預挺關鍵的,排名前三的團隊都是人工干預做了很多修正,包括人工構建二級結構、模擬產生數據後人工篩選、基於 MSA 調整結構等,過程非常繁瑣,AI 很難把所有方面都考慮到。
自動預測好處在於會有許多人受益,我們提供了 trRosettaRNA 服務器,當用戶輸入的序列在訓練集中存在相似數據時,自動預測的結構大概率會比較準確。自動預測的優點在於可以服務更多用戶,我們服務器每天都會收到不少新任務。
自動預測是未來發展方向,雖然現在 AlphaFold3 優勢不明顯,但後面應該會越來越好,它精度不高的原因還是已有實驗數據有限,剛才鄭偉提到大概有幾千個數據,但這些數據很多都來自同一類 RNA 或複合物,其中特別多 tRNA,我們服務器也經常收到這類序列,預測結構都挺可靠,但比較新的 RNA 做得並不好。蛋白結構預測六七十年積累下來數據庫很大,有 20 多萬個結構供 AI 學習,但 RNA 數據還太少,非冗餘的數據就幾百個,學不好可以理解。
上屆比賽前幾名都沒有用到 AI 預測,但這屆前幾名都用 AlphaFold3 或 trRosettaRNA 輔助篩選或模擬,AI 的價值將會越來越大。我相信 RNA 數據積累是個過程,蛋白結構預測早期其實結構也不準確,現在的進步速度應該比之前要快,下一屆應該會有更多的 RNA 參賽團隊,結構預測精度應該會越來越高。
常珊:自動化的 RNA 結構預測非常重要,在 AlphaFold3 的文章里,其實在 CASP15 比較 RNA 結構預測的時候,結果其實差距不大,人工組還更佔優一些,在小分子預測方面則顯示出有比較大的提升,就像程建林老師說的,確實這一屆的評估也展示了配體預測中 AlphaFold3 作為 Baseline 的結果,人工組沒有超過 AlphaFold3,這也是有挑戰的問題,請孔韌老師和程建林老師簡單介紹一下。
孔韌:上一屆比賽中更多是一個蛋白結合一個小分子,或者一個蛋白同時結合多個小分子,這樣的問題更像是這個生物體系中蛋白質跟輔因子結合的預測問題,我們比賽結果非常好,因為用的是 template based docking的方法,那時 AlphaFold 還不能預測蛋白小分子體系,在這種蛋白與輔因子結合的問題中,有很多高度類似 template 能被找到。
這屆比賽其實引入了更加現實的問題,就是一個蛋白作為一個藥物靶點,我們通常在藥物發現的過程中需要去評估它跟多個不同化學結構小分子結合的模式問題,以及結合的強度問題。這其實更接近於我們在小分子開發中會碰到的問題,這次 AlphaFold3 沒有作為參賽者參賽,但在評估實驗中表現非常不錯。
這次一共有 L1000 到 L4000 四個 target,分別是四個葯靶對應幾十個到上百個小分子,AlphaFold3 在 L3000 中表現超過所有參賽組,在 L4000 上表現沒那麼好,在 L2000 和 L1000 這兩個同源蛋白中,它在 L2000 上的表現稍微好一點。整體來看,AlphaFold3 已經表現出優勢,在某些靶點上比傳統對接方法要強,將來我們真正做藥物研發時,可以把傳統的對接方法和 AlphaFold 的深度學習方法結合起來做綜合考慮和使用,產生更多有可能正確的 pose。
而這又帶來這麼多正確 pose 如何挑選的新問題,蛋白質結構預測中也會碰到類似問題,通常如果用 template base 方法很簡單,就是如果能夠在 PDB 庫中找到類似的小分子、化學 atom type,或者類似的周圍的 residue type 的話,根據相似性打分去評估,類似度較高的 pose 正確的可能性較大。
正確結構挑出之後,其實比賽也分了兩個階段,第一階段是預測小分子的結合模式以及結合親和力,第二階段是告知全部晶體結構和結合模式,直接預測親和力就行。但目前還沒有特別好的方法能評估小分子,或者多個小分子對同一靶點的結合親和力,將來我們也想往這個方向做。
程建林:孔老師提到 AlphaFold3 現在可能超過了其他方法,但其實還是有很多地方可以提高,比如怎麼用模板、怎麼選擇模型之類的,同時也會有其他競爭方法出現,最近有方法自稱超過了 AlphaFold3,但也還需要客觀評估,另外這些方法各有所長,有沒有可能結合在一起得到更好的方法也是可以研究的問題。
另外我的學生在評估主要的蛋白質小分子複合體預測的方法時,發現了一個問題是很多方法在訓練之後的測試過程中,如果小分子跟以前訓練數據中有一定相似性的話,可能效果比較好,如果不一樣,性能就不可預測,那麼要怎樣提高這些人工智能方法的通用性,這是一個需要解決的問題。
蛋白質小分子結合親和力的預測對篩選藥物而言也非常重要,提供一個藥物靶點,怎樣篩選各種和蛋白可能有相互作用的小分子藥物,哪怕不能預測結構,只要知道親和力也夠了。但這個領域還處於非常初級的階段,其實跟排序、質量評估都是相關的,是個非常困難的問題,就像在所產生的上萬個模型中隨機挑選最優,這樣概率會非常低。
結構預測的藍海方向
孔韌:我的領域屬於 CADD(藥物輔助設計),後來因為 CASP 有了小分子賽道,我才更多參與到 CASP 的小分子結構預測中。CADD 領域也有很多傳統 docking、binding affinity 以及結合自由計算方向的專家和團隊,大家可以更多參與到 CASP 比賽中,因為 CASP 的數據集公布了結構、親和力,可以用其數據集測試自己公司、課題組的 pipeline 是不是能很好地預測 binding affinity,我非常想看到這個方向有沒有比較好的解決方案。
常珊:孔老師的觀點正好和下個問題相關,就是 CASP 評估賽對產業的實際應用,比如對合成生物產業或生物醫藥的產業影響是什麼?可以請張貴軍老師和孔老師再給我們分享一下。
張貴軍:只要跟生物有關的都和結構密不可分,這幾年來醫學、藥學、農學領域的專家對結構都非常關注,因為它能揭示重要的生物學功能機制。
對於藥學而言,藥物靶標發現是比較重要的應用,隨着目前焦點從的靜態構象轉向多構象研究,那麼多構象之中的某一個可能是潛在的靶點。醫學上抗體的進展也非常迅猛,這意味着在疫苗的設計中,包括檢測、診斷、抗體治療上,都有很多東西能探索。
合成生物學方面,結構的研究直接引起了產業的飛速發展,包括在可降解材料、綠色製造等領域,將成為有效應對全球變暖問題的有效手段。今年都快放寒假了,但是杭州天氣還沒有去年那麼冷,環保問題是事關人類生存的重大挑戰性問題。
孔韌:結構對生命科學相關產業都會帶來一定影響,現在只是開始,隨着工具應用變廣,應用在具體問題上變多,影響會更深刻。
我們之前跟做基礎醫學的老師有合作交流,他們在解釋很多蛋白功能重要性問題時,通常會用 coIP 或者 WB 來做,看兩個蛋白是否結合、誰跟誰結合,我們建議可以用結構預測的方法從三維蛋白質結構的角度,看蛋白質結構跟功能間的關係、結構,以及如何結合另一個蛋白,哪個結構發揮了作用,哪個界面殘基重要,用這些信息幫助他們做下一步實驗設計。如果這樣的結合對細胞表型、疾病表型有重要影響的話,還可以涉及多肽、蛋白、抗體、小分子去影響這個過程,最終關聯到藥物研發上。
合成生物學領域現在也非常熱,當中就是用細胞工廠來合成想要的東西,細胞工廠里具體的執行者是蛋白質、代謝網絡、代謝酶,其中限速酶是誰?限速酶是如何限速的?怎樣改進限速酶的催化效率?限速酶跟它的產物如何結合?如果能知道底物結合與產物釋放的動態過程,就可以找出其中的關鍵殘基,對酶改造進行合理設計,這也是可以想象的方向。
常珊:我最近看到 Baker 在採訪中指出了大概十幾個有可能使用結構預測或者蛋白質設計的藍海領域,是大家可以去關注的方向。還有哪些方向是諾獎之後,結構預測更好的發展方向,請程建林老師和楊建益老師分享一下。
楊建益:我覺得單序列預測如果把蛋白質摺疊問題解決了,將是諾獎級的工作。要從單序列去預測結構,深入探索蛋白質摺疊機理和問題還有很長的路要走。以後肯定會是 AI 主導的,通過 AI 不斷迭代、更新,精度提高的同時,不斷加深對摺疊機理的理解。
此外,現在 AlphaFold 解決的是靜態結構預測問題,現在大家關注的重點逐步從靜態轉為動態。因為蛋白質要執行生物學功能,主要是因為它在動,雖然我一直覺得只研究一條蛋白質的動態沒有太大的意義,重點還是在複合物,因為動是有原因的,比如說跟小分子、蛋白、核酸互作。所以在複合物背景下研究動態構項變化是重要方向,但對於預測者、評估者來講都很困難。
程建林:獲得諾獎是對我們整個領域的承認,會產生很大影響,吸引很多人來學習結構預測。我覺得還有幾個可能達到諾獎級別的工作,比如單序列結構預測,然後 RNA 如果能做到 AlphaFold2 當年對蛋白質結構預測的水平就已經達到很高的精度了,這也是諾獎級別的工作。
蛋白小分子複合體結構預測,雖然現在 AlphaFold3 屬於領先狀態,但它的精度還遠遠沒有達到解決大部分問題,不像它 90% 解決了蛋白單鏈的結構預測問題。蛋白質小分子其實還有很多工作要做,這個問題非常重要,因為現實意義是巨大的,對製藥、疾病的理解是非常重要的,如果能夠取得突破性的進展,也是達到諾獎級別的。
得到諾貝獎最重要的因素在於要有巨大的、突然性的,顛覆性的突破,還有其實這是人工智能在科學領域裡獲得的迄今為止第一個最重要的突破,AlphaGo、ChatGPT 都是新的代表性時刻,而在科學領域裡的時刻其實就是蛋白質結構預測,已經成為科學中的樣板。
很多人以前都不關心蛋白質結構預測,現在他們都要在自己研究的疾病或生物系統里預測蛋白質結構,比如農業里設計育種,使其更有抗旱性,能源領域設計酶,把生物廢料轉成能量。另外,很多生物科技公司甚至大公司也在投入其中,他們會使用、繼續開發這些工具,或者應用到各個不同的領域裡,所以它已經成為非常有潛力的領域,但從學術界的角度來講還存在許多有挑戰性的研究問題待解。
常珊:諾獎確實是對我們結構預測領域的一個很重要的肯定,之前很少人會關注這個領域,或者大家不是特別了解,這也是我們舉辦這次圓桌會議的重要原因,結構預測獲得諾獎肯定以後,我們需要讓大家知道諾獎到底為什麼頒給結構預測,結構預測可以幫助學術研究、產業界做什麼事。
目前中國團隊參加 CASP 的熱情也很高,所以我們也在討論有沒有可能讓中國來承辦一次,在中國承辦的話,會更大地擴大結構預測的影響力,這方面想請楊建益老師和鄭偉老師來談一下建議。
楊建益:CASP 發邀請信的時候我就問過下一屆能不能在中國辦,他們回復很感興趣,這次會議最後一天的預測會議中,也有人建議在亞洲舉辦 CASP17。Joun Moult 回復郵件說這一屆比賽的中國參賽者僅次於美國,日韓團隊也很多,他很感興趣,不過還需要進一步討論。
鄭偉:下一屆感覺因為會議組織受國際政治的因素影響比較大,會不會選在中國其實不太好說,估計日韓概率會比較大,但是也不是說沒希望,要集體跟組委會反映,最大努力爭取。
常珊:評論區也還有一些問題需要討論一下,大家比較關心結構預測對於突變后蛋白質的預測效果如何?或者對於蛋白質突變中比較小的細微的序列變化,會不會有比較好的預測結果嗎?還有對於 Loop 區的預測有沒有一些比較好的建議?有沒有老師可以解答一下。
程建林:我回答第一個問題。目前對突變的結構預測還不是特別成功,因為 AlphaFold2、AlphaFold3 主要是用對齊的多序列作為輸入,所以如果只有幾個氨基酸發生變異之後,其實它不能敏感察覺變化,產生的結果和用原始序列是差不多的,我們今天沒有討論到,但這是之後結構預測要解決的重要問題。
鄭偉:我覺得點突變分兩個方向,一是點突變對結構影響比較大的,二是點突變對結構影響並不那麼大的。點突變對結構改變比較大的方向,我們是有一些 case 能做的,CASP15 也有一個點突變複合物,很多團隊都預測得還不錯,但點突變對結構改變比較大的 case 現在不是太多。而點突變對小構項的影響,如果從結構預測看的話,其實在側鏈是能反映出來的,但這種變化能有多少被真實反應很難說,點突變問題需要以結構預測加生物學驗證的結合手段為主,這是比較正確的方向,現階段想依賴 AI 去解決比較難。
Loop 區我覺得本來就是比較靈活的區域,相對來說比較難預測,建議可以多預測一些模型,然後把 Loop 區整體對齊再看一下,然後還是需要結合生物學的驗證經驗篩選模型,完全依賴於 AI 去預測也是很難的。
常珊:Loop 區的構項本身也很多,有點類似於蛋白質多構象的預測問題,所以很難說有哪個構項是佔優的,本身還是有一定不確定性的。
楊建益:同意。Loop 的話跟執行功能是有關的,單純考慮一個蛋白說Loop 準不準意義不太大,這些區域預測精度低非常正常,即使做實驗也無法獲取可靠的結構。應該要考慮它與結合對象的互作用,看通過結合其他對象能否穩固 Loop 區的結構。雷峰網雷峰網