專訪王晟:RNA結構預測是一項非常底層的技術

近日,智峪生科宣佈,在剛剛落幕的 CASP15 上,旗下 ALCHEMLY-RNA2 團隊在 RNA 結構預測項目上位列第一,ALCHEMLY-LIG 團隊在分子對接項目上取得 top3(注:按照全部提交答案排名第二, 按第一個提交答案排名第三)的成績。同時,兩支隊伍均受邀參加 CASP15 研討會並做主題報告。

其中,RNA 結構預測是今年 CASP15 大賽中最受關注的領域之一,蛋白質-小分子複合體預測是首次出現在 CASP15 大賽中。據悉,在 RNA 結構預測項目上,該公司將 AI 方法 RhoFold 和統計能量函數相結合;在蛋白質-小分子複合體預測上則採用了基於結構優化監督的 transformer 深度學習模型。

本次大賽,全球共有 163 個隊伍參賽,累計提交超 53000 個模型,涵蓋 5 個預測類別,127 個建模目標。

(來源:CASP15)

智峪生科是一家成立於 2021 年的生物計算平臺型公司,目前的重點佈局方向是基於計算的藥物輔助研發和合成生物學業務。此前,該公司已連續獲得了由鼎暉投資和朗煜投資領投的天使輪和高瓴創投領投的 Pre-A 輪融資,累計融資超億元。

藉此機會,生輝採訪了智峪生科的 CEO 王晟博士,他向生輝介紹了在本次 CASP15 上取得的成績以及算法模型的應用前景。

王晟擁有超十年蛋白質結構預測研究經驗,本科畢業於上海交通大學生命科學院,並在中科院理論物理所獲得博士學位,博士後研究師從芝加哥豐田計算技術研究所教授許錦波。曾作爲主要開發者開發出 RaptorX-Contact 方法,該方法的蛋白質預測精度最高達到 80%。今年 5 月,王晟正式加入智峪生科擔任 CEO,此前他是騰訊 AI Lab 的高級研究專家,主導開發了 tFold 工具。

▲圖|王晟博士(來源:受訪者提供)

兩種預測方法:從底層涵蓋所有 RNA 結構的可能性

在本次 CASP15 上,共有 12 個 RNA 預測結構,從結構上可以分成三類,一類是天然的 RNA,一類是人工設計的 RNA,還有一類是蛋白質和 RNA 相互作用的複合結構。

針對這些不同的 RNA 結構,該公司提出了兩種結構預測工具,一種是基於 AI 的預測方法 AIchemy_RNA,另一種是統計能量函數 AIchemy_RNA2。

官方資料指出,AIchemy_RNA 底層的核心方法稱之爲 RhoFold,由智峪生科團隊主導,並聯合港中文和復旦大學團隊共同完成。這也是全球第一款全自動的端到端 RNA 3D 結構預測深度學習模型,目前源代碼已開源。

公開資料顯示,與其他的 AI 結構預測模型相比,RhoFold 採用了一個預訓練的語言模型 RNA foundation model (RNA-FM),這是一個可爲 RNA 研究提供豐富結構功能知識的基石模型,其在 2300 萬個非冗餘 RNA 序列上通過自監督的方式進行訓練,並學習豐富的 RNA 序列信息。RhoFold 利用 RNA-FM 得到的 RNA 序列表徵來送入模型,其中在大量數據庫中學習到的 RNA 序列表徵能夠幫助模型快速收斂;RhoFold 還引入多任務訓練幫助模型學習生物學語義,並將 RNA 中二級結構鹼基互補配對信息以損失函數方式整合,幫助模型學到鹼基配對的約束信息;此外,通過自蒸餾的訓練方式訓練好教師模型,生成自蒸餾(self knowledge distillation)數據的僞標籤,並從其他數據庫中構建自蒸餾數據。

王晟告訴生輝,這些特點使 RhoFold 可以在有限的 RNA 結構數據上訓練出了一個高效準確的深度學習模型,實現端到端預測 RNA 3D 結構。更重要的一點是,RhoFold 還可以全自動判斷輸出結構的預測置信度。也就是說,該模型可以自動判斷它輸出的結構是否合理的,是否還需要人工檢查。

基於 AI 的方法主要採取多重序列比對(Multiple sequence alignment,MSA)和 RNA FM 作爲輸入,對於能夠搜到同源序列的天然 RNA,RhoFold 即可做出比較精準預測出 RNA 三維結構。同時,這種 AI 方法預測速度也更快,幾分鐘就可以運行出結果。

然而,對於人工合成的 RNA,或從未出現在 PDB 數據庫中的天然 RNA 結構,AI 方法往往無法產生多序列聯配。這時,RhoFold 會給出預測置信度,並給出提示,這些 RNA 需要進一步處理。這種情況下,就需要藉助統計能量函數方法或其它人工手段進一步操作。統計能量函數往往預測精確度很高,但是預測速度比較慢。

據王晟介紹,AIchemy_RNA2 方法由智峪生科團隊完成,其背後的核心是基於核心負責人之前其發表的 RNA-BriQ 統計能量函數。具體而言,RNA-BRiQ 的相互作用不再由簡單的距離和角度來表示,而是考慮了 RNA 的相關原子在三維結構上的電子雲分佈,通過 6 個緯度的統計來刻畫,在每個維度上將空間進行離散化進而實現精確統計和量化計算。

(來源:智峪生科)

王晟進一步指出,RNA-BriQ 能量函數在 RNA 結構預測上對極性相互作用有着很好的表徵能力,因爲穩定 RNA 結構的主體能量是極性相互作用、有着強烈的空間方向分佈。RNA-BriQ 這種統計能量函數方法,對於人工合成的 RNA,或從未出現在 PDB 數據庫中的天然 RNA 結構建模有着非常優異的效果。

“總而言之,我們推出了兩種 RNA 結構預測方法,並將 AI 和統計能量函數方法結合在一起,希望從底層涵蓋所有 RNA 結構的可能性。”王晟補充道。

“目前,由於 RNA 的結構數量過少以及對 MSA 信息的依賴,純 AI 方法還沒能夠針對任意序列實現 RNA 結構的精確預測,也就是說 RNA 結構預測還處於一個前 AlphaFold2 時代。不過,在未來,隨着我們積累越來越多的 RNA 結構數據,訓練更強大的 RNA 序列基礎模型、以及 AI 方法與統計能量函數更深入的融合,相信整個 RNA 結構預測領域會進入真正的 AlphaFold2 時代,AI 之光會照亮整個 RNA 結構預測領域。”

“RNA 結構預測是一項非常底層的技術”

RNA 在生命活動中執行着多種生物學功能,RNA 三維空間結構的預測更是對基礎科學和藥物研發、合成生物學發展具有重大的意義。

以本次大賽爲例,比賽中共有 12 個 RNA 靶點,按照功能可以大體分爲四類,分別爲功能 RNA 分子、病毒基因組 RNA 片段、人工設計的 RNA 以及蛋白 RNA 複合物。其中,功能 RNA 分子在基因表達調控方面起重要作用,病毒基因組 RNA 對於人類理解病毒複製傳播機理、開發抗病毒藥物扮演着重要角色,人工設計 RNA 分子有助於合成生物學應用,而蛋白 RNA 複合物的應用方向是藥物開發。

“RNA 結構預測是一項非常底層的技術,我們開發的 AI 算法與統計能量函數方法是在 RNA 結構預測水平上的突破,有潛力爲生命科學的各個方向帶來進步。只有不斷在真正的底層科研上取得很大突破,才能爲落地帶來更大的進步。我們正在與高校合作,藉助學校資源在底層技術上取得突破,然後通過校企合作或者專利成果轉化等方式促進商業化落地。”王晟說。

(來源:Semantic Scholar)

首先,這些方法將有助於研究人員解析更多的 RNA 結構。在接下來基於實驗方法解析 RNA 結合並擴充 PDB 數據庫中的 RNA 結構數量過程中,該公司 RNA 預測方法有可能成爲指導實驗設計和數據處理的初始模型;

其次,針對藥物設計領域,這些方法有望提高 mRNA 疫苗設計的成功率,通過高精度 RNA 3D 結構預測和 RNA-小分子複合體力場促進 RNA 小分子藥物設計,還可以通過靶向 RNA 和蛋白質複合體進行藥物設計,從而拓展藥物設計的空間;

其三,智峪生科的主要落地場景是 AI+合成生物學,該公司計劃緊密圍繞 RNA 在合成生物學領域的應用,尤其是在異源表達、密碼子優化以及生物傳感等方面。

蛋白-小分子複合物預測模型極具通用性

智峪生科在 CASP15 中的另一個參賽項目是分子對接,也就是蛋白質-小分子複合體預測,這也是該項目首次出現在 CASP15 大賽中。

智峪生科團隊其開發出的 AIchemy-LIG 系列算法是一種支持蛋白質-小分子全柔性的複合體建模的算法,底層架構稱之爲生物分子 AI 基礎模型,這一架構更具有通用性。這也是端對端輸入和輸出算法,輸入蛋白和小分子複合物序列,輸出的是蛋白-小分子複合物結構。

據悉,該算法可以讓蛋白和小分子都動起來,這種動並不是分子動力學的“動”,而是像 Alphafold2 一樣,通過 AI 模擬這一過程,並基於精度給出打分,這樣可以更精準預測蛋白質和小分子結合程度。基於該算法可以將幾百或者上千的候選結構篩選到幾百量級,進一步縮小範圍。

(來源:智峪生科)

“實際上,這些算法打通了分子靜態對接和動態分子動力學模擬之間的橋樑。”王晟說。

王晟還指出,這種全柔性建模可以支持大規模的複合體建模,結合超大規模的蛋白質功能標註和高精度的自由能計算,形成了多層次/多精度級別的複合體預測平臺,目前已經幫公司挖掘出很多此前從未發現、具有工業價值的酶,還把這些酶進一步產業化形成公司內部的一些合成生物學管線;另一方面,這一模型也可以應用小分子藥物篩選和優化。