AI“入侵”生物醫藥史:從暴力破解到Transformer模型三部曲

撰稿 |Vicky Xiao

編輯|陳茜

AI正在入侵科學界,特別是生物科技方向。

瑞典皇家科學院在2024年10月宣佈了當年諾貝爾化學獎的獲獎者,出乎意料的是—— AI又是大贏家。

2024年的諾貝爾化學獎被授予了Google旗下DeepMind人工智能實驗室的首席執行官Demis Hassabis和總監John Jumper ,以及華盛頓大學蛋白質設計研究所所長David Baker。

其中,Hassabis和Jumper因“蛋白質結構預測”研究獲獎,而Baker則因“計算蛋白質設計”研究獲獎。而此前一天,人工智能先驅Geoffrey Hinton和John Hopfield剛剛榮獲諾貝爾物理學獎。

如果說諾貝爾物理學獎授予人工智能領域的兩位先驅是衆望所歸,諾貝爾化學獎也花落AI及生物醫療的跨界領域則有些出人意料。因爲即便對AI而言,該領域也是最難啃的骨頭之一。

然而隨着人工智能技術的迅速發展,生物科技行業迎來了新的希望。

這篇文章我們將講述:AlphaFold究竟是何方神聖?AI和生物醫療行業擦出了什麼火花?人類如何靠AI推動生物醫藥技術更快地向前更迭?

01

AlphaFold與新紀元

2020年末,一場看似平常的線上會議,悄然揭開了人工智能與生物學深度融合的新時代。

當時,全世界正在經歷疫情挑戰,但沒有人預料到,一個困擾科學界數十年的難題,會在這樣一個特殊的時刻被攻克。就在那個冬日,人工智能向我們展示了AI與生物學深度融合時代的開端。

Chapter 1.1線上會議的意外之喜

CASP大會是生物學界備受矚目的盛會,每兩年舉辦一次,被稱爲“蛋白質摺疊界的奧運會”。

會議聚集世界各地的頂尖科學家,共同探討一個看似簡單卻極其複雜的問題:如何僅憑一維的分子代碼,準確預測蛋白質的三維結構?

多年來,科學家們在這個問題上進展緩慢,有些研究者甚至將近幾十年的職業生涯都奉獻給了這項事業,然而距離真正的突破遙不可及。

直到2020年11月底、12月初,這個局面被徹底改變。由於全球疫情的影響,這次CASP大會首次以線上形式舉行,與會者們聚集在屏幕前,原本期待着又一次漸進式的進步,然而一場意想不到的驚喜在等着他們。

在這次線上會議上,一位名叫John Jumper的新面孔引起了所有人的注意。他來自谷歌旗下的人工智能部門DeepMind,帶來了一款革命性的工具——AlphaFold2。

Chapter 1.2AlphaFold2的驚人表現

2020年11月30日,當Jumper通過Zoom展示AlphaFold2的成果時,整個會議室陷入了震驚的沉默。

AlphaFold2在3D蛋白質結構預測方面展現出了前所未有的準確性,其精確度超過90%,遠遠甩開了其他競爭對手,領先優勢高達五倍之多。

具體來說,AlphaFold2預測了數十種蛋白質的結構,誤差幅度僅爲1.6埃(0.16 納米),差不多原子大小。這遠遠超過了所有其他計算方法,並首次與實驗室中使用的技術(如低溫電子顯微鏡、核磁共振和X射線晶體學)的精度相匹配。

此前,這些技術昂貴且緩慢:每種蛋白質可能需要數十萬美元和數年的反覆試驗;而AlphaFold卻可以在幾天內找到蛋白質的形狀。

這個突破性的成果在整個科學界引起了巨大的轟動,並立即成爲了各大媒體的頭條新聞,因爲它幾乎一舉解決了困擾科學界近50年來的蛋白質摺疊問題。《自然》雜誌在標題裡引用科學家的話說,“它會改變一切”。

AlphaFold2的成功不僅標誌着人工智能在生物學領域的重大突破,更預示着跨學科研究的無限可能。我們邀請到的採訪嘉賓也同樣用“震驚”表達了她和同行們看到AlphaFold2時的感受。

這是生物技術屆第一次如此直觀得感受到,人工智能帶來的顛覆進步。

我們先來解釋一下蛋白質摺疊問題爲什麼如此重要。

Chapter 1.3蛋白質摺疊

蛋白質是生命的基石,維持着生命活動的正常運轉。

蛋白質的功能與它的三維結構密切相關:就像一把鑰匙必須有正確的形狀才能打開特定的鎖,蛋白質也必須摺疊成正確的形狀才能執行其特定的功能。

因此,準確預測蛋白質的三維結構,對於我們理解疾病機理、開發新藥物,以及深入洞察生命運作的奧秘都具有深遠的影響。

長期以來,科學家們一直在試圖從蛋白質的一維氨基酸序列(可以看作是蛋白質的"源代碼")推斷出最終的三維結構。但這個過程,就像是要從一串字母中預測出一個複雜摺紙的最終形狀,難度可想而知。

正是因爲這個問題的重要性和複雜性,CASP大會纔會每兩年舉辦一次,吸引衆多科學家前來展示他們最新的蛋白質摺疊預測工具。AlphaFold2的突破,正是在這個背景下顯得尤爲重要和令人振奮。

Chapter 1.4科學界的失落與肯定

AlphaFold2的驚人成果在科學界引起了巨大的反響,反應可謂是喜憂參半。許多科學家對這一突破感到興奮和鼓舞,但也有一些人表現出了謹慎和懷疑的態度。

這並不是AlphaFold的第一次亮相,在2018年12月舉行的第13屆CASP大會上,Deepmind就首次推出了AlphaFold。

它在98個參賽隊伍中名列前茅,預測了43種蛋白質中25種的最準確結構,而同一類別中排名第二的團隊,僅預測了43種蛋白質中的3種最準確結構。

儘管AlphaFold1表現出色,但它的準確性並未達到足以徹底改變整個領域的水平,在某些情況下仍然無法很好地預測複雜蛋白質的三維結構,因此其影響力相對有限。

然而兩年後的AlphaFold2,出現了巨大的飛躍:其預測準確性,在大多數測試蛋白上達到了接近實驗結構的水平,相較於實驗方法和其他計算方法,它大大縮短了預測時間,使得大規模應用成爲可能。

這讓一些研究者拒絕相信,一個AI系統能夠在短時間內解決困擾人類數十年的難題。畢竟有些科學家已經將近三十年的職業生涯都奉獻給了這個問題,突然間看到一個"外來者"取得如此巨大的成功,難免會感到些許失落和不安。

然而在會議的總結髮言中,CASP大會的組織者John Moult卻表現出了堅定的信心,他毫不猶豫地宣佈:AlphaFold2"在很大程度上解決了"蛋白質摺疊問題。這個聲明無疑給這次突破蓋上了權威的印章。

如今距離AlphaFold2給業界帶來震撼已過去了4年,在這個期間DeepMind也在不斷髮展。

2021年與歐洲生物信息學研究所(EMBL-EBI)合作,啓動AlphaFold數據庫,納入35萬個蛋白質預測結構,涵蓋了人類、小鼠和其他19種被廣泛研究的生物體產生的幾乎每種蛋白質。

2023年,更是公佈了從細菌到人類的幾乎所有已知2億多個蛋白質的可能結構,並將其納入相關數據庫。研究人員說,“可以像在谷歌通過關鍵詞搜索信息一樣輕鬆地查找蛋白質三維結構”。

AlphaFold 2的代碼也已開源,Hassabis非常驕傲地稱,“我們發佈了整個蛋白質宇宙的結構。”

據歐洲生物信息學研究所(EMBL-EBI)估計,在現有的超2.14億個預測的蛋白質結構中,大約35%是高度準確的(高度準確意味着它們與實驗確定的結構質量一樣高);有45%的結構足以在許多應用程序中使用。

2024年5月,谷歌進一步在 《自然》雜誌上發表了關於AlphaFold 3的突破性研究,這一最新版本的AI模型,在生物分子結構預測領域掀起了一場新的風暴。

Chapter 1.5AlphaFold3

AlphaFold 3由DeepMind和一家名爲Isomorphic Labs的初創公司開發。Isomorphic Labs公司其實是DeepMind分拆出來的團隊,甚至還是由Hassabis親自領導。

AlphaFold 3厲害的地方在於它是一個生成式神經網絡模型,可以生成蛋白質、核酸(DNA/RNA)和更小分子的3D結構,並揭示它們如何組合在一起,即史上最強的AI組合架構:Transformer+Diffusion。

這兩個模型我們之前介紹過,而Transformer+Diffusion這個架構也讓它成爲了一個單一AI模型。基於這種組合架構,AlphaFold 3的核心突破主要體現在以下幾個方面:

1.全面預測能力:它不僅能生成蛋白質的3D結構,還能預測DNA、RNA和小分子的結構,更重要的是,它能揭示這些分子之間是如何相互作用的。

2.細胞過程模擬:AlphaFold 3可以模擬控制細胞正常運轉的化學變化,爲我們理解和預防疾病提供了新的視角。

3.驚人的精度提升:在預測分子相互作用方面,即使在沒有任何結構信息輸入的情況下,它的準確性也比傳統的最先進方法提高了50%。

這使得AlphaFold 3成爲生物分子結構預測領域中,首個超越物理基礎工具的AI系統。

Demis Hassabis將AlphaFold 3的發佈稱爲一個重要的里程碑,標誌着AI在理解和建模生物學領域又邁出了關鍵性的一步。

AlphaFold 3超越蛋白質,進入廣泛的生物分子領域,這一飛躍可以開啓更多變革性科學,從開發生物可再生材料和更具彈性的作物,到加速藥物設計和基因組學研究。

而在藥物研發領域,AlphaFold 3的潛力尤爲突出:它不僅能提高藥物設計的成功率,還爲探索新的疾病靶點提供了可能。

Hassabis甚至預測,這可能會發展成一個價值千億美元的產業。

此外,谷歌推出了免費研究平臺「AlphaFold Server」,供全球科學家非商業化研究,可以利用AlphaFold 3在10分鐘內預測分子,並測試假設。

當然,並不是用了Transformer + Diffusion架構所有問題都能迎刃而解。在專業人士看來,即使是Transformer加Diffusion這對強力組合,應用在製藥領域,也還是有一些挑戰。

值得一提的好消息是:谷歌把AlphaFold 3開源了。

此前,AlphaFold3使用上有不少限制:比如研究者無法運行自己的AlphaFold3版本或訪問其底層代碼、每日預測次數也有限制,這也令部分科學家反而認爲AlphaFold3的影響力反而會不如AlphaFold2。

或許是諾貝爾化學獎的“刺激”,谷歌在11月11日悄悄地把它給開源了!“悄悄”是因爲,谷歌甚至都沒有發佈一篇新聞,只是在原來的博客文章上進行了一段很小的文字更新:

“2024年11月11日更新,我們已發佈了AlphaFold3的模型代碼和權重作爲學術用途,以幫助前沿研究。”

也就是說,現在任何人都可以下載AlphaFold3軟件代碼並將其用於非商業用途了。雖然目前只有具有學術背景的科學家才能訪問訓練權重,而且只能在提出請求後才能訪問,但對於學術界,這仍然是個巨大的進步。

硅谷的華源2024年會上,我們採訪到了諾貝爾生理學或醫學獎得主Randy Schekman,他認爲AlphaFold會持續顛覆傳統科研的範式。

AI結合生物領域的其他玩家

Chapter 2.1ESMFold

2022年,Meta AI研究團隊推出了ESMFold,這是一個強大的蛋白質結構預測模型,並且還公佈了6億多種蛋白結構預測結果。

這個龐大的數據庫涵蓋了地球環境樣本中鮮爲人知的蛋白質,包括土壤、海洋和人體中的微生物。

Meta表示,在ESMFold預測的蛋白質中,約有三分之一可以以高置信度完成預測。也就是說,當時ESMFold預測出來的蛋白結構數量,相當於AlphaFold2的3倍左右。

ESMFold還在計算效率方面取得了顯著進展。Meta AI研究科學家表示,ESMFold能夠在幾秒鐘內完成單個蛋白質結構的預測。這比之前的方法快了幾個數量級:用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。

另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍,而對於較短的序列,它甚至比AlphaFold2快了60倍。

ESMFold的核心是一個創新的AI模型,由大約十幾名科學家共同打造,它借鑑了類似於ChatGPT的語言預測技術。

Meta的科學家們爲ESMFold提供了代表蛋白質遺傳密碼的氨基酸序列,讓AI模型學習如何填補序列中的空白部分。

通過學習已知蛋白質序列與結構之間的關係,ESMFold能夠預測新蛋白質的三維結構。

這項技術的一個顯著優勢是其驚人的速度。

此外,儘管功能強大,ESMFold的設計卻相對輕量,這意味着它可以在普通的GPU上運行,使得更多研究者能夠使用這個工具。

不過,它的缺點也很明顯:準確度較低。不少生物技術業內人士表示,他們更喜歡 AlphaFold,而不是ESMFold,因爲它更準確。

由於在AI賦能生物醫藥這件事上,瓶頸不是計算,所以更快並不意味着更好,準確才更重要。

然而,ESMFold項目卻沒有得到扎克伯格的支持:2023年春季,作爲Meta公司大範圍裁員的一部分,ESMFold部門被解散。這一舉措使學術界擔憂Meta是否能長期維持數據庫的運行和相關服務,儘管如此,ESMFold的影響力依然顯著。

自2022年發佈以來,ESMFold模型每月的下載量約爲25萬次,每小時可預測1000種蛋白質結構,多個學術研究團體和生物科技公司已經開始使用這一工具。

相比之下,DeepMind的AlphaFold自2021年首次發佈以來,已有來自190多個國家的100多萬研究人員和生物學家使用,查看了300萬種蛋白質結構。

雖然AlphaFold在準確性上仍佔優勢,但ESMFold的速度優勢和更大的數據庫爲科研人員提供了另一種選擇。只是不知道,遭遇了裁員危機的ESMFold的未來命運如何。

Chapter 2.2RoseTTAFold

這次諾獎的另外一名獲獎者David Baker帶領團隊開發的蛋白質分析工具系列Rosetta,是生物醫藥界人士的最愛。

2021年,看到AlphaFold2大殺四方,David Baker教授和他的研究團隊,開發出了一種名爲RoseTTAFold的新型蛋白質結構預測工具,這一突破性成果爲解決長期以來困擾科學界的蛋白質摺疊問題提供了新的思路和方法。

RoseTTAFold的核心是一種創新的深度學習算法。它採用了三軌神經網絡架構,可以同時處理蛋白質的一維序列信息、二維距離信息和三維結構信息。

這種多維度的信息整合使得RoseTTAFold能夠更準確地模擬蛋白質的摺疊過程,從而實現高精度的結構預測。與傳統的實驗方法相比,RoseTTAFold具有幾個顯著的優勢:

1.速度快:通常只需幾個小時就能完成一個蛋白質的結構預測,大大縮短了研究週期。

2.成本低:不需要昂貴的實驗設備和試劑,降低了研究門檻。

3.適用範圍廣:可以預測各種類型的蛋白質結構,包括一些難以通過實驗方法解析的蛋白質。

然而RoseTTAFold也存在一些侷限性,比如對於一些特殊的蛋白質結構,其預測準確度還有待提高。此外,如何將預測結果與實驗數據有機結合,也是未來需要解決的問題。

不過,在生物醫藥業內人士的眼裡,RoseTTAFold比起Google的AlphaFold和ESMFold,最大的優勢是對生物學的理解。

也就是說,RoseTTAFold模型提出了一種全新的思路和底層架構。

我們提到的AlphaFold和OpenAI的GPT-4等語言模型,其實都是從AI技術出發,然後將其應用到生物醫藥等領域。而RoseTTAFold則從根本上突破了這一傳統路徑,提供了與以往AI驅動模型截然不同的創新方向。

正是這種對生物學多維度、多尺度的理解,使得RoseTTAFold具備天然優勢——它對生物學的理解和輸出更爲準確。

在與AlphaFold 2的對比中可以發現,RoseTTAFold計算速度更快,且所需算力更少。這可能是因爲它融入了更深入的生物學理解,從而減少了計算時間和資源消耗。

接下來我們總結下AI入侵生物醫藥行業的三個階段。

03

AI+生物醫藥進化的三階段

Chapter 3.1 早期階段

第一階段:機器學習的簡單應用。

製藥公司在早期嘗試使用機器學習建模來預測藥物效果和生物學反應,但成效甚微,主要因爲數據量不足和模型的侷限性。

AI技術的起源可以追溯到20世紀60年代,儘管當時還不叫“AI”。

早期的研究主要是嘗試用計算機和定量數學方法,解讀化學結構及其與藥效之間的關係。當時的著名術語叫“定量構效關係”(Quantitative Structure-Activity Relationship,QSAR)。

代表人物Corwin Hansch創立了一個方程,用於定量分析化學分子的結構與其藥效之間的聯繫,然而這些研究在當時仍然較爲基礎。

70年代和80年代,化學結構數據庫的建立逐漸成爲研究的重點。

80年代和90年代,隨着計算機技術的興起,全球的化學家和藥物學家開始將化學結構及其生物活性的信息彙總到數據庫中,通過數據庫學習結構特徵成爲主流。

90年代見證了與Docking相關模型的建立,其中加利福尼亞大學舊金山分校UCSF和牛津大學的研究尤爲突出。

Docking又叫分子對接,是一種計算生物學技術,它模擬了小分子(如藥物候選物)與大分子(如蛋白質受體)之間的相互作用,以預測它們如何結合在一起。這項技術在當時是非常先進的,儘管只能在實驗室的大型本地計算機上進行,使用起來也十分受限。

進入21世紀後,機器學習和深度學習技術逐步應用於藥物發現領域。第一代AI藥物發現公司出現,通過機器學習分析藥物分子的結構和藥效,嘗試設計新的藥物分子。

同時,高通量篩選技術的普及使得數據產生的速度和量大幅提升,爲機器學習提供了大量的數據點,推動了AI在藥物研發中的應用。

Chapter 3.2 深度學習

第二個階段的技術突破是:深度學習算法的出現。它極大提升了生物醫藥領域的數據處理和分析能力,爲複雜的生物學問題提供了新的解決方案。

21世紀初期,生物醫藥領域主要依賴於大量數據的積累,通過機器學習方法從中提取規律。

真正的轉折點出現在2010年代初期,深度學習的興起爲生物醫藥領域帶來了前所未有的變革。

再往後,就是人工智能時代了。儘管“人工智能”(AI)這一術語早在計算機領域廣泛應用,但直到2020年前後,它纔在生物醫藥領域真正得到重視,這一變革的關鍵推動力是AlphaFold等突破性模型的問世。

AlphaFold的成功不僅標誌着AI技術在生物醫藥領域的成熟應用,更是一次劃時代的分水嶺。這些先進的AI工具超越了傳統的數據堆積分析,具備了強大的預測能力,從而加速了生命科學和藥物發現的進程。

Chapter 3.3 真正的AI時代

第三階段:生物醫藥領域進入了端到端學習的新時代。

早期的機器學習工具在生物醫藥領域的應用主要依賴於龐大的數據庫,通過分析已知結構來尋找規律,然而這種方法在預測新結構和功能方面存在侷限性。而且傳統的結構-活性關係(SAR)研究需要逐步解析化學分子從化學式到三維構象,再到與蛋白質或藥物靶點的相互作用,每一步都需要明確的關係。

隨着人工智能技術的發展,特別是深度學習的引入,生物醫藥領域進入了端到端學習的新時代:這種方法允許從化學式直接預測分子的功能,中間過程由模型自動處理,減少了人爲干預。

這得益於強大的計算資源和先進的模型,使得科學家不再需要關注每個環節的細節,而是直接獲得高準確率的預測結果。

AI技術的演進,我們可以從前面提到的Alpha Fold1、2、3代可以看出來:

爲了構建AlphaFold1,DeepMind用數千種已知蛋白質訓練了一個神經網絡,直到它能夠僅從氨基酸就能預測出3D結構。

當給定一種新蛋白質時,AlphaFold使用神經網絡來預測氨基酸對之間的距離,以及連接它們的化學鍵之間的角度。

在第二步中,AlphaFold調整了草圖結構以找到最節能的排列,這個程序剛開始時花了兩週時間預測其第一個蛋白質結構,但現在只需幾個小時就能預測出來。

AlphaFold2,則是運用了深度卷積神經網絡來進行訓練。AlphaFold3,就已經是Transformer加Difusion模型了。

瞭解了計算機技術改造生物醫藥行業的三個階段,下一個問題是:AI技術會帶來什麼樣的革新?

首先,人工智能(AI)技術的應用顯著加速了藥物研發進程,進而降低了成本。

傳統藥物開發通常需要5到10年才能篩選出一個先導化合物(lead candidate),然後再進入臨牀試驗階段。AI的引入使這一過程大幅縮短,例如Iambic Therapeutics公司在9個月內開發出一個新分子,並在24個月內進入臨牀試驗。

其次,AI的優勢在於減少了對大量化合物合成和實驗室實驗的依賴,更多地利用計算機模擬進行預測和驗證。這使得資源分配從傳統的實驗室實驗轉向計算能力的投入,隨着計算技術的不斷革新,預計成本將持續下降。

此外,AI在自然語言處理(NLP)領域的成功,如ChatGPT的出現,進一步提升了人們對AI在藥物研發中潛力的認識。這促使研究人員探索將大型語言模型(LLM)等先進AI技術應用於藥物開發,以提高效率和成功率。

04

未來,剛剛開始

毫無疑問的是,AI正在影響生物行業的方方面面。當談到生物科技時,不僅僅是製藥公司,從藥物發現到開發,再到藥物製造、監管、臨牀試驗和診斷的各類公司,都在受到AI的影響。

例如,藥企想要進行臨牀試驗時,需要向FDA提交數百頁的文件來證明他們的數據有效,申請藥物的批准。過去,這些工作完全由人來完成,光是準備這些文件就可能花費100萬美元。

但現在有了AI工具,比如大語言模型和其他用於數據總結和分析的工具,這些時間和費用都可以節省。但這並不意外,因爲文本、數值數據、圖像處理正好是AI擅長處理的。

在硅谷101的線下AI論壇上,Fusion Fund的聯合創始人張璐也提到:現在到了AI在醫療健康領域大顯身手的黃金時期。

AI不僅在醫療健康行業中得到各種應用,包括數字診斷、治療到數字生命科學和數字生物學等。更重要的是,AI也需要醫療健康行業,這個行業有大量高質量的數據,能夠展現AI的能力。

對於AI在生命科學領域的最具潛力的投資方向,張璐甚至還提到了一點,隨着Space X Starship的成功發射,意味着未來人類探索宇宙的時間表可能會在五到十年內出現。

太空環境會爲數字治療、數字生物學提供哪些新的解決方案、新的結果呢?這也是一個非常有趣的腦洞。

目前AI的應用主要集中在研發階段,雖然在如何把AI整合進生物醫藥的整個鏈條、尤其是商業運營上還在摸索,但已經可以看到不少科技公司的頻繁動作:

英偉達開始頻繁在AI製藥領域投資出手,2023年的5月至11月,半年間陸續投資了9家AI製藥公司,其中有2013年成立的上市公司,也有剛成立、募集種子輪融資的新公司。

亞馬遜雲科技宣佈與生命科學行業商業服務提供商EVERSANA合作,共同推廣AI驅動製藥等應用。

谷歌雲宣佈與生物製藥上市公司Insmed合作,利用AI技術提高效率,減少新藥開發和交付的時間

在AI技術飛速發展的新週期中,我們迫切地希望看到科技公司和生物醫藥公司能強強聯手,加速人類的健康醫療水平的進步。

而未來,纔剛剛開始。

視頻有視覺和音樂的加持,更能呈現出這些精彩的故事細節。請跳轉至硅谷101【視頻號】收看完整版

注:部分圖片來源於網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內:b站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

海外:Youtube

聯繫我們:video@sv101.net

【創作團隊】

監製|泓君 陳茜

撰稿 | Vicky Xiao

採訪|陳茜

編輯|陳茜

主持|陳茜

剪輯|Jacob

動效|踹

運營|王梓沁 Jessica 何源清