哥倫比亞大學開發新型AI模型GET,預測人類細胞基因活性,助力癌症和遺傳疾病研究
哥倫比亞大學瓦格洛斯醫學院的研究團隊開發了一種名爲“通用表達轉換器”(GET)的新型人工智能(AI)模型,能夠準確預測任何人類細胞中的基因活性,揭示細胞內部機制。這一研究成果發表在最新一期的《自然》雜誌上,有望徹底改變科學家研究癌症、遺傳疾病等的方式。
該研究的資深作者、系統生物學教授勞爾・拉巴丹(Raul Rabadan)表示:“可預測且通用的計算模型使我們能夠快速、準確地揭示生物過程。這些方法可以有效地進行大規模計算實驗,推動並指導傳統實驗方法的發展。”
傳統的生物學研究方法雖然擅長揭示細胞如何執行其功能或對外界干擾作出反應,但無法預測細胞的工作機制或對變化的反應,例如致癌突變的影響。拉巴丹指出:“能夠準確預測細胞活動將徹底改變我們對基本生物過程的理解,使生物學從描述看似隨機過程的科學轉變爲能夠預測細胞行爲背後系統的科學。”
近年來,隨着細胞數據的海量積累和 AI 模型的日益強大,生物學正逐漸向預測性科學轉變。2024 年諾貝爾化學獎就授予了利用 AI 預測蛋白質結構的開創性研究。然而,使用 AI 方法預測細胞內基因和蛋白質的活動仍然面臨巨大挑戰。
拉巴丹及其團隊嘗試利用 AI 預測特定細胞中哪些基因處於活躍狀態。基因表達信息可以幫助研究人員確定細胞的身份及其功能執行方式。拉巴丹實驗室的研究生傅曦(Xi Fu,音譯)決定採用一種不同的方法,利用從正常人體組織中獲取的數百萬個細胞的基因表達數據訓練機器學習模型。模型的輸入包括基因組序列以及顯示基因組哪些部分可訪問和表達的數據。
這一方法的整體思路類似於 ChatGPT 等流行的“基礎”模型。這些系統通過訓練數據識別底層規則(如語言的語法),然後將這些規則應用於新場景。拉巴丹解釋道:“我們的方法完全一致:我們從多種細胞狀態中學習‘語法’,然後將其應用於特定條件 —— 無論是病變細胞還是正常細胞 —— 並嘗試預測其行爲模式。”
傅曦和拉巴丹隨後與多位合作者共同訓練和測試了這一新模型,其中包括共同第一作者亞歷杭德羅・布恩迪亞(Alejandro Buendia)和卡內基梅隆大學的申通莫(Shentong Mo,音譯)。在超過 130 萬個人類細胞數據上訓練後,該系統能夠準確預測從未見過的細胞類型的基因表達,其結果與實驗數據高度吻合。
接下來,研究團隊展示了其 AI 系統在揭示病變細胞隱藏生物學機制方面的強大能力。他們以一種遺傳性兒童白血病爲例,利用 AI 預測了突變基因如何破壞兩種不同轉錄因子之間的相互作用,從而決定白血病細胞的命運。實驗室實驗證實了 AI 的預測。瞭解這些突變的影響可以揭示驅動這種疾病的特定機制。
此外,這一新型計算方法還爲研究人員探索基因組“暗物質”的作用提供了可能。基因組“暗物質”是指基因組中不包含已知蛋白質編碼基因的絕大部分區域。拉巴丹指出:“癌症患者中發現的大多數突變都位於基因組的‘暗區域’,這些突變不影響蛋白質功能,因此一直未被充分研究。通過使用這些模型,我們可以觀察突變並揭示基因組這一部分的功能。”
目前,拉巴丹正與哥倫比亞大學及其他機構的研究人員合作,探索從腦癌到血癌等多種癌症,研究正常細胞中的調控“語法”以及細胞在癌症發展過程中的變化。
這項研究不僅爲理解癌症以外的多種疾病開闢了新途徑,還可能爲新療法的靶點識別提供支持。通過向計算機模型輸入新發現的突變,研究人員可以深入瞭解這些突變如何影響細胞。
拉巴丹認爲,這項研究是生物學領域人工智能應用重大趨勢的一部分:“這是一個非常激動人心的生物學新時代,它將生物學轉變爲一種預測性科學。”
風險警告:本文根據網絡內容由AI生成,內容僅供參考,不應作爲專業建議或決策依據。用戶應自行判斷和驗證信息的準確性和可靠性,本站不承擔可能產生的任何風險和責任。內容如有問題,可聯繫本站刪除。