模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

新智元 2024/6/26 19:21:08 責(zé)編：問舟

評(píng)論：

能抗衡 AlphaFold 3 的生命科學(xué)大模型終于出現(xiàn)了。初創(chuàng)公司 Evolutionary Scale AI 發(fā)布了他們最新的 98B 參數(shù)蛋白質(zhì)語言模型 ESM3。不僅支持序列、結(jié)構(gòu)、功能的 all-to-all 推理，團(tuán)隊(duì)還在實(shí)驗(yàn)中發(fā)現(xiàn)，它設(shè)計(jì)的新蛋白質(zhì)相當(dāng)于模擬自然界 5 億年的進(jìn)化。

繼 AlphaFold 3 更新后，我們又看到了一個(gè)生命科學(xué)領(lǐng)域的大模型 ESM3。

模型開發(fā)團(tuán)隊(duì)來自于名為 Evolutionary Scale AI 的初創(chuàng)公司，團(tuán)隊(duì)負(fù)責(zé)人 Alex Rives 在推特上官宣了模型發(fā)布的消息。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

這個(gè)令人振奮的消息也得到了 Yann LeCun 的轉(zhuǎn)發(fā)，他表示，你們這個(gè)公司有點(diǎn)「悶聲發(fā)大財(cái)」的意思。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

相比 AlphaFold 系列，ESM3 有什么競爭優(yōu)勢(shì)？

首先就是 Meta 團(tuán)隊(duì)輕車熟路的 —— 開源。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

雖然模型 API 仍處于內(nèi)測(cè)階段，需要申請(qǐng)?jiān)囉觅Y格，但模型代碼已經(jīng)放到了 GitHub 上。而且公司還會(huì)與 AWS 和英偉達(dá)云計(jì)算平臺(tái)合作，方便開發(fā)者使用和部署。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

倉庫地址：https://github.com/ evolutionaryscale / esm

但比較遺憾的是，目前在 HuggingFace 倉庫中還沒有公開模型權(quán)重。英偉達(dá)官方博客顯示，ESM3 將在 Nvidia BieNeMo 平臺(tái)提供一個(gè)小型開源版本的代碼和權(quán)重，但僅限于非商業(yè)用途。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

倉庫地址：https://huggingface.co/ EvolutionaryScale / esm3-sm-open-v1 / tree / main

此外，ESM3 與不同于模擬多種生物分子的 AlphaFold 3，只專注于蛋白質(zhì)，但可以同時(shí)推理其序列、結(jié)構(gòu)和功能，這種多模態(tài)能力屬于領(lǐng)域首創(chuàng)。

更讓人耳目一新的是，ESM3 在自然界中 27.8 億個(gè)多樣化蛋白質(zhì)上進(jìn)行訓(xùn)練，逐漸學(xué)習(xí)到了進(jìn)化過程如何讓蛋白質(zhì)發(fā)生變化。

從這個(gè)角度來看，ESM 的推理過程可以被視為「進(jìn)化模擬器」，這為當(dāng)前的生命科學(xué)研究開辟了全新的視角。團(tuán)隊(duì)甚至在官網(wǎng)文章中提出了「模擬 5 億年進(jìn)化」的標(biāo)語。

或許你已經(jīng)注意到了，ESM 這個(gè)名字和 Meta 之前的蛋白質(zhì)模型 ESMFold 非常類似。

這并不是有意擦邊。事實(shí)上，Evolutionary Scale 這家初創(chuàng)公司就是 Meta-FAIR 蛋白質(zhì)小組的前成員創(chuàng)辦的，公司的首席科學(xué)家 Alex Rives 正是這個(gè)已解散團(tuán)隊(duì)的前負(fù)責(zé)人。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

去年 8 月，在 Meta 的「效率年」中，扎克伯格選擇解散了只有十幾名科學(xué)家的蛋白質(zhì)小組，讓公司專注于更有盈利前景的研究。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

但 Rives 并沒有被 Meta 的這種舉動(dòng)嚇倒，而是決定自立門戶，他們目前已經(jīng)籌集了 1.42 億美元的種子資金。

那么就來仔細(xì)看看，這次的 ESM3 具體有哪些新內(nèi)容？

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

ESM3：生物學(xué)的前沿語言模型

生命科學(xué)并不像我們想象的那般神秘莫測(cè)、不可捉摸。

蛋白質(zhì)分子雖然有難以置信的多樣性和動(dòng)態(tài)變化，但是它的合成遵循嚴(yán)密的算法與流程。如果把它看成一門技術(shù)，其先進(jìn)程度遠(yuǎn)遠(yuǎn)超過任何人類創(chuàng)造的工程。

生物學(xué)，就是一個(gè)厚厚的密碼本。

只不過，這個(gè)密碼本是用我們尚未理解的語言寫就的，即使是當(dāng)今最強(qiáng)超算上運(yùn)行的工具也不過觸及皮毛。

如果人類能夠閱讀，甚至是書寫「生命代碼」，就能使生物學(xué)變得可編程。試錯(cuò)法將被邏輯取代，費(fèi)力的實(shí)驗(yàn)將被模擬所取代。

ESM3 就是朝這個(gè)宏偉愿景邁出的一步，是迄今為止首個(gè)能同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理的生成模型。

過去五年中 LLM 的突飛猛進(jìn)，也讓 ESM 團(tuán)隊(duì)發(fā)現(xiàn)了 Scaling Law 的威力，他們發(fā)現(xiàn)，同樣的模式也適用于生物學(xué)。

隨著訓(xùn)練數(shù)據(jù)以及參數(shù)規(guī)模的擴(kuò)大，模型會(huì)加深對(duì)生物學(xué)基本原理的理解，并能更好地預(yù)測(cè)、設(shè)計(jì)生物結(jié)構(gòu)和功能。

因此，ESM3 的開發(fā)思路也與 Scaling Law 一脈相承，其規(guī)模比上一代 ESM 大大擴(kuò)展，數(shù)據(jù)量提高了 60 倍，訓(xùn)練計(jì)算量提高了 25 倍，并且是具有原生多模態(tài)的生成模型。

ESM3 的訓(xùn)練過程囊括了地球自然環(huán)境的多樣性 —— 數(shù)十億種蛋白質(zhì)，從亞馬遜雨林到海洋深處，小到土壤中的微生物，極端到深海熱泉。

HuggingFace 上的模型卡顯示，訓(xùn)練集中天然蛋白質(zhì)數(shù)量達(dá)到 27.8 億，并通過合成數(shù)據(jù)增強(qiáng)到 31.5 億個(gè)序列、2.36 個(gè)結(jié)構(gòu)以及 5.39 億個(gè)帶有功能注釋的蛋白質(zhì)，token 總數(shù)達(dá)到 7710B。

模型訓(xùn)練參數(shù)總量達(dá)到 98B，使用了超過 10²⁴FLOPS 的算力。團(tuán)隊(duì)似乎與英偉達(dá)緊密合作，訓(xùn)練使用了 Andromeda 集群，是當(dāng)今吞吐量最高的 GPU 集群之一，部署了最先進(jìn)的 H100 GPU 和 Quantum-2 InfiniBand 網(wǎng)絡(luò)。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

網(wǎng)頁來源：https://andromeda.ai/

他們表示「相信 ESM3 的計(jì)算總量是有史以來生物模型之最」。

推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能

處理文本的語言模型一般以 token 作為基本單位，但多模態(tài)的蛋白質(zhì)模型更加復(fù)雜，需要將序列、三維結(jié)構(gòu)和功能都轉(zhuǎn)換為離散的字母進(jìn)行表示。

為了更好地?cái)U(kuò)展訓(xùn)練規(guī)模、釋放模型的「涌現(xiàn)」生成潛力，ESM3 使用的詞匯在同一語言模型中能夠很好地連接序列、結(jié)構(gòu)和功能，進(jìn)行聯(lián)合推理。

不同于 GPT 等語言模型，ESM3 的訓(xùn)練目標(biāo)繼承于掩碼語言模型（masked language modeling objective）。

每個(gè)蛋白質(zhì)的序列、結(jié)構(gòu)、和功能的部分位置會(huì)被掩碼，模型在訓(xùn)練過程中需要逐漸理解三者之間的深層聯(lián)系，從而預(yù)測(cè)掩碼位置。如果遮蔽所有位置的標(biāo)記，就相當(dāng)于執(zhí)行生成任務(wù)。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

由于在蛋白質(zhì)的序列、結(jié)構(gòu)和功能上聯(lián)合訓(xùn)練，對(duì)這三種模態(tài)可以任意進(jìn)行掩碼和預(yù)測(cè)，因此 ESM3 實(shí)現(xiàn)了「全對(duì)全」預(yù)測(cè)或生成（all to all）。

也就是說，模型的輸入可以是部分或完全指定的三種模態(tài)的任意組合。這種強(qiáng)大的多模態(tài)推理能力有很強(qiáng)的應(yīng)用價(jià)值，科學(xué)家們能以前所未有的靈活度和控制度設(shè)計(jì)全新的蛋白質(zhì)。

比如，可以提示模型結(jié)合結(jié)構(gòu)、序列和功能，提出 PET 酶活性位點(diǎn)的潛在支架結(jié)構(gòu)。PET 是一種常用的塑料，如果 PET 酶設(shè)計(jì)成功，就能用于高效分解塑料廢物。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

ESM3 通過序列、結(jié)構(gòu)和功能的多模態(tài)提示設(shè)計(jì) PET 酶活性位點(diǎn)的支架

Evolutionary Scale 的聯(lián)合創(chuàng)始人兼兼工程副總裁 Tom Sercu 表示，在內(nèi)部測(cè)試中，ESM 在應(yīng)對(duì)各種復(fù)雜提示時(shí)表現(xiàn)出了令人印象深刻的創(chuàng)造力。

「它能夠解決一個(gè)極其困難的蛋白質(zhì)設(shè)計(jì)問題，創(chuàng)造一種新型綠色熒光蛋白。ESM3 能夠幫助科學(xué)家加速工作，開辟新的可能性 —— 我們期待看到它在未來對(duì)生命科學(xué)研究的貢獻(xiàn)。」

當(dāng)數(shù)十億個(gè)蛋白質(zhì)來自進(jìn)化時(shí)間軸上的不同位置，具有豐富的多樣性時(shí)，模型還能學(xué)到模擬進(jìn)化的能力。

能力隨規(guī)模涌現(xiàn)

正如 LLM 在規(guī)模擴(kuò)展中「涌現(xiàn)」出了語言理解、推理等能力，在解決有挑戰(zhàn)性的蛋白質(zhì)設(shè)計(jì)任務(wù)時(shí)，ESM3 也隨規(guī)模增加逐漸顯現(xiàn)能力，其中一個(gè)重要的能力就是原子級(jí)協(xié)調(diào)。

比如，提示中可能指定組成蛋白質(zhì)的兩個(gè)氨基酸需要在序列位置上相近，但在結(jié)構(gòu)中相距較遠(yuǎn)。這衡量了模型在結(jié)構(gòu)生成任務(wù)中達(dá)到原子級(jí)精度的能力。

這對(duì)于設(shè)計(jì)功能性蛋白質(zhì)至關(guān)重要，而 ESM3 解決這類復(fù)雜生成任務(wù)的能力可以隨著規(guī)模增加逐漸提高。

不僅如此，在訓(xùn)練完成后，ESM3 的能力還有進(jìn)一步提升的空間，其機(jī)制類似于 LLM 常用的 RLHF 方法。

但區(qū)別在于，ESM3 并不是從人類那里接受反饋，而是可以評(píng)估自身的生成質(zhì)量，進(jìn)行自我改進(jìn)，也可以結(jié)合已有的實(shí)驗(yàn)數(shù)據(jù)和濕實(shí)驗(yàn)結(jié)果，讓 ESM3 的生成與生物學(xué)結(jié)果保持對(duì)齊。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

模型生成能力隨規(guī)模增長，且微調(diào)的提升效果明顯

模擬 5 億年的進(jìn)化

在發(fā)表的論文中，ESM3 團(tuán)隊(duì)詳細(xì)介紹了他們?cè)谀Ｐ蜕嫌^察到的「模擬進(jìn)化」功能。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

論文地址：https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/ research / esm3.pdf

綠色熒光蛋白（Green Fluorescent Protein，GFP）及其熒光蛋白家族是自然界中最美麗的蛋白質(zhì)之一，但它們只存在于「生命之樹」的幾個(gè)分支中。

但 GFP 不僅僅是美麗而已，它包含一種熒光發(fā)色團(tuán)（fluorescent chromophore）。這種分子可以吸收短波長的單色光子、捕獲部分能量，再釋放出波長較長的另一種單色光子。比如，自然界存在的 GFP 可以吸收藍(lán)光并發(fā)出綠光。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

由于這種特性，GFP 能夠作為標(biāo)記，幫助科學(xué)家在細(xì)胞內(nèi)觀察蛋白質(zhì)，成為了生物學(xué)中最廣泛使用的工具之一，GFP 的發(fā)現(xiàn)也因此獲得了諾貝爾獎(jiǎng)。

GFP 的功能如此獨(dú)特且有用，結(jié)構(gòu)也是非常罕見：由十一條鏈組成的桶狀結(jié)構(gòu)，中間穿過一條螺旋。折疊后進(jìn)行自發(fā)反應(yīng)，在蛋白質(zhì)中心的分子會(huì)重新排列，產(chǎn)生熒光發(fā)色團(tuán)。

這種機(jī)制是獨(dú)一無二的。沒有其他已知的蛋白質(zhì)能夠自發(fā)地從其自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán)，這表明即使在自然界中，產(chǎn)生熒光也是相當(dāng)罕見且困難的。

為了能在實(shí)驗(yàn)室有更廣泛的應(yīng)用，科學(xué)家們嘗試添加突變或改變顏色，進(jìn)行人工合成。最新的機(jī)器學(xué)習(xí)技術(shù)能夠搜索到序列差異高達(dá) 20% 的變體，但功能性 GFP 的主要來源依舊是自然界而非蛋白質(zhì)工程。

想在自然界中找到更多的變體也并不簡單，因?yàn)樾聼晒獾鞍椎倪M(jìn)化需要漫長的時(shí)間 ——GFP 所屬家族的歷史相當(dāng)久遠(yuǎn)，它們從祖先序列中分化出來的時(shí)間點(diǎn)能追溯到數(shù)億年前。

這個(gè)棘手的問題或許能在 ESM3 這里得到解決。

將天然 GFP 核心結(jié)構(gòu)中幾個(gè)位點(diǎn)的信息作為提示，并使用 CoT 技巧，ESM3 成功生成了新型 GFP 的候選者。

這種生成絕不可能是隨機(jī)撞大運(yùn)或者是全局搜索，因?yàn)榭赡艿男蛄泻徒Y(jié)構(gòu)的組合起來會(huì)達(dá)到天文數(shù)字 ——20²²⁹ x 4096²²⁹ ，比可見宇宙中所有的原子數(shù)加起來還要多。

在首次實(shí)驗(yàn)中，團(tuán)隊(duì)測(cè)試了 ESM3 生成的 96 個(gè)候選蛋白，其中出現(xiàn)了成功的發(fā)光樣本，而且存在一種十分獨(dú)特的結(jié)構(gòu)，與自然界中任何蛋白質(zhì)都相差甚遠(yuǎn)。

在另一組 96 個(gè)候選樣本中，發(fā)現(xiàn)了幾種亮度與天然 GFP 相似的蛋白質(zhì)，其中一種亮度最高的蛋白質(zhì)被命名為 esmGFP，與最接近的天然熒光蛋白相比有 96 個(gè)突變（在 229 個(gè)氨基酸組成的序列中，有 58% 的相似部分）。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

左側(cè)是與所有已知 GFP 都相差較大的生成物 B8，從 B8 開始，ESM3 生成了右圖的 esmGFP

與自然進(jìn)化不同，蛋白質(zhì)語言模型并不在進(jìn)化約束內(nèi)明確工作。

但為了讓 ESM3 解決其預(yù)測(cè)下一個(gè)掩碼 token 的訓(xùn)練任務(wù)，模型必須學(xué)習(xí)進(jìn)化如何在潛在蛋白質(zhì)空間中演變。

從這個(gè)意義上說，ESM3 生成與天然蛋白十分相似的 esmGFP 的過程，可以被視為一種進(jìn)化模擬器。

對(duì) esmGFP 進(jìn)行傳統(tǒng)的進(jìn)化分析是自相矛盾的，因?yàn)樗窃谧匀贿^程之外創(chuàng)造的，但仍可以從進(jìn)化生物學(xué)的工具中獲得洞見，了解一個(gè)蛋白質(zhì)通過自然進(jìn)化與其最近的序列鄰居分化所需的時(shí)間。

因此，研究團(tuán)隊(duì)使用進(jìn)化生物學(xué)的方法，把 esmGFP 當(dāng)成自然界新發(fā)現(xiàn)的蛋白質(zhì)進(jìn)行分析。他們估計(jì)，esmGFP 等效于進(jìn)化模擬器執(zhí)行的超過 5 億年的自然進(jìn)化。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

esmGFP 的渲染圖

開放模型

自成立以來，ESM 項(xiàng)目（ESM project）一直致力于通過發(fā)布代碼和模型來實(shí)現(xiàn)開放科學(xué)。目前仍能在 GitHub 和 HuggingFace 上找到團(tuán)隊(duì)在幾年前發(fā)布的代碼和模型權(quán)重。

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

倉庫地址：https://huggingface.co/ facebook / esm2_t36_3B_UR50D / tree / main

看到 ESM 模型在研究和工業(yè)領(lǐng)域的創(chuàng)造性和有影響力的應(yīng)用，可謂是令人驚嘆：

- Hie 等人使用 ESM-1v 和 ESM-1b 來進(jìn)化抗體，改善了結(jié)合親和力、熱穩(wěn)定性和病毒中和等治療相關(guān)特性。
- BioNTech 和 InstaDeep 微調(diào)了一個(gè) ESM 語言模型，用于檢測(cè) COVID 刺突蛋白中的變異，成功地在 WHO 指定之前標(biāo)記了所有 16 種關(guān)注變異。
- Brandes 等人使用 ESM-1b 來預(yù)測(cè)突變的臨床效果，目前這仍是完成該重要任務(wù)的最強(qiáng)方法。
- Marsiglia 等人使用 ESM-1v 來設(shè)計(jì)新的抗 CRISPR 蛋白變體，這些變體在保持目標(biāo)編輯功能的同時(shí)，減少了對(duì)非目標(biāo)副作用。
- Shanker 等人使用 ESM-IF1 引導(dǎo)多樣蛋白的進(jìn)化，包括實(shí)驗(yàn)室驗(yàn)證的對(duì) SARS-CoV-2 高效抗體。
- Yu 等人微調(diào)了 ESM-1b 來預(yù)測(cè)酶的功能，包括稀有和研究不足的酶，并通過實(shí)驗(yàn)驗(yàn)證了預(yù)測(cè)結(jié)果。
- Rosen 等人使用 ESM2 嵌入來構(gòu)建單細(xì)胞基礎(chǔ)模型中的基因表示。
- H?ie 等人微調(diào)了 ESM-IF1 在抗體結(jié)構(gòu)上的表現(xiàn)，在 CDR 區(qū)域的序列恢復(fù)中達(dá)到了最先進(jìn)的性能，設(shè)計(jì)出了高結(jié)合親和力的抗體。

而這些，只是建立在 ESM 平臺(tái)上的驚人工作的一小部分！

如今，團(tuán)隊(duì)正式宣布，將發(fā)布一個(gè) ESM3 1.4B 參數(shù)版本的權(quán)重和代碼，以便科學(xué)家和開發(fā)人員能夠基于 ESM3 的理念和架構(gòu)進(jìn)行構(gòu)建。

參考資料：

https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/
https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
https://www.evolutionaryscale.ai/blog/esm3-release

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

模擬 5 億年自然進(jìn)化史，全新生命科學(xué)大模型 ESM3 誕生！前 Meta 老將力作 LeCun 轉(zhuǎn)贊

ESM3：生物學(xué)的前沿語言模型

推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能

能力隨規(guī)模涌現(xiàn)

模擬 5 億年的進(jìn)化

開放模型

相關(guān)文章

推理蛋白質(zhì)的序列、結(jié)構(gòu)和功能