作為全球生命科學(xué)基礎(chǔ)大模型的先行者,BioMap百圖生科在10月27日舉辦的第三屆中國生物計(jì)算大會(huì)上,正式發(fā)布了全新一代生命科學(xué)基礎(chǔ)大模型——xTrimo V3,為行業(yè)交上一份全新的答卷。
據(jù)悉,該模型在V2大模型突破千億參數(shù)、理解蛋白質(zhì)語言的基礎(chǔ)上,進(jìn)一步擴(kuò)展到2100億參數(shù),覆蓋蛋白質(zhì)、DNA、RNA等七大生命科學(xué)主流模態(tài),能夠建模更加廣泛的基因組學(xué)、細(xì)胞、系統(tǒng)等問題,為基因編輯、靶點(diǎn)發(fā)現(xiàn)、細(xì)胞調(diào)控、菌株改造、生命科學(xué)圖像分析等場景帶來新的能力。
xTrimo V3前傳:四年磨一劍,劍成龍光寒
作為全球最早專注于生命科學(xué)基礎(chǔ)大模型的平臺公司,自2020年成立以來,百圖生科始終致力于在這一高難度技術(shù)平臺上取得突破 —— 生命科學(xué)基礎(chǔ)大模型并非自然語言大模型 + 生物學(xué)文本的垂直應(yīng)用、垂直“大模型”,而是需要圍繞生命科學(xué)的氨基酸、堿基等高復(fù)雜序列數(shù)據(jù),開發(fā)一套與自然語言基礎(chǔ)大模型理念相近,但技術(shù)完全不同的基礎(chǔ)大模型底層技術(shù),從Transformer到訓(xùn)練框架,再到更關(guān)鍵的數(shù)據(jù)集與驗(yàn)證閉環(huán),都與自然語言大模型截然不同、更加挑戰(zhàn)、更加前沿。
如何與生命科學(xué)多樣化具體任務(wù)結(jié)合,如何理解和對齊復(fù)雜的生命科學(xué)組學(xué)數(shù)據(jù),如何理解生命科學(xué)規(guī)律并建立基礎(chǔ)圖譜,如何建立生命科學(xué)行業(yè)原有數(shù)據(jù)規(guī)模百倍以上的超大規(guī)模數(shù)據(jù)集 —— 這些都是過去四年間,生命科學(xué)基礎(chǔ)大模型先行者們所面對的挑戰(zhàn)。
2022年和2023年,百圖生科先后發(fā)布xTrimo V1、V2,實(shí)現(xiàn)了世界首個(gè)千億參數(shù)的生命科學(xué)基礎(chǔ)大模型——利用海量蛋白質(zhì)序列數(shù)據(jù)訓(xùn)練的千億參數(shù)蛋白大模型,參數(shù)量較第二名高8倍以上,在數(shù)十個(gè)任務(wù)上超越行業(yè)達(dá)到SOTA水平,特別是支撐蛋白質(zhì)結(jié)構(gòu)預(yù)測等關(guān)鍵問題達(dá)到前所未有的準(zhǔn)確度和性能,實(shí)現(xiàn)了大量的商業(yè)和技術(shù)突破;利用海量單細(xì)胞組學(xué)數(shù)據(jù)實(shí)現(xiàn)的單細(xì)胞大模型,初步驗(yàn)證了多維度、跨模態(tài)的技術(shù),為跨模態(tài)建模復(fù)雜生命體打下了堅(jiān)實(shí)的基礎(chǔ),并支撐十余個(gè)靶點(diǎn)發(fā)現(xiàn)、細(xì)胞分類等任務(wù)取得SOTA成績。相關(guān)工作多次登上Nature子刊封面和學(xué)術(shù)頂會(huì)。
xTrimo基礎(chǔ)大模型平臺上,目前已有200余個(gè)任務(wù)模型取得評測SOTA水平,在藥物研發(fā)中涉及通用蛋白、多種構(gòu)型的抗體、細(xì)胞療法、基因療法等多個(gè)領(lǐng)域,以及靶點(diǎn)發(fā)現(xiàn)、工藝優(yōu)化、合成生物學(xué)、生物制造、生命科學(xué)工具等多樣的方向。基礎(chǔ)大模型的貢獻(xiàn),并不在于能以一個(gè)單一技術(shù),一己之力解決前沿問題,而是在面對多樣化、缺乏數(shù)據(jù)的前沿問題、缺乏泛化能力的現(xiàn)有模型時(shí),能夠利用千億參數(shù)和萬億數(shù)據(jù)中蘊(yùn)含的知識,進(jìn)行embedding賦能,為難解之題帶來一些來源于十億年生物進(jìn)化樹上的高維信息。
百圖生科打造的200余個(gè)AI模型,已先后助力開發(fā)了20余種前沿抗體和酶、實(shí)現(xiàn)了10余個(gè)創(chuàng)新靶點(diǎn)的挖掘,并都經(jīng)過了實(shí)驗(yàn)驗(yàn)證,推進(jìn)進(jìn)入臨床前研發(fā)等后續(xù)階段。AI模型驅(qū)動(dòng)的高通量自動(dòng)化流程,覆蓋從分子生成、實(shí)驗(yàn)驗(yàn)證、閉環(huán)迭代的完整鏈路,大幅提高合作客戶的研發(fā)效率,縮短研發(fā)周期。
截止目前,百圖生科服務(wù)全球300余家用戶,其中包括跨國藥企、大型CRO、明星創(chuàng)業(yè)公司、國內(nèi)外研究機(jī)構(gòu),簽署了超過20億美元的總潛在訂單,共同在生命科學(xué)領(lǐng)域?qū)崿F(xiàn)了一系列突破。
xTrimo V3:模態(tài)全家桶,生命科學(xué)新問題的探索利器
此次發(fā)布的基礎(chǔ)大模型xTrimo V3,覆蓋DNA、RNA、蛋白質(zhì)、細(xì)胞、小分子、生物視覺和生物知識文本等生命科學(xué)7個(gè)主流模態(tài),并在各個(gè)原有模態(tài)上依靠新的數(shù)據(jù)、新的架構(gòu),做了顯著的增強(qiáng)。“這一版本一舉實(shí)現(xiàn)了全模態(tài)的覆蓋,從而能支撐快速發(fā)展的生命科學(xué)新領(lǐng)域新問題探索需求。”百圖生科技術(shù)副總裁張曉明介紹,“與V2平臺相比,V3不僅鞏固了之前在蛋白質(zhì)領(lǐng)域的基礎(chǔ)和繼續(xù)了在細(xì)胞領(lǐng)域的發(fā)展,還拓展至基因組學(xué)、轉(zhuǎn)錄組學(xué)、細(xì)胞復(fù)雜任務(wù)、影像分析和文本分析等領(lǐng)域,支持從分子早期研發(fā)到生產(chǎn)放大再到后期實(shí)驗(yàn)分析的全流程AI建模需求。”
據(jù)悉,xTrimo V3參數(shù)量突破2100億,繼續(xù)保持全球規(guī)模最大的全模態(tài)生命科學(xué)大模型的領(lǐng)先地位。特別是在蛋白質(zhì)大模型領(lǐng)域,成為全球首個(gè)引入先進(jìn)專家混合(MOE)架構(gòu)的生命科學(xué)大模型,參數(shù)量達(dá)到千億級規(guī)模;DNA大模型序列長度躍升至128K,實(shí)現(xiàn)超長序列解碼生命,這些升級充分體現(xiàn)了百圖生科在生命科學(xué)基礎(chǔ)大模型領(lǐng)域的持續(xù)創(chuàng)新。
如何用好基礎(chǔ)大模型?是否只有又懂生物又懂AI的前沿團(tuán)隊(duì)才能得到大模型賦能?百圖生科在內(nèi)部應(yīng)用大模型平臺實(shí)現(xiàn)高效建模后,一直在探索更強(qiáng)的工具鏈和產(chǎn)品化能力。2023年 3月,百圖生科發(fā)布了基于xTrimo驅(qū)動(dòng)的 AIGP(AI Generated Protein) 平臺。這個(gè)被業(yè)界譽(yù)為“能生成蛋白質(zhì)的ChatGPT”,為生命科學(xué)領(lǐng)域的研究者提供了一個(gè)便捷的交互窗口,即使是不具備編程能力的科研人員也可利用大模型和數(shù)十個(gè)蛋白質(zhì)相關(guān)任務(wù)模型、配套軟硬件系統(tǒng),開展創(chuàng)新蛋白設(shè)計(jì)研究。
此次xTrimo V3平臺還發(fā)布了專為生命科學(xué)AI模型設(shè)計(jì)的模型工具鏈 — 包含面向多種數(shù)據(jù)場景和用戶需求的Model Builder模塊,支持模型管理和組裝的Model Hub模塊,以及加速模型調(diào)用和物理計(jì)算的Model Booster模塊等。
“基于xTrimo平臺構(gòu)建專屬任務(wù)模型,讓大模型能力與企業(yè)的私有數(shù)據(jù)、特定需求相結(jié)合,快速為企業(yè)打造專屬的AI工具,是V3平臺的重要特征之一。”張曉明介紹,“我們還結(jié)合已有模型與模型定制能力,在不同行業(yè)提出了藥物研發(fā)解決方案、生物制造解決方案和AI4LS平臺解決方案,通過AI模型和配套的服務(wù),幫助企業(yè)加速創(chuàng)新,提升研發(fā)效率、優(yōu)化流程,讓企業(yè)能夠更快地從實(shí)驗(yàn)室走向市場,直觀感受到大模型作為直接生產(chǎn)力的巨大效能,推動(dòng)行業(yè)的全面智能化發(fā)展。”
關(guān)于BioMap百圖生科
BioMap 百圖生科是全球生命科學(xué)基礎(chǔ)大模型的先行者,通過2100億參數(shù)的跨模態(tài)生物語言大模型,解碼蛋白質(zhì)、細(xì)胞、生物系統(tǒng)等底層規(guī)律,以更小的數(shù)據(jù)和成本消耗,構(gòu)建高質(zhì)量的生命科學(xué)AI任務(wù)模型。BioMap在藥物研發(fā)、生物制造、醫(yī)療健康等領(lǐng)域?qū)崿F(xiàn)了200余個(gè)State-of-the-Art(SOTA)模型表現(xiàn),服務(wù)全球300余家用戶,實(shí)現(xiàn)超過20億美元的總客戶訂單,助力用戶在AI全新蛋白質(zhì)設(shè)計(jì)、AI靶點(diǎn)發(fā)現(xiàn)、AI酶設(shè)計(jì)等領(lǐng)域取得了眾多突破性成果。公司由百度創(chuàng)始人李彥宏與原百度風(fēng)投CEO劉維共同創(chuàng)立,并由原諾和諾德全球副總裁、原SAP全球副總裁等業(yè)界高管組成核心團(tuán)隊(duì),在硅谷、北京、蘇州、香港設(shè)立研發(fā)中心,先后獲得超過2億美元風(fēng)險(xiǎn)投資。
公司官網(wǎng): https://www.biomap.com
責(zé)任編輯: 江曉蓓