人工智能在合成生物學的應用

文:李敏 林子杰 廖文斌 陳廷柏 李堅強 陳 杰 肖敏鳳2021年第5期

  



  1 引 言

  合成生物學以人為設計和構建生命系統為目標,近年來在生物醫療技術和藥物的研發、蛋白質和其他化合物的生產以及環境保護等領域展現出巨大的發展潛力。有別于傳統生命科學, 合成生物學具備多學科交叉、多技術融合的特征,遵循工程學本質,在人工設計的指導下,基于特定底盤細胞,自下而上地對生物元件、線路模塊、代謝網絡和基因組等進行標準化表征、通用化設計構建、可控化運行,并持續學習和優化。

  隨著合成生物學涉及的功能和潛在應用的不斷拓展,運用合成生物學的復雜性和跨學科知識需求也在迅速增長。然而,生命系統極其精密,包含大量不同的基因和調控元件,而元件之間又以海量不同的組合形成模塊、網絡,難以精確描述和預測,因此即使設計小型的基因線路也需要反復調試。工程學思維和方法是克服這一難題的利器,即大規模測試不同元件、線路模塊、網絡和底盤的組合,積累海量實驗數據,從而指導合成生物系統的理性設計和優化。合成生物自動化設施(Biofoundry) 是工程學平臺搭建的一大核心,依照“設計— 構建—測試—學習”(Design-Build-Test-Learn,DBTL) 的閉環策略組織工藝流程,通過自動化、高通量生物學實驗試錯獲

  得符合預期的合成生物系統。但當前工程化試錯存在海量的試錯空間,實驗成本極其高昂,并且缺乏標準化、定量的表征手段和智能化試錯、優化、學習理論與技術的系統性支撐,阻礙了工程化研究平臺指導合成生物系統的設計與改造的發展。因此,需要運用一種方法將新知識和新技術流程很好地集成到合成生物學工程中,以提高試錯效率、降低試錯成本。

  隨著人工智能 (Artificial Intelligence,AI) 技術的快速發展,在軟件、電子和機械系統等不同領域的工程設計中,使用人工智能技術來捕獲人類專家知識并將其嵌入輔助工具中是很常用的思路。人工智能技術基于海量數據的持續學習能力和在未知空間的智能探索能力,有效地契合了當前合成生物學工程化試錯平臺的需求。盡管生命體很復雜并且未被完全理解,但是人工智能技術可以找到很多突破口顯著改變合成生物學工程的效能。人工智能技術的核心是機器學習模型與算法,其本質是基于一組數學規則或統計假設,對機器進行編程從而學習數據集中的模式與規律。通常說來,機器學習的目標是從給定數據集中發現特征之間的聯系從而建立起預測模型,輸出值可以是二元響應、多分類標簽或連續值。其中,訓練好的預測模型需要具有較好的泛化能力,即能較準確地預測訓練集外的樣本。

  比較經典的預測模型有邏輯回歸模型、決策樹模型、貝葉斯概率模型、支持向量機、卷積神經網絡 (Convolutional Neural Network) 和循環神經網絡(Recurrent Neural Network) 等。在生物學和生物醫學研究的大數據時代,機器學習模型與算法的一個關鍵優勢是可自動挖掘數據中可能被忽略的模式,在發現復雜生命系統的內在規律方面起關鍵作用。人工智能技術在生物學領域已經具有廣泛的應用,包括基因注釋、蛋白質功能的預測、基因線路的預測、代謝網絡的預測和復雜微生物群落的表征等。然而,合成生物學實驗通常時間跨度大、成本高以及 DBTL 迭代次數有限,導致預測模型的訓練數據極度不足, 這也給人工智能技術帶來了新的挑戰。本文綜述了近年來人工智能技術在合成元件工程、線路工程、代謝工程及基因組工程領域的研究進展,并在此基礎上提煉歸納人工智能與合成生物學兩大領域交叉融合所面臨的挑戰,提出開發基于人工智能完成 DBTL 閉環的“類合成生物學家”見解。

  2 人工智能應用于合成生物學的國內外研究現狀

  21 世紀以來,人工智能與合成生物學交叉研究驅使元件工程、線路工程、代謝工程、基因組工程等領域取得了一些代表性的進展,并使許多具備鮮明領域交叉特色的創新研究手段和理論得以成功運用。其中,2005—2017 年為緩慢發展階段,研究主要集中在線路工程;2018—2021 年為相對高速發展階段,人工智能在元件工程、線路工程、代謝工程、基因組工程等領域均嶄露頭角。這意味著,人工智能開始有效地解決合成生物學各子領域的技術難題,開辟合成生物學發展的新道路 ( 圖 1)。

  2.1 元件工程

  生物元件是合成生物系統中最簡單、最基本的單元,通常指一小段具有特定功能的核酸和氨基酸序列。在大規模的生物智能設計中,生物元件像“搭積木”一樣被用于組裝具有特定生物學功能的裝置和系統。在傳統的生物信息學和基因組學研究中,聯合多組學與序列特征分析可以得到特定的生物功能元件,如啟動子、核糖體結合位點、蛋白編碼基因、終止子和操縱子等。然而,從核酸和氨基酸序列到生物元件的挖掘與功能解讀之間還存在巨大鴻溝。已有研究表明,人工智能技術可改善生物元件的鑒定和功能注釋效率。DeepRibo 利用卷積神經網絡和循環神經網絡可有效注釋基因編碼區。ProLanGO 則是一種基于循環神經網絡的神經機器翻譯方法,其將蛋白質功能預測問題轉化為語言翻譯問題。DeepEC 利用 3 個相互獨立的卷積神經網絡聯合同源分析工具 DIAMOND 預測蛋白質EC(Enzyme Commission) 編碼以輔助理解酶的功能和總體細胞代謝。Kotopka 等構建的卷積神經網絡模型可實現對酵母啟動子序列活性的高精度預測與設計。

  目前,已發掘的天然生物元件結構及功能較為單一、保守,理性設計和定向進化技術是優化現有元件結構、增強其功能特性的主要策略。但這兩種方法都耗時長且成本高,而機器學習通過學習序列中變異信息的特征來篩選出可能進化方向的序列,從而加速理性設計和定向進化。Romero 等使用高斯過程(Gaussian Process) 設計的細胞色素 P450 酶(Cytochrome P450) 比先前通過嵌合染色體、理性設計或定向進化產生的酶具備更耐高溫的特性。Li 等利用高通量分子動力學仿真等計算機方法輔助重設計天冬氨酸酶,將其轉化為不對稱加氫反應的酶,由此擴大了這種酶的生產,并獲得了可用于制藥和其他生物活性化合物的高純度元件。Yang 等利用偏最小二乘法回歸、貝葉斯優化等算法指導蛋白質定向進化,從而提高氰化反應中蛋白質的催化效率。在蛋白質的翻譯中,核糖體結合位點效率是決定蛋白質表達量的重要因素之一。Bonde 等構建了一種基于隨機森林的 EMOPEC(Empirical Model and Oligos for Protein Expression Changes) 工具,用于全面評估核糖體結合位點上的 SD 序列 (Shine-Dalgarno Sequence) 對蛋白質表達的影響,并通過修改 SD 序列上的若干堿基,對大腸桿菌基因表達水平進行精準調節。

  元件工程中更具挑戰意義的是設計合成自然界不存在的元件,而人工智能在其中扮演著十分重要的角色。在 DNA 元件設計上,Wang 等將生成對抗網絡 (Generative Adversarial Network) 模型與支持向量機活性預測模型相結合來設計啟動子,其中約 70.8% 的啟動子兼具結構新穎及功能穩定的特性。該項工作為新型啟動子元件的從頭設計提供了端到端的方法, 表明深度學習方法具有從頭設計基因元件的潛力。在蛋白質元件設計上,Repecka 等研究表明人工智能可輔助生成多樣化的功能蛋白,其提出的 ProteinGAN 從復雜的氨基酸序列空間中學習蛋白質演化關系,并創建與天然蛋白的生物特性接近的新功能蛋白。Li 等利用隱馬爾可夫模型 (Hidden Markov Model) 對轉氨酶序列和結構進行組合分析,建立高效快速的

  

2005—2021 年人工智能應用于合成生物學的代表性進展.png

  圖 1 2005—2021 年人工智能應用于合成生物學的代表性進展

  計算方法來篩選不同家族的轉氨元件,最終建立了底物特異性互補的轉氨元件工具箱,實現對天然 L- 氨基酸的全覆蓋,打通了 L- 氨基酸到酮酸及相關高價值衍生物的綠色合成途徑。

  2.2 線路工程

  人工基因線路是利用元件工程中的各類元件針對多樣的需求依照電子工程中電路搭建的思維進行設計及功能優化,從而達到對生命的重編程。基于雙穩態開關 (Toggle Switch)、振蕩器 (Oscillator) 和細胞通訊模塊等最簡單的小型功能模塊, 研究人員根據目標重新組合或優化調整,設計出能夠執行復雜邏輯功能的新穎基因線路,從而對細胞行為進行精準的時空控制,以應對復雜的生物環境。

  但是,合成基因線路的設計和構建遠非易事。早期設計的基因線路通常需要進行多次、長時間的調試才能正常運行,且無法確定其對底盤細胞的其他影響。Hasnain 等利用Koopman 算子理論構建數據驅動的模型用于計算合成生物線路對大腸桿菌底盤的影響。Myers 等開發了一種工具—— iBioSim 利用多種仿真方法對基因線路模型進行高效分析和設計,可用于維護基因線路模型以及實驗和仿真數據記錄。盡管取得了以上進展,但在大型復雜的合成網絡中,生物元件可能相互交互造成串擾,可用的生物回路元件的數量和正交性帶來的限制阻礙了在活細胞中構建穩定運行的復雜回路。Green 等利用線性交互機制從頭設計在大腸桿菌中調控基因表達的核糖開關——Toehold Switch。Toehold Switch 不僅可以感應同源 RNA 從而激活基因表達,而且實現了較高的正交性、較低的系統串擾、可編程性以及較廣的動態范圍,但仍面臨一定的設計瓶頸,譬如篩選有用的 Toehold Switch 通常需要開展大量實驗,消耗很高的時間和經濟成本。于是,Valeri 等 將 STORM(Sequencebased Toehold Optimization and Redesign Model) 和 NuSpeak(Nucleic-Acid Speech) 循 環神經網絡 - 卷積神經網絡混合模型用于表征和優化 ToeholdSwitch。在深度學習架構中使用卷積過濾器、注意力機制和遷移學習對模型進行優化,進一步改進了面對稀疏的訓練數據的性能,為調節開關的選擇和設計提供了從序列到功能的深度學習框架,并增強了構建有效的生物電路和精確診斷的能力。

  一個基因線路的設計被提出后,計算機仿真策略可確定該線路可以執行哪些任務,并通過修改參數以實現所需的功能。逆向工程策略利用計算模型從基因表達數據中提取基因線路的調控結構和動力學,探索可能的基因調控線路的配置庫 ( 如基因激活或抑制強度),以找到可以執行該功能的配置條件。但是,由于基因線路配置的數量隨基因數量的增加而迅速增加,因此這種方法的計算量巨大,需要用更高效的算法來克服這一挑戰。蒙特卡洛方法提供了一種可行的替代解決方案,即反復選擇最佳基因線路后對其配置進行隨機更改的進化算法可成功開發出高性能的基因線路。Noman 等提出一種基于蒙特卡洛的進化算法,即利用計算機對自然進化過程進行仿真,從而快速查找對噪音信息具有魯棒性的網絡拓撲 (Network Topology), 這對于設計高魯棒性的生命系統具有較高的價值。而 Hiscock 等提出將機器學習中的梯度下降優化算法應用到基因線路的快速篩選和一系列不同功能的線路設計中。2021 年,Seak 等嘗試利用模擬人工神經網絡的方法設計基因線路,進一步提升生物計算算法的潛力。

  2.3 代謝工程

  代謝工程最早由美國學者 Bailey 于 1991 年提出,是指用重組 DNA 技術有目的地改造中間代謝途徑及網絡,從而提高菌體生物量或代謝物產量。鑒于細胞代謝網絡的復雜性,傳統的設計通常整合了文獻檢索、代謝建模和啟發式分析(Heuristic Analysis) 等方法,但因為吞吐量有限,從數千個代謝反應及其調控網絡等海量信息中找到合適的改造靶點非常困難。人工智能的集成建模方法有助于在代謝網絡建模時兼顧動力學、調節作用、替代模型結構和參數集合等因素。例如, 魯棒性分析集成建模 (Ensemble Modeling For Robustness Analysis,EMRA) 將動態動力學模型與集成建模法結合以設計非天然代謝路徑,可在選擇代謝流改造靶點時既考慮模型性能又兼顧魯棒性。在大規模的代謝數據篩選中,機器學習平臺作為高通量分析工具在促進數據驅動的目標生物合成途徑優化和微生物產能提高方面得到了更廣泛的應用。EcoSynther 平臺使用反應數據庫 Rhea 中約 10 000 條質量和電荷平衡的反應為外源反應數據源,并整合野生型大腸桿菌代謝網絡模型中內源反應,利用途徑搜索的概率分析算法模擬生產目標化合物的大腸桿菌菌株在不同生長條件下的整體代謝、目標化合物合成途徑以及量化合成情況。將支持向量回歸和前饋神經網絡用于優化預測生產中核糖體結合位點和表型的關聯,可將大腸桿菌中檸檬烯產量提高 60% 以上。而將集成學習算法應用于DBTL 循環數據可輔助提高大腸桿菌生產十二烷醇的效能 ( 效價提高 21% )。

  合成生物學 DBTL 循環通常需要大規模采集和分析數據, 且循環中往往受到實驗成本高昂、可變性高、采樣偏差以及傳統數據分析方法局限性的限制。而自動化 DBTL 流程在微生物底盤生化途徑的快速原型設計和優化應用中,集成了一系列獨特的新技術組合,能大大降低實驗成本和噪聲,并且不依賴于研究人員對生物學機制的理解。Pablo 等開發的 DBTL 平臺使用計算機仿真選擇候選酶,通過自動化元件設計,融合機器學習算法集優化技術指導和機器人輔助組裝生化途徑,隨后進行快速測試和理性重設計,僅用兩個 DBTL 循環就能大規模壓縮可能的參數和變數組態 (Configuration) 數目,將大腸桿菌的類黃酮產量較以往報道的水平提高了 500 倍。Hamedirad 等開發了一個耦合貝葉斯優化等機器學習算法的集成機器人平臺——BioAutoMata,并用于 DBTL 循環優化番茄紅素的生物合成途徑。實驗證明,僅測試不到 1% 的可能變異體就能發掘高產菌株,其產量超出隨機篩選法選出的最優菌株產量的77%。

  由于不同微生物之間的差異,目標化合物的產量和合成途徑也可能因底盤的不同而異。除了上述以大腸桿菌作為底盤, Zhou 等基于人工神經網絡和 YeastFab 組裝技術組合在釀酒酵母中優化外源代謝途徑來提高目標代謝物的產量。此外, 一種基于貝葉斯優化的自動推薦工具—— ART(Automated Recommendation Tool) 使得酵母中色氨酸的效價和生產率提升比例分別高達 74% 和 43%。該工具利用機器學習和概率建模技術以系統的方式指導合成生物學,而無需對生命系統有完整的理解 [59]。Ding 等開發的生物學推理系統 CF- Targeter 基于已有代謝反應庫,利用途徑搜索算法(Pathway- Searching Algorithm) 對每個目標化合物執行 1400 000 次搜索,可為指定的目標化合物選擇合適的底盤。

  2.4 基因組工程

  

人工智能應用于合成生物學的挑戰.png

  圖 2 人工智能應用于合成生物學的挑戰

  隨著基因測序、DNA 合成和基因編輯等技術的發展,合成生物學能對生物體的整個基因組甚至細胞進行工程改造,從而為直接探測基因型和表型之間的關系提供新工具,并為了解生物體基因組復雜功能體系提供一種全新的方式。在基因組工程領域,合成生物學與計算機技術的最早交互是通過一系列 Perl 腳本設計需改造的染色體序列及實現分層組裝策略。2018 年,Wang 等提出使用計算機仿真自上而下地合成最小化基因組,利用混合整數線性規劃 (Mixed-Integer Linear Programming) 標記已知的必需基因或導致顯著適應性損失的基因,避免合成致死缺失,并在大腸桿菌中成功驗證。

  除了基因組合成外, 基因組編輯、微生物組或群落的設計也涉及合成生物學與人工智能技術的交互。2018 年, DeepCRISPR 通過深度學習實現對 sgRNA 的靶點和靶點外預測,超越了其他軟件工具的準確性,這將有助于實現高靈敏度和高特異性的 sgRNA 優化設計并應用于精準編輯基因組。人工智能輔助合成生物學技術在調節腸道益生菌的治療和營養方面也展現出一定價值。例如,將來自健康人群和腸道疾病患者的腸道微生物組的元基因組數據與機器學習算法( 如邏輯回歸、隨機森林和支持向量機等 ) 協同建模,可以更好地促進健康、免疫、消化、大腦功能等方面的研究。2021 年,Karkaria 等以合成生物學中的計算環路設計為基礎,借助近似貝葉斯計算(Approximate Bayesian Computation) 和蒙特卡洛采樣法的模型選擇和參數優化算法,提出了自動化合成微生物共生系統設計器,并構建穩定的雙菌和三菌共生系統。該方法不但能給出構建穩定共生系統的基本設計原則,而且能揭示控制共生系統組成的關鍵參數。

  3 人工智能與合成生物學交叉研究的關鍵瓶頸及未來方向

  人工智能作為一門快速發展的新興學科,其數學模型的訓練主要基于數據驅動。然而,當前合成生物學研究存在數據來源廣、數據形式異構、高質量訓練數據不足等問題,這導致小數據稀疏監督下人工智能模型難以得到有效訓練。鑒于生命系統極其復雜,很難用傳統數學模型精確描述,當前技術仍無法有效預測復雜的基因線路。構建工程化平臺是合成生物系統的重要研究手段,但當前工程化試錯存在標準化的數據缺乏、海量的試錯空間、定量的表征手段較少等問題,且智能化試錯、優化、學習的理論支撐不足,工程化平臺仍無法有效指導合成生物系統的設計與改造 ( 圖 2)。本小節將介紹人工智能技術與合成生物學的交叉研究在數據標準化、試錯智能化、實驗自動化、預測精準化方面存在的挑戰。

  3.1 數據標準化

  合成生物工程自動化水平低,很大程度上受限于復雜的生命系統下用于人工智能模型訓練的標準化數據。例如,在生物信息系統中,轉錄調控和免疫信號轉導網絡數據通常存在類型不統一、有效數據缺乏和數據層次多等問題,且現有的KEGG、GO 等公共數據庫、公開文獻數據及實驗結果反饋的數據標準不統一,這需要研發構建多源融合的標準合成生物元件信息庫的方法和技術,提供智能化查詢、檢索和推薦等功能。高效利用公開數據庫也是為機器學習算法提供訓練數據的有效手段。在標準化數據的支持下,機器學習算法具有挖掘更多生物元件的潛力——采用生物信息學以及基因數據挖掘技術,從已有的元件庫和未知微生物中挖掘更多的生物元件:結合生物學實驗,將已有的生物元件作為輸入,設計并訓練機器學習模型,挖掘已有元件的模式,用于指導相應元件進行修飾、重組和改造,從而生成新的生物元件信息資源。然而,現實中存在著海量的還未發現的自然元件數據,這需要我們研發用于未知元件數據的自動化注釋與標注的機器學習方法。

  3.2 試錯智能化

  智能試錯利用 DBTL 閉環中產生的數據,選擇下一個迭代的實驗設計,可以提高實驗數據質量,減少估計誤差。上述過程適合利用強化學習等優化決策理論框架進行建模,目標是輸出累積獎勵最高的實驗設計序列。然而,由于合成生物實驗通常時間跨度大、成本高,DBTL 迭代次數有限,可用于訓練強化學習決策模型的數據極度不足。因此,解決小數據與增量數據條件下的方案優化問題是合成生物系統設計、試錯智能化的瓶頸問題。機器學習領域中一些小數據集下模型訓練的理論框架具有應對上述挑戰的潛力:分級強化的理念可減輕由于合成生物系統狀態和可用改造手段的數量巨大,導致實驗軌跡數據相對稀疏問題;生成對抗學習框架產生高質量的實驗軌跡可解決稀疏實驗軌跡數據帶來訓練不足的問題;遷移學習框架也可復用已有相近源域的實驗數據 / 模型,解決目標域由于稀疏實驗軌跡數據無法有效訓練設計策略模型的問題。將上述通用理論框架與合成生物領域場景相結合,可發展出一系列服務于試錯智能化的新型機器學習算法。

  3.3 實驗自動化

  實驗自動化旨在設計專用的人工智能技術以提高 DBTL 閉環中構建和測試兩個環節的構建效率和測試質量。構建環節主要依賴于高靈活度的協議,優化構建規劃與資源調度和提高自動化執行的能力。研究機器人、不確定性環境下的優化規劃等人工智能技術可減少人工干預、提高構建的效率。測試環節主要檢驗基因改造后細胞的行為是否符合預期。其中,最大的挑戰是如何準確建立起基因型與表型之間的聯系。例如,定量地建立代表性真核細胞、原生生物、病毒基因型和表型 ( 基因轉錄水平、蛋白表達量、小分子生成量、個體生存和功能水平 ) 之間的關系。面向多場景的合成生物自動化設施的升級、改造和集成等給實驗自動化帶來了巨大的技術挑戰。實現實驗自動化可確保高通量的實驗數據源源不斷地進入 DBTL 閉環中,驅動循環,從而促使各個環節中機器學習方法提高性能。

  3.4 預測精準化

  由于合成生物系統復雜度高 ( 可獲取的數據極其復雜,通常具有數以萬計的變量 ),數據總量卻嚴重不足,所以難以訓練出一個高精度的機器學習模型。遷移學習是在少量數據條件下通過遷移相關的兩個或多個領域之間的知識結構進行模型有效訓練的一種思路。例如,描述不同合成生物系統生物元件的基因水平上的調控信息、蛋白質水平上的相互作用和翻譯后修飾信息等,可在稀疏數據條件下提高預測準確性。此外,許多預測能力強的機器學習模型 ( 圖卷積神經網絡等 ) 存在“黑盒問題”,難以從生物學角度對模型輸出進行解釋,這阻礙了機器學習模型發現生物學內在機制的能力。合成生物應用存在大量的領域知識,通過融合機器學習模型與領域內知識可以更好地理解內部機制,提高預測的精準度。而通過對生物內部機制的理解也可為建立全新的人工智能算法帶來啟發,如對進化生物學、腦科學和行為科學的研究啟發了進化計算、人工神經網絡以及強化學習等機器學習理論。合成生物系統中通過基因間的精密相互交互,動態形成調控網絡,從而產出目標因子的工作方式,揭示了粗放型的傳統機器學習模型——依賴大量數據、學習內在模式的方式已無法滿足需求,亟需研究可精確融合領域知識的新型通用機器學習算法框架。

  

基于人工智能的“類合成生物學家”概念.png

圖 3 基于人工智能的“類合成生物學家”概念

  3.5 四大挑戰間的聯系

  解決數據標準化、試錯智能化、實驗自動化、預測精準化四大挑戰是相輔相成的。解決數據標準化挑戰,建立起動態融合的知識庫,可以作為其他三個方面開展的基礎。其中,高通量實驗數據的采集及智能試錯技術進行優化,可為預測模型提供數據標準。而解決試錯智能化的挑戰則可在小數據稀疏監督下利用人工智能有效指導實驗設計,提高元件庫中新元件的挖掘效率以及標準化建庫的質量;海量設計方案空間的優化探索,也可提高構建合成生物系統預測模型的效率。解決實驗自動化挑戰,實現高通量實驗來增加訓練數據總量,從源頭上為智能試錯算法和預測模型緩解小數據與稀疏監督的問題。解決預測精準化挑戰,可根據基因型對合成生物系統表現型進行精準預測,以此顯著提升強化學習模型策略效率,從而減少對真實實驗數據的依賴。解決上述挑戰可助力構建基于人工智能完成 DBTL 閉環的“類合成生物學家”智能體 ( 圖 3),不斷在循環過程中進行學習與試錯優化,從而在數據標準化、實驗自動化、預測精準化方面大大降低真實生物學實驗的試錯空間和成本。

  4 總結與展望

  人工智能與合成生物學交叉融合的研究工作仍處于發軔之始階段:(1) 常用于實現智能化元件工程、線路工程、代謝工程和基因組工程的底盤生物仍局限于大腸桿菌和釀酒酵母;(2)全基因組、微生物組或群落水平的智能化設計和合成仍寥寥無幾;(3) 人工智能與合成生物學的融合多發生于 DBTL 循環的個別步驟,而 DBTL 全循環實現智能化的研究仍屈指可數。可喜的是,2020 年國家重點研發計劃“合成生物學”專項立項名單中涌現了一批合成生物學與智能算法融合的項目,包括“基于合成生物學的新型活疫苗設計與開發”、“面向合成生物系統海量工程試錯優化的人工智能算法研究與應用”、“數字細胞建模與人工模擬”、“新蛋白質元件人工設計合成及應用”、“正交化蛋白質復合物元件的人工設計構建與應用”等。值得關注的是,“面向合成生物系統海量工程試錯優化的人工智能算法研究與應用”項目通過開發具有持續學習能力的自動化海量試錯優化平臺實現 DBTL 全循環智能化,利用人工智能的優勢給工業合成生物學和醫學合成生物學領域研究帶來新的思路,并結合合成生物學的特色在微藻油脂細胞工廠、固有免疫細胞、人造噬菌體三大生物學應用場景下開展人工智能的算法研究。受限于生命系統內部機理復雜以及合成生物實驗周期長、成本高,以及適合訓練人工智能方法的數據量極度不足,現有的機器學習方法均不足以支持高精度預測和實驗設計優化。因此,研究小數據 / 零數據下的服務于海量工程試錯的強化學習模型、具有生物可解釋性的機器學習預測模型,可同時促進人工智能和合成生物學兩大領域的發展。通過數據驅動及持續學習,“類合成生物學家”依照 DBTL 循環策略,部署多種基于人工智能的工具進行工程化的海量試錯,可在快速合成具備目標功能的生命系統的同時孵化智能技術的革新。

  

  李敏 1,2# 林子杰 3# 廖文斌 3 陳廷柏 3 李堅強 3* 陳 杰 3* 肖敏鳳 1,4*

  1 深圳華大生命科學研究院

  2 中國科學院大學生命科學學院

  3 深圳大學計算機與軟件學院

  4 深圳市未知病原體應急檢測重點實驗室轉載自《集成技術》


中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期