• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 業界動態 > 破解生命密碼:新AI模型學習DNA的隱藏語言

    破解生命密碼:新AI模型學習DNA的隱藏語言

    作者:EEPW 時間:2024-08-07 來源:EEPW 收藏

    Warning: file_get_contents(): SSL: Connection reset by peer in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068 Warning: file_get_contents(https://scx1.b-cdn.net/csz/news/800a/2024/cracking-the-code-of-l.jpg): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllerssitemanage/ManagecmsController.php on line 2068

    Cracking the Code of Life: New AI Model Learns DNA's Hidden Language

    DNA包含維持生命所需的基礎信息。理解這些信息是如何存儲和組織的,是上個世紀最偉大的科學挑戰之一。

    通過GROVER,一個在人體DNA上訓練的新型大型語言模型,研究人員現在可以嘗試解碼隱藏在我們基因組中的復雜信息。

    由德累斯頓工業大學生物技術中心(BIOTEC)的團隊開發,GROVER將人體DNA視為文本,通過學習其規則和上下文來提取關于DNA序列的功能信息。這個新工具在《自然機器智能》期刊上發表,具有變革基因組學和加速個性化醫療的潛力。

    自從發現雙螺旋結構以來,科學家們一直在努力理解DNA中編碼的信息。70年后,很明顯,DNA中隱藏的信息是多層次的?;蚪M中只有1-2%的部分由編碼蛋白質的基因組成。

    “DNA的功能遠不止編碼蛋白質。一些序列調節基因,其他的有結構用途,大多數序列同時具有多種功能。目前,我們對大多數DNA的意義還不了解。對于非編碼區域的理解,我們似乎才剛剛開始。這是和大型語言模型可以發揮作用的地方,”BIOTEC研究組組長Anna Poetsch博士說。

    DNA作為一種語言

    像GPT這樣的大型語言模型已經改變了我們對語言的理解。這些模型只在文本上訓練,發展出了在許多上下文中使用語言的能力。

    “DNA是生命的密碼。為什么不把它當作一種語言來對待呢?”Poetsch博士說。Poetsch團隊在參考人類基因組上訓練了一個大型語言模型。這個名為GROVER(Genome Rules Obtained via Extracted Representations)的工具可以用來從DNA中提取生物學意義。

    “GROVER學會了DNA的規則。用語言來比喻,我們談論的是語法、句法和語義。對于DNA,這意味著學習序列的規則、核苷酸和序列的順序以及序列的意義。就像GPT模型學習人類語言一樣,GROVER基本上學會了如何‘說’DNA,”項目研究人員Melissa Sanabria博士解釋道。

    團隊展示了GROVER不僅能準確預測下一個DNA序列,還能用于提取具有生物學意義的上下文信息,例如識別基因啟動子或DNA上的蛋白質結合位點。GROVER還學習了通常被認為是“表觀遺傳”的過程,即發生在DNA上的調控過程,而不是編碼在DNA中的過程。

    “令人著迷的是,通過僅使用DNA序列訓練GROVER,而沒有任何功能注釋,我們實際上能夠提取出關于生物功能的信息。對我們來說,這表明功能,包括一些表觀遺傳信息,也是編碼在序列中的,”Sanabria博士說。

    DNA字典

    “DNA類似于語言。它有四個字母構建序列,序列攜帶意義。然而,不同于語言,DNA沒有定義的單詞,”Poetsch博士說。DNA由四個字母(A、T、G和C)和基因組成,但沒有預定義的不同長度的序列組合來構建基因或其他有意義的序列。

    為了訓練GROVER,團隊首先創建了一個DNA字典。他們使用了壓縮算法的一個技巧。“這一步至關重要,使我們的DNA語言模型與之前的嘗試不同,”Poetsch博士說。

    “我們分析了整個基因組,尋找最常出現的字母組合。我們從兩個字母開始,一遍又一遍地遍歷DNA,逐步構建出最常見的多字母組合。通過這種方式,在大約600個周期中,我們將DNA分解成‘單詞’,使GROVER在預測下一個序列時表現最佳,”Sanabria博士解釋道。

    在基因組學中的前景

    GROVER有望解鎖遺傳密碼的不同層次。DNA包含關于我們為何成為人類、我們對疾病的易感性以及我們對治療的反應的關鍵信息。

    “我們相信,通過語言模型理解DNA的規則,將有助于我們揭示隱藏在DNA中的生物學意義的深度,推進基因組學和個性化醫療的發展,”Poetsch博士說。


    關鍵詞: AI

    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 平原县| 缙云县| 昌都县| 子长县| 桐柏县| 北川| 绩溪县| 泽库县| 洛浦县| 如东县| 江津市| 汶川县| 高陵县| 德格县| 咸宁市| 上林县| 桐梓县| 广昌县| 栾城县| 油尖旺区| 荆州市| 阳曲县| 扶绥县| 晴隆县| 温州市| 日照市| 永修县| 西林县| 南木林县| 娄底市| 江口县| 沙湾县| 饶阳县| 积石山| 连南| 额敏县| 大竹县| 麻城市| 客服| 修水县| 常宁市|