Theodoris 指出,正是这种进化多样性中的 DNA 序列对比,赋予了大型语言模型学习 DNA 语法的潜力,而这一能力是此前基于单一基因组的模型难以掌握的。
然而,建模基因组信息仍面临显著挑战。当前的机器学习模型多聚焦于特定分子(如蛋白质、RNA),在长 DNA 序列的生成与预测上存在局限性,尤其是在涉及基因调控和 CRISPR 免疫等复杂系统的多分子、多尺度应用中。例如,基于 Transformer 的 DNA 模型受限于较短的上下文长度,多采用将核苷酸聚合成语言模型基本单元的方法,牺牲了单碱基分辨率。
为应对这些挑战,研究团队借鉴自然语言处理模型在长文本预测与生成中的成功案例,开发了 Evo 模型。
Evo 采用了混合模型架构 StripedHyena,巧妙地将数据控制的卷积算子与多头注意力机制相结合,克服了传统 Transformer 架构在长序列 DNA 处理中的计算成本和分辨率问题,实现了在单碱基分辨率下对长达 131072 个 token 的上下文长度的高效处理,极大提升了基因组分析的精确性和效率。
其次,与自然语言模型类似,Evo 在生成长序列时难以保证连贯性和多样性。例如,生成 CRISPR - Cas 序列时会有 cas 基因缺失或不完整问题,生成百万碱基长的基因组序列时难以涵盖全套 rRNAs 等关键 token 基因,影响序列完整性和可用性。
研究团队指出,未来将通过扩大数据集、增加模型规模、丰富训练上下文等手段提升 Evo 的性能。在功能拓展方面,利用基因组语言模型引导多基因系统定向进化,提高多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。在数据拓展和安全方面,计划纳入真核基因组,但因其复杂性高,需在模型工程、计算资源和安全校准投入大量资源。结合大规模基因组改造进展,Evo 将推动生物工程和设计扩展到全基因组规模。
在功能拓展方面,利用基因组语言模型引导多基因系统定向进化,提高多基因环境下分子结构预测的准确性,并通过优化条件和提示工程让 Evo 成为下一代序列搜索算法核心,从关系或语义层面挖掘宏基因组信息。