-->
前沿科技

mRNA-LM:第一个可用于全长mRNA分析的集成小语言模型

2025-7-10 阅读次数:99

简介

mRNA单链分子由5'UTR、CDS和3'UTR组成。密码子组成对mRNA在宿主细胞中的效率和稳定性具有显著影响。

5' UTR在翻译起始中有重要作用

• 对于真核生物mRNA,5'cap 募集核糖体,然后核糖体沿着5'UTR扫描以识别起始密码子并启动翻译。5'UTR中的特定基序可能会阻止或延迟核糖体的进入或扫描,导致较低的起始速率。
• 对于病毒基因组,虽然内部核糖体进入位点直接以cap非依赖的方式将核糖体募集到5'UTR,但其结构和基序也会影响翻译起始。

3'UTR通过RNA结合蛋白调节mRNA的稳定性、翻译和定位。这些蛋白结合到3'UTR并募集不同的功能蛋白。还有证据表明5'和3'UTR之间的相互作用,如通过RNA环化,可以提高翻译效率。

大多数研究集中于优化CDS,5'或3'UTR的优化相对较少。尚未有研究将三个区域一起优化。已训练的模型也大多用于单个区域的优化(如cdsBERT、UTR-LM和3UTRBERT),且训练数据相对较少(UTR-LM和3UTRBERT分别约为70万和2万个序列),不能分析和预测包括三个区域的完整mRNA序列。

为此作者构建了针对三个区域的联合语言模型,如下图所示。结合针对CDS的CodonBERT模型(利用1000万个CDS的预训练小型语言模型,small language model,SLM),在5' UTR和3' UTR上分别预训练两个额外模型,5UTRBERT和3UTRBERT。接着构建联合模型mRNA-LM。方法上,利用contrastive language–image pretraining(CLIP) 方法来对齐不同区域的嵌入,创新性的将5'UTR、CDS和3'UTR嵌入视为单独的模态,应用对比损失来促进相同mRNA序列的不同嵌入更紧密地对齐,同时区分不同的序列。

联合建模方法能够捕获编码区和非编码区之间的相互作用和依赖关系,提供对全长mRNA的全面表示。在四个数据集(转录本稳定性、转录本表达、翻译速率和蛋白质表达)上都有最佳预测性能。

方法预训练UTRBERTs的数据集

数据集包括哺乳动物参考序列、具有完整核苷酸的人类病毒、大肠杆菌和酵母。共1000万 CDS、600万 5'UTR序列和400万 3'UTR序列。

模型预训练

针对CDS的CodonBERT参见其文章。对于UTR区域,与使用密码子作为token不同,UTRBERT直接将核苷酸视为token。UTRBERT模型结构与CodonBERT一致,有12个隐藏层、12个注意力头、隐藏层大小768和中间层3072。5UTRBERT和3UTRBERT的主要区别在于最大序列长度。5UTRBERT的最大序列长度设置为512,因为>80%的训练序列短于500nt。3UTRBERT的最大序列长度设置为1024,因为3'UTR序列比5'UTR长得多。两个模型的预训练使用掩码语言模型(MLM,一种常见的自监督学习任务,随机掩盖15%的输入token,并根据剩余的上下文预测被掩盖的token)。

mRNA-LM 联合语言模型

给定由三个区域组成的全长mRNA序列,将每个区域输入到其相应的预训练模型中,并获得所有token的上下文嵌入。经过平均池化,获得三个区域的联合表示。使用CLIP学习片段序列的联合表示,CLIP最初用于利用对比学习来对齐共享空间中的图像和文本嵌入。 文章将三个片段的嵌入视为三个单独的模态。然后优化损失函数,旨在对齐不同模态的嵌入。具体的,在5'UTR和CDS嵌入之间使用一个对比损失,在CDS和3'UTR嵌入之间使用另一个对比损失。

其中 u 和 v 是来自不同模态(不同片段)的嵌入,sim是余弦相似度,τ是温度参数,N是批次大小。最小化对比损失使模型将同一序列不同部分的嵌入聚集在一起,同时使来自不同序列的嵌入距离最大化。获得最终嵌入后,输入预测头,用于下游任务。

训练全长mRNA模型

对CLIP模块和预测头进行联合训练。通过将5'UTR、CDS和3'UTR的嵌入视为不同但相关的模态,模型可以更有效地捕获片段之间的上下文信息和依赖关系。对比损失通过在训练过程中动态调整嵌入反映这些关联,反过来增强了模型的泛化能力,并在下游任务上表现良好。使用LoRA进行微调,集成模型包含>2.6亿个参数。针对特定下游预测任务,使用loRA对模型进行微调。与微调整个模型相比,LoRA仅训练少量参数,效率高且不易过拟合。

数据集

在4个标注数据集上微调并评估mRNA-LM:>mRNA半衰期、翻译速率、转录本表达和蛋白质表达数据集,分别包含12919、8143、14936和13215个样本。

结果

比较mRNA-LM,与现有模型RNA-FM和Saluki。由于长度超出模型限制,RNA-FM无法处理数据集中的大多数mRNA序列。因此将5'UTR、CDS和3'UTR分别输入RNA-FM提取核苷酸嵌入,然后连起来。随后使用TextCNN执行监督学习。Saluki是一种混合卷积和递归深度神经网络。对每个数据集从头训练Saluki。如下表所示,mRNA-LM模型在评估的所有四个数据集上都表现出卓越的性能。

• >基因转录受转录因子的调节,转录因子与增强子或启动子区域结合。虽然所有模型都没有将增强子和启动子区域作为输入,但mRNA-LM在转录表达任务上仍然最优。
• >Saluki是表现第二好的模型。尽管Saluki也是基于核苷酸的模型(类似于RNA-FM),但它注释了编码区中每个密码子的第一个核苷酸,RNA-FM则完全基于核苷酸,不识别编码区并区分密码子。这表明基于核苷酸的模型不适用于编码区,实际上降低了全序列嵌入的表示能力。另一方面,仅使用编码区的模型(即使基于密码子生成嵌入)仍然逊于使用了UTR信息的联合模型。
• >为评估不同区域对预测的影响,消融实验使用独立微调的三个模型。与mRNA-LM相比,5UTRBERT、CodonBERT 和3UTRBERT 都表现较差,说明仅使用一个片段可能会对模型预测产生负面影响。但是CodonBERT仍然表现出强大性能,表明密码子信息对所有任务都有帮助。
• >与CodonBERT相比,UTRBERT性能较低,表明5'UTR 和3'UTR虽然有助于预测,但单独考虑时,包含的信息量较少。有趣的是,对于与转录水平相关的任务,3'UTR比5'UTR更具预测性。相反,在预测蛋白质水平时,5'UTR有更好效果。
• >作者还进行了一项消融研究,使用简单连接的不同片段嵌入替换CLIP 模块。结果表明,与简单连接相比,CLIP模块可以提高下游任务的性能,使模型学习到更鲁棒和更有意义的表示,但不多。

在mRNA疫苗数据上测试 mRNA-LM

收集两个小数据集,MEV数据集包含9个编码SARS-CoV-2刺突蛋白的mRNA序列,LinearDesign数据集包含7个由LinearDesign设计的编码水痘-带状疱疹病毒糖蛋白E的序列。
由于数据集小,无法对mRNA-LM进行微调。使用在mRNA半衰期和翻译速率两个任务上训练的模型直接用于评估其在 MEV和LinearDesign数据集上的泛化性能。
• 在mRNA半衰期数据集上微调的 mRNA-LM预测MEV数据集时,Spearman系数为0.583。在翻译速率数据集上微调的模型预测LinearDesign 数据集时,Spearman系数为0.718。都显著高于Saluki 和 RNA-FM。

mRNA-LM 向启动子区域的延伸和可扩展性

Xpresso模型使用启动子序列和mRNA稳定性相关特征来预测基因表达。其训练数据集包括 56种人类细胞的mRNA表达水平。为了评估纳入启动子序列的影响,使用相同的数据集,通过将 Xpresso的预测值作为附加特征添加到mRNA-LM模型的预测头。在此设置中,只有mRNA-LM的参数是可训练的。模型预测mRNA 表达的 Pearson系数从0.675提高到0.771。为了确保结果稳健性,使用另外的未用于Xpresso训练的数据集。将Xpresso的预测结果整合进mRNA-LM后,Pearson系数从 0.489提高到0.511。
调控信息显然有助于预测蛋白表达,但是与mRNA 疫苗无关。因为mRNA疫苗只包含成熟mRNA需要的序列,不包括基因的启动子等基因组调控元件。因此使用 Xpresso 或任何其他启动子分析方法对疫苗设计没有帮助。

结论

mRNA-LM通过集成三个不同的子模块,性能优于现有最先进的方法。CLIP 技术的集成使 mRNA-LM 能够针对三个不同mRNA片段生成更强大、更有意义的联合表示,增强了模型对整个mRNA分子的理解,提高了在各种下游任务中的性能。但是CLIP仅略微改进了更简单连接的方法。一种可能的解释是,从非编码区预测密码子使用依赖于启动子和终止子区域的信息,而这些区域未在模型中使用。 另一个改进途径在于精心管理序列对数据集。mRNA-LM框架非常灵活,可以集成其他语言模型来替换本研究中使用的模型。此外,用两个基于RNA的模型或一个基于RNA和一个基于蛋白质的模型替换语言模型,可以将mRNA-LM 扩展到更多任务,包括RNA-RNA相互作用和RNA-蛋白质相互作用。

鉴于UTR结构及其相互作用可影响mRNA功能,因此预测全长mRNA结构可进一步提高下游任务性能。序列-结构联合模型还可以更深入地了解不同 mRNA 区域之间的复杂相互作用及其对基因表达和调控的影响。扩展当前序列模型到序列-结构联合模型的一种简单方法是添加编码二级结构的附加嵌入层。只对附加层和预测头微调可能无法提升性能,需要从头训练联合模型。

目前3UTRBERT的一个限制是无法处理长度超过1024 nt的序列。而人类 3' UTR的中位长度约为1200 nt。 考虑到尽可能不增加模型大小,作者开发了一种新的基于motif的分词器,使得模型可以处理更长的序列,尽管模型总体性能没有显著提升。更进一步的优化值得探究。

总之,mRMA-LM是第一个全长mRNA SLM,结合了基于密码子和基于核苷酸的表示。 mRNA-LM用Python实现并开源。

参考文献:

Li S, Noroozizadeh S, Moayedpour S, et al. mRNA-LM: full-length integrated SLM for mRNA analysis[J]. Nucleic Acids Research, 2025, 53(3): gkaf044. https://github.com/Sanofi-Public/mRNA-LM