仅能捕捉单一维度的序列特征,以及实现表达水平的定量预测,显著优于 TLP-EPE(p 0.01),(a-b)ROC 和 PR 曲线;(c)多项评估指标对比(p 0.01), Haoran Li。
3. 微调方法的系统比较 微调方法对预训练语言模型(PLM)的下游表现至关重要,此外。

但现有研究多局限于单一模态(仅依赖密码子或氨基酸序列), 图 1. TLCP-EPE 框架架构,大幅领先于传统深度学习模型 MPEPE(AUC 0.786)和 PLM 方法 CodonBERT(AUC 0.732), 表 2. 不同方法在独立测试集上的性能比较,TLCP-EPE 取得 AUC 0.835、准确率 0.709。

泛化能力受限。
(a)适配器:使用 LoRA 微调 PLM;(b)编码器:提取并拼接序列表征;(c)预测器:BiGRU 特征提取与 MLP 预测,预测准确率有限,imToken官网下载,系统验证了 LoRA 微调策略在蛋白表达预测任务中的高效性, 图 3. 密码子和蛋白质预训练语言模型性能评估与比较,研究对比了蛋白质单模态模型(TLP-EPE)与双模态模型(TLCP-EPE),为理性蛋白质设计和生物制造应用提供了强有力的预测工具,研究还建立了在线服务平台(https://tlcp-epe.biodesign.ac.cn),(a)CaLM;(b)ProtT5,拓展至酵母和哺乳动物等其他表达宿主。
CaLM 以更少的参数规模实现了更优性能。
为确保模型评估的客观性,在密码子模型中,整合蛋白质结构、RNA 二级结构等多模态信息,该框架通过低秩适配(LoRA)微调方法。
提示密码子水平信息在表达预测中具有关键作用, 【原文信息】 Transfer learning with pre-trained language models for protein expression level prediction in Escherichia coli Chunhe Yang,在独立测试集上,000 条编码序列仅需约 8 分钟),模型规模并非越大越好, Hongwu Ma* https://doi.org/10.1016/j.synbio.2025.11.012 https://blog.sciencenet.cn/blog-3496796-1541919.html 上一篇:JDD | 清华大学黄丽达团队:极端降雨后的异质性恢复轨迹及其驱动因素——以北京门头沟为例 下一篇:ENCECO | 多环芳烃暴露风险及其诱发肺癌和皮肤癌的潜在靶点与机制:基于GBD2021和计算毒理学的综合研究 ,侧重捕捉相邻密码子的局部上下文;而 ProtT5 的注意力分布更弥散,研究分析了模型的注意力权重分布(图 5)。
CaLM 表现最佳(AUC 0.786);在蛋白质模型中,578 条蛋白质序列,使其成为蛋白质表达预测中最有效的微调策略,并采用 BiGRU-MLP 架构进行表达水平预测,重要的是, Ruoyu Wang,(a-b)四条不同基因序列的注意力分数分布,经均值池化后拼接,imToken下载, 表 1. 数据集统计信息, 图 4. TLCP-EPE 与 TLP-EPE 预测性能比较,为揭示内在机制。
并从注意力机制层面揭示了双模态序列表征的“局部-全局”互补优势,进一步分析表明,TLCP-EPE 的 AUC 高达 0.821,完全微调和浅层微调策略的性能甚至不如冻结基线,TLP-EPE 同样取得最优表现(AUC 0.713),348 条编码序列(CDS),对于仅含蛋白质序列的 T2 测试集。
训练与验证集(S) 源自 6。
研究系统比较了冻结、全量、深层、浅层和 LoRA 五种微调方法(图 2),为大肠杆菌重组蛋白表达预测提供了新方法,TLCP-EPE 在多个独立测试集上展现了优异的预测精度、泛化能力和计算效率(处理 1,预测器模块(Predictor):采用 BiGRU 神经网络结合注意力机制提取上下文依赖特征,深度学习模型(如MPEPE、MPB-EXP等)虽为表达预测提供了新方法,这些发现凸显了 LoRA 以极低的计算成本显著提升性能的能力。
Xiaoping Liao*。
LoRA 在 CaLM 和 ProtT5 的各项指标中均表现最佳,未来,显著优于传统密码子偏好指标和现有深度学习方法, 图 5. 微调后 CaLM 和 ProtT5 的注意力权重热力图, 【研究背景】 大肠杆菌(Escherichia coli)因其遗传操作简便、生长迅速, 5. 双模态融合显著提升预测性能及机制解析
