本站出售,有兴趣带价格联系QQ:503594296

能优化模型训练效果 百图生科开放预测模型的训练方法等专利 (能优化模型训练的软件)

专利摘要显示,一种预测模型的训练方法、装置、电子设备和介质。方法包括:失掉多个样本,其中,多个样本中的每个样本包括第一基因表达数据、掩码基因表达数据以及辅佐信息,掩码基因表达数据是经过对第一基因表达数据启动降采样并对经降采样的第一基因表达数据中部分基因的计数启动掩码失掉的关于多个样本中的每个样本:运行待训练的预测模型处置该样本中的掩码基因表达数据以及辅佐信息,以失掉该样本对应的第一测序深度下各基因计数的预测值;依据预测值与第一基因表达数据中与部分基因所对应的计数确定该样本对应的损失值;以及依据多个样本中的每个样本对应的损失值更新待训练的预测模型。


百图生科&百度宣布新论文:大模型驱动的无MSA高速蛋白结构预测

蛋白质在生物环节中的关键作意图味着准确了解其结构和性能关于疾病研讨和人类安康至关关键。 人工智能技术在蛋白质结构预测范围的打破,特别是在 AlphaFold2 在第 14 届蛋白质结构预测关键评价(CASP14)中取得的高精度,展现了AI在药物和疫苗行业的庞大潜力。 但是,主流方法依赖于多序列比对(MSA)和模板提取的协同退化信息,这使得耗时且成为推行瓶颈。 因此,设计准确无MSA的蛋白质结构预测方法成为关键。 百图生科与网络宣布的新论文“Helixfold-Single: Msa-Free Protein Structure Prediction By Using Protein Language Model As An Alternative”提出了一种处置方案。 论文中,研讨团队经过仅经常使用蛋白质的一级序列,尝试探求加快预测结构的局限性。 他们将大规模蛋白质言语模型(PLM)与AlphaFold2的几何学习才干相结合,开发了新的蛋白结构预测模型HelixFold-Single,作为百图生科xTrimo多模态生物计算大模型体系中蛋白质结构预测模型的一个开源版本。 该模型应用大规模PLM预训练,作为MSAs和模板的替代方法,经过提醒蛋白质序列上的常年相关,改良下游义务。 结合预训练的PLM和AlphaFold2的组件,HelixFold-Single成功从一级序列预测原子的三维坐标,清楚增加预测时期。 实验结果显示,HelixFold-Single在CASP14和CAMEO数据集上与基于MSA的方法相比,精度相当或更高,特别是在大同源家族的目的上。 它在速度和精度上均优于主流蛋白质结构预测pipeline,证明了其在要求启动多种预测义务时的潜力。 模型应用大规模PLM库编码协同退化信息,作为MSAs和模板的替代方案,并经过适配器层有效生成序列和成对表示,作为几何模型所需输入。 整个训练方法包括少量无标志一级序列的自监视预训练和经常使用几何标志的监视学习,充沛应用蛋白质数据库中的范围知识。 研讨团队启动了两阶段参数优化,首先对PLM库中的PLM启动预训练以失掉协同退化信息,然后应用实验确定的蛋白质结构结合优化模型的一切成分。 训练数据集包括UniRef30(2021-03)预训练PLM,以及从RCSB PDB、Uniclust30(版本2018-08)和AlphaFold蛋白质结构数据库构建的自蒸馏数据集。 在比拟HelixFold-Single与几种基线结构预测方法的准确性时,结果显示,全体来看,该方法清楚优于一切无MSA的方法,并在某些状况下与基于MSA的方法具有竞争力。 特别是在CAMEO上,HelixFold-Single的准确性与AlphaFold2相当,并逾越了另一个强基线,即RoseTTAFold。 这些结果标明,HelixFold-Single具有将PLM融入蛋白质结构预测几何模型的庞大潜力。 模型的普遍经常使用前景在于,它提供了一种高效、准确的蛋白质结构预测方式,降低了经常使用门槛,扩展了运行范围。 作为开源、提供在线服务的模型,HelixFold-Single为产业界带来了更低的经常使用本钱和更普遍的蛋白质结构预测服务。 它同时应用PLM和几何模型,仅经过一级序列成功端到端预测蛋白质结构,与基于MSA的方法在较大同源家族的靶点上到达相反效果,且效率远高于基于MSA的方法。 这在蛋白质研讨范围具有宽广的运行前景,有望减速药物研发环节。 百图生科首席AI迷信家宋乐表示,经过大规模AI预训练模型xTrimo成功免疫系统和蛋白质建模的全局化、精细化,团队开发的新模型能够在更短的时期内掩盖更大的药物空间,启动虚拟挑选和测试设计蛋白质。 作为百图生科xTrimo多模态生物计算大模型体系的关键组成部分,该模型将助力创新蛋白质药物研发。

版权声明

本文来自网络,不代表本站立场,内容仅供娱乐参考,不能盲信。
未经许可,不得转载。

热门