Meta 推出OMol25巨型AI化学数据集与泛用模型UMA
发布时间:2025-05-16 11:07:44 | 责任编辑:吴昊 | 浏览量:13 次
Meta 近日重磅发布了其迄今为止规模最大的 AI 驱动化学开放数据集 OMol25,并同步推出了用于预测分子和材料化学性质的通用人工智能模型 UMA(Universal Atom Model)。这两项创新成果旨在加速药物研发、电池材料开发和催化剂研究等关键领域。
据 Meta 介绍,OMol25数据集包含了超过1亿次高精度的分子计算数据,其规模远超此前任何公开的同类数据集。为了生成这一庞大的资源,Meta 耗费了超过60亿小时的计算时间。OMol25涵盖了广泛的分子类型,包括小型有机化合物、生物分子(如蛋白质和 DNA 片段)、金属复合物以及电解质。此外,该数据集还包含了分子的带电态、自旋态、多种空间排列(构象)以及化学反应的相关信息,并提供了能量、力值、电荷分布和轨道等详细的化学性质数据。目前,OMol25数据集已在 Hugging Face 平台公开。
与 OMol25同步发布的 UMA 模型,是 Meta 基于 OMol25及其他数据集训练的全新 AI 模型。UMA 的独特之处在于其能够在原子层面预测化学性质,并且速度远超传统的计算方法。与以往需要为特定任务构建专门模型的方法不同,UMA 具备通用性,能够处理从分子模拟(用于药物发现)到材料和催化研究等多种应用场景。UMA 基于先进的图神经网络构建,并采用了“混合线性专家”架构,实现了计算速度和预测精度的良好平衡。在基准测试中,UMA 的表现已达到此前只有经过精细调整的专用模型才能实现的水准。
Meta 强调,借助 UMA,以往需要数天才能完成的分子模拟和计算现在仅需几秒钟即可完成,这将使研究人员能够在实验室合成之前快速筛选数千种潜在的新分子,从而高效评估其作为药物或电池材料的潜力。UMA 模型同样已在 Hugging Face 上开放获取。
值得一提的是,Meta 还推出了一种名为“伴随采样”的全新 AI 分子模拟方法。与传统 AI 模型通常需要大量真实世界数据来生成新分子结构不同,“伴随采样”即使在缺乏真实样本的情况下,也能学习并提出新的分子结构。该技术借鉴了随机控制理论和扩散过程的概念,Meta 团队认为扩散过程尤其适用于模拟分子。实验表明,“伴随采样”只需少量计算即可快速探索多种分子结构变体,并且生成的分子构象不仅能与传统软件的结果相匹配,在处理具有多个灵活组件的分子时甚至表现更优。相关的模型、代码和更多信息已在 Hugging Face 和 GitHub 上提供。
尽管取得了显著进展,Meta 也指出当前仍存在一些挑战。例如,对于聚合物、某些金属或复杂的质子化状态等化学领域,数据的覆盖尚不完善。此外,AI 模型在预测电荷、自旋和长程相互作用等性质方面仍有提升空间。
Meta于2025年5月14日发布了全新的化学数据集Open Molecules 2025(OMol25)以及通用原子模型Universal Models for Atoms(UMA)。
OMol25数据集
-
规模与内容:OMol25是迄今为止规模最大的AI驱动化学开放数据集,包含超过1亿次的分子计算数据,覆盖了从小型有机化合物到生物分子、金属复合物和电解质等多种分子类型。这些数据基于密度泛函理论(DFT)计算而成,涵盖了分子的多种状态、空间排列以及化学反应的相关信息,提供了详尽的化学性质数据,如能量、力值、电荷分布和轨道等。
-
计算资源投入:Meta为该数据集投入了超过60亿小时的计算资源,以确保数据的精确性和全面性。
-
开放性:OMol25数据集已在Hugging Face平台上向公众开放。
UMA模型
-
功能与特点:UMA模型基于OMol25以及其他数据集进行训练,能够在原子层面快速预测化学性质,速度远超传统计算方法。它具有高度的通用性,可广泛应用于从分子模拟到材料和催化研究等多个领域。
-
架构与性能:UMA采用了先进的图神经网络和“混合线性专家”架构,实现了计算速度和预测精度的平衡。在基准测试中,UMA的表现达到了以往只有精细调整的专用模型才能达到的水平。
-
效率提升:UMA模型极大地加速了研究进程,以往需要数天才能完成的分子模拟和计算,现在只需几秒钟即可完成。这使得研究人员可以在实验室合成之前,快速筛选数千种潜在的新分子,高效评估其作为药物或电池材料的潜力。
-
开放性:UMA模型也已在Hugging Face平台上开放获取。
伴随采样方法
除了OMol25数据集和UMA模型,Meta还推出了一种名为“伴随采样”的全新AI分子模拟方法。该方法打破了传统AI模型需要大量真实世界数据来生成新分子结构的限制,即使在缺乏真实样本的情况下,也能学习并提出新的分子结构。这一技术融合了随机控制理论和扩散过程的概念,实验显示其仅需少量计算就能快速探索多种分子结构变体,且生成的分子构象不仅能与传统软件的结果相匹配,在处理具有多个灵活组件的分子时甚至表现更为出色。相关的模型、代码和更多信息已在Hugging Face和GitHub平台上提供。
面临的挑战
尽管取得了显著进展,Meta也坦诚地指出了当前面临的挑战。例如,在聚合物、某些金属或复杂的质子化状态等化学领域,数据的覆盖尚不全面。AI模型在预测电荷、自旋和长程相互作用等性质方面仍有待提升。Meta表示将继续致力于解决这些问题,以推动化学研究和应用的进一步发展。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。