文献分享:用于AI应用的抗体结构标准数据集AbSet
2025-05-30
来源:
浏览量:

背景

机器学习算法通过在序列和/或结构数据集上进行训练,在治疗性抗体的开发中起到了基础性作用。然而,结构数据集仍然有限,特别是那些包含抗体-抗原复合物的数据集。此外,许多可用的结构没有标准化,而抗体特定的数据库通常不提供可以增强机器学习模型的分子描述符。

文献分享:用于AI应用的抗体结构标准数据集AbSet

2025年5月11日研究人员在 J Chem Inf Model上发表了一篇名为“AbSet: A Standardized Data Set of Antibody Structures for Machine Learning Applications”的文章。AbSet是一个精选数据集,包含超过800,000个抗体结构和相应的分子描述符,据集提供了一个全面的数据集,该数据集由从RCSB PDB中提取的抗体-抗原复合物的标准化实验结构组成,并通过分子描述符在残基水平表示。为了更好地进行数据抽样,计算机模拟生成的子集进一步丰富了数据库,为在单一的策管数据集中进行抗体-抗原相互作用研究提供了可靠和详细的资源。AbSet可通过Zenodo存储库公开获得,随附的脚本托管在GitHub(https://github.com/SFBBGroup/AbSet.git)上。

文献分享:用于AI应用的抗体结构标准数据集AbSet

研究方法

结构处理

首先从RCSB PDB中检索和鉴定实验抗体结构。使用ANARCI(抗体氨基酸序列编号的专用工具),根据Martin方案对序列进行编号,将分析仅限于抗体。

计算机模拟子集的构造

为了提高数据多样性,通过进行分子再对接和抗体建模生成计算机子集,为每个回收的复合物产生结合模式的变化。

文献分享:用于AI应用的抗体结构标准数据集AbSet

分子描述符计算

一旦抗体-抗原复合物的结构在实验衍生和计算机生成的子集中标准化,就计算分子描述符以捕获氨基酸残基及其周围环境的特征。这些描述符经过精心挑选,作为结构的适当表示,使其能够用作AI算法的输入特征。

通过使用表面和体积信息来描述分子表面特性。所选描述符包括相对溶剂可及面积、原子深度、突起指数和疏水性,它们有效地捕获了氨基酸残基及其环境的关键特性。还考虑了其他重要的描述符,例如Cα原子的位置和蛋白质的结构信息。这些属性来自半球暴露计算、Cα坐标、φ和ψ二面角以及蛋白质的二级结构。

文献分享:用于AI应用的抗体结构标准数据集AbSet

AbSet的优势

AbSet数据库成功处理了不寻常的抗体结构,包括那些可能无法被AbNum识别的抗体结构,从而确保抗体变体的全面覆盖。这种方法通过克服现有算法的局限性并为抗体结构标准化提供更灵活和更具包容性的解决方案,对现有算法进行了补充。通过严格的标准化协议,可以确保每个抗体结构只包含可变区,并且每个文件只包含一个复合物,提高了数据的质量和一致性。

AbSet中86%的结构落在此范围内,分辨率优于4 Å。这是确保基于AI的模型训练中使用的结构数据的质量和准确性的关键因素。数据集中包含了与多种抗原结合的抗体,包括SARS-CoV-2,反映了广泛的抗原多样性。AbSet的数据脚本都是公开的,方便其他研究人员访问和使用。

文献分享:用于AI应用的抗体结构标准数据集AbSet

文献分享:用于AI应用的抗体结构标准数据集AbSet

结论

AbSet是一个高度标准化的抗体结构数据集,包括可变区和相互作用抗原,丰富了大量的数据,如代表不同结合模式的分子描述符和诱饵。这些结构被精心策划,以反映在残留物水平的关键生化性质。AbSet为抗体发现中机器学习模型的训练和优化提供了宝贵的资源。此外,用于分子描述符计算的数据集和配套软件工具也将公开,以支持该领域的进一步研究。

文献分享:用于AI应用的抗体结构标准数据集AbSet