背景
抗体(Ab)结构和抗体-抗原(Ag)相互作用(AAI)对于理解免疫识别和设计Ab疗法至关重要。尽管现有的结构Ab数据库提供了宝贵的见解,例如PDB,IMGT/3Dstructure-DB,BEID,AgAbDb,SAbDab等,但在数据准确性、完整性和/或更新频率方面仍存在局限性。
2025年6月30日在Acta Pharmacologica Sinica上发表了一篇名为“SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design”的文章,提出了SAAINT-parser,这是一个为快速准确地处理PDB条目以提取结构化Ab和AAI信息而设计的计算工作流。介绍了了一种更新于2025年5月1日的SAAINT-DB包含来自9757个PDB结构的19,128个数据条目,提供了一个全面且最新的资源。详细分析显示,SAAINT-DB在数据准确性和完整性方面优于广泛使用的SAbDab。此外,SAAINT-DB提供的非冗余的手动整理的抗体-抗原结合亲和力条目是SAbDab的近两倍。为了支持抗体相关研究并惠及更广泛的科学界,提供SAAINT-parser、SAAINT-DB摘要文件、未处理的PDB结构和SAAINT-parser处理的结构模型的开放获取:https://github.com/tommyhuangthu/SAAINT。

SAAINT-parser的工作流程
SAAINT-解析器工作流从实验确定的结构中提取成对的单克隆抗体(Abs)、未配对的抗体链和抗原-抗体相互作用(AAI),使用它们的PDB ID作为输入。它由三个主要模块组成,分别处理PDB相关的FASTA文件、mmCIF文件和网页内容。这些模块生成中间数据,然后整合以推断结果。

SAAINT-DB的统计数据与分析
SAAINT-DB包含19,128条数据条目,来源于1976年5月19日至2025年4月30日发布的9757 条PDB条目。2020年至2023年间出现了显著增长,这可能与全球COVID-19大流行相关研究有关。

SAAINT-DB定义了29种Ab类型;其中最常见的是FabH:FabL、VH:VL、VHH和scFv,分别有9377、3643、3283和1377条目。这些分类基于序列数据、结构特征和PDB注释的综合分析,能够更准确地反映抗体的实际结构和功能。在VH:VL类型中,这个数量可以从20个氨基酸少到 80个氨基酸多。VHVL和scFv都由一个VH和一个VL结构域组成,它们的PDB-seqs聚类约为220个氨基酸,因此很难通过序列来区分它们。


在SAAINT-DB的19,128条目中,14,316条(74.8%)被归类为AAIs,其中每个抗体与一个或多个抗原链相互作用,包括蛋白质、肽、DNA和 RNA。关于抗原来源,最常见的物种是人类(Homo sapiens)、SARS-CoV-2、HIV-1、流感A病毒和恶性疟原虫。

AAIs表现出显著的多样性,AAIs的界面残基数量(Nab ag inf res)范围广泛,大多数在30到60之间。AAIs的关键结构特征是Abs主要通过其CDR残基与Ags相互作用。大部分CDR残基存在于Ab-Ag界面,数量介于5到40之间,反映了不同的结合特性。界面CDR残基占总界面Abs残基的比例介于25%到100%,大多数超过70%,这与大多数界面Abs残基位于CDR区域的知识一致。在开发抗体药物时,优化抗体与其靶标的亲和力是一个关键步骤。因此,将抗体-抗原结合亲和力数据整合到SAAINT-DB中至关重要。
SAAINT-DB收集了1444个非冗余的抗体-抗原结合亲和力数据条目,涉及1331个PDB结构。这些数据涵盖了从高微摩尔到亚皮摩尔的广泛亲和力范围,pKD值范围为4到14,中位数约为8.5。

SAAINT-DB与现有抗体数据库的比较
数据库规模与更新频率:与IMGT/3Dstructure-DB、AbDb和SAbDab等其他数据库相比,SAAINT-DB的数据条目数量和PDB结构数量均超过这些数据库,并且更新频率更高。
抗体链配对准确性:SAAINT-DB在抗体链配对方面更具优势,能够准确配对一些在SAbDab中未正确配对的结构。例如在PDB条目8d01和2oqj中,SAAINT-parser能够正确识别HC-LC配对,而AbDb的配对结果与实际不符。

抗体类型分类详细程度:SAAINT-DB提供了更详细的抗体类型分类,能够准确区分不同类型的抗体,如Fab、Fv、VHH和scFv等,AbDab仅关注VH/VL结构域,仅提供粗略的注释来表明一个Ab是否为scFv,而没有对Ab类型进行详细分类。
抗原抗体相互作用数据:SAAINT-DB识别和记录了更多的AAI数据,包括不同抗原来源和界面残基的详细信息,为抗体疗法的设计和优化提供了更丰富的数据支持。


SAAINT-DB也存在一些局限性,SAAINT-parser依赖于AbRSA进行Ab链标记,因此其准确性取决于AbRSA的精确度。对工程改造或异常长的Ab链的分类仍然存在一些模糊之处。SAAINT-parser和SAAINT-DB目前仅支持蛋白质、肽、RNA和DNA Ags,限制了它们对其他类型Ag(如碳水化合物和半抗原)的适用性。
总结
本研究引入了SAAINT-parser,一种高效处理PDB结构并提取结构Ab信息的先进工具。通过将该工具应用到PDB中,我们构建了一个全新的、全面的结构Ab数据库。与现有数据库的详细分析和比较突出了SAAINT-DB在数据完整性、准确性和更新频率方面的优势。但其仍面临一些局限性,特别是在抗体链识别的依赖性、复杂抗体结构的处理能力、抗原类型的支持范围以及用户友好性方面。未来的研究和开发需要解决这些问题,以进一步提升SAAINT-DB的实用性和影响力。