应用免疫信息学在现代疫苗设计中的应用——现有计算工具综述

Contents

Applied immunoinformatics in modern vaccine design: a comprehensive review of available computational tools.

 

期刊:《Vaccine》,2026年,第77卷,128392页

作者:Sebastian Miles等(乌拉圭共和国大学)

 

摘要

计算生物学的飞速发展已将疫苗设计从以经验为主的过程,转变为理性、数据驱动的学科。这一变革的核心是免疫信息学,它整合免疫学、分子生物学与数据科学,加速疫苗候选物的筛选、评估与优化。相较于传统试错式疫苗研发流程,该方法能从基因组数据系统转化为可行的免疫治疗候选物,大幅缩短研发周期、降低成本、扩大人群覆盖范围

本文系统综述了支撑现代疫苗设计的主流免疫信息学工具,涵盖病原体保守靶点筛选、结构预测、表位定位、安全性评估与宿主–病原体互作的系统水平分析。重点阐述了从纯预测模型向生成式框架的转变——人工智能与深度学习不仅用于评估,更可理性设计优化型疫苗候选物。本综述系统调研了250余种覆盖疫苗研发全流程的计算工具与算法,筛选并讨论了当前性能最优、实用性最强的方法,为研究者提供精选可靠资源清单。

 

1 引言

在先进计算方法的推动下,新型生物技术产品的研发范式已发生实质性转变,计算手段可辅助并指导传统实验免疫学研究。现代疫苗研发越来越多地使用免疫信息学工具,高精度预测、分析与优化免疫应答。相关平台可将新型疫苗研发周期从数年压缩至数天,成功率显著优于传统试错法。人工智能与深度学习的融合尤为关键,部分预测算法展现出极高精度。

本文梳理现代免疫信息学工作流程的关键环节,说明计算工具如何获得可行疫苗候选物,侧重实际应用而非底层算法原理

1.1 免疫系统

免疫系统是生物体最复杂的生物网络之一,决定机体存活。其防御机制远超物理与化学屏障,包含精密分子与细胞通路,可中和病原体并严格维持自身耐受。深入理解免疫系统是设计新型生物治疗药物的基础,药物疗效往往依赖精准调控免疫通路——要么激发强免疫应答,要么逃逸免疫识别。

免疫系统由两大相互关联的分支组成:

  1. 先天免疫:启动快速、刻板的防御反应,包括物理(皮肤、黏膜)、化学(抗菌肽)、生物(微生物组)屏障。病原体突破屏障后,巨噬细胞、中性粒细胞、粒细胞等被激活;树突状细胞作为桥梁,捕获抗原并呈递给T细胞,通过模式识别受体(PRR)识别病原体相关分子模式(PAMP),快速启动适应性免疫。
  2. 适应性免疫:具有特异性、多样性、长效记忆。B细胞分化为浆细胞,分泌特异性抗体中和胞外病原体;T细胞功能高度多样化:CD4+辅助T细胞(Th1/Th2/Th17)分别调控胞内病原体、寄生虫、黏膜病原菌免疫;调节性T细胞(Treg)抑制过度免疫、预防自身免疫;CD8+细胞毒性T细胞(CTL)直接清除感染或癌变细胞。免疫记忆是疫苗与主动免疫治疗的核心原理。

T细胞活化依赖抗原呈递细胞(APC)通过主要组织相容性复合体(MHC,人类为HLA) 呈递抗原。HLA系统高度多态性,是设计广谱通用疫苗的主要挑战之一。

近年先天免疫研究重大突破:先天免疫细胞具有记忆(训练免疫/先天免疫记忆),由表观遗传重编程(组蛋白修饰、DNA甲基化)与代谢重编程介导,可维持数月。卡介苗(BCG)可诱导训练免疫,提供长达12个月的非特异性保护。对疫苗设计而言,激活训练免疫通路的佐剂可同时增强先天与适应性免疫。

1.2 宿主–病原体互作

宿主与病原体处于动态共进化关系,相互选择压力塑造宿主免疫识别机制与病原体逃逸策略。病原体逃逸手段包括:抗原变异、分子模拟、荚膜形成(逃避吞噬)、潜伏感染、主动免疫抑制。这种“进化军备竞赛”给生物治疗研发带来挑战,治疗干预可能筛选出逃逸突变体(如HIV耐药、流感抗原漂移)。

1.3 组学革命与反向疫苗学

20世纪大部分时间,疫苗研发受限于体外病原体培养,耗时、昂贵、技术难度高。高通量测序与“组学革命”(基因组、转录组、蛋白质组、代谢组、免疫组)彻底改变这一范式。

反向疫苗学是颠覆性的计算驱动策略:不从培养病原体开始,而是从测序基因组出发,通过生物信息学过滤流程,系统评估全蛋白质组,筛选候选疫苗。该策略在B群脑膜炎奈瑟菌疫苗研发中取得里程碑式成功。其核心优势是多组学数据整合:基因组揭示完整抗原谱,蛋白质组确认感染期表达蛋白,免疫蛋白质组鉴定MHC呈递表位,单细胞转录组解析宿主应答动态。多组学整合可在湿实验前,将候选抗原精简为少量经验证的生物学靶点。

1.4 系统疫苗学

反向疫苗学建立了基因组驱动的抗原筛选,而系统疫苗学是另一并行变革:将系统生物学框架用于解析疫苗诱导免疫的分子网络。它不从病原体基因组预测抗原,而是整合多组学数据,鉴定可预测后续适应性免疫应答的早期分子特征

例如:黄热病疫苗YF‑17D接种后3–7天的I型干扰素与抗病毒应答基因特征,可准确预测长期免疫原性;季节性流感疫苗(TIV)中CaMKIV表达与抗体应答负相关。

预测特征具有疫苗类型特异性而非普适性:灭活疫苗抗体应答与浆细胞分化模块相关,活病毒与I型干扰素相关,多糖抗原与炎症模块相关。接种前基线特征也可预测应答水平,有望提前识别脆弱人群中的无应答者。

SIMON是自动化机器学习框架,可从异质性临床免疫数据中提取免疫特征,已整合进PANDORA平台,支持高维度生物医学数据分析、预测建模与生物标志物发现。

1.5 免疫信息学

免疫信息学是免疫学、数据科学、分子生物学的交叉学科,提供生物技术产品理性计算机辅助设计的计算框架。它利用先进计算方法解析免疫系统复杂性、预测免疫应答、高效设计生物治疗药物。近年已从纯预测模型转向生成式模型:不仅预测多肽与MHC的结合能力,更可设计并优化高亲和力、高稳定性、强免疫原性的抗原。

该领域长期目标是构建**“计算机免疫系统”**:在临床试验前,在数千名遗传背景多样的虚拟患者中严格评估疫苗/治疗药物的疗效与安全性,大幅降低研发风险、缩短周期、减少成本。随着生物数据库指数级增长,免疫信息学在生物医药创新中的地位愈发核心。

 

2 基因组进化

现代疫苗设计始于病原体基因组分析,核心目标是从基因组数据中提取生物学信息,解析病原体进化史、固有弱点与适应能力。

2.1 系统发育分析

系统发育分析可解析病原体毒株间的进化关系。在新冠疫情中,MEGA等工具帮助研究者实时追踪病毒传播、识别关注变异株、阐明跨物种传播事件。MEGA是最常用的通用软件,提供完整的多序列比对与系统发育树构建环境,适合小数据集分析与初步探索。

2.2 抗原保守性与功能分化

系统发育分析可评估抗原保守性,但需谨慎解读:区分真正功能保守因近期共同祖先导致的表面保守是关键挑战。同时必须考虑病原体蛋白质组的功能冗余:若病原体拥有多个执行相同必需功能的蛋白,仅靶向一个可能因代偿机制失效。

  • ConSurf:计算氨基酸位点进化保守分数,并映射到蛋白质三维结构,清晰区分结构/功能关键保守区与高变表面环。
  • OrthoFinder、EggNOG‑mapper、SHOOT:鉴定旁系同源物、解析功能冗余。
  • OMA数据库:提供全面的直系/旁系同源信息。

 

3 蛋白质生物学特性

筛选出候选蛋白子集后,进入系统表征阶段,评估每个潜在抗原的固有特性,将庞大蛋白池精简为具有优良生物学与治疗特性的优先候选清单。

3.1 理化性质

基于氨基酸一级序列评估理化参数,核心工具为ProtParam,可快速计算机辅助预测:分子量、等电点(pI)、稳定性指数、亲水性平均值(GRAVY)。这些参数是评估候选物成药性的关键:高不稳定性、高疏水性蛋白易存在生产与制剂难题。该分析用于早期可生产性筛选,避免资源投入到技术/经济不可行的候选物。

3.2 亚细胞定位与可及性

蛋白质亚细胞定位决定其对免疫系统的天然可及性,是区分抗体介导预防性疫苗与细胞介导治疗性疫苗靶点的核心因素:

  • 表面暴露/分泌蛋白:宿主–病原体界面直接可及,是诱导中和抗体的理想靶点。
  • 胞质蛋白:抗体难以接触,但主要通过MHC I类通路呈递多肽,是诱导强CTL应答的优质靶点。

主流定位预测工具:

  • 细菌:PSORTb 3.0
  • 真核:WoLF PSORT
  • 深度学习高精度:DeepLoc 2.1(真核)、DeepLocPro 1.0(原核)、BUSCA(整合共识预测)

3.3 信号肽与跨膜结构域

信号肽(N端短序列)引导蛋白分泌或膜定位;跨膜结构域决定膜蛋白整合。精准识别这些特征是亚细胞定位预测的基础。

  • SignalP 6.0:信号肽预测金标准
  • DeepTMHMM:跨膜螺旋高精度预测
  • SecretomeP 2.0:非经典分泌蛋白预测

3.4 功能分析

理想疫苗候选物应是病原体生存或毒力必需蛋白。功能注释常用数据库:

  • Gene Ontology(GO):基因产物属性标准化描述
  • KEGG:代谢与信号通路映射
  • InterProScan、Pfam、PROSITE:保守结构域与基序功能注释
  • DeepGOPlus:机器学习直接从序列预测GO条目
  • DeepSurf:配体结合位点预测,评估蛋白可靶向性

3.5 蛋白质互作

蛋白质互作网络解析可揭示其功能重要性。疫苗研发中,宿主–病原体蛋白互作尤为关键:病原体黏附蛋白是感染关键瓶颈,靶向黏附可预防定植;病毒蛋白与宿主受体互作决定细胞入侵。

  • SPAAN:黏附蛋白预测
  • STRING、BioGRID、JASPAR:互作网络构建与可视化
  • D‑SCRIPT:蛋白互作从头预测

3.6 人类蛋白质图谱

人类蛋白质图谱(HPA)是人类蛋白定位与组织特异性的金标准资源,基于44种正常组织、20种癌症的免疫组化与质谱数据,覆盖2万余种人类蛋白。将HPA数据整合进疫苗候选物评估,可预防脱靶自身免疫:与人体关键组织蛋白高度同源的抗原,可能引发交叉免疫反应,需严格审查或剔除。

 

4 致病性与安全性

高效抗原筛选的同时,必须整合严格的“负向设计”框架:主动识别并剔除存在安全风险的候选物,恪守“首先不伤害”原则。

4.1 毒力因子

毒力因子是病原体感染、定植与致病的分子效应物,常为保守优质疫苗靶点,但其固有生物活性可能带来安全风险,需通过减毒或分子工程改造为无毒类毒素。

  • VFDB:毒力因子数据库
  • DeepVF、VirulentPred 2.0:毒力蛋白序列预测

4.2 宿主–病原体互作

宿主–病原体互作网络分析不仅关乎疗效,更可预测潜在安全风险:病原体蛋白可能模拟/干扰宿主核心细胞过程,结合细胞周期调控因子可能有促有丝分裂或致癌潜能。通过互作数据库与预测工具,可提前标记并剔除可能干扰核心细胞过程的候选物。

4.3 毒性、致敏性与自身免疫

生物信息学工具可计算机辅助前瞻性评估安全性风险:

  • 毒性:ToxinPred2、ToxinPred3、ToxDL 2.0
  • 致敏性:AlgPred2、AllerCatPro 2.0、AllerTOP v2.1(与已知过敏原比对,识别IgE介导超敏序列)
  • 自身免疫:BLASTp比对宿主蛋白质组,剔除与人源蛋白高度同源、可能引发分子模拟交叉反应的候选物

 

5 免疫特性

经层层筛选得到安全、可及、功能必需的蛋白后,聚焦核心免疫学目标:筛选可激发强保护性免疫应答的候选物

5.1 抗原性与免疫原性

  • 抗原性:分子被抗体/TCR特异性识别的能力
  • 免疫原性:分子诱导适应性免疫应答的固有能力

多数预测算法基于已知抗原数据集训练,主要预测抗原性

  • 序列依赖型:VaxiJen 3.0、ANTIGENpro、IApred(快速筛选、易整合)
  • 多特征整合型:APRANK(整合B/T细胞表位与结构信息,置信度更高,但计算量大、专业要求高)

核心局限:忽略基线免疫(既往感染、疫苗史、微生物组、遗传背景),例如流感疫苗接种前抗体滴度与记忆B细胞库会显著影响接种后应答。

5.2 B细胞表位

多数病毒/细菌病原体的保护依赖抗体介导的体液免疫。B细胞表位预测旨在识别抗原上溶剂可及、可被抗体结合的区域,优先筛选中和表位(抗体结合直接阻断病原体感染)。

  • 线性表位:NetBCE、BepiPred 3.0、LBCE‑BERT
  • 构象表位(需3D结构):DiscoTope 3.0、EpiGraph、SEMA 2.0、GraphBepi(可结合AlphaFold模型实现无实验结构预测)

5.3 T细胞表位

T细胞免疫(辅助+杀伤)对清除胞内病原体、感染/癌变细胞、建立长效记忆至关重要。T细胞表位计算预测模拟完整MHC抗原呈递通路

MHC I类(CD8+ T细胞)通路

  1. 蛋白酶体切割:NetChop 3.1、PCPS
  2. TAP转运:TAPpred、DeepTAP
  3. MHC I结合:NetMHCpan‑4.1、0、MHCflurry 2.0
  4. TCR识别:ERGO‑II

MHC II类(CD4+ T细胞)通路

  • NetMHCIIpan 4.3、MixMHC2pred、BERTMHC

5.4 人群覆盖

HLA系统高度多态性(超28000种I类、12000种II类等位基因),单一表位难以覆盖全人群。人群覆盖分析利用HLA频率数据库(AFND、IEDB),评估表位组合在不同族群中的覆盖比例。

  • PopCover 2.0:优化表位组合,最大化人群覆盖
  • EpiScan:鉴定低亲和力但可工程化增强的表位

5.5 适应性免疫受体库分析

现代疫苗设计越来越多地利用适应性免疫受体库(AIRR) 分析(B/T细胞受体全套序列),基于高通量测序数据,架起表位预测与功能免疫评估的桥梁。

  • GLIPH/GLIPH2、TCRdist3:TCR序列聚类、推断抗原特异性
  • immuneML:免疫受体数据机器学习开源平台

受体库测序可鉴定**收敛性CDR3基序**,是通用疫苗设计的宝贵线索;治疗性疫苗中可基于现有T细胞库优先排序新抗原。目前该方法尚未完全整合进标准免疫信息学流程,随测序成本下降与工具普及,将成为常规疫苗研发手段。

 

6 结构生物学

结构生物学解决分子水平如何有效结合靶点的核心问题:蛋白质一级序列是一维蓝图,其功能、稳定性、免疫原性由三维结构决定。

6.1 蛋白质结构层级

  1. 一级结构:氨基酸线性序列
  2. 二级结构:α‑螺旋、β‑折叠等局部构象
  3. 三级结构:单多肽链完整三维折叠
  4. 四级结构:多多肽链组装为功能复合物

二级结构预测工具:PSIPRED、SPIDER3、Porter 5、ProteinUnet、NetSurfP‑3.0

6.2 蛋白质结构预测

AI(尤其是深度学习)彻底革新结构生物学,实现高精度大规模计算机辅助预测

  • AlphaFold3、RoseTTAFold:高精度三维/四级结构预测
  • ColabFold:云端快速折叠,无超算也可使用
  • ESMFold:蛋白质语言模型,超高速全蛋白质组注释(精度略低)
  • AlphaFold DB:2亿+预计算结构

核心局限:固有无序区预测仍不理想

6.3 蛋白质对接

计算机模拟蛋白质互作(对接)是解析免疫识别、指导治疗性蛋白设计的基础,预测分子结合的优势构象,指导抗体–抗原界面优化、交叉反应预测、TCR‑pMHC复合物建模。

  • 传统物理驱动:HADDOCK 2.4、ZDOCK、ClusPro 2.0
  • 深度学习:AlphaFold‑Multimer、RoseTTAFold‑All‑Atom、AF2Complex

6.4 分子动力学

静态结构仅提供快照,分子动力学(MD) 模拟生物分子随时间的运动,揭示构象变化、结合动力学、表位可及性,直接指导治疗性抗体与疫苗抗原优化,评估不同理化条件下的蛋白稳定性。

主流软件:GROMACS、NAMD、AmberTools、OpenMM 8

局限:技术门槛高、计算耗时,尚未广泛整合进反向疫苗学流程。

6.5 生成式蛋白质设计

免疫信息学最深刻的变革是从预测到生成(反向疫苗学3.0):传统反向疫苗学从天然病原体蛋白质组筛选抗原,预测工具优化表位;生成式AI可从头设计具有指定结构与功能的免疫原,不受进化限制。

  • RFdiffusion:扩散生成模型,从头设计蛋白骨架、抗体靶向表位
  • ProteinMPNN:为目标骨架设计氨基酸序列,序列回收率>95%
  • CAPE‑Beam:去免疫化设计,降低人源蛋白同源序列,减少细胞毒性T细胞应答

6.6 模拟表位与支架

肽疫苗通过模拟表位(mimotope) 与表位支架(scaffold) 增强效果:

  • 模拟表位:短肽模拟B细胞构象表位
  • 表位支架:将结构明确的表位嫁接到异源惰性蛋白框架,以天然构象呈递,避免脱靶免疫

Rosetta MotifGrafting可自动化表位嫁接,优化结构完整性与免疫呈递。

 

7 计算免疫学

免疫信息学的核心愿景是构建精准、全面的计算机免疫系统模型。现有工具可模拟特定免疫过程,评估疫苗候选物。

7.1 免疫应答模拟

  • C‑ImmSim:疫苗免疫应答模拟
  • ENISI MSM:黏膜免疫多尺度模拟
  • DeepImmuno:预测免疫激活肽
  • 肿瘤新抗原:VaxRank、pVACview、ImmuneApp
  • MixTCRpred:TCR‑pMHC结合预测
  • MiStImm:TCR‑MHC自我/非自我识别模拟

7.2 精准疫苗

免疫应答模拟需整合宿主基线数据与长期暴露史,预测个体/人群水平应答:

  • Serosim:模拟疫苗接种血清学动态,优化免疫策略
  • Immunaut:绘制应答异质性表型,预测疫苗应答

当前个体疫苗应答模型表现参差不齐,领域仍处早期阶段。

7.3 细胞因子预测

细胞因子是免疫细胞通讯核心介质,预测抗原诱导的细胞因子谱对设计平衡有效、避免免疫病理的疫苗至关重要。

工具:IFNepitope 2、IL4pred2、IL‑6‑Pred、MultiFeatVotPIP、ProIn‑Fuse

7.4 佐剂选择

佐剂是现代疫苗必需成分,可有效增强抗原免疫原性。疫苗佐剂纲要(VAC)是美国国立过敏与传染病研究所(NIAID)维护的综合性数据库,全面收录各类佐剂的作用机制、临床前研究与临床研究数据。

 

8 疫苗设计

整合前期分析,从优先候选抗原过渡到完整可生产疫苗构建体设计,核心目标:最优安全性、免疫原性、疗效,兼顾可生产性(产量、成本)。

8.1 蛋白质稳定性

稳定性是商业化生物治疗药物的基础,决定生产、纯化、储存过程中的结构完整性。深度学习工具实现快速高精度预测:

  • RaSP:突变诱导稳定性变化极速预测
  • DeepSTABp、iStable 2.0:热稳定性预测
  • ProTstab2:细胞内稳定性预测
  • DeepTM:仅基于序列的熔解温度预测

8.2 疏水性与电荷分布

蛋白质表面疏水性与电荷分布影响细胞膜互作、抗原呈递细胞摄取、免疫原性。疏水性补丁可增强补体激活与调理吞噬,电荷分布调控免疫识别关键蛋白互作。

工具:ProtScale、PatchProt、Accutar、GalaxyWater‑CNN

8.3 固有无序区

固有无序区(IDR)可携带高免疫原性线性表位,但过度无序会降低稳定性、导致聚集、增加蛋白酶敏感性、缩短保质期。精准预测可实现靶向工程改造:稳定关键区,保留免疫原域柔性。

工具:IUPred3、PONDR、DisEMBL 1.5、DEPICTER2、IDP‑LM、DeepIDP‑2 L

8.4 溶解性

溶解性决定可生产性,影响表达产量、纯化效率、制剂可行性。高表现工具:PLM_Sol、SKADE、EPSOL、ProtSolM、ProSol‑multi

局限:多数模型基于大肠杆菌表达训练,其他表达系统数据不足。

8.5 聚集

蛋白质聚集是生物治疗药物研发的关键挑战,聚集抗原免疫原性改变、生物利用度降低、引发非特异性炎症。

工具:AGGRESCAN、Tango、PASTA 2.0、AgMata、AggreProt、AGGRESCAN4D

改造策略:定点突变聚集倾向区、引入脯氨酸“β‑breaker”、增加电荷/亲水残基。

8.6 半衰期与降解预测

体内半衰期与降解是关键药代参数,影响给药方案与疗效。PLTNUM 基于蛋白质语言模型,预测准确率达71%。

8.7 mRNA疫苗

mRNA疫苗已成为现代疫苗学核心平台,其序列计算优化是免疫信息学的专业领域:需在保留编码蛋白序列的前提下,优化稳定性、翻译效率、免疫特性。

  • LinearDesign:最小化自由能、优化密码子,延长半衰期、提高表达与免疫原性
  • RNAdegformer:预测mRNA降解、识别不稳定区
  • UTRdb:UTR优化数据库

 

9 免疫信息学的成功案例

反向疫苗学自21世纪初兴起,已成为新型疫苗候选物筛选的核心手段,虽存在大量“计算机候选物未实验验证”的转化鸿沟,但仍有里程碑式成功。

  1. B群脑膜炎奈瑟菌:4CMenB(Bexsero)是反向疫苗学典范,解决长期抗原变异难题。
  2. 呼吸道合胞病毒(RSV):结构+计算+免疫信息学稳定F蛋白前融合构象,获批3款疫苗(GSK/辉瑞/莫德纳)。
  3. B族链球菌:基于免疫信息学流程设计多表位疫苗,实验验证诱导高滴度抗体与100%保护率。

 

10 免疫信息学的局限性

尽管进展显著,免疫信息学疫苗设计仍受固有局限约束:

  1. 预测精度与验证缺口

  • MHC I结合预测对常见等位基因AUC 0.92–0.96,罕见等位基因/非人物种大幅下降
  • MHC II预测精度更低
  • 高结合亲和力≠免疫原性,仅少数预测结合肽在体内激发T细胞应答
  • B细胞表位预测灵敏度低,构象表位依赖3D结构,AlphaFold糖基化建模存在立体化学错误
  1. 计算机到体内的转化鸿沟

计算机最优疫苗常因抗原呈递动力学不佳、细胞因子极化失衡、既有免疫干扰、制剂不稳定在临床前/临床试验失败。现有工具大多忽略基线免疫与宿主特异性因素(遗传、年龄、营养、微生物组、共感染)。

  1. 动态系统中的静态模型

多数工具基于静态结构/单表位预测,而免疫应答是动态过程(构象变化、互作动力学、时间序列细胞协调)。分子动力学模拟成本高、专业门槛高,难以普及。

 

11 结论

生物技术已从传统实验驱动转向应用生物/免疫信息学的新范式。现代生物治疗设计可遵循结构化多层计算流程,从原始基因组数据转化为优化、可生产的疫苗候选物,全程整合安全性评估、系统疫苗学与生成式设计。

但当前预测模型与精准疫苗工具精度参差不齐、远未完全预测,仍依赖实验验证。未来方向:生成式、系统水平、预测工具与高通量实验反馈深度整合,逐步迈向更快速、低成本、个性化的疫苗与生物治疗研发,同时清醒认知其局限性。

 

附录:核心免疫信息学工具与数据库中英对照清单

本文调研筛选的250余种工具中,以下为性能最优、实用性最强、覆盖疫苗研发全流程的核心工具,按功能模块分类整理,标注中英文名称与核心用途,方便研究者直接查阅使用:

一、基因组进化与保守性分析

英文名称中文名称核心功能
MEGA分子进化遗传分析软件多序列比对、系统发育树构建、病原体进化关系分析
ConSurf氨基酸保守性分析工具计算氨基酸位点进化保守分数,映射蛋白三维结构
OrthoFinder直系同源物鉴定工具鉴定旁系同源物,解析病原体蛋白功能冗余
EggNOG-mapper同源功能注释工具基因同源性比对、功能冗余分析
SHOOT系统发育同源分析工具快速鉴定直系/旁系同源物
OMA数据库直系同源物数据库提供全面的蛋白直系、旁系同源信息

二、蛋白质生物学特性分析

英文名称中文名称核心功能
ProtParam蛋白质理化性质预测工具预测分子量、等电点、稳定性、亲水性等成药性关键参数
PSORTb 3.0细菌蛋白亚细胞定位工具精准预测细菌蛋白质的亚细胞定位位点
WoLF PSORT真核蛋白亚细胞定位工具预测真核生物蛋白亚细胞定位
DeepLoc 2.1深度学习真核蛋白定位工具高精度预测真核蛋白亚细胞定位
DeepLocPro 1.0深度学习原核蛋白定位工具高精度预测原核蛋白亚细胞定位
BUSCA整合共识定位预测工具整合多算法结果,提升蛋白定位预测准确性
SignalP 6.0信号肽预测金标准工具精准识别蛋白N端信号肽序列
DeepTMHMM跨膜螺旋预测工具高精度预测蛋白跨膜结构域
SecretomeP 2.0非经典分泌蛋白预测工具预测不依赖经典信号肽的分泌蛋白

三、功能注释与互作分析

英文名称中文名称核心功能
Gene Ontology(GO)基因本体数据库基因产物属性标准化功能注释
KEGG京都基因与基因组百科全书代谢与信号通路映射、功能通路分析
InterProScan保守结构域注释工具蛋白保守结构域与功能基序注释
Pfam蛋白家族数据库蛋白家族分类、结构域注释
PROSITE蛋白基序数据库蛋白特征基序鉴定与功能注释
DeepGOPlus机器学习功能注释工具直接从蛋白序列预测基因本体条目
DeepSurf配体结合位点预测工具评估蛋白可靶向性,预测配体结合区域
SPAAN病原体黏附蛋白预测工具筛选病原体关键黏附蛋白靶点
STRING蛋白互作数据库构建并可视化宿主-病原体蛋白互作网络
BioGRID生物互作数据集数据库蛋白-蛋白、基因-蛋白互作数据查询
JASPAR转录因子结合位点数据库调控元件互作分析
D-SCRIPT蛋白互作从头预测工具无需已知互作数据,从头预测蛋白互作关系
人类蛋白质图谱(HPA)人类蛋白质图谱数据库人类蛋白组织特异性定位,预防疫苗脱靶自身免疫

四、安全性与毒力评估

英文名称中文名称核心功能
VFDB毒力因子数据库病原体毒力因子查询、注释
DeepVF毒力蛋白深度学习预测工具从序列层面预测病原体毒力蛋白
VirulentPred 2.0毒力蛋白预测工具病原体毒力蛋白高效筛选
ToxinPred2/ToxinPred3/ToxDL 2.0毒性预测工具系列前瞻性评估疫苗候选物毒性风险
AlgPred2/AllerCatPro 2.0/AllerTOP v2.1致敏性预测工具系列预测蛋白致敏性,筛查IgE介导超敏序列
BLASTp蛋白序列比对工具筛查与人源蛋白同源序列,规避自身免疫风险

五、免疫特性与表位预测

英文名称中文名称核心功能
VaxiJen 3.0/ANTIGENpro/IApred抗原性预测工具系列快速筛选候选抗原,预测蛋白抗原性
APRANK多特征整合抗原预测工具整合表位与结构信息,高精度抗原排序
NetBCE/BepiPred 3.0/LBCE-BERTB细胞线性表位预测工具识别抗原线性B细胞表位
DiscoTope 3.0/EpiGraph/SEMA 2.0/GraphBepiB细胞构象表位预测工具结合蛋白结构,预测构象依赖性B细胞表位
NetChop 3.1/PCPS蛋白酶体切割预测工具预测MHC I通路抗原蛋白酶体切割位点
TAPpred/DeepTAPTAP转运预测工具预测抗原肽TAP转运效率
NetMHCpan-4.1/MixMHCpred3.0/MHCflurry 2.0MHC I类分子结合预测工具高精度预测抗原肽与MHC I类分子结合能力
NetMHCIIpan 4.3/MixMHC2pred/BERTMHCMHC II类分子结合预测工具预测抗原肽与MHC II类分子结合能力
ERGO-IITCR识别预测工具预测T细胞受体与抗原肽-MHC复合物识别效率
PopCover 2.0人群覆盖优化工具优化表位组合,最大化不同族群人群覆盖比例
EpiScan表位工程化筛选工具鉴定低亲和力可改造表位,提升免疫原性
GLIPH/GLIPH2/TCRdist3T细胞受体序列分析工具TCR序列聚类,推断抗原特异性
immuneML免疫受体机器学习平台高通量免疫受体数据挖掘、建模分析

六、结构生物学与生成式设计

英文名称中文名称核心功能
PSIPRED/SPIDER3/Porter 5/ProteinUnet/NetSurfP-3.0蛋白质二级结构预测工具预测蛋白α-螺旋、β-折叠等二级结构
AlphaFold3/RoseTTAFold蛋白质三维结构预测工具高精度预测蛋白单体及复合物三维结构
ColabFold云端蛋白折叠工具无需超算,快速完成蛋白结构预测
ESMFold蛋白语言模型折叠工具超高速全蛋白质组结构注释
AlphaFold DBAlphaFold结构数据库收录2亿+预计算蛋白三维结构数据
HADDOCK 2.4/ZDOCK/ClusPro 2.0蛋白分子对接工具模拟蛋白-蛋白、抗原-抗体互作结合构象
AlphaFold-Multimer/RoseTTAFold-All-Atom/AF2Complex深度学习蛋白复合物对接工具高精度预测多蛋白复合物结合结构
GROMACS/NAMD/AmberTools/OpenMM 8分子动力学模拟软件模拟生物分子动态构象变化,评估稳定性
RFdiffusion扩散模型蛋白生成工具从头设计蛋白骨架、抗体靶向表位
ProteinMPNN蛋白序列设计工具为目标蛋白骨架设计最优氨基酸序列
CAPE-Beam去免疫化蛋白设计工具降低疫苗候选物自身免疫风险
Rosetta MotifGrafting表位嫁接设计工具自动化表位支架设计,优化抗原呈递

七、计算免疫学与疫苗构建

英文名称中文名称核心功能
C-ImmSim疫苗免疫应答模拟工具模拟疫苗诱导机体免疫应答全过程
ENISI MSM黏膜免疫多尺度模拟工具模拟黏膜部位疫苗免疫应答机制
DeepImmuno免疫激活肽预测工具预测可激活免疫应答的多肽序列
VaxRank/pVACview/ImmuneApp肿瘤新抗原筛选工具肿瘤治疗性疫苗新抗原排序、筛选
MixTCRpred/MiStImmTCR-MHC识别模拟工具模拟TCR与pMHC复合物识别,区分自我/非自我
Serosim疫苗血清学动态模拟工具优化疫苗接种策略,预测血清学应答
Immunaut个体疫苗应答预测工具预测不同个体疫苗免疫应答差异
IFNepitope 2/IL4pred2/IL-6-Pred等细胞因子预测工具系列预测抗原诱导细胞因子表达谱
疫苗佐剂纲要(VAC)疫苗佐剂数据库收录各类佐剂机制、临床前及临床研究数据
LinearDesignmRNA序列优化工具优化mRNA稳定性、翻译效率,提升疫苗表达
RNAdegformermRNA降解预测工具筛查mRNA不稳定区域,优化序列设计
UTRdbmRNA非翻译区优化数据库mRNA疫苗UTR区域优化设计

八、其他核心平台与框架

英文名称中文名称核心功能
SIMON自动化免疫特征机器学习框架从临床免疫数据中提取免疫特征、生物标志物
PANDORA高维度生物医学数据分析平台整合免疫数据,完成预测建模与数据分析
AFND/IEDBHLA频率与免疫表位数据库提供人群HLA分型频率、免疫表位权威数据

 

 

表1 免疫信息学工具汇总

本文对计算机辅助疫苗设计中使用的关键软件与资源进行概述并标注引用文献。工具按主要功能获取形式(网页服务器、独立软件、Google Colab、代码仓库)分类,包含官方网站、代码仓库及参考文献链接。

 

功能分类、工具名称、获取形式、网址、仓库、引用

  1. 系统发育分析 / 抗原保守性

  2. 系统发育分析 Phylogenetic Analysis

  3. MEGA:Software,https://www.megasoftware.net/,[68]

 

  1. 理化性质与亚细胞定位

 

  1. 信号肽与跨膜区

 

  1. 功能注释、黏附、毒力、蛋白互作

 

  1. 毒性、致敏性、序列比对、抗原性
  1. ToxinPred3:Web-server/Repository,https://webs.iiitd.edu.in/raghava/toxinpred3/https://github.com/raghavagps/toxinpred3,[114]
  2. ToxDL 2.0:Repository,http://www.csbio.sjtu.edu.cn/bioinf/ToxDL2/https://github.com/shzhulin/ToxDL2,[115]
  3. 致敏性 Alergenicity
  4. AlgPred2:Web-server/Repository,https://webs.iiitd.edu.in/raghava/algpred2/https://github.com/raghavagps/algpred2,[116]
  1. VaxiJen 3.0:Web-server/Standalone,https://www.ddg-pharmfac.net/vaxijen3/home/,[124, 125]
  2. ANTIGENpro:Web-server/Repository,https://scratch.proteomics.ics.uci.edu/

 

  1. B 细胞表位、蛋白酶切割、TAP 结合、MHC‑I 结合

  2. 线性 B 细胞表位 Linear B‑cell epitope

  3. IApred:Web-server/Repository,https://smilesinformatics.com/en/predictors/iapredhttps://github.com/sebamiles/IAPred,[126]

  1. MHC 呈递、MHC‑II 结合、TCR 结合、人群覆盖率
  1. ERGO‑II:Repository,https://github.com/IdoSpringer/ERGO-II,[144]
  2. 人群覆盖率 Population coverage
  3. PopCover 2.0:Web-server/Standalone,https://services.healthtech.dtu.dk/services/PopCover-2.0/,[150]

 

  1. 适应性免疫受体库

  2. 适应性免疫受体库 Adaptive Immune Receptor Repertoire

 

  1. 蛋白二级/三级结构

  2. 二级结构 Secondary Structure

  3. PSIPRED:Repository,https://github.com/psipred/psipred,[163]

 

  1. 蛋白对接、分子动力学、蛋白质生成设计

 

  1. 免疫模拟、TCR 结合、肿瘤新抗原
  1. 自身‑非自身识别、TCR 交叉反应、促炎肽与细胞因子

 

  1. 蛋白稳定性、疏水性/水化位点、无序区、溶解性、聚集、半衰期

 

  1. mRNA 优化

 

表 2 可用数据库汇总:本文提供并引用了现有主要数据库的概述,包括其官方网站链接。

数据库名称官网参考文献
直系同源矩阵https://omabrowser.org/oma/home/[77]
基因本体https://geneontology.org/[92]
京都基因与基因组百科全书https://www.genome.jp/kegg/[93]
蛋白质家族数据库https://www.ebi.ac.uk/interpro/entry/pfam/[95]
蛋白质位点数据库https://www.ebi.ac.uk/interpro/entry/prosite/[96]
蛋白质互作检索工具https://string-db.org/[103]
生物通用互作数据库https://thebiogrid.org/[104]
真核转录因子结合位点数据库https://jaspar.elixir.no/[105]
人类蛋白质图谱https://www.proteinatlas.org/[106]
毒力因子数据库https://www.mgc.ac.cn/VFs/search_VFs.htm[110]
免疫多态性数据库https://www.ebi.ac.uk/ipd/imgt/hla/about/statistics/[110]
等位基因频率网络数据库http://www.allelefrequencies.net/[148]
免疫表位数据库https://www.iedb.org/[149]
蛋白质结构预测数据库https://alphafold.ebi.ac.uk/[174]
疫苗佐剂概要https://vac.niaid.nih.gov/

 

Hits: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注