下一代传染病疫苗开发中的深度学习

Deep learning in next-generation vaccine development for infectious diseases

摘要

在计算机科学的帮助下,基因组时代改变了疫苗开发的格局。计算机辅助疫苗表位选择已成为合理疫苗设计的基础。同样,人工智能 (AI) 正在迅速改变疫苗开发格局。深度学习 (DL) 是人工智能的一个子集,在其算法、工具和技术方面被用于疫苗开发领域。本文综述了现代疫苗开发策略的发展历史,包括免疫信息学和DL模型的T细胞表位和B细胞表位的鉴定策略、连接子和佐剂的疫苗构建体开发策略以及生物信息学和免疫信息学的疫苗构建体表征策略。同样,本文讨论了不同的工具和技术,从表位图谱和疫苗构建体开发到表征。同样,它还强调了最近的范式转变、疫苗开发中基于 DL 的策略,以及用于表位图谱和疫苗构建体开发的不同基于 DL 的工具。然而,连接生物信息学和 DL 方法的集成框架正在迅速发展,这对于 DL 辅助表位预测和疫苗开发的后续步骤是必要的。DL辅助疫苗开发快速且具有成本效益,非常快地改变了下一代疫苗开发的场景。

关键字

  1. MT:生物信息学
  2. 深度学习
  3. 下一代疫苗
  4. 传染病
  5. 免疫信息学

介绍

近年来,深度学习 (DL) 已成为一种关键的计算范式,是机器学习 (ML) 的一个子集,被公认为解决复杂认知和预测任务的黄金标准。DL 使用具有多层的人工神经网络 (ANN),称为深度神经网络 (DNN),从数据中理解复杂的模式、自动提取特征并执行预测。,DL 模型的快速发展使它们能够实现卓越的性能,在各个领域往往超越人类的能力。DL 是 ML 的一个复杂子集,它已经取得了显着的增长,特别是在医疗保健和生物医学研究领域。DL 模型利用高性能计算技术来处理和分析大量数据集,提取通过传统计算方法可能无法立即识别的有价值的模式和特征。这些模型可以包含多种数据格式,包括医学成像(例如 MRI 和计算机断层扫描 [CT] 扫描)、电子健康记录 (EHR)、基因组数据和时间序列数据集。最强大的 DL 架构包括卷积神经网络 (CNN)、DNN 和对象检测模型,例如 YOLO(你只看一次)。特别是,DNN 通过多个隐藏层学习分层数据表示,展示了巨大的潜力,使其对于复杂的分类和模式识别任务不可或缺。

DL 在科学界内外获得了显着认可,在多个领域取得了显着成就。它在战略游戏中超越人类专业知识、实现与人类驾驶员相媲美的自动驾驶能力以及为发现新的数学证明做出了贡献。,,,其最具影响力的应用之一在于计算疫苗设计,其中机器学习对于识别疫苗靶点至关重要。本文探讨了机器学习如何支持合理疫苗设计中的关键计算过程,特别是在检测 B 细胞和 T 细胞表位以及识别保护相关性方面。讨论了各种机器学习模型,重点介绍了它们使用的数据以及它们生成的预测类型。

传统的疫苗开发始于培养传染性病原体,分离整个病原体,并使其或其部分纯化成分灭活。基因组学革命之后,疫苗研发始于结构疫苗学,它使用不同的计算工具和技术,也称为反向疫苗学(RV)。,Rino Rappuoli 于 2000 年首次定义了计算疫苗开发。该领域使用病原体的遗传信息作为疫苗设计的起点。同时,计算系统已被应用于研究免疫系统。免疫信息学被用于开始应用于疫苗开发的不同领域。用于抗原表位选择、T细胞和B细胞表位鉴定、通过评分对抗原表位进行排序等。,免疫信息学被用于不同类型的疫苗开发,以对抗不同的病原体,如SARS-CoV-2和幽门螺杆菌,,,,然而,最近,随着计算机科学的发展,疫苗开发领域出现了范式转变。几种基于机器学习和深度学习的算法、工具和技术有助于开发使用大数据集进行更快的表位选择和免疫模拟方法,并且不时开发出几种疫苗(图 1)。

图1 时间表显示了使用DL应用和先进疫苗开发的疫苗开发的范式转变

可解释的机器学习通过揭示驱动疫苗诱导的免疫反应的分子机制,为推进免疫原鉴定提供了宝贵的工具。DL 最显着的突破之一是其对结构生物学的贡献,特别是在解决蛋白质折叠挑战方面。它现在被广泛用于设计抗体,而无需进行大量的实验室实验。免疫库测序数据的日益可用性与 DL 的进步并行,仅根据测序信息即可预测免疫反应特异性和潜在疾病结果。此外,DL 有助于全球病毒变异的系统发育分析,检查突变模式及其对免疫反应、病原体适应性和群体水平易感性的影响。

此外,DL 已被用于使用定向进化研究的数据来模拟抗体-抗原相互作用。这些研究涉及分析经过迭代多样化技术(例如易出错的 PCR)的抗体序列文库,然后选择表现出增强抗原结合的变体。该领域的早期DL应用主要集中在通过噬菌体展示实验改善抗原结合分子选择。,

算法在下一代疫苗开发中具有多种优势。DL 模型或算法有助于监测病原体进化和个性化疫苗策略。尽管存在数据质量和可解释性挑战,但 DL 有望提高疫苗功效、缩短开发时间并应对新出现的传染病。人工智能 (AI) 和生物研究的持续融合有望在未来推出更快速、更有效和个性化的疫苗解决方案。

在这篇综述文章中,我们讨论了使用免疫信息学和免疫信息学与DL模型的现代疫苗开发策略的发展历史,从T细胞和B细胞表位的鉴定策略到疫苗开发及其表征。我们再次强调了疫苗开发中最近的范式转变和基于 DL 的策略,用于表位图谱和疫苗构建体开发的不同基于 DL 的工具。该综述广泛强调了 DL 在彻底改变疫苗开发方面的关键应用、进步和方向。

DL 的演变

近年来,DL越来越受到关注,并在许多实际应用中取得了巨大成功。DL 是从不同的基础工作中发展而来的。它是从人工神经网络和机器学习演变而来的。1965 年,Ivakhnenko 和 Lapa 概述了具有多层非线性特征的类 DL 算法。研究人员使用了薄而深的模型和基于神经网络的多项式激活函数。DL 通常使用 DNN 模型来解决学习问题,包括预测和分类。Geoffrey Hinton 于 2006 年创造了“深度学习”一词。DL 的兴起得益于计算能力的提高和更复杂的算法的不时开发。一些研究人员提出了 EC(进化计算)算法来优化 DL,称为进化 DL。它为研究人员显示了令人鼓舞的结果。然而,人们注意到 DL 是一种需要大量数据的方法。因此,需要大量数据来训练 DL 模型的模型。,然而,Rather 等人最近指出,DL 技术也可以使用小型数据集来执行。近年来,DL 已广泛应用于不同的生物和医学科学领域。已经开发了几种基于 DL 的算法和模型用于这个方向。同样,DL 算法在这十年中在基于表位的下一代疫苗开发中显示出成果。因此,这些 DL 算法在疫苗开发中的使用越来越多。

使用免疫信息学和免疫信息学以 DL 模型作为集成框架的现代疫苗开发策略的发展历史

如果我们回顾过去,传统疫苗的开发始于培养和分离病原体、灭活病原体或使用其某些成分。在当今时代,疫苗开发始于使用病原体基因组信息的免疫信息学。尽管如此,所有工具和技术都发生了变化,尤其是基于人工智能的机器学习/机器学习技术。Rino Rappuoli 于 2000 年首次定义了“反向疫苗学”,描述了使用基因组信息的计算机或计算工具和技术。,首先,在逆向疫苗学的早期阶段,研究人员仅使用免疫信息学。与此同时,人工智能技术在不同的生物和医学科学领域取得了巨大进展。然后,在医学科学和分子生物学与计算机科学的范式转变期间,疫苗研究人员正在使用免疫信息学和基于 DL 的模型作为疫苗开发的集成框架。目前,所有这些计算机方法正在与机器学习或深度学习模型相结合,用于疫苗开发。其中一种策略使用计算机 DL 方法来预测和设计一种名为 DeepVacPred 的多表位疫苗。同样,IntegralVac 是使用基于 ML 的疫苗设计开发的,使用多价表位。DL 代表了疫苗开发中的一种变革性工具,提供了一种更精确、数据驱动的疫苗设计方法。通过利用 DL 模型,研究人员可以加速针对新兴病原体的疫苗的开发,为全球传染病预防和控制工作做出贡献。

随着 DL 逐渐融入生物学研究,它引发了关于其在推进疫苗开发方面的潜在作用的讨论,特别是针对病毒感染。这些病原体由于具有持续变异的能力以及从动物传播给人类的新型人畜共患疾病的出现,构成了重大挑战。尽管抗病毒治疗,例如 HIV-1 治疗,但疫苗仍然是预防疾病的最有效工具。一些成功案例包括通过疫苗开发根除天花和脊髓灰质炎,这可能为疫苗开发和疫苗接种指明了未来道路。同样,在大流行期间以最快速度开发 COVID-19 疫苗的成功案例也可能为疫苗研究人员指明道路。,

然而,制造安全高效的病毒疫苗是一个高度复杂的过程,其特点是障碍多于成就。DL 和大数据的兴起表明疫苗研究开辟了新领域,具有在公共卫生领域取得变革性突破的潜力。具体来说,蛋白质结构预测、免疫系统相关分析和系统发育学的进步有望加强疫苗开发工作。

随着信息学和计算机的到来,疫苗研究已经启动了,变得更加容易。免疫信息学使用计算和数学方法来解决各种免疫学问题。自 1980 年代以来,已经创建和利用了几种免疫信息学方法来识别 T 细胞和 B 细胞免疫表位。1995年,当流感病原菌的全基因组被释放时,发现了疫苗研究的突破。通过对微生物基因组数据进行基于生物信息学的分析,疫苗接种靶点的计算机选择成为可能,这与测序技术和分子生物学的发展同时发生。由于免疫信息学的进一步发展,已经开发出许多新的疫苗设计算法。免疫组衍生的疫苗设计或RV是描述这种独特疫苗开发方法的两个术语。这种方法的首次使用称为“反向疫苗学”,是在制造血清群 B 脑膜炎奈瑟菌 (MenB) 的疫苗时实施的。在 1980 年代,DeLisi、Berzofsky 和其他人开发了第一个基于免疫信息学的工具来创建候选疫苗。表位图谱算法是疫苗构建所需的最重要的信息学工具之一。由于 T 细胞表位与人白细胞抗原的线性连接,可以准确描述 T 细胞和配体之间的界面。因此,开发了许多 T 细胞表位图谱算法。,通过这些技术,可以通过用病原体的整个蛋白质组启动该过程来快速识别可能的 T 细胞表位。这些知识对于研究传染病的病理生理景观、开发新型疫苗和执行诊断程序非常有益。,,,,,,,Rino Rappuoli 在 2000 年使用“RV”一词来描述使用遗传信息而不是病原体活性作为起始点的疫苗开发过程。,RV 方法未能识别潜在的候选疫苗,例如多糖或糖脂。因此,它很快被应用于基因组较小的病原体。使用这种方法制造的第一个成功疫苗是针对血清群 B 脑膜炎奈瑟菌的疫苗,它会导致年轻人和儿童的脑膜炎和败血症。,事后,DNA 微阵列和蛋白质组学被添加到原始 RV 方法中,以支持疫苗发现的基因组挖掘。,对 A 组链球菌表面蛋白质组的分析导致了候选疫苗的鉴定并被认为是“反向疫苗学的下一章”。到 2006 年,很明显,分析病原体基因组的多种菌株对于制造通用疫苗至关重要,特别是针对细菌的疫苗,正如 B 组链球菌所证明的那样。一项新的挑战表明,科学家们将疫苗学与结构生物学结合起来。自这些早期研究以来,计算医学的目标已经发展到难以想象的水平。分子动力学模拟(MDS)的精度,预测肽折叠的DL方法,以及精心策划的广泛数据库,使访问有关蛋白质结构和功能的信息变得简单,都彻底改变了潜在候选疫苗的开发。已经配制和制造了许多基于多种表位的疫苗来预防病毒和癌症。针对不同病原体的疫苗的一些例子是病毒(例如冠状病毒,,HIV-1,,,HPV,埃博拉,,和寨卡病毒)、细菌(包括幽门螺杆菌,结核分枝杆,)和乳腺癌等癌症。,值得注意的是,最近所有疫苗开发工作都使用基于 DL 的工具和使用 DL 算法的技术。它帮助疫苗研究人员开发快速的下一代疫苗。

通过免疫信息学和DL模型鉴定T细胞表位的策略

T细胞识别的表位称为T细胞表位。T 细胞表位是源自抗原的特异性短肽。当通过主要组织相容性复合物 (MHC) 分子呈递时,TCR(T 细胞受体)确定这些表位。它对免疫反应机制至关重要。

T细胞表位的预测过程与确定特定I类或II类MHC等位基因的肽结合特异性有关。然后,在计算机中进行表位预测。肽序列数据已被用于构建许多 T 细胞表位预测算法。

MHC I 类代表细胞毒性 T 细胞和 CD8 T 细胞的肽,它们可能会杀死受感染的细胞。这些肽或表位通常有 8-11 个氨基酸长。+另一方面,MHC II 类代表辅助性 T 细胞或 CD4 T 细胞的更长肽,有助于协调免疫反应。这些肽或表位通常长 12-25 个氨基酸,具有 9 个氨基酸核心。+

识别 T 细胞表位与计算或免疫信息学方法相关,这些方法现在是流行的疫苗研究技术。这些方法可以预先预测和分析蛋白质中可以被 T 细胞识别的部分,T 细胞是适应性免疫系统的重要部分。用于 T 细胞表位鉴定的免疫信息学方法通常包括从 GenBank 或 UniProt 等数据库中检索病原体的抗原序列。MHC 结合亲和力预测已使用不同的方法进行,例如基于基质的方法、人工神经网络、支持向量机 (SVM)、蛋白酶体加工预测(对于 MHC I 类)、转移相关蛋白 (TAP) 转运预测(对于 MHC I 类)和免疫原性预测。

免疫信息学工具用于T细胞表位鉴定和疫苗设计,如IEDB(表位综合数据库)、NetMHC、NetCTL、NetMHCpan、SYFPEITHI、RANKPEP、EpiMatrix、ProPred和ProPred1。,一些DL模型有Deepitope、TRAP、iTCep、iTCep等,用于疫苗研究。DL在T细胞表位鉴定方面具有优势,包括提高准确性,处理大型数据集和泛特异性(图2)。这种 DL 模型具有很强的能力,可以自动从数据中提取相关特征。使用特征提取特性从肽序列中提取免疫原性表位(图 3)。其他优点包括识别新的表位和整合多个数据源。

图2 DL在表位预测中的应用,通过提高准确性、处理大型数据集和泛特异性

图3 DL特征提取特性已用于潜在的免疫原性表位提取或从氨基酸序列中定位表位

通过免疫信息学和DL模型鉴定B细胞表位的策略

B 细胞表位是抗原上被抗体(B 细胞受体或分泌抗体)识别和结合的特定区域。识别这些表位对于包括疫苗设计在内的各种应用至关重要。通过免疫信息学鉴定 B 细胞表位通常涉及线性(连续)表位和构象(不连续)表位鉴定。,用于 B 细胞表位预测的主要免疫信息学工具和数据库是 IEDB、ABCpred 和 LBtope。免疫信息学为识别 B 细胞表位提供了一个有价值且日益复杂的工具包。它提供高通量筛选、经济高效的 B 细胞表位鉴定以及候选药物的优先级排序。ML 和 DL 算法显着推进了通用免疫信息学模型的 B 细胞表位预测。ML 模型使用 SVM 和随机森林算法。Liu 等人使用 DL 方法分析了 214,679 个非表位和 25,884 个线性 B 细胞表位预测,并开发了一个模型模型,即 DLBEpitope。

DL 架构使用 CNN、循环神经网络和混合架构。ML和DL在B细胞表位预测中的优势在于提高准确性、自动化特征学习和特异性。

使用 DL 和免疫信息学构建疫苗开发策略

由于抗原肽在体内容易被蛋白酶降解,免疫细胞受体难以识别抗原表位,导致对病原体的免疫反应较弱。有效的基于表位的疫苗需要精心设计的表位肽组合、递送机制和佐剂来解决这个问题。佐剂具有多种功能,例如免疫刺激特性、良好的载体和疫苗的正确输送。Cox 和 Coulter 确定了疫苗佐剂发挥作用的五种方式。这些包括 (1) 改变细胞因子网络,这称为免疫调节;(2) 诱导细胞毒性 T 淋巴细胞 (CTL) 的反应;(3) 产生临时或永久仓库以提供抗原的连续或间歇性释放;(4)保留抗原的结构并将其呈递给免疫细胞;(5) 通过抗原呈递细胞将抗原递送至免疫细胞。该构建过程利用三个基本组成部分来开发能够诱导免疫反应的有效疫苗。这些组分包括接头序列、佐剂以及合适的 B 细胞和 T 细胞表位。此外,具有免疫调节能力的分子被引入疫苗构建体中,作为安全的疫苗佐剂,以增强免疫系统的潜力。疫苗接种佐剂通常与疫苗一起研究,因为它们是疫苗构建体的重要组成部分。然而,疫苗的佐剂是单独生产的,可以出于各种原因进行检查。例如,疫苗佐剂经常在体内体外输送给宿主生物体,以分析其产生的免疫反应和负面后果。一般来说,包括疫苗佐剂在内的信息学领域除了涉及整个疫苗或疫苗构建体的特定成分(例如疫苗抗原)之外的科学问题。佐剂可以根据其物理或化学性质、来源(天然、内源性或合成)或作用机制进行分类。应根据宿主细胞的免疫反应选择佐剂。它们应与抗原表位结合,以产生最佳的免疫反应,同时将不良反应降至最低。主要佐剂类别包括聚合物微球佐剂、细菌来源佐剂(革兰氏阴性菌)、脂质体佐剂、细胞因子、暂定佐剂(Quil A)和佐剂乳剂。其他矿物盐类别包括锆、钙和铁。我们体内的一些分子佐剂包括 C3d、IgGFc 和粒细胞-巨噬细胞集落刺激因子。,,例如,明矾佐剂被认为主要触发主要的 Th2 型免疫反应和促炎 NLPR3 通路。为了解决这个问题,研究人员将明矾与基于 PRR 的佐剂(包括 Toll 样受体激动剂)配对,以协同增强疫苗抗原的免疫原性,并在 Th1/Th2 免疫反应中引发最佳平衡,该反应对病毒感染(即 SARS-CoV-2)和其他进化变体具有持久性。此外,人们认识到 CD4 T 细胞在协调身体对肿瘤的防御以及启动和维持 CD8 T 细胞的活性方面发挥着至关重要的作用。通过在肽疫苗中掺入 CD4 T 细胞表位,免疫反应得到了增强。+++,添加通用的 T 辅助表位,例如泛 DR 结合表位 (PADRE),可显着增加疟疾重组抗原疫苗引发的抗体免疫反应。PADRE 是一种通用的 13 个氨基酸的合成肽,可激活 CD4 T 细胞。+它对 16 种最流行的人类 HLA-DR 类型中的 15 种具有高亲和力,使其能够引发有效的 CD4 T 细胞反应+,并有可能解决人群中 HLA-DR 分子多态性引起的问题。在增殖测定中,研究人员指出,PADRE 的有效性是通用 T 辅助表位的 100 倍,例如破伤风毒素衍生的通用表位。一些乳液佐剂 AS03 和 MF59 在控制 COVID-19 大流行方面是安全且耐受性良好的。此外,使用乳剂佐剂可能是最大限度地减少疫苗剂量和提高免疫覆盖率以对抗 COVID-19 的最安全策略。

组合不同的蛋白质成分以产生融合或嵌合蛋白在蛋白质工程和生物技术中已变得很常见。该技术经常用于生产可溶性蛋白质并纯化它们。融合蛋白是通过使用肽连接子连接两个不同的蛋白质结构域来产生的。连接子对于建立构象稳定性、功能域分离和折叠蛋白至关重要,所有这些都有助于蛋白质结构的稳定性。此外,分子连接子还可以通过提高表达产量来改变疫苗的药代动力学特征。,连接子序列的组成对融合蛋白的折叠稳定性有影响。具有形成α螺旋或β链高倾向的连接子序列可能会限制蛋白质的柔韧性并限制其功能活性,从而使更喜欢采用扩展构象的连接子序列更受欢迎。目前,大多数设计的连接子序列都含有大量的甘氨酸残基,这些残基会诱导连接子呈现环构象。基于表位的疫苗由多种类型的表位组成,而不是仅一种。疫苗构建体是通过特定的连接子将筛选的表位连接在一起制成的,克服了基于单肽的疫苗接种的缺点,即不能有效引发宿主免疫系统对抗同一病原体的变体。Oli 和他的同事表示,构建单/多表位候选疫苗利用 GPGPG 和 AAY 连接肽来连接参与疫苗构建的不同表位。类似地,EAAAK 连接肽将表位与最终疫苗构建体的佐剂连接起来。

Chakraborty等人还讨论了多表位疫苗构建体的整体稳定性还取决于连接肽的适当使用。这是涉及免疫信息学的疫苗研究的重大局限性之一。这些标准连接肽的使用也已在各种科学家小组开发的疫苗构建体中看到。例如,Kar等人、Samad等人和Naz等人设计了一种针对SARS-CoV-2病毒的多表位候选疫苗,其中HTL(辅助性T淋巴细胞)和CTL表位分别使用GPGPG和AAY连接子与B细胞表位连接。,,PEAK接头用于将佐剂(50S核糖体蛋白L7/L12)连接到最终疫苗构建体的N端。,由于生物技术和蛋白质工程的快速发展,融合蛋白中连接子的设计现在比以往任何时候都更加重要。未来的生物医学研究将提供对连接子结构、构象和活性的完整了解,这将大大简化合适的重组蛋白的开发,这肯定会增强它们在下一代疫苗中的作用。

利用生物信息学和免疫信息学对疫苗构建体进行表征策略

制造疫苗的通常方法缓慢且昂贵,需要 5 到 15 年的时间。如今,一个巨大的挑战是弄清楚病原体的哪些部分最能刺激免疫系统。然而,使用基于计算机的免疫信息学可以帮助快速、廉价地设计疫苗。尽管取得了一些进展,但疫苗设计尚未达成一致。一种有前途的方法是基于表位的疫苗,它可以提供预防或治疗效果,并且在针对特定病原体方面显示出良好的效果。迄今为止,传统疫苗,例如由非活性细菌(如百日咳)或弱化病毒(如狂犬病、天花、腮腺炎、麻疹和脊髓灰质炎)制成的疫苗,已成功挽救生命。然而,众所周知,由于病毒可能会恢复其有害品质,这些疫苗会对某些人构成风险。,,为了克服传统疫苗的缺点,科学家们提出了开发现代疫苗的建议。其中一种疫苗是多表位候选疫苗,它已被证明在刺激靶向和强大的免疫反应方面更有效,同时避免对有害表位的不必要的免疫反应。,生物信息学的进步和计算模拟技术已被生动地用于检查生物数据和预测基因调控网络。它已在疫苗研究的所有途径中得到很好的应用,包括临床前、临床和疫苗接种后阶段。生物信息学的另一个分支,称为免疫信息学,利用大量的计算和数学模型来开发和解释免疫学数据,这有助于对免疫和疾病的进展做出必要的预测。,设计针对不同病毒的有效疫苗涉及几个关键步骤,包括识别 T 细胞和 B 细胞表位、分析抗原加工和抗原性、评估人群覆盖率、评估过敏性和毒性以及评估蛋白质-肽对接和保护性分析。为了进行所有这些分析,已经创建了各种生物信息学工具和在线网络服务器。在过去的二十年里,美国罗德岛州普罗维登斯的疫苗专家、生物信息学专家和熟练程序员组成的团队在创建名为 iVAX 的用于设计疫苗的综合工具包方面取得了重大进展。iVAX 可通过互联网访问并确保用户安全。该工具包包含一系列免疫信息学工具,可以对候选抗原进行评分和优先排序,选择免疫原性和持久性 T 细胞表位,修饰或消除调节性 T 细胞表位,并重新设计抗原以触发免疫并预防牲畜和人类疾病。多表位和表位疫苗的免疫原性靶点多为氨基酸残基。可以使用不同的数据库和其他计算工具预测潜在的 B 细胞和 T 细胞表位,以帮助疫苗制剂、免疫建模和免疫蛋白分析。,,,,几种尖端的生物信息学和免疫信息学技术正在积极帮助 COVID-19 疫苗的研究。第一个涉及免疫信息学技术的 SARS-CoV-2 疫苗于 2020 年 2 月发布。这一发展是开发 COVID-19 疫苗的突破。广泛的免疫信息学方法有助于多种严重疾病的表位鉴定和疫苗设计。几位研究人员正在努力开发一种基于肽的针对 SARS-CoV-2 病毒的候选疫苗,并使用免疫信息学方法鉴定和定义各种 B 细胞和 T 细胞表位。RV 是指在疫苗开发中采用多种免疫信息学方法。使用该技术加快了使用多种抗原结构的多表位候选疫苗的构建。免疫信息学通过识别许多以前未鉴定的抗原,成功地推进了疫苗的创建。免疫信息学方法经常用于 RV 来解释各种抗原作用。免疫信息学技术是疫苗生产中的天赐之物,因为它们可以帮助研究人员更好地了解致突变抗原和病原体的生物学特性。因此,这种下一代技术可以解决在处理具有致突变抗原的病毒时遇到的困难。使用常规抗原或致突变抗原进行多表位疫苗接种可以预防这些感染。,由于 SARS-CoV-2 病毒造成的严重破坏 COVID-19 大流行,特别是具有全球重要性的突发公共卫生事件,需要开发高效和安全的药物和预防药物,特别是防御疾病的疫苗。SARS-CoV-2 刺突糖蛋白在附着、融合和进入宿主细胞方面发挥的多种功能使其成为制造抗体、抑制剂和疫苗的理想候选者。例如,Saba Ismail 和他的同事使用免疫信息学方法分析 SARS-CoV-2 刺突蛋白,以识别可能的 B 细胞和 T 细胞表位。然后,使用这些表位构建多表位肽疫苗构建体。在多表位肽疫苗和白细胞介素、免疫球蛋白和细胞因子的显着合成中可以看到强大的免疫模拟。

免疫信息学工具和技术:从表位图谱和疫苗构建体开发到表征

免疫信息学是识别各种病原体潜在疫苗的最佳方法,选择最精确的方法来预测和制造有效的治疗性疫苗至关重要。为了彻底评估基于计算机的疫苗设计的有效性,需要进行体外体内分析以开发合适的候选疫苗。借助生物信息学,可以创建各种服务器和软件来分析免疫学数据,这也可以帮助理解免疫系统的工作原理。生物信息学和免疫信息学在开发 COVID-19 疫苗构建体和选择抗原表位方面发挥了重要作用。COVID-19 疫苗的研究极大地受益于免疫信息学、疫苗基因组学、MDS、生物信息学和结构生物学的使用。注意到许多采用免疫和生物信息学的疫苗设计的开发。以下文本讨论了开发、表征和验证疫苗构建体测年所需的一些尖端工具和技术。

用于表位图谱和疫苗构建体开发的工具和技术

对 T 细胞和 B 细胞表位介导的免疫反应的了解显着增加。了解表位的结构和氨基酸序列得益于各种数据库、生物信息学工具和预测算法。这些信息对于研究疫苗、基础免疫学研究以及治疗和诊断多种疾病至关重要。基于抗原的B细胞表位预测有助于药物和疫苗开发,以及了解抗体-抗原相互作用的免疫学基础。为了构建针对任何感染的成功候选疫苗,我们必须考虑 B 细胞表位。然而,B 细胞表位可分为两类:线性或连续和不连续。然而,大约 85% 的 B 细胞表位被假设是连续的。一些用于使用 ML 方法识别线性 B 细胞表位的免疫信息学工具包括 BepiPred、ABCpred,LBtope,BCPREDS,和 SVMtrip。此外,LBtope 服务器一直是通过抗原的一级蛋白序列预测线性 B 细胞表位的成功工具。同样,一些通过使用基于结构的方法预测不连续的 B 细胞表位来协助疫苗研究的免疫信息学工具包括 CEP、迪斯科托普,佩皮托,SEPPA,上视,EPSVR,EPIPRED,和皮斯。
开发了几种基于免疫信息学的方法来预测 T 细胞表位。,,T 细胞表位预测旨在定位抗原中可以激活 CD4 或 CD8 T 细胞的最次要的肽。++所有 T 细胞表位对 MHC 结合剂都不具有高亲和力。MHC-肽结合以及MHC-肽配体与特定TCR的特异性相互作用对于功能性T细胞反应是必要的。为了描述肽与作为 T 细胞表位的 MHC 和 TAP 结合的过程,我们需要来自免疫信息学的充分表征数据。一些在使用基序基质方法预测 T 细胞表位方面取得突破的免疫信息学工具包括 Rankpep、西夫佩蒂,MAPPP,普雷迪瓦克,PEPVAC,EPISOPT /和瓦克辛。除了基序基质法外,一些免疫信息学工具,如NetMHC、NetMHCII,NetMHCpan,NetMHCII盘,nHLApred研究 ANN 方法以预测 T 细胞表位。除此之外,BIMAS,普罗普德,支柱-1,和 EpiGen利用定量亲和基质法鉴定T细胞特异性抗原。此外,一些免疫信息学工具,例如 MHCPred和 EpiTOP利用定量构效关系模型来预测不同的 T 细胞表位。

用于表征和验证疫苗构建体的工具和技术

针对任何疾病开发的疫苗构建体需要通过多种计算机方法进行表征和验证。这些参数包括抗原性、致敏性、溶解度、毒性、二级和三级结构预测等。免疫信息学领域提供了许多工具和技术,这些工具和技术对于研究人员成功表征和验证任何疫苗构建体至关重要。一些工具,例如 AllergenFP、AllerTOP,Allermatch,阿佩尔,和埃瓦勒用于预测开发的疫苗构建体对任何传染病的过敏性。此外,Oli等人表示,VaxiJen工具可以分析最终疫苗构建体的抗原性和过敏性以及其他理化数据。AlgPred 服务器可以确定疫苗的抗原性,ProtParam 服务器可以识别疫苗的一些理化性质,即半衰期、平均水病性、分子量、等电点、脂肪族指数和溶解度。
此外,可以分别使用 ProSA-web、Galaxy Refine Server 和 RaptorX/SOPMA 服务器预测最终疫苗构建体的验证、细化和结构重塑。在此步骤之前,最后分别使用 Desmond 和 ClusPro 工具在表位和宿主受体之间进行分子动力学和分子对接研究。CHARMM27免疫信息学工具还可以识别分子模拟模式。其他免疫信息学工具在验证和表征最终疫苗构建体方面也发挥着重要作用。例如,蛋白质溶解度是一个显着特征,从重组蛋白的制造到生物疗法的创造。名为 Protein-Sol 的 Web 服务器用于计算疫苗构建体的溶解度指数。疫苗构建体的进一步验证包括计算机克隆,通常使用 Java 密码子适应工具进行,以评估制备的候选疫苗在特定宿主上的表达水平。与开发基于表位的疫苗相关的重要步骤之一是疫苗构建体的三级结构建模。,在这种情况下,SPARKS-X Web 服务器是有前途的选择之一。它通过实现 BLASTp 来利用三级结构的模板搜索。除了三级结构外,还可以使用 PSIPRED 4.0 Web 服务器预测疫苗构建体的二级结构,该服务器使用两种基于前馈神经网络的算法进行结构开发。病原体的特性已经使用微生物学、血清学和生化技术进行了评估,以查明可用于开发疫苗的部分。尽管在许多情况下有效,但当病原体无法在实验室中生长或最流行的抗原具有不同的序列时,这种方法需要大量时间并且具有一定的局限性。免疫信息学领域的进步为研究人员设计针对一些高度传染性疾病的各种候选疫苗创造了重大突破。

基于 DL 的疫苗开发策略:最近的范式转变

近年来,DL 已成为 ML 中的关键计算范式,被公认为解决复杂认知和预测任务的黄金标准。DL 模型的快速发展使它们能够实现卓越的性能,在各个领域往往超越人类的能力。
DL 是 ML 的一个复杂子集,见证了显着的增长,特别是在医疗保健和生物医学研究领域。DL 模型利用高性能计算技术来处理和分析大量数据集,提取通过传统计算方法可能无法立即识别的有价值的模式和特征。这些模型可以包含多种数据格式,包括医学成像(例如 MRI 和 CT 扫描)、EHR、基因组数据和时间序列数据集。最强大的 DL 架构包括 CNN、DNN、基于 Transformer 的模型和深度强化学习(表 1)。这些基于 DL 的模型偶尔会产生,可分为三大类:监督、半监督和无监督(图 4)。所有 DL 模型都具有固有的复杂性,非常适合复杂的模式,并且可能涉及大型数据集(图 5)。特别是,DNN 通过多个隐藏层学习数据的分层表示,展示了巨大的潜力,使其对于复杂的分类和模式识别任务不可或缺。

图4 DL模型分类分为三大类:有监督、半有监督、无监督

图 5 包含固有复杂性的集体 DL 模型架构的示例非常适合复杂模式,并且可能涉及大型数据集

表1 用于疫苗开发的基于 DL 的算法

Sl. no.算法名称言论引用
1.卷积神经网络 (CNN)这些主要用于分析生物序列(核苷酸或蛋白质)和识别指示抗原性测定潜在疫苗靶点的模式庄等人。
2.多层感知器 (MLP)MLP 用于多项疫苗开发任务,包括预测蛋白质特性和识别潜在的候选疫苗孔蒂等人。
3.双向长短期记忆神经网络 (BiLSTM)这用于病毒进化和免疫反应建模中基于序列的预测曾等人。
4.循环神经网络 (RNN)RNN 非常适合处理顺序数据,使其对于分析病毒基因组数据和预测病毒突变很有价值尹等人。
5.基于变压器的模型该算法用于氨基酸链潜在表位部分的蛋白质序列理解和表示学习叶等人。
6.深度神经网络 (DNN)该算法用于蛋白质结构预测(例如,AlphaFold)、免疫库分析,也用于预测疫苗功效麦克雷尔等人。
7.图神经网络 (GNN)这用于分析抗原和免疫系统成分之间的分子相互作用。随后,它通过对蛋白质-蛋白质相互作用进行建模来帮助预测候选疫苗奇纳里等人。
8.自动编码器该算法应用于生物数据的降维和特征提取,例如通过学习病毒序列的紧凑表示来识别保守的病毒表位纳西尔等人。
9.生成对抗网络该算法用于合成抗原生成和优化疫苗制剂;它还可以设计模仿真实病毒抗原的新型蛋白质序列,以实现更好的疫苗反应苏拉纳等人。
10.深度强化学习主要用于优化疫苗配方、分配和佐剂选择。它确定了增强免疫反应的肽的最佳组合法里斯等人。
11.支持向量机 (SVM)该算法广泛应用于疫苗开发,特别是在表位预测、抗原分类和免疫反应建模方面赵等人。

 

DL 在多个科学和工业领域广受欢迎,成为人工智能、机器学习和数据科学的重要研究领域。由于其从大量数据中提取有意义的见解的能力,DL 吸引了包括谷歌、Microsoft 和诺基亚在内的主要科技公司的极大兴趣,这些公司积极投资其研发。这些公司利用 DL 来增强决策流程、优化预测模型并提高对象检测、推荐系统和实时语言翻译等任务的自动化程度。此外,DL 作为一项重要的人工智能功能,通过从数据中学习复杂的表示来模仿人类认知过程,从而实现跨行业的广泛整合。全球对 DL 变革性影响的日益认可在最近的文献中有据可查。

DL 的决定性特征之一是它能够使用各种学习范式进行作,包括监督、半监督和无监督学习策略。这种灵活性使 DL 模型能够自动从大规模数据集中提取分层特征,使其非常适合大数据分析中的应用。研究表明,DL 方法可以有效解决从自主系统和 NLP(自然语言处理)到生物医学诊断和财务预测等复杂问题。DL 的一些最突出的应用包括 Alexa 和 Siri 等虚拟助手、面部识别技术、个性化推荐、自动手写生成、自动驾驶汽车、新闻聚合、黑白图像着色、无声电影音频合成、像素恢复以及通过深梦技术生成合成图像。

反向传播算法是 DL 成功的核心,这是一种关键的计算机制,使人工神经网络能够根据误差传播调整其内部参数。这种迭代优化过程通过细化分配给多层每个神经连接的权重来增强模型学习复杂表示的能力。通过利用反向传播,DL 模型不断提高其预测准确性,使它们能够发现海量数据集中的复杂结构。DL 的持续发展预计将推动人工智能驱动应用程序的突破性创新,进一步巩固其作为现代计算智能基石的作用。

用于表位图谱和疫苗构建体开发的不同基于 DL 的工具

基于 DL 的工具偶尔会被使用,从表位图谱到疫苗构建体开发。DL 工具已用于表位预测。Wohlwend等人开发了MUNIS,这是一种用于疫苗开发的CD8 T细胞表位(HLA-I表位)的DL预测因子。+基于 DL 的工具通过提高抗原识别、免疫反应和蛋白质结构建模预测的准确性,为疫苗开发做出了重大贡献(表 2)。瓦克西-DL是一个基于网络的服务器,可以预测潜在的候选疫苗,而 MHCSeqNet及其高级版本MHCSeqNet2利用DNN进行MHC结合预测。DeepVacPred从蛋白质序列中有效鉴定疫苗亚基。ntegralVac 等工具还可以筛选肽序列的溶血潜力。蛋白质结构建模已被 trRosetta 彻底改变和 AlphaFold 系列,,,预测高精度蛋白质结构及其相互作用。普罗根生成跨不同家族的人工蛋白质序列,而 AminoBERT从未对位的蛋白质中确定结构信息。Ig折叠使用 DL 增强抗体结构预测。在免疫学领域,DeepMHCII改进 MHC 肽结合预测,DeepTCR分析 TCR 序列和 DeepImmuno高精度模拟免疫原性肽。DeepHLA根据HLA-肽相互作用预测T细胞反应,进一步推进免疫治疗和疫苗研究。这些工具共同提高了疫苗设计和免疫原性评估的效率和精度。

表2用于疫苗开发的基于 DL 的工具/服务器

Sl. no.工具/服务器名称言论引用
1.瓦克西-DL基于网络的 DL 服务器,可预测潜在的候选疫苗拉瓦尔等人。
2.MHCSeq网基于NLP的深度神经网络模型,用于准确预测通用MHC结合Phloyphisut 等人。
3.DeepVacPred计算框架 Righty 根据现有蛋白质序列预测潜在的疫苗亚基杨等人。
4.血液PI用于预测和筛选具有溶血效力的肽序列的应用程序苏里和达克沙那穆蒂
5.MHCSeqNet2使用子词级肽结构(MHC 等位基因的 3D 结构)和扩展的训练数据集,以更好地推广数据量较低的 MHC 等位基因Wongklaew 等人。
6.trRosetta快速准确的蛋白质结构预测工具使用深度残差卷积网络杜等人。
7.阿尔法折叠基于 DL 的开放可访问、广泛的高精度蛋白质结构预测数据库瓦拉迪等人。
8.阿尔法折叠-2基于 DL 的程序,用于理解结构、蛋白质、动力学和功能的精确 3D劳伦茨
9.阿尔法折叠-3它用于蛋白质及其相互作用的结构建模,从而在蛋白质建模和设计中进行了广泛的应用艾布拉姆森等人。
10.普罗根条件蛋白质语言模型能够基于输入控制标签生成跨蛋白质家族的各种人工蛋白质序列马达尼等人。
11.氨基BERT用于确定未对齐蛋白质的潜在结构信息的蛋白质语言模型乔杜里等人。
12.MHCSeq网用于从序列数据预测肽-MHC 结合的神经网络,无需结构信息Phloyphisut 等人。
13.Ig折叠DL 对大量天然抗体的最快、最准确的抗体结构预测工具鲁福洛等人。
14.深MHCII具有绑定交互卷积层的基于绑定核心感知DL的模型;它允许将所有潜在的结合核心肽与MHC结合序列结合你等人。
15.DeepTCR该工具旨在分析 T 细胞受体 (TCR) 序列,帮助从复杂的免疫基因组数据中了解疫苗开发、免疫治疗和传染病研究中的免疫反应西德霍姆等人。
16.深度免疫该工具可适当预测识别 T 细胞抗原最必要的残基,并能够精确模拟具有附加理化性质的免疫原性肽,免疫原性预测可与真实抗原相媲美李等人。
17.DeepHLA该工具用于根据 HLA-肽相互作用预测 T 细胞反应内藤等人。

结论

DL 是人工智能的一个子集,已成为疫苗开发的强大工具。通过利用大型数据集和复杂的算法,DL 可以加速疫苗的发现、设计和优化。DL 通过实现更快、更准确、更具成本效益的流程,彻底改变了疫苗开发。DL通过预测刺突蛋白结构、优化mRNA序列和加速临床试验,在COVID-19疫苗的快速开发中发挥了重要作用。从抗原发现到临床试验优化,人工智能正在成为对抗传染病及其他领域不可或缺的工具。随着该领域的进步,将 DL 与传统实验方法相结合将是开发下一代疫苗的关键。
DL 通过加速抗原发现、增强疫苗设计、促进 RV、应对新出现的威胁和个性化疫苗接种策略,提出了一种革命性的疫苗开发方法。持续的研究和开发侧重于数据质量、模型可解释性和验证,对于充分发挥 DL 在创造下一代有效和安全的传染病疫苗方面的变革潜力至关重要。

致谢

本研究得到了左营市武装部队总医院(ZYAFGH_A_114018 年资助)的支持。

作者贡献

工商管理硕士,写作 – 原稿、数据管理、方法论、可视化以及图形和表格开发。Y.-H.L.,手稿验证、形式分析和资金收购。南卡罗来纳州,写作——原稿、验证和形式分析。公元,最终稿稿验证和正式分析。Z.-H.W.,验证和形式分析。CC、概念化、分析、软件、方法论、写作 – 原稿、数据整理和整个项目管理的监督。

利益声明

作者声明没有利益冲突。

Hits: 6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享