当代生物学从某种意义上讲已经成为一门数据科学。在上一篇博客里,我介绍了噬菌体展示实验技术的发展情况。作为呼应,这里我们从数据资源、信号分析及噪声消除等三个方面,对噬菌体展示的生物信息学研究做一个简明扼要的总结与展望。
1、噬菌体展示的数据资源
随着噬菌体展示实验技术的发展与广泛应用,产生了大量实验数据并散布在原始文献中。这些数据中蕴含着潜在的药物前体、靶向载体,具有重要的科学意义与应用前景。然而,由于这些展示的多肽或抗体序列的非天然属性,NCBI或UNIPROT等数据中心并未收集。因此,噬菌体展示生物信息学研究的一个重要内容是数据的采集与管理,建立专门的数据库。一个俄罗斯研究组于2000年发布了首个噬菌体展示数据库ASPD[1]。遗憾的是,该数据库仅有195套数据,近20年来没有更新。2010年,我们小组构建了MimoDB数据库,收集全球各研究组利用噬菌体展示技术淘选随机多肽文库的实验结果[2,3]。该数据库每季度更新,自5.0版之后更名为生物淘选数据银行(Biopanning Data Bank, BDB)[4,5]。最近的一次更新为今年7月23日,共有来自1575篇实验文献的淘选数据3338套,其中传统Sanger测序的多肽序列共30383条,是当前噬菌体展示领域最专业、最完备的实验结果数据库。
2、噬菌体展示的信号分析
针对噬菌体展示多肽的信号分析研究始于1995年。所谓信号,就是研究者想要的特异性结合靶标的多肽(或称模拟肽,mimotope)。当时,意大利Tramontano研究组率先提出了一套噬菌体展示的信号处理解析方案[6]。随后,全世界的计算生物学研究者,包括我们[7]及东北师范大学[8]等两个国内研究组在内,提出了基于模式、基于图论、基于氨基酸对、基于序列比对、基于表面盘区等一系列噬菌体展示信号解析方法,相关分析流程或软件超过20种[9-11]。最近,我们小组还开发了一个叫做PyMIMOX的PyMOL插件,可安全便捷地分析本地数据。这些计算分析方法让噬菌体展示实验如虎添翼。通过噬菌体展示实验结合计算分析已经成为预测药物作用靶点、确定抗原表位及其他蛋白质相互作用位点等相关基础与应用研究的重要方法。
3、噬菌体展示的噪声消除
近年来,通过计算消除噬菌体展示实验结果中的噪声序列成为本领域生物信息学研究的一个热点。由于噬菌体展示实验技术本身固有的原因,在得到模拟肽时,也将不可避免地得到噪声序列,即所谓的靶标无关多肽(target-unrelated peptides, TUP)[12]。这些噪声序列可分为两类。一类是选择相关噪声,发生在淘选的结合选择环节,是能与靶标位点之外的淘选体系成分结合的噬菌体展示多肽。例如,与淘选体系中的固相基质(如塑料、磁珠、硅膜)、固着分子(如链亲和素)等结合的多肽[12]。另一类是增殖相关噪声,发生在噬菌体扩增环节,因有更快、更强的增殖能力而进入实验结果[13]。噬菌体展示数据中的噪声消除方法包括基于信息含量(如INFO程序)[14]、噪声特征(如TUPScan)[15]、数据库搜索比对(如MimoSearch、MimoBlast)[10]、机器学习(如PhD7Faster [16]、SABinder[17]、PSBinder[18])等四类方法。除了INFO程序外,上述工具均为本课题组开发,并均已整合到SAROTUP第3.1版中。该版本不仅有网络版,还提供了全部源程序、Windows及Ubuntu Linux系统的预编译程序供下载离线使用。测试结果显示,给噬菌体展示实验数据增加计算机辅助的噪声消除环节,不仅能极大地提高噬菌体展示信号解析软件预测蛋白质相互作用位点的性能,还有助于基于噬菌体展示的候选疫苗筛选[15]。
4、噬菌体展示的发展展望
综合噬菌体展示实验与生物信息学研究的进展,我们认为噬菌体展示技术的发展呈现出四大特点。第一是噬菌体文库多元化,从随机多肽库、抗体库到人类多肽组库。第二是展示设施多样化,从传统的平底皿、96孔塑料板到PACE及微流控噬菌体展示系统。第三是与下一代测序技术结合的所谓下一代噬菌体展示,可略过耗时费力费钱的滴度测定、ELISA亲和力测试等。第四是与计算方法全方位结合,从数据管理、信号分析到噪声消除,噬菌体展示实验技术和生物信息学手段取长补短、相互交融。但是,无论是体外展示(in vitro)还是体内展示(in vivo),现有研究范式都是先做实验,或再辅以生物信息学分析。这种实验+生信分析的研究范式虽然可以在一定程度上弥补实验淘选过程中大量信号丢失,结果存在较多噪声的不足;但对于噬菌体文库不完备且存在较严重的偏倚,实验周期较长,人力、物力、资金耗费较大等问题却帮助不大。随着噬菌体展示数据的积累与人工智能技术的发展,虚拟展示(in silico)呼之欲出[19]。如果数据足够充分,完全可以先通过生物信息方法建立虚拟噬菌体展示模型来淘选,再辅以实验验证。这一生信预测+实验验证新的研究范式已提上日程。
参考文献
Valuev VP, Afonnikov DA, Ponomarenko MP, Milanesi L, Kolchanov NA: ASPD (Artificially Selected Proteins/Peptides Database): a database of proteins and peptides evolved in vitro. Nucleic Acids Res 2002, 30:200-202.
Ru B, Huang J, Dai P, Li S, Xia Z, Ding H, Lin H, Guo F, Wang X: MimoDB: a New Repository for Mimotope Data Derived from Phage Display Technology. Molecules 2010, 15: 8279-8288.
Huang J, Ru B, Zhu P, Nie F, Yang J, Wang X, Dai P, Lin H, Guo FB, Rao N: MimoDB 2.0: a mimotope database and beyond. Nucleic Acids Res 2012, 40: D271-277.
He B, Chai G, DuanY, YanZ, Qiu L, Zhang H, Liu Z, He Q, Han Ke, Ru B, Guo FB, Ding H, Lin H, Wang X, Rao N, Zhou P, Huang J: BDB: Biopanning Data Bank. Nucleic Acids Research 2016, 44(D1): D1127-D1132.
He B, Jiang L, Duan Y, Chai G, Fang Y, Kang J, Yu M, Li N, Tang Z, Yao P, Wu P, Derda R, Huang J: Biopanning data bank 2018: hugging next generation phage display. Database 2018, doi: 10.1093/database/bay032.
Pizzi E, Cortese R, Tramontano A: Mapping epitopes on protein surfaces. Biopolymers 1995, 36: 675-680.
Huang J, Gutteridge A, Honda W, Kanehisa M: MIMOX: a web tool for phage display based epitope mapping. BMC Bioinformatics 2006, 7: 451.
Huang YX, Bao YL, Guo SY, Wang Y, Zhou CG, Li YX: Pep-3D-Search: a method for B-cell epitope prediction based on mimotope analysis. BMC Bioinformatics 2008, 9: 538.
Huang J, Ru B, Dai P: Bioinformatics resources and tools for phage display. Molecules 2011, 16: 694-709.
Huang J, He B, Zhou P. Mimotope-based prediction of B-cell epitopes. Methods in Molecular Biology 2014, 1184: 237-243.
He B, Dzisoo AM, Derda R, Huang J: Development and Application of Computational Methods in Phage Display Technology. Curr Med Chem 2018, doi: 10.2174/0929867325666180629123117.
Vodnik M, Zager U, Strukelj B, Lunder M: Phage display: selecting straws instead of a needle from a haystack. Molecules 2011, 16(1): 790-817.
Nguyen KT, Adamkiewicz MA, Hebert LE, Zygiel EM, Boyle HR, Martone CM, Meléndez-Ríos CB, Noren KA, Noren CJ, Hall MF: Identification and characterization of mutant clones with enhanced propagation rates from phage-displayed peptide libraries. Anal Biochem 2014, 462: 35-43.
Mandava S, Makowski L, Devarapalli S, Uzubell J, Rodi DJ: RELIC--a bioinformatics server for combinatorial peptide analysis and identification of protein-ligand interaction sites. Proteomics 2004, 4: 1439-1460.
Huang J, Ru B, Li S, Lin H, Guo FB: SAROTUP: scanner and reporter of target-unrelated peptides. J Biomed Biotechnol 2010, 2010: 101932.
Ru B, 't Hoen PAC, Nie F, Lin H, Guo FB, Huang J: PhD7Faster: Predicting clones propagating faster from the Ph.D.-7 phage display peptide library. Journal of Bioinformatics and Computational Biology 2014, 12(1): 1450004.
He B, Kang J, Ru B, Ding H, Zhou P, Huang J: SABinder: A Web Service for Predicting Streptavidin-Binding Peptides. Biomed Res Int 2016, 2016: 9175143.
Li N, Kang J, Jiang L, He B, Lin H, Huang J: PSBinder: A Web Service for Predicting Polystyrene Surface-Binding Peptides. Biomed Res Int 2017, 2017: 5761517.
Huang J, Derda R, Huang Y: Phage Display Informatics. Computational and Mathematical Methods in Medicine 2013, 2013: 698395.