这两天我的微信群与朋友圈颇有被Google DeepMind团队刚刚在 Science杂志上发表的AlphaMissense [1]刷屏的趋势,说能精准预测蛋白质错义突变的表型。根据介绍,这个 AlphaMissense既对AlphaFold进行了微调,考虑了蛋白质结构的影响,又整合了一种受 ChatGPT 等大型语言模型启发的神经网络,有蛋白质语言模型的加持。AlphaFold、ChatGPT 、深度学习、语言模型、结构大模型、语言大模型、大模型…… ,再加上Google DeepMind团队的光环,妥妥的CNS嘛,果然也“科学”了。
正好这段时间正和在相应学科领域排名全国第一的临床医院科室的专家团队一起研究一个蛋白质的错义突变。他们已在临床上发现了两个家系几位病人,同样的错义突变,同样的致病表型,但致病机制却还不清楚。要是能让这个在 Science杂志上新鲜出炉的AlphaMissense为我们正在研究的错义突变背书,岂不美哉。于是立即布置博士生用AlphaMissense来“预测”一下。
结果,AlphaMissense给出的评分相当相当低,结论是“可能良性(likely_benign)”。啥?简直是当头一棒啊!本来想碰瓷AlphaMissense的,结果真被撞死了,大型翻车现场啊。但是,临床的结果实实在在摆在那儿的啊,而且不是一个病人的孤例。
这如何是好?生物信息又要被当临床专家看瘪了。只好亲自出马找补一下,想起了EBI的一个生物信息工具ProtVar,它整合了几个专业方法或模型。结果,2021年发表于Nature杂志基于进化数据的生成式深度学习模型EVE [2] 没有给出结果,倒是一个基于支持向量机的模型CADD(Combined Annotation-Dependent Depletion)给出了“十分可能有害(Quite likely deleterious)”的预测。这个CADD [3],2014年最初发表于NG,最近几年“堕落到”只能发发NAR的境地了[4]。
总之,就这个错义突变案例而言,根据临床病理数据判断,CADD的预测最为准确而AlphaMissense的确错了。据说,EMBL-EBI 会将AlphaMissense整合到 Ensembl Variant Effect Predictor ,这样也就更方便更多同行在未来对相关工具与模型进行更客观与更系统的测评。
参考文献
1. Cheng, J. et al. Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science 381, eadg7492 (2023).
2. Frazer, J. et al. Disease variant prediction with deep generative models of evolutionary data. Nature 599, 91–95 (2021).
3. Kircher, M. et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat. Genet. 46, 310–315 (2014).
4. Rentzsch, P., Witten, D., Cooper, G. M., Shendure, J. & Kircher, M. CADD: predicting the deleteriousness of variants throughout the human genome. Nucleic Acids Res. 47, D886–D894 (2019).