计算决定未来——如何成为渣级生物信息学者
黄健  |  2014-11-30  |  科学网  |  456次阅读

昨天到广州参加广东省高性能计算学会2014年会暨第三届基于高性能计算的生物医药应用研讨会及CAE专委会成立会......嗨,这会议名称也真够长的。还是会议主题简洁有力,计算决定未来,我现在很认同。为啥呢?从成都出发时没有看广州的天气预报,只瞟了一眼新闻说今年最强寒潮来了,于是就没带T恤或衬衣,依旧毛衣、外套到了广州。飞机降落时,广播里传来温柔的声音......地面温度26℃......一下飞机,果然热浪袭人。好在出租车与宾馆里空调冷气足,否则可能已经中暑。晚餐后一边赶紧准备题为《生物淘选的生物信息学研究》的报告演示文档,呵呵,标题也挺拗口的,算是和会议对个联吧;一边让学生帮忙去商场买件T恤应急。等PPT和T恤都弄好了,一上QQ,自动弹出大粤网头条,大意是:强冷空气周日晚杀到,广东气温将直降8℃-12℃;最低气温将出现在4日-5日,其中粤北2℃~5℃,中南部5℃~10℃。看得我扼腕叹息:冷空气来得太慢!由于没有计算或者没有认真计算,这次参会,手忙脚乱。

因此,今天下午我的报告成了我的哭诉。各位台下毛衣、外套,热情出汗的朋友,大家好。想来你们都是不计算或不相信计算结果与天气预报,认为实验最可靠的主。我原来也和你们一样。我以前总是认为生物淘选经过结合、洗脱、扩增多个循环,DNA测序,多肽合成,ELISA、SPR结合测试等多个环节实验结果应该很可靠,很有价值。于是我们阅尽相关文献,提取数据,构建了相应的数据库可谓“望尽天涯路”。之后不断更正、更新、升级数据库,研究解析生物淘选数据的方法,开发相应的软件工具,可谓“衣带渐宽终不悔,为伊消得人憔悴。”可是,当汇聚了世界各地的实验数据后蓦然回首,才发现原来实验结果不靠谱的多了去了,我们数据库最重要的功能居然是能评价实验结果靠谱不靠谱,甚至能够用不靠谱数据集建模来预测实验结果数据是否靠谱。到了这里,我以为我们的研究很有用,第一次以计算为标准,衡量实验结果是否靠谱,而不是通常的以实验结果为标准来衡量计算是否靠谱。于是以为自己的研究已经从古今之成大事业、大学问者的第一境、第二境提升到第三境,为之投笔四顾,踌躇满志。

自得没几天,上个月南京会议就扇了我一巴掌。Xiaole Shirley Liu教授在青年沙龙后写了篇博客评价生物信息学者的水平(Levels of Bioinformatics Research);在此基础上龙五公子演绎了中文版《如何成为顶级生物信息学家》,生物信息学者的水平可以一言以蔽之:0级(渣级),为建模而建模;1级(菜鸟级),给数据、能分析;2级(肉鸟级),想新招、玩数据,如算法、工具、数据库;3级(顶级),玩数据、作发现,数据开始,实验验证结束;X级(神级),玩科学、讲政治,新的研究范式,例如基因组测序。我仔细对照,发现自己起点不错,数据库,大概可归入2级。后来拿自己的数据库数据分析,发现有不少噪声(不靠谱的数据),这大概算1级。再后来,给噪声数据建模型,已经堕落到了0级......眼看朋友们纷纷从2级向3级与X级挺近,我却一步步走向深渊,悲从中来,不可断绝。

有位聪明睿智英明神武,正从2级向3级与X级迈进的同事仔细分析了上述评级,认为与JCR的影响因子有较好的线性相关性。0级多见于0-2分期刊,1级多见于2-5分期刊,2级多见于5-8分期刊,3级多见于8分以上期刊X级可发CNS。功夫熊猫中乌龟大师说:“There is no accident”。因此,我相信从发表文章的影响因子看,上述“研究水平”分级有一定道理,但我不认为在科学意义也有这样一致的高下之分。这种分级的的潜台词是:实验决定未来,实验最可靠,实验是金标准,实验不会错,如果计算结果与实验不符,那一定是计算不靠谱,生物信息就是垃圾进垃圾出。夜已深,不能再啰嗦了。我只想说,如果生物信息是计算的垃圾出,那也是因为实验的垃圾进!如果你相信计算决定未来,请做好成为渣级生物信息学者的心里准备。




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文