师说 | 网络名师博客群 of 电子科技大学

计算决定未来——如何成为渣级生物信息学者

黄健 | 2014-11-30 | 科学网 | 710次阅读

昨天到广州参加广东省高性能计算学会2014年会暨第三届基于高性能计算的生物医药应用研讨会及CAE专委会成立会......嗨，这会议名称也真够长的。还是会议主题简洁有力，计算决定未来，我现在很认同。为啥呢？从成都出发时没有看广州的天气预报，只瞟了一眼新闻说今年最强寒潮来了，于是就没带T恤或衬衣，依旧毛衣、外套到了广州。飞机降落时，广播里传来温柔的声音......地面温度26℃......一下飞机，果然热浪袭人。好在出租车与宾馆里空调冷气足，否则可能已经中暑。晚餐后一边赶紧准备题为《生物淘选的生物信息学研究》的报告演示文档，呵呵，标题也挺拗口的，算是和会议对个联吧；一边让学生帮忙去商场买件T恤应急。等PPT和T恤都弄好了，一上QQ，自动弹出大粤网头条，大意是：强冷空气周日晚杀到，广东气温将直降8℃-12℃；最低气温将出现在4日-5日，其中粤北2℃～5℃，中南部5℃～10℃。看得我扼腕叹息：冷空气来得太慢！由于没有计算或者没有认真计算，这次参会，手忙脚乱。

因此，今天下午我的报告成了我的哭诉。各位台下毛衣、外套，热情出汗的朋友，大家好。想来你们都是不计算或不相信计算结果与天气预报，认为实验最可靠的主。我原来也和你们一样。我以前总是认为生物淘选经过结合、洗脱、扩增多个循环，DNA测序，多肽合成，ELISA、SPR结合测试等多个环节实验结果应该很可靠，很有价值。于是我们阅尽相关文献，提取数据，构建了相应的数据库可谓“望尽天涯路”。之后不断更正、更新、升级数据库，研究解析生物淘选数据的方法，开发相应的软件工具，可谓“衣带渐宽终不悔，为伊消得人憔悴。”可是，当汇聚了世界各地的实验数据后蓦然回首，才发现原来实验结果不靠谱的多了去了，我们数据库最重要的功能居然是能评价实验结果靠谱不靠谱，甚至能够用不靠谱数据集建模来预测实验结果数据是否靠谱。到了这里，我以为我们的研究很有用，第一次以计算为标准，衡量实验结果是否靠谱，而不是通常的以实验结果为标准来衡量计算是否靠谱。于是以为自己的研究已经从古今之成大事业、大学问者的第一境、第二境提升到第三境，为之投笔四顾，踌躇满志。

自得没几天，上个月南京会议就扇了我一巴掌。Xiaole Shirley Liu教授在青年沙龙后写了篇博客评价生物信息学者的水平（Levels of Bioinformatics Research）；在此基础上龙五公子演绎了中文版《如何成为顶级生物信息学家》，生物信息学者的水平可以一言以蔽之：0级（渣级），为建模而建模；1级（菜鸟级），给数据、能分析；2级（肉鸟级），想新招、玩数据，如算法、工具、数据库；3级（顶级），玩数据、作发现，数据开始，实验验证结束；X级（神级），玩科学、讲政治，新的研究范式，例如基因组测序。我仔细对照，发现自己起点不错，数据库，大概可归入2级。后来拿自己的数据库数据分析，发现有不少噪声（不靠谱的数据），这大概算1级。再后来，给噪声数据建模型，已经堕落到了0级......眼看朋友们纷纷从2级向3级与X级挺近，我却一步步走向深渊，悲从中来，不可断绝。

有位聪明睿智英明神武，正从2级向3级与X级迈进的同事仔细分析了上述评级，认为与JCR的影响因子有较好的线性相关性。0级多见于0-2分期刊，1级多见于2-5分期刊，2级多见于5-8分期刊，3级多见于8分以上期刊X级可发CNS。功夫熊猫中乌龟大师说：“There is no accident”。因此，我相信从发表文章的影响因子看，上述“研究水平”分级有一定道理，但我不认为在科学意义也有这样一致的高下之分。这种分级的的潜台词是：实验决定未来，实验最可靠，实验是金标准，实验不会错，如果计算结果与实验不符，那一定是计算不靠谱，生物信息就是垃圾进垃圾出。夜已深，不能再啰嗦了。我只想说，如果生物信息是计算的垃圾出，那也是因为实验的垃圾进！如果你相信计算决定未来，请做好成为渣级生物信息学者的心里准备。

文章原载于作者的科学网文章，所述内容属作者个人观点，不代表本平台立场。

本文经过系统重新排版,阅读原内容可点击阅读原文

热榜

大数据与人工智能的伦理挑战（1）

磨刀不误砍柴工

诸神归位——我电院系调整的原因及必要性分析

妈妈给了我什么？——兼谈儿童教育

专业放大镜：生物技术（生物-信息复合培养实验班）

成电建校史

推荐描述危机时刻的选择的短篇小说《堪萨斯》

网络信息挖掘的关键算法研究（上）

大数据与人工智能的伦理挑战（2）