信息挖掘的科学与社会经济价值
周涛  |  2011-03-26  |  科学网  |  294次阅读

信息的组织和发现是重要的科学问题,事实上,信息挖掘的研究荟萃了计算机科学、物理学和数学的很多思想、方法和技术。与此同时,我们也注意到,尽管信息挖掘一直是一个非常活跃的研究领域,这方面的研究一直停留在具体方法的层面,也就是针对一个具体的问题或一类问题,提出具体的算法并比较算法在某些数据集上的表现。这样的研究对于暂时缓解某些实际需求的压力而言,使有贡献的,但距离解决一个科学问题甚远!举例来说,给定一群用户购买商品的历史,我们可以知道某个具体的算法在把10%的数据作为测试数据时的推荐精确度有多少,但是却无法回答一个问题:“在这样的数据集上进行推荐,精确的上限是多少?”对于若干算法,我们能够知道他们在某些具体的数据集上的表现,却无法清楚回答“什么样的数据集应该选择什么样的算法,为什么某算法在A数据集上出类拔萃而在B数据集上不尽如人意?”现在的研究思路无法导致对上面这些基础问题的有效回答!事实上,国际学术界对于信息挖掘方法和技术的研究甚嚣尘上,却一直没有任何基础理论的探索。如果能建立信息挖掘的坚实的理论基础,将是国际上这一领域万众瞩目的突破性进展,并必将导致在方法论层面上革命性的进步。我个人认为统计力学的系综理论有望成为信息挖掘的理论基础,而平均场分析方法有望成为分析估计算法表现的有力武器(参考研究方案),这方面的研究,不仅是信息科学的重大突破,也能极大地拓广统计物理对其他学科的渗透,对于建设具有广阔视野的统计物理学科平台有重大助益。

    信息挖掘技术还具有重大的社会经济价值。前者体现为搜索引擎和推荐引擎可以帮助数十亿互联网用户更好地找到所需要或喜爱的信息,大幅度增强用户的体验,包括工作的效率。后者体现为两者巨大的经济价值。Google, Baidu, Yahoo等搜索引擎,每年新创造的相关商业价值超过千亿美元。推荐引擎潜在的商业价值更加巨大,到2013年仅国内电子商务B2C市场将超过6000亿人民币,这还不包括淘宝、京东、拍拍这样的电子商务平台商,更不包括可以使用推荐技术的其他领域,包括在线社会网络、社会游戏、传统大卖场等等。如果推荐技术的渗透率达到10%,全球范围来估计也会远远超过千亿美元这个市场量级。从这个意义上讲,希望能够在推荐技术上有所突破,从而对我国相关高技术创新性产业技术在参与国际竞争方面产生推动作用




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文