随着信息存储与处理技术以及互联网与万维网的发展,我们可以获取的信息总量呈现爆炸性增长的趋势。例如,可以访问的URL数目据估计超过2000亿,淘宝购物平台上的商品数目超过8亿,亚马逊上有超过100万本图书,Youtube上有上亿视频,网狸上有超过3万部电影电视剧……与此同时,我们处理信息的能力却没有相应的增长——且不说仔细分析评判所有可以获取的信息并进行选择,但是读完相关的题目就是一件人力不可奢望的事情。可以说,在互联网时代,信息科学面临的最大挑战就是如何解决信息过载问题,也就是如果帮助普通用户获取他所感兴趣的信息。
信息挖掘是极有希望推动并最终解决信息过载问题的关键方法。从广义上说,信息挖掘包括两个部分:一是信息检索,二是信息发现。前者着力于将已经有的信息以一种更好的方式进行组成,并以更易于理解和获取的方式展现给用户。最典型的技术就是搜索引擎,当用户输入搜索词后,搜索引擎返回URL按照相关紧密程度的一个排序。相比在>500亿网页中盲目寻找,搜索引擎的作用显而易见。信息发现则是通过分析,自动地推断一些可能的关联,这种关联本身可以看作新的信息。推荐引擎是一个典型的例子,它自动记录和分析用户以前访问过的网页、购买过的商品等等,然后推断用户可能对某网页或某商品感兴趣(这个推断本身是一种新的关联信息,所以被称作信息发现),并将这个信息告诉用户(表现为将网页或者商品推荐给用户)。用户在没有收到推荐之前,很可能不知道被推荐对象的存在。搜索引擎是以被动的方式服务(需要用户输入搜索词),是对已知信息的再组织,推荐引擎是以主动的方式服务,是对未知信息的发现,两者共同组成了用户的信息导航器。我们经常忽悠的链路预测可以看作一部分图上的推荐。