《科技日报》关于搜索信息规范与公平性的采访
周涛  |  2011-08-22  |  科学网  |  378次阅读
回答得比较水,大家提提意见和看法
---------------------------------

1. 为什么在搜索中我们不容易得到自己需要的信息?

    首先,我认为在大部分情况下,借助搜索引擎,用户能够比较容易找到自己需要的信息。当然,有的时候也会遇到困难,我认为原因有以下几点:最本质的原因是信息爆炸性的增长,譬如网页现在有数千亿,在这里面找你需要的内容多多少少有大海捞针的感觉;其次是一些技术的问题,譬如怎么样判断用户输入的搜索词和网页内容的相关程度,从中文切词到语义分析现在都存在很多问题没有解决,并且还要把内容的相关性和网页本身的流行程度都考虑在内,如何权衡两者的贡献,也是个麻烦的问题;再次,搜索引擎里面加入了很多商业因素,包括推广链接,关键词竞价排名等等,这些都会在一定程度上影响搜索的质量——譬如百度搜索结果的首页有6个推广链,搜狗有9个。当然,用户自身关键词选择没有经验,也会影响搜索结果的获得。

2. 这种搜索的盲目是否是搜索引擎故意设置?与技术有没有关系?

如上所述,搜索的质量和搜索算法有直接的关系。当然,一方面算法在不停改进,另一方面,搜索的范围在不断扩大,用户对信息准确程度的要求越来越高,所以用户对搜索质量的评价不一定会提高。任何一个搜索引擎都希望用户能够尽快获得所需要的信息,不会故意设置障碍!

3. 搜索引擎是不是应该对所有网站和信息都公平?

世界上没有绝对的公平,互联网也一样,但至少互联网要比现实社会更公平。任何一个搜索算法本身肯定是具有倾向性的,譬如会倾向于有很多链接链入的网页,会倾向呈现新近出现或新近活跃的网页,等等。但是这个算法给定之后,对于所有的网页,它们的排序是严格按照算法来的,从这个意义上讲,这是公平的。当然,百度开创性地把经济作为一个维度放入到搜索算法中,允许网页的所有人通过付费的形式,提高网页排名。从算法的角度来看,这应该是一种不公平的行为。不过,用户不应该对此有太多的批评,我们首先要感谢这些搜索引擎对数千亿网页进行抓取分析。我们肯定也经常通过这些搜索引擎获得有价值的信息,因此允许它们引入一些“不公平”因素而很好活下去,对用户自己也是有好处的。譬如,在没有百度和必须绕过百度6个推广链接之间,我觉得用户肯定会选择后者。从另一个角度讲,如果百度赚到足够多的钱并且开拓了很多新的商业模式后,能够逐步减轻甚至放弃竞价排名机制,用户肯定是乐于看到的。

4. 有哪些技术或方法能让用户更快捷地找到对自己有用的信息?

除了搜索中用到的切词技术、语义分析、排序算法等等,我觉得在经典搜索算法之外,最有可能改变搜索体验的技术,就是所谓的个性化技术。简而言之,是通过用户以前搜索的结果和点击的历史,分析用户的喜好,从而为每一个用户呈现个性化的搜索结果。举个例子,如果一个用户经常上一些音乐网站,包括搜索一些乐曲和歌手,那么在这个用户输入“甲壳虫”这个搜索词的时候,引擎应该首先返回甲壳虫乐队的消息;反过来,对于一个经常登陆汽车类网站的汽车爱好者,就要把大众的甲壳虫轿车放在第一位。事实上,百度已经推出了个性化搜索的服务,国内也有专门做个性化技术的公司,例如百分点科技。个性化搜索及其他互联网的个性化服务会很快走入大多数互联网用户的生活。

注意,个性化技术意味着用户要损失一定的个人隐私,这些我在第六个问题讨论。

5、用户有没有什么方法能够找到适合自己的信息?

如果用户希望主动获取,我个人觉得最好的途径还是搜索引擎。其次,用户可以把自己常用的网页收藏起来,譬如用Delicious提供的工具,并且用合适的标签进行管理。以后,通过浏览兴趣相投的其他用户的收藏,或者同一组标签下的其他收藏,很容易找到感兴趣的内容。如果用户希望被动获取,那么推荐引擎是一个很好的选择。

6、推荐搜索引擎会不会引起个人信息泄露呢?

 这是一个平衡的问题,要想获得更好的体验,就需要牺牲一部分个人隐私。当然,这部分隐私应该只能被用于提高搜索的质量,而不能被企业公开或贩卖或谋求其他利益。如果用户担心自己的隐私被泄露,但又想获得更好的个性化的搜索体验。我建议用户在平时工作或者娱乐的时候,可以登陆使用个性化搜索。在特定的一些隐私活动,譬如搜索自己的一些病症,搜索可能的诉讼问题,搜索色情网站等等的时候,就退出登录。




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文