主持人:姜晨怡(本报记者) 冯志云(本报实习生)
嘉 宾:周 涛(电子科技大学教授,电子科技大学互联网科学中心主任)
刘奕群(清华大学计算机科学与技术系讲师)
对话背景
韩媒报道称,韩国政府8月11日表示将分阶段废除网络实名制,完善同意搜集个人信息制度等对策来保护个人信息安全。韩国互联网在2007年7月实施实名制后,网民个人信息在网络上被大批量偷窃或泄露。同时,严格管理用户在自己使用过的电脑上留下的个人记录,确保不被商业组织过多利用。网络技术的进步使得个人隐私成了问题。但同时,我们又面临着海量信息,想找到自己的那款好像大海捞针,搜索出来的无数条结果犹如废品。一边是泄密,一边是废品,互联网搜索到底是怎么了?
为什么在搜索中我们不容易得到自己需要的信息?在上网或搜索过程中会不会造成信息泄露?如何保护个人信息?就此,记者采访了有关专家。
用户使用习惯和算法直接关系到搜索质量
主持人:为什么在搜索中我们不容易得到自己需要的信息?
周涛:首先,我认为在大部分情况下,借助搜索引擎,用户能够比较容易找到自己需要的信息。当然,有时候也会遇到困难,我认为原因有以下几点:最本质的原因是信息爆炸性的增长;其次是一些技术的问题,譬如怎么样判断用户输入的搜索词和网页内容的相关程度等,也是麻烦的问题;再次,搜索引擎里面加入了很多商业因素,包括推广链接,关键词竞价排名等等,这些都会在一定程度上影响搜索的质量。当然,用户自身关键词选择没有经验,也会影响搜索结果的获得。
主持人:这种搜索的盲目是否是搜索引擎故意设置?与技术有没有关系?
周涛:搜索的质量和搜索算法有直接的关系。当然,一方面算法在不停改进,另一方面,搜索的范围在不断扩大,用户对信息准确程度的要求越来越高,所以用户对搜索质量的评价不一定会提高。任何一个搜索引擎都希望用户能够尽快获得所需要的信息,不会故意设置障碍!
刘奕群:从我的角度来说,我很难设想搜索引擎会故意在用户使用的过程中设置障碍。搜索引擎行业的竞争是非常激烈的,所有的搜索引擎公司都希望能够最快地、最好地满足用户的需求。当然搜索引擎也和其他网站一样,希望能够尽量长时间地让用户留在这个页面上,因为长时间的停留有可能会带给它更多的利益,任何网站都是这样。因此,搜索引擎肯定是想留住用户,但是我很难想象搜索引擎会用设置障碍的方式将用户留在上面更长时间,这也是不太现实的。
现在有一个比较明显的误区,就是大家都认为只要把广告放在搜索页面上,就可以赚钱。这是完全不对的。因为所有的搜索引擎都不是通过“展现给用户”的模式来计费的,搜索引擎都是采用点击收费的模式。所以,如果在某次查询时,搜索引擎给了用户一个明显不相关的广告,这对搜索引擎来说也是一件很不划算的事情。因为当用户发现这是一个明显的无关的欺诈行为的话,用户可以选择不点击它,搜索引擎一样赚不到钱。所以从这个意义上说,搜索引擎和用户之间是共赢的:搜索引擎希望用户找到自己最想要的东西,从而保持自己的竞争力;而另一方面,用户也想通过搜索引擎找到最想要的。
搜索引擎很难对所有信息都公平
主持人:搜索引擎是不是应该对所有网站和信息都公平?
周涛:世界上没有绝对的公平,互联网也一样,但至少互联网要比现实社会更公平。任何一个搜索算法本身肯定是具有倾向性的,譬如会倾向于有很多链接链入的网页,会倾向呈现新近出现或新近活跃的网页等等。但是这个算法给定之后,对于所有的网页,它们的排序是严格按照算法来的,从这个意义上讲,这是公平的。当然,百度开创性地把经济作为一个维度放入到搜索算法中,允许网页的所有人通过付费的形式,提高网页排名。从算法的角度来看,这应该是一种不公平的行为。不过,用户不应该对此有太多的批评,我们首先要感谢这些搜索引擎对数千亿网页进行抓取分析。我们肯定也经常通过这些搜索引擎获得有价值的信息,因此允许它们引入一些“不公平”因素而很好活下去,对用户自己也是有好处的。譬如,在没有百度和必须绕过百度6个推广链接之间,我觉得用户肯定会选择后者。从另一个角度讲,如果百度赚到足够多的钱并且开拓了很多新的商业模式后,能够逐步减轻甚至放弃竞价排名机制,用户肯定是乐于看到的。
刘奕群:搜索引擎很难做到对所有的信息是公平的。比如说,我是一个个人网站主,并开设了一个自己的网站,并不能说搜索引擎对我的网站的内容和对门户网站的内容就是公平的。因为我的投入也不够,尽管我的内容可能在某一个方面是非常漂亮的,但是很难为人所知,所以搜索引擎也很难抓取到。因此,完全的公平是很难做到的。从另一个角度讲,搜索引擎并不是一个公益行业,要完全地公平地呈现信息也是不太可能的。现在搜索引擎会通过一些自己支持的项目使互联网上的信息获取尽量平等些。
通过分析历史和喜好 呈现用户自己的搜索结果
主持人:有哪些技术或方法能让用户更快捷地找到对自己有用的信息?
周涛:除了搜索中用到的切词技术、语义分析、排序算法等等,我觉得在经典搜索算法之外,最有可能改变搜索体验的技术,就是所谓的个性化技术。简而言之,是通过用户以前搜索的结果和点击的历史,分析用户的喜好,从而为每一个用户呈现个性化的搜索结果。事实上,百度已经推出了个性化搜索的服务,国内也有专门做个性化技术的公司,例如百分点科技。个性化搜索及其他互联网的个性化服务会很快走入大多数互联网用户的生活。
注意,个性化技术意味着用户要损失一定的个人隐私。
刘奕群:基于我们现有的搜索引擎应用环境,我有两个建议。第一个建议是,如果用户要进行一些商业意图比较明显的搜索的话,并不一定要通过一般搜索引擎来进行。当然这个对用户的要求就比较高了,用户应当可以了解一些我们称之为“垂直搜索引擎”的资源。这个搜索引擎可能是面向某一个特殊的领域搜索。另一个建议是,因为搜索引擎面对的是一个非常复杂的信息环境,这个信息环境中可能有很多的噪音,很多的垃圾,这个是很难避免的。所以用户在使用搜索引擎的时候一定要意识到搜索不是万能的,是可能产生错误的。因此用户在使用搜索引擎时,应当怀着一个“七分信任、三分怀疑”的心态去看网上的资源。
个性化意味着要损失一定的个人隐私
主持人:用户有没有什么方法能够找到适合自己的信息?
周涛:如果用户希望主动获取,我个人觉得最好的途径还是搜索引擎。其次,用户可以把自己常用的网页收藏起来,譬如用Delicious提供的工具,并且用合适的标签进行管理。以后,通过浏览兴趣相投的其他用户的收藏,或者同一组标签下的其他收藏,很容易找到感兴趣的内容。如果用户希望被动获取,那么推荐引擎是一个很好的选择。
主持人:推荐搜索引擎会不会引起个人信息泄露呢?
周涛:这是一个平衡的问题,要想获得更好的体验,就需要牺牲一部分个人隐私。当然,这部分隐私应该只能被用于提高搜索的质量,而不能被企业公开或贩卖或谋求其他利益。如果用户担心自己的隐私被泄露,但又想获得更好的个性化的搜索体验。我建议用户在平时工作或者娱乐的时候,可以登陆使用个性化搜索。在特定的一些隐私活动,譬如搜索自己的一些病症,搜索可能的诉讼问题,搜索色情网站等等的时候,就退出登录。
———— 趣谈 ————
《天龙八部》与推荐搜索 找到你的那一款
数千亿计的网页,淘宝的上亿件商品,Delicious的数亿网页收藏,Amazon的百万图书,Netflix的数万部电影……对于我们而言,仅仅是将这些浏览一遍也要穷尽若干人生,更不用提仔细思量比较,选择最适合自己的产品。简而言之,一般互联网用户对于绝大多数名义上可以获取的信息都是一无所知的。
搜索引擎的出现,是解决信息过载问题的一个里程碑式的事件。搜索引擎的本质是帮助用户找到“他想要的东西”。用户在使用搜索引擎的时候,需要输入若干关键词进行查询,这就意味着用户使用之前,对于查询结果的内容和形式存在着预设的期望。典型如查找某机构地址和联系方式,某网站主页,某八卦新闻详情等。
推荐引擎的本质是帮助用户找到“他喜欢的东西”。推荐引擎在没有把用户喜欢的东西呈现给用户之前,用户对这些东西很可能是一无所知的:既不知道其存在性,更谈不上预先知道是否喜欢了。推荐引擎是通过用户以前的访问记录,猜到用户喜欢什么,然后把用户喜欢的东西找出来,推送到用户面前。
以《天龙八部》为例,段誉在无量山山洞中见到神仙姐姐的时候,就植下了一生的情种。之后在燕子坞见到王夫人的时候,觉得有三四分相似;见到王语嫣的时候,觉得有七八分相似。从此,段誉对王语嫣的爱慕没有变化过。对于这种需求,搜索引擎最合适不过了,想象段誉可以把神仙姐姐的特征转化成关键词输入进去,我们的任务就是在千千万万的候选人中找出最象神仙姐姐的那位!段正淳则不一样,爱过的女人很多,刀白凤、秦红棉、甘宝宝、阮星竹、王夫人、马夫人……可谓是百花争艳,各逞擅长。要给段正淳找女友,就必须用推荐引擎,因为他自己到死都不知道自己喜欢什么样的女人!我们的任务就是分析他喜欢过的,找到他喜欢的,然后推荐给他。
推荐引擎具有巨大的商业价值,在商品导购、个性化服务、广告投放等方面都已经产生了众多成功应用。以电子商务为例,据VentureBeat统计,Amazon中超过35%的销售,直接来自于推荐。(周涛)