这些天, 搜索引擎算是烽烟四起. 先是, 传说中的Answer Engine: WolframAlpha 上线, 再则, 微软公司新一代搜索门户: Bing.com, 以及Google的Beta产品: Google Squared接踵而至. 眼看着似乎搜索业内狂风暴雨将至, 然而个人觉得事实却并非如此.
从狭义的本质上来说, 搜索引擎(Search Engine)和问答引擎(Answer Engine, 姑且这么直译吧, 吐槽的请便.)是两种不同的存在. 不过从广义上来说, 却又可以认为是同一种东西, 只是因为其侧重点不同而导致了明显的区分.
在我看来, 这两种系统, 都做了三件事情:
- 内容组织
- 用户输入处理
- 结果呈现
从Search Engine的发展历史来看, 经历了一下几个阶段:
- 人工内容组织+目录式结果呈现
譬如当年的Yahoo!, 在多重目录里徘徊的经历让我至今印象深刻 - 爬虫收录摘要内容+简单相关性排序网页
譬如当年由卡内基 梅隆大学开发的Lycos - 大量爬虫收录网页+良好的相关性排序和索引查询算法+简单用户输入的逻辑和模式匹配
譬如当今的Google, 便是因为其基于网页引用的PageRank迭代算法给出了更好的网页排序结果而大受欢迎, 成为了互联网新一代霸主.
从这段发展史上, 我们看到的Search Engine, 更多的是在内容组织和结果呈现上面的长足进步.
另一个方面, Answer Engine却发展缓慢, 简单的做法是基于用户输入的关键词或者固定句型的, 复杂的, 则是需要考虑句法, 语法, 以及用户输入的上下文. 作为Answer Engine的两个例子, 一个便是已经是夕阳西下的Ask.com, 另一个, 便是文章开头提到的新秀: WolframAlpha. WolframAlpha做到了通过知识内容的组织, 用5万多种不同的算法将用户的提问返回结果答案.
然而一个让人依旧伤心的事实就是, WolframAlpha尽管在用户输入处理方面, 有着更加强大的算法, 但是其内容组织, 以及结果的呈现, 都不是一种良好的自适应模式. 或者说, WolframAlpha做到了人工的内容组织, 并按照一些固有的算法, 将用户的模式化输入转换成预设的模式化输出. 譬如, 当你输入Apple, 返回的都是些Apple公司的股票相关的内容, 尽管有作为food或者其他内容的提示, 但也全部都是预设好的结果. 在这个意义上看来, .WolframAlpha只是一只人工索引内容的格式化输入输出机, 几乎就是该公司的另一款产品: Mathematica, 从单机到终端online查询, 从数学领域扩散到其他人类关注的领域的一个结果.
因此在我看来, 这样的Answer Engine, 还完全不能说的上是颠覆. 借鉴Search Engine的发展历程, .Google为代表的第二代搜索引擎之所以能打败以Yahoo!为例的早期搜索引擎, 就是因为能够从他们那种人工组织内容和人工目录分类式结果呈现的古老方式中解脱出来, 用自动化的网络爬虫和基于关键词的网页自动排序来实现之. 从这个意义上来说, 也许什么时候Wolfram能够实现内容的自组织, 或者输出结果的根据互联网相关内容的自适应呈现, 那么, 也许它就能摘掉Alpha的名字, 改称为WolframBeta了吧..;)
不过话说回来, 这样的结果, 以现在IR, NLP或者AI这几个领域的发展, 也许尚早的很. 这些烽火, 也许十几二十年后, 才会有些真正的火花出来. 尚被人们所忽视的, 是移动互联网搜索格局. 移动互联上这块领域, 尚未形成制衡的局面, 传统的为PC服务的网络内容, 并不适应移动的小型互联网设备的应用. 关于这一点, 很不敢苟同与这篇文章的看法. 乱世出英雄, 正是因为目前基于移动应用的服务太少, 才会有更多的投资进入这块未开垦的地域. .因此像twitter这样先天适应移动的服务, 或者像Taptu这样完全针对移动网络的搜索引擎, 才是目前十年内科技和业内格局变更和起伏的动力来源.. 更何况, 当年互联网从萌芽到现在的历程, 有太多可以予其借鉴的地方. 移动, 才是下一代王者.
近期评论