标签存档: Google

Google Prediction API

昨天的Google I/O 2010大会上, Google 针对网页内嵌多媒体做了一件非常有勇气, 也非常豪气的事儿: 开放VP8视频编码, 并成为由Google, Opera, Mozilla等主导的网页多媒体开放项目WebM的一部分. Google对开源和开放事业真是不遗余力啊…

不过个人最关心的一件事, 还是Google最新开放的Prediction API. 它包含以下特性:

  • 轻量级 RESTful API
  • 异步传输
  • 多种可用的机器学习方法可供查询
  • 同时支持数值型和无结构文本的输入
  • 支持各种类型的输出
  • 能够从各种平台调用, 包括: Google App Engine, Apps Script (Google Spreadsheets), 网页和桌面级的app, 以及命令行

同时, Prediction API 可以用来完成以下任务:

  • 字符语言检测
  • 客户情感分析
  • 商品推荐和追加销售(up-sell)
  • Message routing decisions
  • 诊断学
  • 文档和Email分类
  • 可疑行为监测
  • 客户流失分析
  • 其他更多待加入..

不知道Google的这些预测模型都是基于哪些成熟的算法. 看到该Project的Google Group里面有人在问相关的问题, 继续关注ing.

Google 撤出中国?! 谁在拍手称快?

早上上班的路上, 点开UCweb上的Google Reader, 就看到一个惊人的标题: Google可能关闭谷歌中国 全面退出中国市场. 随即来到公司打开电脑, 在Google 官方Blog里找到了确切的依据:

These attacks and the surveillance they have uncovered–combined with the attempts over the past year to further limit free speech on the web–have led us to conclude that we should review the feasibility of our business operations in China. We have decided we are no longer willing to continue censoring our results on Google.cn, and so over the next few weeks we will be discussing with the Chinese government the basis on which we could operate an unfiltered search engine within the law, if at all. We recognize that this may well mean having to shut down Google.cn, and potentially our offices in China.

之前不是没听说过类似的传闻.Twitter上今年10月份忽然传开Google撤出中国服务器的消息, 经追踪来源, 是新浪微博认证账户的胡延平10月23日的一条状态. 当时大家也许更多的是当做一次恶意的自我营销活动, 几乎没有人相信这一点. 没想到今天果然到了这般田地.

中国最近一年来对互联网的管制, 已经到了走火入魔的地步, 也让我这样的互联网民忍无可忍, 却也无可奈何的使用各种各样的翻墙软件.  Google作为一家商业公司, 能够宁为玉碎,不为瓦全, 必须为之喝彩! 反观百度首席产品设计师孙云丰的嘴脸, 倒是真的一副市侩分子的模样.

现在如果大家打开Google中国的图片搜索, 应该能看到这样的关键词结果. “no longer willing to continue censoring our results on Google.cn”, 说到做到啊, 看来Google和中国政府是真的干上架了. 不知Google的决定和结局会如何, 倒是对于中国政府, 我相信一句话: 泱泱大国, 颜面何存? 没有退步的可能. 基于这样的考虑, 大家最好还是先做好以下准备工作:

  1. 安装Google Gears. 使用offline功能备份你的Gmail等服务
  2. 备份Google Reader的订阅列表和Google Docs的重要文档.
  3. 准备翻墙吧!
  4. 注册其他域名邮箱, 或者使用备用的邮箱.
  5. 回家洗干净准备几年后接受国安的裸体检查

倘若真有这么一天, Google撤离, 受益者会是谁? 个人认为最大的受益者并不一定是百度, 而是像腾讯搜搜之类, 一直在两大主流搜索引擎压抑之下喘气的小流量搜索. 那时候, 中国互联网的最终赢家会是谁, 还真不知道呢..  此时拍手称快的, 大约也磨刀霍霍了吧?

搜索引擎的明天

这些天, 搜索引擎算是烽烟四起. 先是, 传说中的Answer Engine: WolframAlpha 上线, 再则, 微软公司新一代搜索门户: Bing.com, 以及Google的Beta产品: Google Squared接踵而至. 眼看着似乎搜索业内狂风暴雨将至, 然而个人觉得事实却并非如此.

从狭义的本质上来说, 搜索引擎(Search Engine)和问答引擎(Answer Engine, 姑且这么直译吧, 吐槽的请便.)是两种不同的存在. 不过从广义上来说, 却又可以认为是同一种东西, 只是因为其侧重点不同而导致了明显的区分.

在我看来, 这两种系统, 都做了三件事情:

    • 内容组织
      • 用户输入处理
        • 结果呈现

          从Search Engine的发展历史来看, 经历了一下几个阶段:

          1. 人工内容组织+目录式结果呈现
            譬如当年的Yahoo!, 在多重目录里徘徊的经历让我至今印象深刻
          2. 爬虫收录摘要内容+简单相关性排序网页
            譬如当年由卡内基 梅隆大学开发的Lycos
          3. 大量爬虫收录网页+良好的相关性排序和索引查询算法+简单用户输入的逻辑和模式匹配
            譬如当今的Google, 便是因为其基于网页引用的PageRank迭代算法给出了更好的网页排序结果而大受欢迎, 成为了互联网新一代霸主.

          从这段发展史上, 我们看到的Search Engine, 更多的是在内容组织和结果呈现上面的长足进步.

          另一个方面, Answer Engine却发展缓慢, 简单的做法是基于用户输入的关键词或者固定句型的, 复杂的, 则是需要考虑句法, 语法, 以及用户输入的上下文. 作为Answer Engine的两个例子, 一个便是已经是夕阳西下的Ask.com, 另一个, 便是文章开头提到的新秀: WolframAlpha. WolframAlpha做到了通过知识内容的组织, 用5万多种不同的算法将用户的提问返回结果答案.

          然而一个让人依旧伤心的事实就是, WolframAlpha尽管在用户输入处理方面, 有着更加强大的算法, 但是其内容组织, 以及结果的呈现, 都不是一种良好的自适应模式. 或者说, WolframAlpha做到了人工的内容组织, 并按照一些固有的算法, 将用户的模式化输入转换成预设的模式化输出. 譬如, 当你输入Apple, 返回的都是些Apple公司的股票相关的内容, 尽管有作为food或者其他内容的提示, 但也全部都是预设好的结果. 在这个意义上看来, .WolframAlpha只是一只人工索引内容的格式化输入输出机, 几乎就是该公司的另一款产品: Mathematica, 从单机到终端online查询, 从数学领域扩散到其他人类关注的领域的一个结果.

          因此在我看来, 这样的Answer Engine, 还完全不能说的上是颠覆. 借鉴Search Engine的发展历程, .Google为代表的第二代搜索引擎之所以能打败以Yahoo!为例的早期搜索引擎, 就是因为能够从他们那种人工组织内容和人工目录分类式结果呈现的古老方式中解脱出来, 用自动化的网络爬虫和基于关键词的网页自动排序来实现之. 从这个意义上来说, 也许什么时候Wolfram能够实现内容的自组织, 或者输出结果的根据互联网相关内容的自适应呈现, 那么, 也许它就能摘掉Alpha的名字, 改称为WolframBeta了吧..;)

          不过话说回来, 这样的结果, 以现在IR, NLP或者AI这几个领域的发展, 也许尚早的很. 这些烽火, 也许十几二十年后, 才会有些真正的火花出来. 尚被人们所忽视的, 是移动互联网搜索格局. 移动互联上这块领域, 尚未形成制衡的局面, 传统的为PC服务的网络内容, 并不适应移动的小型互联网设备的应用. 关于这一点, 很不敢苟同与这篇文章的看法. 乱世出英雄, 正是因为目前基于移动应用的服务太少, 才会有更多的投资进入这块未开垦的地域. .因此像twitter这样先天适应移动的服务, 或者像Taptu这样完全针对移动网络的搜索引擎, 才是目前十年内科技和业内格局变更和起伏的动力来源.. 更何况, 当年互联网从萌芽到现在的历程, 有太多可以予其借鉴的地方. 移动, 才是下一代王者.