分类存档: Thinking

翻过那座墙的一点心得

网上估计SSH -D方式翻墙的教程一大堆, 不过还是留点自己的笔记. 之前在这篇文章里提到了一些翻墙方法, 加上这之后不断尝试的其他方式, 现在来个大总结:

  • SSH -D

个人最推荐的一种方式. 如果你已经有一个自己的域名和国外的服务器托管空间, 直接用它吧.

优点:

  1. 跨平台(windows, linux, mac 只要支持ssh端口转发即可), 配合pac文件, 无敌了. 特别是对于mac下访问twitter, 很多客户端都没有提供api proxy的支持, 又不想使用全局翻墙的话, 就可以用它来实现
  2. 速度快. 原本了解到ssh方式翻墙, 但是一直没有去尝试的原因, 就是因为ssh访问dreamhost的时候, 发现特别卡. 所以想当然的认为如果通过它翻墙, 速度完全不靠谱. 没想到同事 @lyoe 尝试之后告知速度不错, 于是立马动心了.
  3. 很难封禁. 一般gfw不会前来封禁你的域名, 除非你在该域名上干了啥惊天动地的大事, 就算封禁了域名, 一般也不会封ip, 再退一步封禁了ip, dreamhost一段时间内貌似会切换ip使用, 所以还是可以放心的.

缺点: 很明显: 你得先买域名和空间!

好了, 闲话少说, 开始说说怎么用ssh翻墙. 其实一般的教程很容易搜到, 百度(不会被屏蔽, 而且可以直接访问百度缓存)上搜关键词: ssh 翻墙 即可.  其实就是如下几步:

继续阅读 »

Google 撤出中国?! 谁在拍手称快?

早上上班的路上, 点开UCweb上的Google Reader, 就看到一个惊人的标题: Google可能关闭谷歌中国 全面退出中国市场. 随即来到公司打开电脑, 在Google 官方Blog里找到了确切的依据:

These attacks and the surveillance they have uncovered–combined with the attempts over the past year to further limit free speech on the web–have led us to conclude that we should review the feasibility of our business operations in China. We have decided we are no longer willing to continue censoring our results on Google.cn, and so over the next few weeks we will be discussing with the Chinese government the basis on which we could operate an unfiltered search engine within the law, if at all. We recognize that this may well mean having to shut down Google.cn, and potentially our offices in China.

之前不是没听说过类似的传闻.Twitter上今年10月份忽然传开Google撤出中国服务器的消息, 经追踪来源, 是新浪微博认证账户的胡延平10月23日的一条状态. 当时大家也许更多的是当做一次恶意的自我营销活动, 几乎没有人相信这一点. 没想到今天果然到了这般田地.

中国最近一年来对互联网的管制, 已经到了走火入魔的地步, 也让我这样的互联网民忍无可忍, 却也无可奈何的使用各种各样的翻墙软件.  Google作为一家商业公司, 能够宁为玉碎,不为瓦全, 必须为之喝彩! 反观百度首席产品设计师孙云丰的嘴脸, 倒是真的一副市侩分子的模样.

现在如果大家打开Google中国的图片搜索, 应该能看到这样的关键词结果. “no longer willing to continue censoring our results on Google.cn”, 说到做到啊, 看来Google和中国政府是真的干上架了. 不知Google的决定和结局会如何, 倒是对于中国政府, 我相信一句话: 泱泱大国, 颜面何存? 没有退步的可能. 基于这样的考虑, 大家最好还是先做好以下准备工作:

  1. 安装Google Gears. 使用offline功能备份你的Gmail等服务
  2. 备份Google Reader的订阅列表和Google Docs的重要文档.
  3. 准备翻墙吧!
  4. 注册其他域名邮箱, 或者使用备用的邮箱.
  5. 回家洗干净准备几年后接受国安的裸体检查

倘若真有这么一天, Google撤离, 受益者会是谁? 个人认为最大的受益者并不一定是百度, 而是像腾讯搜搜之类, 一直在两大主流搜索引擎压抑之下喘气的小流量搜索. 那时候, 中国互联网的最终赢家会是谁, 还真不知道呢..  此时拍手称快的, 大约也磨刀霍霍了吧?

SNS用户推荐和相关盈利方式的一些思考

文章写完之后, 发现整个过程完全都是协同过滤的内容, 因此准备好好看看这个answer.com上面关于collaborative-filtering的内容

周日下午, 因为临时需要零钱, 买了份周末画报, 看到<全民开心> 一文, 免不了感概一下. 现在这些基于SNS的网站, 其内容和意义已经远远超出了最初我接触时的设想. 一条比较受欢迎的转载, 可以在校内上一天之内就拥有六位甚至七位数的浏览, 以及四五位数的转载, 这样的数字相较与传统的纸质媒体是远远不能想象的, 甚至已经开始威胁到了传统的电视娱乐界. 对于这样一种开始基础应用化的服务, 如何给出一个契合其营运模式的盈利模式, 应该是目前SNS网站一直在着力解决的问题.
商业模式, 或者盈利模式, 也许会是一个比较大的词汇. 不过就是稍微对这个问题思考了一会, 以数据的角度写写脑子里闪过的东西.

  • SNS的核心价值

SNS的核心价值在于用户关系, 以及庞大的用户圈. 这和传统的客户营销的区别在于, 传统客户营销里, 客户关系是附加价值, 其核心价值是产品的可用性, 稳健性以及售后. 门户网站其实更倾向于这种, 其核心来自内容价值; 而对于SNS网站, 其核心价值来自于内容背后的用户关系.

  • 如何挖掘SNS背后的商业价值.

没有内容的关系是没有营养的. 就像一对情侣, 要么被对方的相貌所吸引, 要么为对方的才情所倾倒, 无论如何, 对方总有那么一些让你动心的东西, 才让两个人之间建立这样一种connection. 所以在twitter这类最自由的微博系统中, 一些活跃的用户最终会实现内容价值和关系价值的统一. 用户可以写日志, 传照片, 发心情, SNS系统一定需要允许用户将这样的各式各样的用户创造价值通过一定的途径传播开去. 传统的门户类网站的内容和所附加的盈利模式, 如果要嵌入到这样的系统中, 必定要将关系网络加以利用.

对这样的SNS社区网站要做好营销推荐系统, 其出发点有两个:

  1. 增加每个用户周围的网络人数
  2. 增强用户与用户之间的网络联系紧密程度

如果能做到这两点, 这样的网络关系肯定是高粘度的.  再从这两点出发, 做以下两个假设:

  1. 用户更倾向于喜欢与相同属性或者癖好的人相互认识
  2. 用户更倾向于和受欢迎的人相互交流

因此我觉得, 如果要做好这样的网站运营, 为了加强用户间关系的营销, 其推荐系统可以尝试从以下几点去做:

  • 内容定性

就现阶段来说, 相信我们的人工智能尚未达到能够理解文本或者富媒体的程度. 因此, 对于任何的用户内容, 如何对这些内容进行合理的定性和分类, 是一项很有挑战的工作. 可以想到的一些方法, 譬如:

  1. 传统文本挖掘方法.  譬如标题或者其中关键部分信息(eg: 超链接)的解读.
  2. 提供给用户自行分类的入口. 譬如以目录型或者tag型的方式, 提供给用户进行手动定性的入口. 在添加内容, 或者分享内容的时候都提供可选(而非必选)的加tag的输入框, 等等;

  • 用户定性

可行的方法: 根据用户所创造或者传播的内容, 对其行为模式和偏好进行分类属性tag化

  • 内容评价

怎么对文本或者富媒体的价值进行合理的评价, 是一个值得探讨的难题.然而SNS系统有一个天然的优势, 那就是大量的草根用户的行为, 可以作为评价判定的很好数据来源. 这些数据包括并不仅限于:

  1. 浏览量
  2. 浏览时长
  3. 推荐数/转载数
  4. 用户评价: 推荐该内容的用户在圈子内的权威性/受欢迎程度
  • 用户评价

根据该用户在圈子内的受欢迎度, 以及其推荐的内容的受欢迎度(及内容评价), 对用户进行打分. 从上可以看到, 用户评价和内容评价是相互嵌套的.

  • 用户关系定性

不同用户间的关系是不一样的. 并不是所有的好友都有相同的兴趣. 所以用户间不同的关系, 决定了同样一个内容, 是否适合A的, 可以推荐到B并让其产生兴趣. SNS社区系统里天然定义了一些关系, 不一定够, 但是聊胜于无.

recommendation system on sns network
考虑这样一个实际问题: 我们了解X用户平时创造或者分享的内容的量, 内容的属性(tag), 那么我们可以给这个用户打一个总体标签(不妨假定模型比较简单): 幽默. 在这个标签基础上, 可以去做这几件事情:

  1. 查找该用户的交际圈之外的同样打上了幽默标签的用户Y, Z..,  并按照用户评价的排序推荐给X
  2. 并收集交际圈内或者圈外的Y用户创造或者分享的内容B, C, D.. 然后从中筛选出与幽默这个tag匹配的内容, 并按照内容的评价等级排序推送给用户X.
  3. 经常在有交际关系的X, Y之间相互传送共同定性的内容, 借以影响X, Y之间的关系, 使之更加牢固.

推荐系统说完了, 谈谈盈利的事. 暂时没有想到怎样一个特别适合SNS的盈利方式, 但是理论上肯定可以做到比google的Adsense做得好一点: 一个良好的社区, 用户如果提交的内容tag能够比较真实的反映该内容的实质, 那么这些tag是可以将其加入信息挖掘中, 并且很好的改善没有tag情况下的Adsense广告系统的.

Q.E.F.

搜狗云输入法的蓝图

今天搜狗召开记者招待会高调宣布了旗下基于云计算的云输入法. 地址在这里. 一时间twitter上都是关于这款输入法的讨论. 本人也在第一时间试用了下. 主要有以下几点:

  1. 备选词准确性还不错. 这个由搜狗一向以来的词库质量保证
  2. mac/linux通用. 基于b/s的好处
  3. 反馈速度一般般. 以刚发布测试的少量用户的情况来看, 速度太慢. 一旦以后使用的用户数量激增, 现在的服务和带宽肯定无法满足要求.
  4. 基于b/s模式, 目前暂时只能在浏览器端作为booklet的形式存在, 无法扩展到其他环境.
  5. 刷新页面会导致js代码消失(原因同3)

事实上, 个人认为最大的问题, 不是在以上这个list里, 而是在于, 这样的js代码, 一但让一些开发者找到Browser和Server的交互数据方式, 便可以自己写一些native code和ui, 山寨出一款完全更好用(至少比云输入法好用)的第三方输入法. 这些山寨输入法会带来大量的数据访问以及几乎为零的利益, 这个效应就好比twitter上面大量的spam信息.

要解决这个问题, 个人认为搜狗不妨尝试如下的运作方式, 仅作参考:

  1. 开放数据访问的API
  2. 加入帐户验证的方式. 即只有搜狗的注册帐户才能从服务器端获取数据
  3. 保存用户的个性化词库等信息
  4. 限制单个帐户的短时间访问IP数等防止第三方作弊策略
  5. 通过其他手段进行会员的运营, 提高ARPU值.

开放api可以催生一系列的新的输入法(当然, 肯定会冲击搜狗现有的输入法), 通过基于帐户的方式可以扩大会员群体, 并从其他基于会员的模式中获益.

Google Reader SNS化?

最近一直在忙一个分析项目, 几乎没时间上来. 刚刚差不多整理出一份报告, 现在终于有时间可以舒缓一下, 哈哈. 昨晚算是最近几周第一次睡的爽的了.

突然想写这篇, 是因为在看Goole Reader的时候, 忽然发现它的share功能有了很大的变化, 变得像twitter一样, 可以follow和unfollow(连名字都一样), 而且互相之间也可以对同一篇分享进行thread形式的评论.  感觉整个产品的设计都是在向SNS靠拢.

Google大神最近动作频繁, 而且每一个都是大动作:

  • Google Wave在I/O大会第二天闪亮献身. Google的东西总是给人一种小巧精悍的感觉, 这是他们的第一个庞然大物, 而且还能让人拍手称赞! 这是一个整合了Gmail, wiki, 论坛和IM的所有优点的作品, 期待测试
  • Google Voice开始发送邀请. 不过目前只对部分地区开放, 中国不在其列.
  • Gmail, Google Calendar, Google Docs, Google Talk和Google Apps全部脱离Beta成为正式产品. 同时Gmail针对Label功能也做了很多人性化的优化. Google的团队考虑用户体验的角度和方式, 还是值得我们学习的.
  • Google Chrome OS宣布.

Chrome在诞生之初, 很多人就看到了这个浏览器上OS的影子, Google向网络操作系统进军也是明白着的事情, 不过这次如此匆忙, 啥有点说服力的东西都还没出来就放出风声, 倒是少见. Chrome OS如果能够实现类似嵌入式系统的启动速度, 同时提供在线和线下的一些基本应用, 前途无量啊. 不过Google和Apple这对冤家估计要对上了. 虽然个人比较怀疑Apple的下半新年产品到底是Tablet PC还是大块头的iPod touch一样的Netbook, 不过, 不管怎样这两个产品的功能上重合度还是蛮高的, 除非Apple这个守财奴用价格将两者市场区分开来. 无论如何, 期待这个产品的宣布.

搜索引擎的明天

这些天, 搜索引擎算是烽烟四起. 先是, 传说中的Answer Engine: WolframAlpha 上线, 再则, 微软公司新一代搜索门户: Bing.com, 以及Google的Beta产品: Google Squared接踵而至. 眼看着似乎搜索业内狂风暴雨将至, 然而个人觉得事实却并非如此.

从狭义的本质上来说, 搜索引擎(Search Engine)和问答引擎(Answer Engine, 姑且这么直译吧, 吐槽的请便.)是两种不同的存在. 不过从广义上来说, 却又可以认为是同一种东西, 只是因为其侧重点不同而导致了明显的区分.

在我看来, 这两种系统, 都做了三件事情:

    • 内容组织
      • 用户输入处理
        • 结果呈现

          从Search Engine的发展历史来看, 经历了一下几个阶段:

          1. 人工内容组织+目录式结果呈现
            譬如当年的Yahoo!, 在多重目录里徘徊的经历让我至今印象深刻
          2. 爬虫收录摘要内容+简单相关性排序网页
            譬如当年由卡内基 梅隆大学开发的Lycos
          3. 大量爬虫收录网页+良好的相关性排序和索引查询算法+简单用户输入的逻辑和模式匹配
            譬如当今的Google, 便是因为其基于网页引用的PageRank迭代算法给出了更好的网页排序结果而大受欢迎, 成为了互联网新一代霸主.

          从这段发展史上, 我们看到的Search Engine, 更多的是在内容组织和结果呈现上面的长足进步.

          另一个方面, Answer Engine却发展缓慢, 简单的做法是基于用户输入的关键词或者固定句型的, 复杂的, 则是需要考虑句法, 语法, 以及用户输入的上下文. 作为Answer Engine的两个例子, 一个便是已经是夕阳西下的Ask.com, 另一个, 便是文章开头提到的新秀: WolframAlpha. WolframAlpha做到了通过知识内容的组织, 用5万多种不同的算法将用户的提问返回结果答案.

          然而一个让人依旧伤心的事实就是, WolframAlpha尽管在用户输入处理方面, 有着更加强大的算法, 但是其内容组织, 以及结果的呈现, 都不是一种良好的自适应模式. 或者说, WolframAlpha做到了人工的内容组织, 并按照一些固有的算法, 将用户的模式化输入转换成预设的模式化输出. 譬如, 当你输入Apple, 返回的都是些Apple公司的股票相关的内容, 尽管有作为food或者其他内容的提示, 但也全部都是预设好的结果. 在这个意义上看来, .WolframAlpha只是一只人工索引内容的格式化输入输出机, 几乎就是该公司的另一款产品: Mathematica, 从单机到终端online查询, 从数学领域扩散到其他人类关注的领域的一个结果.

          因此在我看来, 这样的Answer Engine, 还完全不能说的上是颠覆. 借鉴Search Engine的发展历程, .Google为代表的第二代搜索引擎之所以能打败以Yahoo!为例的早期搜索引擎, 就是因为能够从他们那种人工组织内容和人工目录分类式结果呈现的古老方式中解脱出来, 用自动化的网络爬虫和基于关键词的网页自动排序来实现之. 从这个意义上来说, 也许什么时候Wolfram能够实现内容的自组织, 或者输出结果的根据互联网相关内容的自适应呈现, 那么, 也许它就能摘掉Alpha的名字, 改称为WolframBeta了吧..;)

          不过话说回来, 这样的结果, 以现在IR, NLP或者AI这几个领域的发展, 也许尚早的很. 这些烽火, 也许十几二十年后, 才会有些真正的火花出来. 尚被人们所忽视的, 是移动互联网搜索格局. 移动互联上这块领域, 尚未形成制衡的局面, 传统的为PC服务的网络内容, 并不适应移动的小型互联网设备的应用. 关于这一点, 很不敢苟同与这篇文章的看法. 乱世出英雄, 正是因为目前基于移动应用的服务太少, 才会有更多的投资进入这块未开垦的地域. .因此像twitter这样先天适应移动的服务, 或者像Taptu这样完全针对移动网络的搜索引擎, 才是目前十年内科技和业内格局变更和起伏的动力来源.. 更何况, 当年互联网从萌芽到现在的历程, 有太多可以予其借鉴的地方. 移动, 才是下一代王者.