分类存档: 未分类 - 第2页

《Web数据挖掘》笔记 Cht 1

最近在看一本书, 《Web数据挖掘》.  书比较粗浅, 随手做了些笔记, 现在放在这里. 如果有任何版权问题, 请联系我撤下.

  • Chp 1: 太阳底下没有新事物了吗?
    • 新经济
      • + – 电子商务
        • 网络带来最大的改变就是速度
        • 更好的理解客户需求意味着较少的库存
        • 更快的周转意味着更高的利润
        • 价格可以立即改变
        • 日常交易中积累数据
          • 根据客户声明或者观察到的偏好定制个性化网站面貌
            • 不再有为了去拿牛奶而不得不通过肉食品专柜的素食者
          • 在付账过程中进行推荐
          • 记录客户爱好, 并将其应用于客户目前的访问
          • 根据客户偏好和库存控制来关注需求
      • + – 电子媒体
        • online和offline的区别
          • 分发费用
          • 读者行为数据
          • 广告浏览跟踪
      • + – 电子市场
        • 买卖双方中介
        • 不分时间的连接全球买卖家
        • 扩大了可交易货物的范围
        • 创造市场, 交流和成交的场所
        • 通过数据挖掘分析来决定哪些买卖家之间可以联系
        • 更深入地了解买卖双方什么时候, 什么商品, 什么样的质量进行交易(交易历史)
    • 关注客户是奢侈的
      • 数据挖掘, 总的来说并不能将一个坏企业变好, 但是有能力使一个好企业变得更好
      • + – 客户的重要性
        • 银行: 一旦一个客户使用了三种以上的服务, 客户就会将这个银行看做”自己的银行”
        • 客户在寻找金融服务时, 会首先去”我的银行”
    • 数据挖掘的角色
      • 在商家和客户的联系中加入智能
      • 网络: 数据的收集者, 又是研究客户的良好通道
      • 网络对于客户来说是迅速的, 对企业来说同样也是
    • 市场的角色
      • 过去: 广告/品牌/市场 三者是分离的
      • 网络: 在一定精度上看到谁看了广告, 点击了广告并形成了购买行为
      • 品牌
        • 给客户提供可以认知和信赖的质量标志
        • 一次不好的经历可以毁掉一个品牌
        • 不同的渠道传达同一种声音
        • 广告效果的衡量
          • 传统: 调查和客户跟踪
            • 专家访谈
          • 良好的广告系统应该有能力知晓谁看到了, 有什么样的响应
      • 精准营销(原文: 目标市场, 这个翻译不行啊)
        • 预测客户响应
      • 超越精准营销
        • 客户价值衡量
          • 目标应该是增加所有客户的平均客户价值, 而不是只关注最有价值的客户
        • 实时反馈
          • 通过数据分析来找到匹配模式
          • 通过设计模型来理解/推行该模式
        • 理解客户和业务的流程
        • 市场策略的试验性设计

附上找到的相关PPT一封, 供大家参考:



PS: 以上嵌入的是Slideshare.com的文档. 如果无法打开请大家查看我的Google Docs版本.

阿凡达 观后感 & Avatar II

  • # Avatar是什么意思? 查了下wikipedia: 英译Incarnation, 化身 源自印度文अवतार, 在哲学之中通常指的是在这个行星上神圣的生物(提婆)或至高的生物(薄伽梵)的化身.
  • # 3D效果很真实.. 是真的真的真的很真实, 不是动画
  • # Avatar其实就是一个房地产开发商, 一群城管 与 钉子户(以及一个良心尚未泯灭的城管)之间的故事
  • # Avatar的情节还是比较简陋的. 譬如: $20M/kg的矿产, 是黄金价格的100倍, 怎么会只有一家房地产开发商在进行? 照理说肯定是严重的恶性竞争才是. 这可是块肥肉阿
  • # 进场比较晚, 没看到开头几分钟, 所以一直有个疑问: Avatar和Jack真身之间是通过什么方式灵魂往返交流的?
  • # 悬浮山是啥原理? 和那个矿产的悬浮是同一个道理么? 估计是磁场问题
  • # 刚看到Avatar, Navi种族和母体交流的时候, 就在想, 估计这又最终会演化为群体智慧战胜愚蠢的人类的结局, 果不其然
  • # 为什么圣母和Avatar的身体链接, 不是通过辫子末端的神经节而是脑后皮肤?这不是比较奇怪么?
  • # 为啥利箭能刺穿飞机的防护玻璃? 刚开始是不行的,后来大规模进攻的时候都穿过去了. 这个问题当场就想到了: 进攻的时候都是鸟人(鸟+人, 简称)从上往下俯冲, 所以有很大加速
  • # 鸟人飞翔好爽啊.. 要是能带着女友在上面酷毙了
  • # 机器人好像黑客帝国里面的造型阿.. 美式机器人都这样么? (除了变形金刚)
  • # 为啥Avatar驯服Shadow那一幕没有了呢.. 是导演剪辑的安排, 还是被咔嚓掉了?
  • # Avatar II: Navi  某人Lucifer对Avatar不满, 又斗不过他, 离开种族来到人类之中, 并带领新的房产开发商来到这里. Lucifer潜入Navi并刺伤Avatar, 其座骑Shadow被刺死, 魅影骑士称号破灭. Avatar忍辱负重, 逃得一命, 带着最初的座骑归来. 人类占领了Navi地区之后, 并没有给Lucifer所答应的报酬, 于是两方争执, 这时候Avatar重回领地, 面对两个强敌, 何去何从? 敬请期待, 无名导演Leon eTsir版的Avatar II! 2011年11月02日隆重上映~

2009年终总结

09年最后一天,对今年来点总结.

  • 学习&工作:

上半年学了点perl,下半年在试着用R。做了两个小项目,总算稍有收获。接下来想多看看sna的东西

  • 生活&娱乐:

今年去了厦门&鼓浪屿,宁波某海岛。上过汽艇,露过营,然后又去了趟滑雪。。此外看了好几次首映。
手机终于换了,e71,顶着破产的风险还是买了垂涎n久的wacom bamboo和macbook pro。。然后因为时间问题一个游戏都没打穿。。应该说就是没时间玩。。譬如ys7

快年末的时候发生一件事,光环盖过了以上所有的喜悦,等待了十几年才浮出水面,简而言之就是——羊入虎口。囧哈哈

2009年12月31日晚七点,于女友楼下

09年最后一天,对今年来点总结。

学习&工作:上半年学了点perl,下半年在试着用R。做了两个小项目,总算稍有收获。接下来想多看看sna的东西

生活&娱乐今年去了厦门&鼓浪屿,宁波某海岛。上过汽艇,露过营,然后又去了趟滑雪。。此外看了好几次首映。

手机终于换了,e71,顶着破产的风险还是买了垂涎n久的wacom bamboo和macbook pro。。然后因为时间问题一个游戏都没打穿。。应该说就是没时间玩。。譬如ys7

快年末的时候发生一件事,光环盖过了以上所有的喜悦,等待了十几年才浮出水面,简而言之就是——羊入虎口。囧哈哈

晚七点,于女友楼下

Blog迁移至当前域名: etsir.com

搞了半天最终还是迁移了空间, 并且换了域名: etsir.com

原本是仅仅打算迁移空间的, 因为同事 @lyoe 说愿意提供按月付费, 并且全权控制的dreamhost账户, 而且价格也差不多. 因此就向我这个空间原来的老板提了下. 没想到dreamhost还有另一道限制: 一个域名如果绑定过一次折扣码的账户, 下次就不能绑定另一个折扣码的空间了.. 于是之前的域名: 4over7.com就杯具了.. sigh

最近一段时间都在女友和公司之间直线来回转, 年底事情又特别多, 好几篇想写的读书笔记都没有动笔, -_-b.. 慢慢来吧. 以后所有的文章都会更新在新域名上了.

今年最后一天, 预祝大家新年快乐~!!

OpenLab的用户数据集开放

OpenLab的开发者们刚刚今天开放了一个基于他们的社区用户行为的数据集, 以供各位有志之士做相应的研究之用. 相关介绍的文章见这里. 由于其空间流量有限, 提供我的Dropbox的分流:  点我.

Dropbox是一个非常好用的网盘, 大家可以点这里进去注册一个, 顺便给我带来点小恩惠.. yohoho

一周关心事件回顾

过去的两天里, PayPal X Innovate 2009召开, 宣布开放支付平台API, 开发者网站域名为www.x.com

  1. 通过这个开放平台, 开发者很容易在各式各样的应用中集成PayPal支付, PayPal把所有的应用场景拓展交给了全球开发者. 此外, PayPal官方已经开始了和包括TwitPay之类的其他新兴支付平台的对接测试
  2. eBay的CEO说: PayPal在将来一定会超过eBay. PayPal目前的数据有: 每秒$2200的资金流动量, 7800万活跃账户, 全球近200个国家和地区. PayPal将会有$700亿的资金交易总量(无时间点).

2009年10月20日, REvolution 获得来自 North Bridge 和英特尔的 900 万美元的风险投资。SPSS 软件的创始人之一,前 SPSS 的 CEO—-Norman Nie 正式成为 REvolution 的 CEO. 这算是继IBM收购SPSS之后统计软件界又一个重大的新闻. REvolution 是一家基于开源统计软件R的统计建模软件公司, 专注于解决R在多线程计算、内存使用、高性能计算等关键性问题,并提供专业的商业统计服务.

ACM Recommender Systems(推荐系统) 2009于10月22日至25日期间在纽约召开.

Google Analytics 发布了一系列的新功能, 包括更为强大的报告, 更出色的自定义选项,和全新的”智能引擎”(Intelligence Engine ).

豆丁网上一篇关于信用卡系统的介绍, 感觉非常好,推荐给大家.

互联网各个服务/站点的发展家系图一张

SAS第十二届数据挖掘大会

SAS第十二届数据挖掘大会(SAS’ 12th Annual Data Mining Conference), M2009, 将于10月26-27日在拉斯维加斯(Caesars Palace, Las Vegas, NV)举行. 详细的会议议程如下(估计咱也去不了哈):

Tips: 点击右上角可以全屏放映.
Tips2: 貌似Google Reader不支持Scribd的嵌入代码, 感兴趣的话还是点进来看看吧.

几个简单的Blog推送的方法

刚刚在豆瓣上搞定了本blog自动推送到我的豆瓣账号, 所以这篇文章其实是测试下这个功能.

自己在豆瓣上捣鼓了很久, 始终没有找到绑定个人blog的入口, 只有在设置页面发现了可以在个人豆瓣主页显示blog地址, 但是仅仅在这里填写貌似无法将新文章通知到我的豆瓣页面.   百般不得其解之下, 询问了同事lyeo关于这个情况. 终于在他模糊的记忆的提示下, 用认领两个关键词找到了方法:

  • 进入九点, 点击我的订阅
  • 所有文章中选中该blog, 选更多操作-查看信息
  • 点击认领这个博客, 进入认领页面, 按照提示, 发一篇包含验证码的文章, 并确保在你的blog的rss输出做了相应的更新
  • 确认认领, 完成

除了推送到豆瓣上, MovableType 也有一个名叫MT-Twitter的插件, 可以支持从MT推送到自己的twitter账号. 此外, 如果需要将twitter账号上的跟新放置到自己的页面上, 直接查看我的页面源码, 将

<div class="twitter widget"></div>

这个div贴出来, 稍作修改即可. 简单有效.

大家如果还有其他的网络间互动的内容, 欢迎分享之

Leonpard, 终于可用了

好吧, 其实标题是Leon on Leopard的缩写。

昨晚忽然想起我的600G西部数据硬碟上的Leopard系统已经很久没去动了, 于是照着远景论坛上的帖子, 尝试了下安装网卡驱动, 竟然一下子就成功了!!rp爆发啊。 于是一时兴起, 就顺便安装了下显卡驱动。 没想到安装结束后, 重启进入Leopard时, 竟然黑屏了!! 吓了一跳, 于是一番尝试之后就放弃了。

今天下午的时候, 有些不甘心, 不断的翻帖子, 终于发现有一个帖子上描述: 安装intel GMA X3100的驱动之后, 每次启动都需要在黑屏状态下等待10分钟左右, 才能进入。 我脑子一激灵, 决定也试试。 没想到试了一次, 竟然真的是这样!! hoho

目前正在尝试适应mac os中。 测试了以下几款软件:

  • Firefox: 默认就是mac的金属风格, 感觉不错。
  • Safari: 系统自带的。 尝试去官网下载safari4, 结果被10.5.7的系统版本打回(在下的是10.5.7)。
  • Keepass: 密码管理程序。由于我用的是第二版, 所以必须下载mono环境。 暂时未测试, 选择了从windows下将原有的数据库导出。 Mac下事实上有一个第一版的开源兼容程序KeepassX
  • QQ: 怎么说呢, 功能太简陋了。 而且兴奋的和同学聊, 试了下截图功能, 立马crash掉了。 印象分比较低。 不过毕竟还不是正式版, 原谅之。
  • MSN: 比之QQ要好一些。 不过用过MSN 9之后, 已经觉得这个版本的MSN实在不行了。
  • TextMate: 传说中最强大的文本编辑器啊。可惜看了下主页: single user license (€39 ≈ $57), 立马吓跑了。 可以不光彩的说, 在下至今为止购买了只两款软件: 2005年买了Fedora 7, 以及不久前在iFanr上团够的7折Gravity。 尚未养成购买软件的习惯啊。 还是vim凑和着用先。
  • 。。。其他软件, 试用中。

顺便, 这里贴几则最近关心的新闻:

己丑己巳戊寅, 辛酉不见白鲸

09年6月2日17:20分
收到per_ly follow咱的邮件. 点开之后, 却是Network Timeout的消息..黄色感叹号的标签, 怎么刷也找不到那twitter熟悉的白鲸鱼! 心知不对, 于是瞅了一眼twhirl, 果然, 看到了熟悉的#GFW, 以及到处的呼声: #FuckGFW, #twitter 被ban了!!
据说, 一个小时之内, #FuckGFW 的标签排到了热门关键词第二!! 同期被ban的, 还有微软刚发布的神奇必应, Live.com, 雅虎的Flickr.com..在#64 二十周年之际, 在geek们还在忙着添加必应为默认搜索引擎的时候, 白色恐怖再一次席卷整个大陆, 真是蔚为壮观的景象. 没想到在下昨天晚上刚刚弄好的twitter widget就这么废掉了…sigh..
各位读者倘若没有翻墙过来这边观看, 恐怕是非常恐怖的页面..囧…因此提供翻墙工具一二:

  • 无界.
    无界代理软件还是蛮不错的, 速度还行, 配合firefox, 一边大陆一边海外, 在下一直用. 至于在哪下载, 相信大家随便在emule里关键词一下就能找到吧? 目前的版本号为9.4.
  • TOR.
    这里是TOR的官网. 官方的TOR包含三部分: TOR核心+Vidalia图形化配置界面, Privoxy代理程序以及TorButton的FireFox扩展. 虽然TOR的速度让人无法忍受, 不过如果仅仅是文本浏览还算不错, 稳定性比无界好多了.
  • 自由门Freegate, 网友推荐

以上几个软件好像都可以配合firefox的autoproxy插件, 达到翻墙效果, 目前本人都在用. 若还有其他更简洁的翻墙方式, 请网友们共享之~~ 网页代理除外