标签存档: DataMining

Google Prediction API

昨天的Google I/O 2010大会上, Google 针对网页内嵌多媒体做了一件非常有勇气, 也非常豪气的事儿: 开放VP8视频编码, 并成为由Google, Opera, Mozilla等主导的网页多媒体开放项目WebM的一部分. Google对开源和开放事业真是不遗余力啊…

不过个人最关心的一件事, 还是Google最新开放的Prediction API. 它包含以下特性:

  • 轻量级 RESTful API
  • 异步传输
  • 多种可用的机器学习方法可供查询
  • 同时支持数值型和无结构文本的输入
  • 支持各种类型的输出
  • 能够从各种平台调用, 包括: Google App Engine, Apps Script (Google Spreadsheets), 网页和桌面级的app, 以及命令行

同时, Prediction API 可以用来完成以下任务:

  • 字符语言检测
  • 客户情感分析
  • 商品推荐和追加销售(up-sell)
  • Message routing decisions
  • 诊断学
  • 文档和Email分类
  • 可疑行为监测
  • 客户流失分析
  • 其他更多待加入..

不知道Google的这些预测模型都是基于哪些成熟的算法. 看到该Project的Google Group里面有人在问相关的问题, 继续关注ing.

R, SAS, SPSS 同功能模块对照列表

R for SAS and SPSS Users的作者在这个页面给出了这三个统计软件的相同功能模块的对照表, 现转载与下方.

Topic SAS Product SPSS Product R Package(::Function)
Advanced Models SAS/STAT IBM SPSS Advanced Statistics R, MASS, many others
Association Analysis Enterprise Miner IBM SPSS Association arules, arulesNBMiner, arulesSequences
Basics Base SAS IBM SPSS Statistics Base R
Bootstrapping SAS/STAT IBM SPSS Bootstrapping BootCL, BootPR, boot, bootRes, BootStepAIC, bootspecdens, bootstrap, FRB, gPdtest, meboot, multtest, pvclust, rqmcmb2, scaleboot, simpleboot
Classification Analysis Enterprise Miner IBM SPSS Classification rattle, see the neural networks and trees entries in this table.
Conjoint Analysis SAS/STAT: PROC TRANSREG IBM SPSS Conjoint homals, psychoR, bayesm
Correspondence Analysis SAS/STAT: PROC CORRESP IBM SPSS Categories ade4, cocorresp, FactoMineR, homals, made4, MASS, psychoR, PTAk, vegan
Custom Tables Base SAS, PROC REPORT, PROC SQL, PROC TABULATE, Enterprise Reporter IBM SPSS Custom Tables aggregate, Epi::stat.table, reshape, rreport, tapply, xtable
Data Access SAS/ACCESS SPSS Data Access Pack DBI, foreign, gdata::read.xls, Hmisc::sas.get, sasxport.get, RODBC, WriteXLS
Data Collection SAS/FSP IBM SPSS Data Collection Family RSQLite, and the other open source programs MySQL or PostgreSQL are popular among R users for this purpose.
Data Mining Enterprise Miner IBM SPSS Modeler(formerly Clementine) arules, FactoMineR, rattle, RWeka link to Weka, various functions
Data Mining, In-database Processing SAS In-Database Initiative with Teradata IBM SPSS Modeler PL/R
Data Preparation Various procedures IBM SPSS Data Preparation, various commands dprep, plyr, reshape, sqldf, various functions
Developer Tools SAS/AF, SAS/FSP, SAS Integration Technologies, SAS/TOOLKIT IBM SPSS Statistics Developer, IBM SPSS Statistics Programmability Extension StatET, R links to most popular compilers, scripting languages, and databases.
Direct Marketing?? Nothing quite like it IBM SPSS Direct Marketing ?Nothing quite like it
Exact Tests SAS/STAT various IBM SPSS Exact Tests coin, elrm, exact2x2, exactLoglinTest, exactmaxsel, and options in many others
Excel Integration SAS Enterprise BI Server IBM SPSS Advantage for Excel 2007 RExcel
Forecasting SAS/ETS IBM SPSS Forecasting Over 40 packages that do time series are described at the Task View link above under Time Series.
Forecasting, Automated Forecast Server IBM SPSS Forecasting forecast
Genetics JMP Genomics None http://www.bioconductor.org
Geographic Information Systems SAS/GIS, SAS/GRAPH None (Maps is defunct) maps, mapdata, mapproj, GRASS via spgrass6, RColorBrewer, see Spatial in Task Views at link at top
Graphical user interfaces Enterprise Guide, IML Studio, SAS/ASSIST, Analyst, Insight IBM SPSS Statistics Base Deducer, JGR, R Commander, rattle, many others at http://www.sciviews.org/_rgui/
Graphics, Interactive SAS/IML Studio, SAS/INSIGHT, JMP None rggobi link to GGobi, iPlots, latticist, playwith, TeachingDemos
Graphics, Static SAS/GRAPH SPSS Base, Graphics Production Language ggplot2, gplots, graphics, grid, gridBase, hexbin, lattice, plotrix, scatterplot3d, vcd, vioplot, geneplotter, Rgraphics
Graphics, Template Builder IBM SPSS Viz Designer
Guided Analytics SAS/LAB None None
Matrix/linear Algebra SAS/IML Studio IBM SPSS Matrix R, matlab, Matrix, sparseM
Missing Values Imputation SAS/STAT: PROC MI IBM SPSS Missing Values amelia, Hmisc::aregImpute, EMV, rms (replaces Design)::fit.mult.impute, mice, mitools, mvnmle, VIM?
Neural Networks Enterprise Miner IBM SPSS Neural Networks AMORE, grnnR, neuralnet, nnet, rattle
Operations Research SAS/OR None glpk, linprog, LowRankQP, TSP
Power Analysis SAS Power and Sample Size Application, SAS/STAT: PROC POWER, PROC GLMPOWER SamplePower asypow, powerpkg, pwr, MBESS
Quality Control SAS/QC IBM SPSS Statistics Base qcc, spc
Regression Models SAS/STAT IBM SPSS Regression R, Hmisc, lasso, VGAM, pda, rms (replaces Design)
Sampling, Complex SAS/STAT: PROC SURVEY SELECT, SURVEYMEANS, etc. IBM SPSS Complex Samples pps, sampfling, sampling, spsurvey, survey
Segmentation Analysis Enterprise Miner IBM Modeler Segmentation cluster, rattle, som, see CRAN Task Views under Cluster for over 70 packages
Server Version SAS for your particular server IBM SPSS Statistics Server,IBM SPSS Modeler Server rapache, R(D)COM Server, Rserve, StatET
Structural Equation Modeling SAS/STAT: PROC CALIS Amos OpenMX, sem
Text Analysis/Mining Text Miner IBM SPSS Text Analytics,IBM SPSS Text Analysis for Surveys RQDA, Rstem, las, tm, wordnet link to WordNet
Trees, Decision, Classification or Regression Enterprise Miner IBM SPSS Decision Trees, IBM SPSS AnswerTree, IBM SPSS Modeler (formerly Clementine) ada, adabag, BayesTree, boost, GAMboost, gbev, gbm, maptree, mboost, mvpart, party, pinktoe, quantregForest, rpart,rpart.permutation, randomForest, rattle, tree

《Web数据挖掘》笔记 Cht 1

最近在看一本书, 《Web数据挖掘》.  书比较粗浅, 随手做了些笔记, 现在放在这里. 如果有任何版权问题, 请联系我撤下.

  • Chp 1: 太阳底下没有新事物了吗?
    • 新经济
      • + – 电子商务
        • 网络带来最大的改变就是速度
        • 更好的理解客户需求意味着较少的库存
        • 更快的周转意味着更高的利润
        • 价格可以立即改变
        • 日常交易中积累数据
          • 根据客户声明或者观察到的偏好定制个性化网站面貌
            • 不再有为了去拿牛奶而不得不通过肉食品专柜的素食者
          • 在付账过程中进行推荐
          • 记录客户爱好, 并将其应用于客户目前的访问
          • 根据客户偏好和库存控制来关注需求
      • + – 电子媒体
        • online和offline的区别
          • 分发费用
          • 读者行为数据
          • 广告浏览跟踪
      • + – 电子市场
        • 买卖双方中介
        • 不分时间的连接全球买卖家
        • 扩大了可交易货物的范围
        • 创造市场, 交流和成交的场所
        • 通过数据挖掘分析来决定哪些买卖家之间可以联系
        • 更深入地了解买卖双方什么时候, 什么商品, 什么样的质量进行交易(交易历史)
    • 关注客户是奢侈的
      • 数据挖掘, 总的来说并不能将一个坏企业变好, 但是有能力使一个好企业变得更好
      • + – 客户的重要性
        • 银行: 一旦一个客户使用了三种以上的服务, 客户就会将这个银行看做”自己的银行”
        • 客户在寻找金融服务时, 会首先去”我的银行”
    • 数据挖掘的角色
      • 在商家和客户的联系中加入智能
      • 网络: 数据的收集者, 又是研究客户的良好通道
      • 网络对于客户来说是迅速的, 对企业来说同样也是
    • 市场的角色
      • 过去: 广告/品牌/市场 三者是分离的
      • 网络: 在一定精度上看到谁看了广告, 点击了广告并形成了购买行为
      • 品牌
        • 给客户提供可以认知和信赖的质量标志
        • 一次不好的经历可以毁掉一个品牌
        • 不同的渠道传达同一种声音
        • 广告效果的衡量
          • 传统: 调查和客户跟踪
            • 专家访谈
          • 良好的广告系统应该有能力知晓谁看到了, 有什么样的响应
      • 精准营销(原文: 目标市场, 这个翻译不行啊)
        • 预测客户响应
      • 超越精准营销
        • 客户价值衡量
          • 目标应该是增加所有客户的平均客户价值, 而不是只关注最有价值的客户
        • 实时反馈
          • 通过数据分析来找到匹配模式
          • 通过设计模型来理解/推行该模式
        • 理解客户和业务的流程
        • 市场策略的试验性设计

附上找到的相关PPT一封, 供大家参考:



PS: 以上嵌入的是Slideshare.com的文档. 如果无法打开请大家查看我的Google Docs版本.

SAS第十二届数据挖掘大会

SAS第十二届数据挖掘大会(SAS’ 12th Annual Data Mining Conference), M2009, 将于10月26-27日在拉斯维加斯(Caesars Palace, Las Vegas, NV)举行. 详细的会议议程如下(估计咱也去不了哈):

Tips: 点击右上角可以全屏放映.
Tips2: 貌似Google Reader不支持Scribd的嵌入代码, 感兴趣的话还是点进来看看吧.