【分析工具介绍】工欲善其事必先利其器

工欲善其事,必先利其器!

数据分析也好,统计分析也好,数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析方法、手段和技能,特别是要掌握软件分析工具!我曾经说过,我的学习方法,一般是先学软件开始,再去应用,再学会理论和原理,因为是老师,再去教给别人!没有软件的方法就不去学了,因为学了也不能做,除非你自己会编程序。


下面我来简介各种我掌握或理解的大数据时代的各种数据分析工具或软件,前提是从新闻传播学领域的视角来讲,或者是针对社会科学领域的朋友、学生来讲。

掌握:小数据时代的数据分析工具:

1、Excel 软件

凡是说数据分析的人,必须会Excel,这是职场最常用或最重要的数据分析软件了。首先版本越高越好用,这是肯定的;特别是Excel2013版增加了Power Map和快照,如果到了Excel2016版新功能更多了。当然对Excel来讲,大部分人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

Excel也经常作为其他软件的数据存储或接口使用,2003版只能放65536条记录,2007版后可以装百万记录了!现在处理更大数据可以用Power BI或其他工具。

上下图是用Excel设计的,我曾经说过:我经常用Excel当PPT用,您去理解啥意思?(你可能根本看不出是Excel了)

2、PowerPoint(PPT)

PPT在这里无需质疑,它不是数据分析软件,但是职场和教书必备的沟通工具了,早期的可视化主要就是Excel或PPT制作了。这里要说明,PPT就是一个容器,制作PPT好的人,都不是PPT而是其他工具好,然后放在PPT容器里展现出来。PPT高手一般不用默认自带的模版,PPT也是制作信息图infograph的工具。

3、PS、AI、Mindmanager、Visio、SmartDraw等

这些软件都是为PPT或自身美化的软件工具,美观是PS出来的。PS和AI也是制作信息图的重要工具。Mindmanager是思维导图可以构思和导出PPT内容框架,Visio和SmartDraw等主要是制作各种流程图、甘特图等工具,比如设计各种图标、表格、地图块等。

4、Xcelsius水晶易表

这款软件也叫Dashboard仪表盘,是商业智能BI的典型工具,很多设计思想来自它的设计,比如仪表盘、指针、量表等等,实际上Xcelsius是在Excel基础上增加了设计导出Flash。它生成的交互报表可以直接嵌入PPT中。

5、Canvas软件 https://www.canva.com/

这是一款在线设计软件,可以设计各种信息图用于PPT零件或制作博客、社交媒体文档。内嵌各种图形、背景、文本效果等。(可能要翻墙)

6、SPSS统计分析软件

经典的社会科学统计分析软件,是实证定量研究和学术领域的重要统计分析工具,现在来说就是小数据或抽样数据的分析软件。最近软件更新比较快,习惯使用18.0、20.0或22版本,在描述性统计和相关、回归、聚类、因子分析和主成分分析等多变量分析都有特长;特别是高版本后增加了部分具有机器学习的算法,比如:RFM模型、时间序列预测、决策树等算法。自从开始玩大数据已经很少用SPSS了。

7、AMOS结构方程式模型

SEM结构方程式模型是最典型的证实性研究方法,所有证实性因子分析、回归分析、路径分析和影响分析都需要在理论建构的基础上进行实证。有一种说法,如果在统计分析领域不用结构方程式模型就不算学术型定量研究方法。当然AMOS显然不属于大数据领域,是典型的实证研究方法。

与AMOS对应的SEM方法还有:Lisrel、SmartPls、HLM等软件

8、SAS软件

SAS相对SPSS其实功能更强大,SAS是平台化的,EM挖掘模块平台整合,相对来讲,SAS比较难学些,但如果掌握了SAS会更有价值,比如离散选择模型,抽样问题,正交实验设计、ETL、金融或质量控制等还是SAS比较好用,另外,SAS的学习材料比较多,也公开,会有收获的!

JMP分析:SAS的一个分析分支,偏向于典型的轻量级数据分析和描述性统计、制图报表等;

9、Ucinet、NetDraw社会网络分析软件

Ucinet是早年经典的社会网络分析SNA软件,主要基于小群体网络和社会科学研究的网络分析工具,是理解网络分析的基本软件;NetDraw是基于Ucinet数据的独立网络可视化分析软件,除此之外还有Pajek、Negopy等软件,但都比较早期,现在基本上都淘汰了。

但Ucinet是典型的学术研究型网络分析软件,也是理解社会网络分析的基点,可以通过这款软件进入网络关系型数据的世界。

10、SPSS Modeler (过去叫Clementine)

这是一款早年我教数据挖掘的主要商业软件。Modeler是IBM收购SPSS公司将Clementine改名叫建模器Modeler,最新版本好像是15.0;现在也内嵌在IBM Waston的系统数据集成工具中。Modeler采用独立平台与其它体系相对脱离,不像SAS的Enterprise Miner整合在SAS数据分析平台内。

Modeler是我最早使用的数据挖掘软件,随着版本更新算法越来越多,还有就是越来越多的采用了集成的智能算法,比如自动分类器、自动数值计算器、自动聚类器等,可以自动评估算法或选择算法。因为是商业软件学习比较容易,特别是与SPSS Statistic软件的共通性越来越多,也就比较容易从SPSS转到挖掘技能。

不过这款软件更偏向传统的数据挖掘,也就更面向商业应用,在客户流失、客户细分和聚类、RFM模型、交叉销售模型、客户信用打分、客户响应模型、异常值侦测等商业领域应用广泛,对社会科学领域的学术研究有局限,而且不太符合当今大数据挖掘涉足的关系数据、地理信息数据和文本数据的应用。尽管新版本已经开放了R语言接口还是有点力不从心。不过Modeler建模后的PMML预测描述性语言的云端部署,服务器版本的应用在解决商业大数据领域还是有竞争力的。

11、Knime (Http://knime.org)

这是一款基于Java开发的开源的数据挖掘软件,念Naimu。近几年给同学们讲数据挖掘课我一般都推荐这款软件了。

推荐这款软件的理由是:

1)开源软件,更新快,学习成本要高些;

2)软件自带几十个案例,俺把案例都操作一边就比较容易掌握,案例需要在线下载;

3)软件有社区和Knime Labs模块,实际上这些模块才比较有用,比如网络分析、文本处理、情感挖掘、文档聚类与分类、地图展现,甚至自带网页爬虫和搜索等,几乎是个大全,具有大数据特点;

4)支持多种编程语言Java、Weka、R语言和Python,这是比较重要的,我们甚至可以用Knime作为语言的shell。

12、Alteryx (http://alteryx.com)

Alteryx是俺最近最推崇的一款数据挖掘软件,可惜是商业软件而且只是买licence,一年一买。据说是一帮开发Gis系统的人转身进入数据挖掘领域,所以这款软件最大特色是空间地理数据的挖掘。据说Alteryx开发的可视化不咋样,后来直接就tableau了,所有可视化可以发送到Tableau。

这款软件特色非常突出,也最具大数据挖掘特色,主要体现在:

1)可以读取各种数据源,而且blending数据非常快,可以快速处理大数据,是一款ETL工具;

2)可以处理Spatial对象数据,进行地理信息的数据匹配和算法;

3)利用卡尔加里数据库索引存储查询亿级数据很快;

4)与Tableau软件是天仙配,直接导出Tableau软件数据源或Dashboard;

5)Alteryx开发的算法流可以直接部署在自己的云或私有云,且可共享下载各种云端应用;

6)与R语言打通,很多预测算法是用R语言编写;

Alteryx算法丰富,应用也非常商业和实用性,比如购物篮分析,网络分析,选址研究,A/B测试等等;当然这款软件最强的是内置了美国加拿大的人口和经济统计数据,可以直接抽取人口普查数据,可惜国内没有数据。

13、Mircosoft Azure 机器学习平台

Azure是在线云机器学习平台,注册后直接上传或利用微软云端数据集,选择数据集后,进行数据处理,监督类或非监督类算法,Training和Testing数据,选择建模具体算法,评估,部署到云端,包括可视化内容。

这是未来数据挖掘和机器学习的算法建模趋势,也是实现智能挖掘的分析平台化优势。支持中文,但毕竟是英文的东西。

14、IBM Waston大数据智能平台

IBM Waston是大名鼎鼎的大数据预测分析平台,注册后就可以上传您的数据集,进行探索分析生成各种统计分析图表(自动化程度很高),内嵌有各种数据处理能力Refine数据解析和重构,SPSS Modeler,甚至自动化注册完成社交媒体的声量监测等

Waston是高等级人工智能算法平台,不仅仅是数据挖掘,非常高大上,如果处理简单的分析型数据挖掘有点大材小用。当然,还有就是云服务器在国外,国内使用网速受限,俺测试常常出现问题。

15、BigML 在线决策树算法平台(http://www.bigml.com)

BigML是一款非常可视化挖掘的数据分析软件,注册后直接上传数据,选择目标变量,进行可视化决策树挖掘。

早期BigML主要在决策树和决策树算法的可视化非常有特色,慢慢也在进入平台化和算法不断扩展的云大数据挖掘平台。

不过这些云机器学习挖掘平台开始的时候都比较开源或案例丰富,慢慢进入收费模式后就屏蔽了很多案例和资源不让您看到了!

所以要想解决数据挖掘和大数据分析相关的技能没有学习R语言或Python编程是不行的,如果要进入工程挖掘领域,在线应用,特别是实时在线的大数据等必须要靠编程语言和数据库技术了。

当然现在更流行的Hadoop存储Hive,MapReduce的数据整合,Spark Steaming的算法应用。

来源:沈浩老师

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2016-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DevOps时代的专栏

什么是 DevOps 三步工作法?

本文将介绍《DevOps Handbook》全书的核心:三步工作法。《DevOps Handbook》全书就是从三步工作法的思路出发,进行知识体系的组织和实践的...

9538
来自专栏Java学习网

多些时间能少写些代码

 在现在这个浮躁的时期,再加上敏捷咨询师们念的歪经,他们让人感觉上就像是软件产品是可以在很短的时间内高质量的完成的,这令那些管理者们很兴奋,就像巴甫洛夫的条件反...

2507
来自专栏PPV课数据科学社区

一步步教你如何入门精益数据分析!

目录 一、认识数据——产品经理与数据分析 1.1 数据的客观性 1.2 面对数据的智慧 1.3 数据分析中的误区 二、获取数据——...

2058
来自专栏云计算

评估云的安全性

云安全既是一场短跑也是一场马拉松。这场短跑需要安全团队迅速采取正确的防御措施,以在短期内解决零日攻击 (zero-day attacks) 和持续性的威胁。同时...

2187
来自专栏大数据文摘

过快、过量、过度:三类数据驱动型决策中的常见问题(附大量资源)

1275
来自专栏智能计算时代

数据湖101:概述

数据湖是非结构化和结构化数据池,按原样存储,没有特定的目的,可以建立在多种技术上,如Hadoop,NoSQL,Amazon Simple Storage Ser...

2753
来自专栏互联网数据官iCDO

Facebook vs YouTube视频营销大战,到底哪家强?

译者:李晓艳 本文长度为3631字,预估阅读时间5分钟。 我们今天要向大家分享Facebook vs YouTube视频营销大战到底哪家强的一些观点。 近年来线...

3294
来自专栏jianhuicode

420小时学习代码之后:如何教你免费自学Python

803
来自专栏黑白安全

Facebook再曝300万用户数据泄露 与性格测试类app密切相关

据 New Scientist 周一报道:剑桥大学的研究人员们,已经向一个分享门户上传了 300 万 Facebook 用户的数据。尽管数据被用户名和密码锁定,...

592
来自专栏大数据文摘

长篇巨献|数据科学界华山论剑:R与Python巅峰对决

25513

扫码关注云+社区