首页
学习
活动
专区
工具
TVP
发布

大数据杂谈

关注大数据、机器学习,致力于分享Excel、R语言和Python等数据分析与数据挖掘技能。
专栏作者
26
文章
75022
阅读量
40
订阅数
12行Python暴力爬《黑豹》豆瓣短评
草长莺飞,转眼间又到了三月“爬虫月”。 这时往往不少童鞋写论文苦于数据获取艰难,辗转走上爬虫之路; 许多分析师做舆情监控或者竞品分析的时候,也常常使用到爬虫。
数据科学社区
2018-07-30
7480
被称为“开发者神器”的GitHub,到底该怎么用?
导读:GitHub是一个拥有数十亿行代码的网站,每天有数百万开发者聚集在一起,研究开源软件中存在的问题。开发人员每天都要在工作中使用GitHub或其他基于Git的工具。GitHub是面向开源及私有软件项目的托管平台。那么什么是GitHub?其中都有哪些关键的概念?如何使用GitHub才能提高工作效率?
数据科学社区
2018-07-30
5080
Python中用K-均值聚类来探索顾客细分
在这篇文章中,我要谈的东西是相对简单,但却是对任何业务都很重要的:客户细分。客户细分的核心是能够识别不同类型的客户,然后知道如何找到更多这样的人,这样你就可以…你猜对了,获得更多的客户!在这篇文章中,我将详细介绍您如何可以使用K-均值聚类来完成一些客户细分方面的探索。
数据科学社区
2018-07-30
1.4K0
Python爬虫:爬取拉勾网职位并分析
本文从拉勾网爬取深圳市数据分析的职位信息,并以CSV格式保存至电脑,之后进行数据清洗,生成词云,进行描述统计和回归分析,最终得出结论。
数据科学社区
2018-07-30
1.6K0
大数据实战:知乎百万用户分析
这几天,同事都去出差,稍有感冒的我提前在办公室感受到了“孤独终老”的恐惧。 于是,我想在自己有能力并且还有激情的时候,去做一些以后值得回忆的事。我萌生了去“探望”下知乎的念头。
数据科学社区
2018-07-30
1.3K0
非常实用的九个程序员工具网站
本文来源:辰语程序员学习笔记(公众号ID:cystudynote) 1 regex101 官方网站:regex101.com 强大的正则表达式工具,你可以实时查看匹配信息,并且会用不同的颜色将 Gro
数据科学社区
2018-06-11
1.6K0
Python 爬虫实践:《战狼2》豆瓣影评分析
本文作者:hang 本文来源:https://segmentfault.com/a/1190000010473819 简介 刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在
数据科学社区
2018-06-11
6850
Python 爬虫实战:股票数据定向爬虫
本文作者:hang 本文来源:https://segmentfault.com/a/1190000010520835 功能简介 目标: 获取上交所和深交所所有股票的名称和交易信息。 输出: 保存到文件中。 技术路线: requests—bs4–re 语言:python3.5 说明 网站选择原则: 股票信息静态存在于html页面中,非js代码生成,没有Robbts协议限制。 选取方法: 打开网页,查看源代码,搜索网页的股票价格数据是否存在于源代码中。 如打开新浪股票网址:链接描述(http://finance
数据科学社区
2018-06-11
1.4K0
【Excel】用公式提取Excel单元格中的汉字
昨天一个前端的朋友找我帮忙用excel提取代码中的汉字(字符串),可算费了劲儿了,他要提取的内容均在单引号中,但问题是没有统一的规律,同一个单元格可能存在多个要提取的内容,而且汉字中间也夹杂其他字符。
数据科学社区
2018-06-11
6K0
从 Zero 到 Hero ,一文掌握 Python
本文来源:开源中国,译者rever4433, Tocy, Tony, 南宫冰郁 本文链接:https://www.oschina.net/translate/learning-python-from-
数据科学社区
2018-06-07
9170
用Python爬虫获取自己感兴趣的博客文章
来源: CDA数据分析师 在CSDN上有很多精彩的技术博客文章,我们可以把它爬取下来,保存在本地磁盘,可以很方便以后阅读和学习,现在我们就用python编写一段爬虫代码,来实现这个目的。 我们想要做
数据科学社区
2018-06-07
5230
如何用 Python 执行常见的 Excel 和 SQL 任务
作者:ROGER HUANG 本文翻译自:http://code-love.com/2017/04/30/excel-sql-python/ 来源:https://www.jianshu.com/p/51bb7726231b 本教程的代码和数据可在 Github 资源库 中找到。有关如何使用 Github 的更多信息,请参阅本指南。 数据从业者有许多工具可用于分割数据。有些人使用 Excel,有些人使用SQL,有些人使用Python。对于某些任务,使用 Python 的优点是显而易见的。以更快的速度处理更大
数据科学社区
2018-04-19
10.7K0
Python难懂?买一次西瓜就懂了!
来源:代码湾 什么是code? code就就是一种语言,一种计算机能读懂的语言。计算机是一个傻*,他理解不了默认两可的任何东西。比如,你让你老公去买个西瓜,你老公会自己决定去哪里买,买几个,找个搞活
数据科学社区
2018-04-18
1K0
如何在jupyter中同时使用python2和3
如何在jupyter中同时使用python2和3? 由于我是通过anaconda来安装的Jupyter Notebook,所以首先需要解决Anaconda2(Python2)和Anaconda3(Python3)的共存。 只需要将Anaconda3的安装目录选在D:\Anaconda2\envs子目录下即可。详细安装教程请看这篇博文:http://blog.csdn.net/infin1te/article/details/50445217 安装完成之后,在CMD里面直接输入python会启动Python2
数据科学社区
2018-02-02
8.2K0
Conda:误解与迷思
翻译自:https://jakevdp.github.io/blog/2016/08/25/conda-myths-and-misconceptions/ 译者:taopanpantao 链接:http://blog.csdn.net/taopanpantao/article/details/53982752 我试着尽可能简洁,但如果你想要跳过这篇文章,并得到讨论的要点,你可以阅读每个标题以及下面的摘要。 神话#1:Conda是一个发行版,不是一个软件包管理器 现实:Conda是一个包管理器;Anacond
数据科学社区
2018-02-02
5.6K1
Python爬取自己微信好友信息,并制作好友签名词云
本文参考教程来自微信公众号【Alfred在纽西兰】,文章如下: 《一件有趣的事: 爬了爬自己的微信朋友》 根据原作者的思路以及代码,爬取自己的微信好友信息并制作好友签名词云图,在本次实践中,主要使用itchat、jieba、wordcloud等包,原作者使用R进行图表可视化,我这里略做改进,使用了pyecharts包。 关于itchat包,中文文档: 1、https://itchat.readthedocs.io/zh/latest/ 2、http://www.cnblogs.com/yanjingnan
数据科学社区
2018-02-02
1.2K0
【Excel系列】Excel数据分析:假设检验
Excel数据分析工具库中假设检验含5个知识点: Z-检验:双样本均值差检验 T-检验:平均值的成对二样本检验 T-检验:双样本等方差假设 T-检验:双样本异方差假设 F检验:双样本方差检验 Z检验:
数据科学社区
2018-02-02
3.8K0
【Excel系列】Excel数据分析:方差分析
单因素方差分析 12.1 单因素方差分析基本理论 (1)单因素方差分析的概念 单因素方差分析,是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。。 因素:影响研究对象的某一指标、变量。 水平:因素变化的各种状态或因素变化所分的等级或组别。 单因素试验:考虑的因素只有一个的试验叫单因素试验。 例如,将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药
数据科学社区
2018-02-02
4.1K0
【Excel系列】Excel数据分析:相关与回归分析
相关系数 15.1 相关系数的概念 著名统计学家卡尔·皮尔逊设计了统计指标——相关系数(Correlation coefficient)。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。 依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关
数据科学社区
2018-02-02
5.9K0
【Excel系列】Excel数据分析:时间序列预测
移动平均 18.1 移动平均工具的功能 “移动平均”分析工具可以基于特定的过去某段时期中变量的平均值,对未来值进行预测。移动平均值提供了由所有历史数据的简单的平均值所代表的趋势信息。使用此工具适用于变
数据科学社区
2018-02-02
5.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档