首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【QQ空间大数据】爬取3000万用户,玩转大数据分析

在这个“但见新人笑,哪闻旧人哭”的互联网时代,面对令人眼花缭乱的产品,有多少人还记得十多年前红极一时的QQ空间? 本文是一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,总共爬了3000万QQ数据,这些大数据背后隐藏了哪些信息? 这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...大数据有意思吧!! 我觉得太好玩了,后面还有很多呢。 ? 3、这是我目前爬取的用户所在地分布 你能猜出我是哪的了吗?前四名分别为:广东,湖南,四川,江苏。 没错,我就是湖南的!...将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。...用这些数据分析出哪些是靠谱的股票肯定靠谱。 ? 6.2 群众讨论最多的明星排行榜,还是很靠谱的。 另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。

1.6K80

爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...单个用户的行为是很难看出规律的,大数据的意义在于它会不断矫正那个平衡点,从而得出反应宏观现象最真实的情况。数据量越大,平衡点动荡的幅度便越小。...将股票中的关键字做海量数据分析,比如会得出当日讨论股票热度排行榜。...用这些数据分析出哪些是靠谱的股票肯定靠谱! 6.2 群众讨论最多的明星排行榜,还是很靠谱的。(我爱汪峰哥,我也爱Jay!

98260
您找到你想要的搜索结果了吗?
是的
没有找到

爬取QQ空间3000万用户,玩玩大数据分析

导读 一位程序猿使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,总共爬了3000万QQ数据,这些大数据背后隐藏了哪些信息?做大数据分析的同学收好,不谢!...程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。...用这些数据分析出哪些是靠谱的股票肯定靠谱。 ? 6.2 群众讨论最多的明星排行榜,还是很靠谱的。 另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。...转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

70410

爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...大数据有意思吧!! 我觉得太好玩了,后面还有很多呢。 ? 3、这是我目前爬取的用户所在地分布 你能猜出我是哪的了吗?前四名分别为:广东,湖南,四川,江苏。 没错,我就是湖南的!...将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。...用这些数据分析出哪些是靠谱的股票肯定靠谱。 ? 6.2 群众讨论最多的明星排行榜,还是很靠谱的。 另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。

874100

【数说】爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。...程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。...大数据有意思吧!! 我觉得太好玩了,后面还有很多呢。 ? 3、这是我目前爬取的用户所在地分布 你能猜出我是哪的了吗?前四名分别为:广东,湖南,四川,江苏。 没错,我就是湖南的!...将股票中的关键字做海量数据分析,比如会得出当日讨论股票排行榜。...用这些数据分析出哪些是靠谱的股票肯定靠谱。 ? 6.2 群众讨论最多的明星排行榜,还是很靠谱的。 另附我抓的明星QQ号吧,纯属娱乐,自辩真假。有些空间确实有很多生活私照。

1.2K30

大数据分析大数据分析方法 及 相关工具

基于此,大数据分析方法理论有哪些呢? ?...大数据分析的五个基本方面 PredictiveAnalyticCapabilities (预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断...AnalyticVisualizations ( 可视化 分析) 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。...SemanticEngines (语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。...挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。

3.6K80

空间转录组数据分析空间基因梯度(STG)

关于NMF也分享了很多,借助NMF的力量对单细胞RNA和单细胞ATAC进行联合分析10X单细胞(10X空间转录组)数据分析之Consensus Non-negative Matrix factorization...)(PNMF)10X单细胞(10X空间转录组)数据分析之NMF寻找转录programs10X单细胞(10X空间转录组)数据分析之主成分分析(PCA)与因子分析(NMF)10X单细胞(10X空间转录组)数据分析总结之各种...NMF10X单细胞(10X空间转录组)之NMF的实际运用示例(探索肿瘤特征)10X单细胞(10X空间转录组)数据分析之NMF(非负矩阵分解)先来学学基础知识细胞组成和信号传导在不同的生态位中有所不同,这可以诱导细胞亚群中基因表达的梯度...因此,一些细胞会随着它们的空间定位而表现出渐变的转录变异,这被称为“空间转录组梯度”(STG)。...关于空间的数据分析采用slide-window strategy ,在此基础上,cells/spots在overlapping windows中按空间定位分组,然后,使用空间坐标作为预测因子,并将细胞

14020

大数据分析系统

概念、分类 数据分析系统的主要功能是从众多外部系统中,采集相关的业务数据,集中存储到系统的数据库中。...根据数据的流转流程,一般会有以下几个模块:数据收集(采集)、数据存储、数据计算、数据分析、数据展示等等。当然也会有在这基础上进行相应变化的系统模型。...按照数据分析的时效性,我们一般会把大数据分析系统分为实时、离线两种类型。实时数据分析系统在时效上有强烈的保证,数据是实时流动的,相应的一些分析情况也是实时的。...而离线数据分析系统更多的是对已有的数据进行分析,时效性上的要求会相对低一点。时效性的标准都是以人可以接受来划分的。 2. 网站流量日志数据分析系统 2.1.

3.3K20

大数据分析流程

一、为什么要做一份数据报告 你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信满满,准备去投简历...然后发现不清楚各种工具和模型的适用范围,也不知道数据报告需要包括哪些内容,面试的感觉就是一问三不知…… 你是一个工作了一段时间的白领,你觉得现在这份工作不适合你,你下班以后去逛知乎,在上面看到很多人在说大数据代表未来...,数据分析师是21世纪最性感的十大职业之一……你激动了,你也要成为数据分析师,你利用空余时间补上了统计知识,学了分析工具,然后发现自己目前的工作跟数据分析没啥关系,觉得没有相关经验没公司要你…… 这些问题的根源是什么...一句话可以概括:你没有办法在最短的时间内向招聘者展示,你能够胜任数据分析这项工作。...数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。

3.2K41

何为大数据分析

基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 1. 可视化分析。...大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了...大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 4. 语义引擎。...大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。...大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

1.9K20

基于geopandas的空间据分析——空间计算篇(下)

本文示例代码及数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在基于geopandas的空间据分析系列文章第...本文是基于geopandas的空间据分析系列文章的第9篇,也是整个系列文章主线部分内容的最后一篇,通过本文,你将学习到geopandas中的更多常用空间计算方法。...,在空间据分析中也存在类似表连接的操作,譬如我们手头有一张包含设施点数据的矢量表,以及另一张包含行政区划面数据的矢量表,当我们想要通过某些操作来统计出每个行政区划面内部的设施点信息时,空间连接就可以非常方便快捷地实现这类需求...在空间据分析中,裁切也是非常常用的操作,譬如我们想要获取某个公交站周围500米半径内部的路网矢量,就可以使用到裁切。...查看裁切与叠加分析分别结果表路网矢量总长度也可以看出叠加分析中的结果是针对每个站点分别计算的,因此对于彼此重叠的站点500米缓冲区就会出现重复重叠的路段: 图19 3 写在最后 从2020年2月8日发布了geopandas空间据分析系列第一篇文章

1.1K20

基于geopandas的空间据分析——空间计算篇(上)

本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 后台回复空间计算也可获取本文全部代码 1 简介 在本系列之前的文章中我们主要讨论了...在实际的空间据分析过程中,数据可视化只是对最终分析结果的发布与展示,在此之前,根据实际任务的不同,需要衔接很多较为进阶的空间操作,本文就将对geopandas中的部分空间计算进行介绍。...本文是基于geopandas的空间据分析系列文章的第8篇,通过本文你将学习到geopandas中的空间计算(由于geopandas中的空间计算内容较多,故拆分成上下两篇发出,本文是上篇)。...buffer() geopandas中的buffer()方法源于shapely,用于缓冲区的创建,这里给非GIS专业的读者朋友解释一下什么是空间意义上的缓冲区: 缓冲区用于表示点、线、面等矢量数据的影响范围或服务范围...: 图13 overlay()中的主要参数如下: df1:GeoDataFrame,作为输入的第一个矢量数据集 df2:GeoDataFrame,作为输入的第二个矢量数据集 how:字符型,用于声明空间叠加的类型

3.2K30

scanpy教程:空间转录组数据分析

正如我们之前介绍过的: 10X空间转录组Visium:基本概念 10X空间转录组Visium || 空间位置校准 Seurat 新版教程:分析空间转录组数据(上) Seurat 新版教程:分析空间转录组数据...空间高变基因 空间转录组学允许研究人员调查基因表达趋势如何在空间上变化,从而确定基因表达的空间模式。...预期的应用是空间解析的rna测序,如空间转录组学,或原位基因表达测量,如SeqFISH或MERFISH。...在这里,我们描述SpatialDE,这是一种从多路成像或空间rna测序数据中识别具有表达变异空间模式的基因的统计测试。...我们的方法的主要特点是: 无监督-不需要定义空间区域 非参数和非线性的表达式模式 基于空间共表达基因的自动组织学 非常快-在正常的计算机上,转录组只需要几分钟 很遗憾,并没有那么快: counts =

4.9K11

大数据分析技术方案

大数据分析可以有效地促进营销,个性化医疗治病,帮助学生提高成绩,利于老师提高教学水平,还可以用于教学,许多产品可以用到大数据技术,如量化分析金融产品等。...必须加强大数据技术的研究并实际应用.这里对目前最流行和最实用的用户画像技术进行讲解,并分析大数据分析的常用算法。 二.用户画像 1....可视化分析系统提供系统监控,权限多级管理,多维数据分析,等等功能,还支持自服务式报表设计和数据分析。...这个过程也可以看做是一个搜索的过程,即在一个LR模型的解空间内,如何查找一个与我们设计的LR模型最为匹配的解。...基于核的算法把输入数据映射到一个高阶的向量空间,在这些高阶向量空间里,有些分类或者回归问题能够更容易的解决。

1.6K20

大数据分析那点事

重复数据处理: 5.2 缺失数据处理 5.3 数据抽取 ---- 一、什么是数据分析据分析是指数据分析师根据分析目的,用适当的分析方法及工具,对数据进行处理与分析,提取有价值的信息,形成有效结论的过程...三、数据分析方法论 数据分析方法论与数据分析法的区别:数据分析方法论主要是用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如从哪些方面展开的数据分析,即从宏观角度来指导如何进行数据分析...:什么是数据分析方法论?...数据分析方法论的几个作用: 可以帮助我们理清楚分析的思路,确保分析过程的体系化 可以看出问题之间的关系 为数据分析的开展指引方向和确保分析结果的有效准确合理性 常用的数据分析方法论 常见的营销方面的理论模型有...四、常用的数据分析工具 工欲善其事,必先利其器。熟练掌握一个数据分析工具可以事半功倍的解决问题。

1.2K10
领券