首页
学习
活动
专区
工具
TVP
发布

我是攻城师

专栏作者
492
文章
956460
阅读量
119
订阅数
Windows 10环境下安装Python科学计算工具包之Anaconda
Anaconda介绍 Anaconda是python加强的一个全家桶套件,是目前最简单的方式来使用python进行机器学习和数据分析,它包含了250多个最流行的python科学计算包,并支持多种系统如windows,linux,mac,此外Anaconda最棒的一个特性就是使用conda来致力于简化包的管理和部署与pip命令的功能类似但更加强大。 Anaconda下载 Anaconda截止到目前最新的版本是基于Python3.6的Anaconda3 5.1.0,并分别提供了支持Python3.x和Pyhon
我是攻城师
2018-05-15
2.6K0
六个藉藉无名但迅速崛起的Apache大数据项目
如今全球各地的无数企业组织在处理数据集,这些数据集是如此地庞大而复杂,以至于传统的数据处理应用软件再也无法支持经过优化的数据分析和洞察力获取。这是新一批大数据应用软件旨在解决的问题,而Apache软件
我是攻城师
2018-05-14
1.3K0
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的过程,一个历练的过程,我相信优秀的人,都是经历过无数磨难成就的,并且有着坚持不放弃的心态,迎接各种挑战,如果你总是遇到困难就放弃,那么你永远也不能成为最优秀的人,废话不多说了,下面开始进入正题: 框架版本如下: Centos6.5 Apache Hadoop2.7.1 Apac
我是攻城师
2018-05-14
9290
生儿子幸福还是生女儿幸福?让大数据告诉你!
儿子是“建设银行”,所以生了儿子的爸妈会马上开始省吃俭用攒钱买房,而女儿是“招商银行”,生女儿的爸妈可能就会计划买辆新车。那么到底生女儿好还是生儿子好,爸妈们一直是各说各有理,并没有统一的答案。 最近一项名为《新经济时期的子女性别和父母幸福感》的课题研究,其内容包括个体幸福感指标、子女的数量、性别和年龄以及教育、收入、健康等。研究在采集了国内72个地级市4309个家庭的样本之后,得出“生儿子的父母,在儿子长到17岁至30岁期间,幸福感明显比生女儿的父母要低。”也就是说大数据告诉我们,生女儿会比较幸福!但真的
我是攻城师
2018-05-14
5710
运用Spark加速实时数据分析
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不同大小规则的数据。 在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在
我是攻城师
2018-05-14
6520
大数据就是这么神奇!
大数据,顾名思义就是大量的数据,专业一点的解释叫做无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 互联网时代每天都有巨量的数据产生,信息技术也随之飞速发展。社会各个阶层都在默默收集这些数据,并通过分析与统计,筛选出对自己有用的数据。大数据已经渗透进我们生活的方方面面,其实我们
我是攻城师
2018-05-14
6620
Twitter发布新的大数据实时分析系统Heron
昨日,Twitter发布了新开发的数据实时分析平台Heron,以下为官方文档摘译: 我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样,实时分析这些事件是一个巨大的挑战。目前,我们主要的分析平台是开源的分布式流计算系统Storm。但是随着Twitter数据规模变大和多样化,我们的需求已经发生了改变。因此,我们设计了一个新系统Heron——实时分析平台,它可完全兼容Storm的API。我们在昨天的SIGMOD 2015上正式推出。 基本原理和方法: 实时流系统是在大规模数据分析的基础上
我是攻城师
2018-05-11
8990
Spring Boot开发之明月千城(一)
最近数据分析的项目也即将告一段落了,中间也积累了很多知识,特此记录一下。其中用的最爽的Web组合开发就是Intellij IDEA + Maven + Spring Boot + Velocity +
我是攻城师
2018-05-11
6610
Apache Pig如何与Apache Lucene集成?
在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一
我是攻城师
2018-05-11
1K0
如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函数解决不了,不过也无需担忧,Pig开放了各个UDF的接口和抽象类,从加载,转换,过滤,存储等等,都有对应的实现接口,只要我们实现或继承它,就非常方便扩展。 本篇呢,散仙会使用Ansj分词器+Pig来统计中文的
我是攻城师
2018-05-11
8950
大数据,怎么搞?
随着大数据的爆红,数据分析师这个职位也得到了越来越多的关注,千千万万懂些大数据技术的少年们都渴望成为高大上的“大数据科学家”,可是,你们真的准备好了吗? 1、最早的数据分析可能就报表
我是攻城师
2018-05-11
8780
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档