首页
学习
活动
专区
工具
TVP
发布

信息化漫谈

专栏成员
152
文章
310732
阅读量
35
订阅数
对网页数据的大数据分析实操案例
日志中包括很多数据,我们今天只用到IP、帐号、访问的网址作为示例。在真实的项目中(如某宝),通过javascript的事件,可以将你在某个商品链接上停留的时间都采集记录一下来。这些日志通过flume脚本采集到HDFS中长期存储起来。
希望的田野
2019-12-24
1.1K0
让你秒懂hadoop各组件
经常在提到大数据处理框架hadoop,但大家对各组件的用途还是很迷糊,在给客户讲方案时觉得hadoop很高深。其实没有这么难,今天我们来简述一下用途。通过本短文的查阅,至少你知道组件的作用、他所处的层次。
希望的田野
2019-09-24
3.5K0
大数据Storm有什么优势?
在大数据Hadoop组件中,有MapReduce、Spark,但基于实时的流式计算,Hadoop体系外的Storm有着不可替代的快速的优势。那Storm的作用是什么呢?
希望的田野
2019-09-24
1.7K0
案例简述MapReduce与HDFS协同工作流程
MapReduce是Hadoop开源大数据包的重要计算工具,后期的Spark、Storm等组件均采用MapReduce的计算模型。而MapReduce在工作时,实际与HDFS在一起工作。接下来我用一个案例来解析MapReduce的工作流程。
希望的田野
2019-09-24
7460
实操用Hive分析大数据事半功倍
一般我们分析大数据,也许会想到Spark、Storm,但前提得会JAVA等编程语言,不然拿到数据也无法做分析。而Hive而解决了这个问题,只需要会Sql语言即可做mapreduce的大数据分析任务。今天我们创建测试数据用Hive进行mapreduce的实际分析。
希望的田野
2019-09-24
6530
淘宝大数据之流式计算
到底什么是大数据?大数据与数据统计有什么区别?如果不理解大数据的承载底层技术,很难讲清楚。因此作为解决方案经理,技术与业务都是作为方案不可缺少的组成部分。今天我们来看一下大数据之流式计算。
希望的田野
2019-09-24
2.1K0
数据倒换工具 Sqoop (大数据时代的ETL)
在传统的数据编程时代,我们今天听到过ETL(数据抽取、转换工具),可以用来从数据源提取数据,经过数据清洗后,放到数据仓库中,如熟知的Logstash, Flume。在大数据的时代,传统的RDBMS中的结构化数据如何倒向大数据的数据库如HBase中呢?这时侯,会用到Sqoop工具。
希望的田野
2019-09-24
1.2K0
图文简述MapReduce(一)
提到大数据,其实最核心的在于计算,像双11实时统计交易量、智慧交通实时统计拥堵指数,这些离不开高并发计算。经常我们在听到mapreduce、以及spark、hive、pig、spark streaming、Storm,很多词语让我们迷茫,但实际万变不离其中,计算最核心的还是在于mapreduce。因此了解mapreduce的运行原理是必须的。
希望的田野
2019-09-24
6010
图文简述HDFS(一)
谈到大数据,离不开google的三剑客:big table、mapreduce、gfs。作为该体系的开源版本,主要是hbase、mapreduce和hdfs。今天主要谈一谈大数据处理最基础的hdfs,hadoop data file system。hdfs主要用于对在低廉的pc服务器上实现高可靠的数据存储,满足大数据处理的底层数据存储需求。
希望的田野
2019-09-24
5070
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档