首页
学习
活动
专区
工具
TVP
发布

信息化漫谈

专栏作者
153
文章
301154
阅读量
35
订阅数
对网页数据的大数据分析实操案例
日志中包括很多数据,我们今天只用到IP、帐号、访问的网址作为示例。在真实的项目中(如某宝),通过javascript的事件,可以将你在某个商品链接上停留的时间都采集记录一下来。这些日志通过flume脚本采集到HDFS中长期存储起来。
希望的田野
2019-12-24
1.1K0
你的上网行为就这样被采集走了
1、被采集的数据主要是网页跳转数据:比如你从哪个网页跳转入该购物网站、你点击了哪些商品页面、在商品页面上停留了多少时间。
希望的田野
2019-12-24
7510
用几张图看懂大数据技术
我们做政企客户的解决方案支撑工作,一直在跟客户提到“大数据”,通过大数据就能将数据转化成推动精准营销、精准管理的利器。但实际,我们对大数据的理解有多少,今天我们用几张图帮助建立对大数据的技术理解。
希望的田野
2019-10-09
7270
淘宝大数据体系之数据采集
Alibaba作为一家拥有多业务的互联网公司,进行用户数据的大数据分析,已成为推动数据化运营的必然选择。大数据分析,第一步必然是取得需要的数据,今天我们来看看淘宝的用户行为数据采集的细节。任何一个小话题,细看都大有文章。
希望的田野
2019-09-24
1.6K0
图文简述HBase的用途(二)
昨天,我们讲到了HBase的逻辑结构,今天我们来看一下HBase的存储及访问原理。
希望的田野
2019-09-24
7470
在单台云主机搭伪分布式hadoop环境
Hadoop是大数据的基础框架模型,处理大数据,不应只谈偏向业务环境的大数据(如超市买婴儿尿不湿同时还应该推荐啤酒的经典案例),作为解决方案经理,技术是不能缺少的,否则存在忽游的嫌疑。:) 做解决方案经理,技术+业务,个人理解,技术应占到60%,业务占到40%,说到业务其实客户比我们更懂,因此技术非常重要。前面我们讲到过大数据的环境搭建,今天我们用单台云主机(或自建vmware虚机)进行Hadoop所有组件的实际应用,再次加深大数据的技术底蕴。
希望的田野
2019-09-24
1K0
用HDFS数据存储与你想象一样吗?
昨天装好伪分布式的hadoop环境后,今天进行最基础的HDFS环境操作。HDFS最刚开始使用有几个误区,接下来,我们在实际操作中进行一一演示。
希望的田野
2019-09-24
7810
案例简述MapReduce与HDFS协同工作流程
MapReduce是Hadoop开源大数据包的重要计算工具,后期的Spark、Storm等组件均采用MapReduce的计算模型。而MapReduce在工作时,实际与HDFS在一起工作。接下来我用一个案例来解析MapReduce的工作流程。
希望的田野
2019-09-24
7150
淘宝大数据之流式计算
到底什么是大数据?大数据与数据统计有什么区别?如果不理解大数据的承载底层技术,很难讲清楚。因此作为解决方案经理,技术与业务都是作为方案不可缺少的组成部分。今天我们来看一下大数据之流式计算。
希望的田野
2019-09-24
2K0
小文件对HDFS的危害
在大数据环境,很多组件都是基于HDFS,例如HDFS直接放文件环境、以及HBase、Hive等上层数据库环境。如果对HDFS环境未进行优化,小文件可能会造成HDFS系统的崩溃。今天我们来看一下。
希望的田野
2019-09-24
3.4K0
客户上云究竟为了什么?
我们一直在宣扬客户上云就像用“水和电”,主要是专业的人做专业的事,让客户得到三大价值:降低成本、提高效率、提高安全。真是这样吗?在客户眼中怎么看?
希望的田野
2019-09-24
1.1K0
了解HDFS的数据存取机制
HDFS是大数据存取的基础,很多数据都依赖于HDFS,如HBase数据库。作为Hadoop的基础,HDFS的数据读取机制有很多细节。我们今天来看一下。
希望的田野
2019-09-24
1.1K0
图文简述HBase的用途(一)
我们平常在存储数据时,会想到用Mysql关系型数据库、大硬盘文档存储等。但是,面临互联网自媒体时代的出现,采用Mysql来存储微信类评论数据、零碎图片、零碎视频,采用Mysql的数据库,已经力不从心。表现在:1、Mysql数据库字段固定。2、Mysql字段存储内容无法任意增加或删除。3、Mysql数据库水平扩展麻烦(分库分表依靠人手管理,非常麻烦),海量的数据存取存在瓶颈。因此,面临此类问题,Apache在HDFS的基础上推出了HBase的NoSQL数据库,解决此类问题。
希望的田野
2019-09-24
1.7K0
图文简述MapReduce(一)
提到大数据,其实最核心的在于计算,像双11实时统计交易量、智慧交通实时统计拥堵指数,这些离不开高并发计算。经常我们在听到mapreduce、以及spark、hive、pig、spark streaming、Storm,很多词语让我们迷茫,但实际万变不离其中,计算最核心的还是在于mapreduce。因此了解mapreduce的运行原理是必须的。
希望的田野
2019-09-24
5860
用案例讲讲方案演讲技巧
今天参加了一个省级云计算、大数据的联盟会议,感觉通过会议对方案的演讲技巧有相当大的冲击理解。其中,来自某省级大学的博士生导师、教授为大家讲了5G技术,而运营商则讲到了云大数据。效果如何呢? 教授讲时下面一大半开始睡觉,而运营商讲时则大家兴趣提高了很多。到底发生了什么?我们来剖析一下。
希望的田野
2019-09-24
6220
图文简述flume的巨大用途
谈到大数据,我们很常会想到hdfs、mapreduce、hbase、spark、hive等高大上的大数据工具或底层组件,但我们不能忘了饮水思源,我们的大数据的数据从哪里来呢? 有来自于mysql、oracle等关系型的结构化数据库,也有来自html、log等半结构数据,但问题来了!log类的文本如何采集、如何上传到hdfs或kafka中? 大家可能会想到采用ftp等手工传输方式,但实际是根据不可行,ftp如何保证数据保存至hdfs、kafka中。好,今天,我来们讲一种工具,flume,帮助您自动采集前端数据,并自动帮您保存至您想保存至的数据目的地。
希望的田野
2019-09-24
6130
图文简述HDFS(一)
谈到大数据,离不开google的三剑客:big table、mapreduce、gfs。作为该体系的开源版本,主要是hbase、mapreduce和hdfs。今天主要谈一谈大数据处理最基础的hdfs,hadoop data file system。hdfs主要用于对在低廉的pc服务器上实现高可靠的数据存储,满足大数据处理的底层数据存储需求。
希望的田野
2019-09-24
4870
云安全:浅谈态势感知
"态势感知"于美国空军提出,包括“感知、理解、预测”三个层次。在目前的一些安全系统中,实际仅做到了“感知”。借用客户一句话,安全的核心技术实际还在国外,今天从我们自己做起,来点滴学习安全知识。
希望的田野
2019-09-24
3.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档