首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据还能混吗?

工作这么多年,浪尖一直从事大数据相关的架构设计,计算框架的二次开发,尤其是实时计算框架,最近两年在搞实时数仓和数据分析,浪尖算是跟着大数据生态成长起来的老人了。...目前,大数据能做的或者还在折腾的方向基本就是: 1.数仓建设,大都是是 lamda 架构,也即是离线+实时数仓。这也是 lamda 架构演进的第二阶段。 2.通过湖仓一体,来实现离线和实时统一。...典型的组合是 flink+hudi,感觉还是 flink 发展带动的,目前问题比较多,比如血缘追踪,数据修正等。需配合一些 olap 框架,如 presto 和 ck。...5.数据开发,主要是 etl,特征抽取,sql 取数 boy 啥的,这类工作可替代性太强薪水上不去的,3-5 年以内的可以搞搞;5 年以上 希望大家远离吧,尽早提升。

25120
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据生态如何入门?

    数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面:数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。...数据存储是将采集过来的数据,按照不同应用场景,使用不同技术进行存储,为数据计算做准备。数据计算可以根据数据的时效性,对存储的数据进行离线计算和实时计算,最终的计算结果可以为企业决策提供数据支撑。...数据采集、数据存储和数据计算这三个方面是大数据工程师的必备技能。 大数据不是一项专门的技术,而是很多技术的综合应用。可以通过一系列大数据技术对海量数据进行分析,挖掘出数据背后的价值。...数据从总体上可以分为结构化数据和非结构化数据。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。...数据获取 数据总体可分为结构化数据和非结构化数据。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格遵循数据的字段类型和长度限制,主要通过关系型数据库进行存储和管理。

    35911

    数据Hadoop生态介绍

    数据Hadoop生态-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。...随着处理任务不同,各种组件相继出现,丰富Hadoop生态,目前生态结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层...接下来对Hadoop生态中出现的相关组件做一个简要介绍。 1、HDFS(分布式文件系统) HDFS是整个hadoop体系的基础,负责数据的存储与管理。...数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。 Sqoop利用数据库技术描述数据架构,用于在关系数据库、数据仓库和Hadoop之间转移数据。...它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据

    92220

    爬取娱乐排行榜数据

    想关注你的爱豆最近在娱乐发展的怎么样吗?本文和你一起爬取娱乐的排行榜数据,来看看你的爱豆现在排名变化情况,有几次登顶,几次进了前十名呀。...如果我们想一个一个复制这些数据,再进行分析,估计要花一天的时间,才可以把明星的各期排行数据处理好。估计会处理到崩溃,还有可能会因为人为原因出错。 而用爬虫,半个小时不到就可以处理好这些数据。...接下来看看怎么把这些数据用Python爬下来吧。 二、先来看下爬取后数据的部分截图 1 男明星人气榜数据 ? 2 女明星人气榜数据 ?...注2:如果对Requests库不了解,可以参见本公众号中文章【Python】【爬虫】Requests库详解 2 把爬取到的数据整合到一个数据框中 #把爬取的数据整合到数据框中 import re...本段代码是反复调用爬虫函数获取页面数据,并用append整合到一个数据框中。

    52730

    一图简述大数据技术生态

    1、HBase   是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化数据集群。像Facebook,都拿它做大型实时应用。...2、Hive   Facebook领导的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。...3、Pig   Yahoo开发的,并行地执行数据流处理的引擎,它包含了一种脚本语言,称为Pig Latin,用来描述这些数据流。...Pig Latin本身提供了许多传统的数据操作,同时允许用户自己开发一些自定义函数用来读取、处理和写数据。在LinkedIn也是大量使用。...4、ascading/Scalding   Cascading是Twitter收购的一个公司技术,主要是提供数据管道的一些抽象接口,然后又推出了基于Cascading的Scala版本就叫Scalding

    89380

    数据改变保险业“生态

    他先后拜访国内多位保险公司高管,寻找双方基于互联网与大数据分析模型开展保险创新业务的可行性。 “互联网正在悄悄改变保险业的整个生态,从产品设计、营销服务、流程再造、投资风险承受能力等等各个环节。”...模拟“投资情景” 《21世纪》:保险产品本身已有大数据分析的基因,那么,基于互联网的大数据分析模型,还会给保险产品创新带来多大推动力?...Peter:的确,多数保险产品是由精算师借助各类数据设计的,但这些数据以往主要用于完善保险产品理赔责任与化解运营风险。...在基于互联网大数据的分析下,保险公司可以加入个性化的投资风险承受程度,进而设计更多创新产品。...业务流程改造 《21世纪》:互联网要改变保险业生态,最大的难点是改造保险公司的业务流程,这种改造如何进行?

    63570

    分析 Facebook 朋友数据的最后机会!

    Wolfram|AlphaFacebook用户数据分析:分析朋友数据的最后机会!...前些年,在获得广大的数据提供者提供的大量数据后,我们利用Wolfram语言中的社交网络分析、机器学习和数据可视化这些强大的工具来分析并获得Facebook用户的人口统计资料以及他们的兴趣爱好等数据。...因此,在大多数情况中,我们将不能获得充足的Facebook朋友数据,无法得到他们的活动行为数据图,因此也就无法通过数据计算来获得他们的地理位置、年龄、婚姻状况以及其他个人性格特征等信息。...这样一来,搜集数据就没那么容易了,许多人能够获得的数据量将大大减少,尽管如此,我们还是对Facebook提高用户数据的缺省安全表示完全支持。...Facebook活动行为数据分析报告。

    46230

    教你读懂大数据的技术生态

    数据本身是个很宽泛的概念,Hadoop生态(或者泛生态)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具:锅碗瓢盆,各有各的用处,互相之间又有重合。...大数据,首先你要能存储大量数据。 传统的文件系统是单机的,不能横跨不同的机器。...比如,要想获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。...HDFS为你管理这些数据数据存储完毕,就需要考虑怎么处理数据。 虽然HDFS可以从整体上管理不同机器上的数据,但是这些数据太大了。...你可以认为,大数据生态就是一个厨房工具生态。为了做不同的菜,中国菜,日本菜,法国菜,你需要各种不同的工具。

    35830

    数据Hadoop生态各个组件介绍(详情)

    文章目录 Hadoop生态总览图 1.HDFS(分布式文件系统)——核心 2.MapReduce(分布式计算框架)——核心 3.Yarn(分布式资源管理器)——核心 4.Spark(分布式计算框架...Zookeeper(分布式协作服务) 15.HCatalog(数据表和存储管理服务) 16.Impala(SQL查询引擎) 17.Presto(分布式大数据SQL查询引擎) Hadoop生态总览图...Reduce task:从Map 它深刻地执行结果中,远程读取输入数据,对数据进行排序,将数据分组传递给用户编写的Reduce()函数执行。...数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。 Sqoop利用数据库技术描述数据架构,用于在关系数据库、数据仓库和Hadoop之间转移数据。...它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据

    4.6K21

    数据繁荣生态组件之实时大数据Druid小传(一)

    吞吐量较低 4.扩展性不如非关系型数据库方便 根据上面的总结,随着每日增量数据的累加,短期来看mysql数据库是能够承载一定程度的数据量的,但是长期来看,mysql数据库将不堪重负。...因此,我们需要寻找mysql数据库的替代方案,这里我们选择了apache druid实时数据库。...HDFS以集群硬盘作为存储资源池的分布式文件系统; 在海量数据的处理过程中,会引起大量的读写操作,随机IO是高并发场景下的性能瓶颈 (3)数据查询效率问题 HDFS对于数据分析以及数据的即席查询,...传统的Hadoop大数据处理架构更倾向于一种“后台批处理的数据仓库系统”,其作为海量历史数据保存、冷数据分析,确实是一个优秀的通用解决方案,但问题主要体现为: 1.无法保证高并发环境下海量数据的查询分析性能...Druid的关键特性如下: 1.亚秒级的OLAP查询分析 采用了列式存储、倒排索引、位图索引等关键技术 2.在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作 3.实时流数据分析 传统分析型数据库采用的批量导入数据

    38810

    基于Hadoop生态数据仓库实践 —— 目录

    数据需求 4. 多维数据模型基础 二、在Hadoop上实现数据仓库 1. 大数据的定义 2. 为什么需要分布式计算 3. Hadoop基本组件 4. Hadoop生态的其它组件 5....Hadoop生态的分布式计算思想 6....与传统数据仓库架构对应的Hadoop生态工具 第二部分:环境搭建 一、Hadoop版本选型 二、安装Hadoop及其所需的服务 三、建立数据仓库示例模型 1. ERD 2. 选择文件格式 3....建立数据库、表和视图 第三部分:ETL 一、使用Sqoop抽取数据 1. Sqoop简介 2. CDH 5.7.0中的Sqoop 3. 使用Sqoop抽取数据 二、使用Hive转换、装载数据 1....比较 三、Impala OLAP实例 四、数据可视化与Hue简介 五、Hue、Zeppelin比较 六、Hue数据可视化实例

    61110
    领券