腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏作者

216

文章

314832

阅读量

58

订阅数

潜伏多年的中文编程语言该不该发展起来（科技无国界,呵呵）

ide java flink 大数据

中文编程，有的人觉得可能比较新鲜，有的人可能听说过，但是并不看好。有了英文编程，比如Java，C，Python等，为何还需要中文编程。

2022-05-18

5340

如何阅读源码

hadoop flink java 大数据

问题导读 1.阅读源码不同的情况该如何阅读源码? 2.如果为了面试，该如何快速懂得源码？ 3.阅读源码的难点在什么地方？为何要阅读源码？可能原因如下： 1.面试要求 2.提升编码能力在面试中，

2022-03-31

5490

Flink1.12支持对接Atlas【使用Atlas收集Flink元数据】

flink 大数据 node.js 编程算法 kafka

问题导读 1.Atlas中实体具体指什么？ 2.如何为Flink创建Atlas实体类型定义？ 3.如何验证元数据收集？在Cloudera Streaming Analytics中，可以将Flink与Apache Atlas一起使用，以跟踪Flink作业的输入和输出数据。 Atlas是沿袭和元数据管理解决方案，在Cloudera Data Platform上受支持。这意味着可以查找，组织和管理有关Flink应用程序以及它们如何相互关联的数据的不同资产。这实现了一系列数据管理和法规遵从性用例。有关Atlas的更多信息，请参阅Cloudera Runtime文档。 Flink元数据集合中的Atlas实体在Atlas中，表示Flink应用程序，Kafka主题，HBase表等的核心概念称为实体。需要了解Flink设置中实体的关系和定义，以增强元数据收集。为Flink创建Atlas实体类型定义在提交Flink作业以收集其元数据之前，需要为Flink创建Atlas实体类型定义。在命令行中，需要连接到Atlas服务器并添加预定义的类型定义。还需要在Cloudera Manager中为Flink启用Atlas。验证元数据收集启用Atlas元数据收集后，群集上新提交的Flink作业也将其元数据提交给Atlas。可以通过请求有关Atlas挂钩的信息来在命令行中使用消息验证元数据收集。 Flink元数据集合中的Atlas实体在Atlas中，表示Flink应用程序，Kafka主题，HBase表等的核心概念称为实体。需要了解Flink设置中实体的关系和定义，以增强元数据收集。在向Atlas提交更新时，Flink应用程序会描述自身以及用作源和接收器的实体。Atlas创建并更新相应的实体，并从收集到的和已经可用的实体创建沿袭。在内部，Flink客户端和Atlas服务器之间的通信是使用Kafka主题实现的。该解决方案被Atlas社区称为Flink挂钩。

2021-04-09

1.7K0

大数据集群资源预估规划【适用于面试与工作集群规划】

kafka 存储大数据

问题导读 1.如何判断数据增量？ 2.QPS如何计算？ 3.存储空间需要考虑哪些因素？ 4.内存估算和哪些因素有关？我们在实际工作，或者面试中，经常会遇到这么一个问题，集群该如何规划，一台机器多少磁盘，多少内存，多少core等。

2020-12-17

2K0

Flink1.9新特性解读：通过Flink SQL查询Pulsar

大数据 bash shell bash 指令 https

问题导读 1.Pulsar是什么组件？ 2.Pulsar作为Flink Catalog，有哪些好处？ 3.Flink是否直接使用Pulsar原始模式？ 4.Flink如何从Pulsar读写数据？ Flink1.9新增了很多的功能，其中一个对我们非常实用的特性通过Flink SQL查询Pulsar给大家介绍。我们以前可能遇到过这样的问题。通过Spark读取Kafka，但是如果我们想查询kafka困难度有点大的，当然当前Spark也已经实现了可以通过Spark sql来查询kafka的数据。那么Flink 1.9又是如何实现通过Flink sql来查询Pulsar。可能我们大多对kafka的比较熟悉的，但是对于Pulsar或许只是听说过，所以这里将Pulsar介绍下。 Pulsar简介 Pulsar由雅虎开发并开源的一个多租户、高可用，服务间的消息系统，目前是Apache软件基金会的孵化器项目。 Apache Pulsar是一个开源的分布式pub-sub消息系统，用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本机支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。 Pulsar已经在一些名企应用，比如腾讯用它类计费。而且它的扩展性是非常优秀的。下面是实际使用用户对他的认识。

2020-02-13

2K0

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

大数据 spark hive hbase TDSQL MySQL 版

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

2020-01-14

4.7K0

数据治理：白话打通对Atlas的理解

大数据 hadoop https 网络安全数据库

问题导读 1.Atlas是什么？ 2.Atlas能干什么？ 3.Atlas血统关系是什么？ Atlas现在被企业使用的越来越多，我们可能听说过，但是具体它是什么，能干什么的，我们可能不清楚。因此我们要解决第一个问题，Atlas是什么？ Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。上面我们或许听着比较懵圈，都是啥，元数据治理是啥？为啥要元数据治理？元数据不就是用来描述数据的数据，我们这么理解没有错的，不过这个是其中重要的一项。比如Hive的元数据，那是需要第三方数据库的，大多存储到mysql中。为啥又出来一个Atlas，它能管理Hive的元数据吗？别说，还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题，Atlas能干什么？。 Atlas能干什么？其实很多大数据组件都有元数据管理，比如： Hive保存在外部数据库中，比如Mysql Hadoop元数据保存在Namenode，元数据的存储格式：data/hadoopdata/目录下 name：元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中等等以上，我们的元数据每个大数据组件都有保存的地方，为啥还需要Atlas。上面元数据是为了功能而生，都是单独的系统，散落在各个组件中，而我们能不能把这些元数据统一管理，而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到，那就更好了。看到这些有什么好处？比如我们想找到Hive有哪些表，想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas，用来管理元数据的平台。我们知道了Atlas是什么，能干什么，可能是比较通透了。可是还不够详细，那么接下来我们看看Atlas有哪些功能，有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。

2019-12-30

2.5K0

Hbase故障处理汇总及评注

hadoop node.js unix zookeeper 大数据

Hbase是企业比较常用的大数据组件，对于开发来讲，单纯的开发几乎不可能，往往都会搭建集群，甚至负责集群的维护，特别是公司规模较小。我们VIP中很多成员，都是一个成员扛起了整个公司的大数据部门，被称之为“扛把子”。

2019-11-06

6.6K0

Flink CEP学习线路指导1：Flink CEP入门

大数据 php http https 网络安全

问题导读 1.Flink CEP是什么？ 2.Flink CEP可以做哪些事情？ 3.Flink CEP和流式处理有什么区别？ 4.Flink CEP实现方式有哪些？ Flink CEP在Flink里面还是比较难以理解的。有的老铁甚至以为和Flink流式处理是差不多的。其实Flink CEP跟流式处理确实有相似的地方。但是Flink CEP处理的是流式数据，但是却并不是流式处理（datastream）。后面给大家详细讲解。 Flink CEP有的大家甚至不知道CEP是什么？CEP在Flink未产生以前，已经有CEP，并不是有了Flink才有CEP，我们这里重点是讲Flink CEP。CEP本身的含义是复杂事件处理。那么它为什么可以处理复杂事件，这就跟它的原理有关系了。所以我们需要了解NFA，NFA是什么？它的含义是非确定有限自动状态机。我们明确它的概念是什么就可以了。后面同样也会给大家补充。由于官网只讲了CEP的基础部分，因此我们需要给大家补充原理部分，基础（组成）部分，以及编程方面的内容。也就是我们按照下面线路来学习： 1.首先认识Flink CEP 2.Flink CEP原理机制 3.Flink CEP编程通过上面三部分，我们来学习Flink CEP。

2019-11-06

2.2K0

Flink未来-将与 Pulsar集成提供大规模的弹性数据处理

大数据 apache windows 数据处理编程算法

问题导读 1.什么是Pulsar？ 2.Pulsar都有哪些概念？ 3.Pulsar有什么特点？ 4.Flink未来如何与Pulsar整合？ Apache Flink和Apache Pulsar的开源数据技术框架可以以不同的方式集成，以提供大规模的弹性数据处理。在这篇文章中，我将简要介绍Pulsar及其与其他消息传递系统的差异化元素，并描述Pulsar和Flink可以协同工作的方式，为大规模弹性数据处理提供无缝的开发人员体验。 Pulsar简介 Apache Pulsar是一个开源的分布式pub-sub消息系统，由Apache Software Foundation管理。 Pulsar是一种用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本地支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。现在让我们讨论Pulsar和其它pub-sub消息传递框架之间的主要区别：第一个差异化因素源于这样一个事实：虽然Pulsar提供了灵活的pub-sub消息传递系统，但它也有持久的日志存储支持 - 因此在一个框架下结合了消息传递和存储。由于采用了分层架构，Pulsar提供即时故障恢复，独立可扩展性和无平衡的集群扩展。 Pulsar的架构遵循与其他pub-sub系统类似的模式，因为框架在主题中被组织为主要数据实体，生产者向主体发送数据，消费者从主题（topic）接收数据，如下图所示。

2019-05-15

1.3K0

Flink1.8新版发布:都有哪些改变

大数据文件存储 hadoop sql kafka

问题导读 1.Flink1.8引入对什么状态的连续清理？ 2.保存点兼容性方面，不在兼容哪个版本？ 3.Maven依赖在Hadoop方便发生了什么变化？ 4.Flink是否发布带有Hadoop的二进制文件？ Flink1.8发布，主要改变如下： 1.将会增量清除旧的State 2.编程方面TableEnvironment弃用 3.Flink1.8将不发布带有Hadoop的二进制安装包更多详细如下：

2019-05-07

1.4K0

Flink流之动态表详解

sql 大数据 api

问题导读 1.动态表有什么特点？ 2.流处理与批处理转换为表后有什么相同之处？ 3.动态表和连续查询是什么关系？ 4.连续查询本文列举了什么例子？ 5.Flink的Table API和SQL支持哪三种编码动态表更改的方法？由于Flink对流式数据的处理超越了目前流行的所有框架，所以非常受各大公司的欢迎，其中包括阿里，美团、腾讯、唯品会等公司。而当前也有很多的公司在做技术调研而跃跃欲试。

2019-03-14

4.1K0

Kafka +深度学习+ MQTT搭建可扩展的物联网平台【附源码】

深度学习 qt 物联网大数据

物联网+大数据+机器学习将会是以后的趋势，这里介绍一篇这方面的文章包含源码。混合机器学习基础架构构建了一个场景，利用Apache Kafka作为可扩展的中枢神经系统。公共云用于极大规模地训练分析模型（例如，通过Google ML Engine在Google Cloud Platform（GCP）上使用TensorFlow和TPU，预测（即模型推断）在本地Kafka基础设施的执行（例如，利用Kafka Streams或KSQL进行流分析）。本文重点介绍内部部署。创建了一个带有KSQL UDF的Github项目，用于传感器分析。它利用KSQL的新API功能，使用Java轻松构建UDF / UDAF函数，对传入事件进行连续流处理。使用案例：Connected Cars - 使用深度学习的实时流分析从连接设备（本例中的汽车传感器）连续处理数百万个事件：

2018-08-16

3.1K0

小白与大神存在哪些差距

大数据人工智能区块链 spark

看到很多about云会员，铁粉及QQ群成员，当然也包括一些转行成员，而且整个IT行业很多人可能都面临这个问题，感到困惑。比如没有大数据工作经验，没有人工智能工作经验，该如何找这方面的工作。很多人可能有这方面的经历，学习这方面的技术有一两年的，可是没有做过项目，怎么找工作，公司怎么可能用没有项目经验的人。同样很多培训的成员，似乎也面临这么个问题，我只是模拟的项目，并没有真正的工作过，工作难找，该怎么办？这时候我们在思考一个问题？哪些大佬，功成名就者，各个你认为比较厉害的大神，他们是怎么找工作的？当然有人可能会说，他们有背景，留过学，富二代等等，确实有这方面的，王思聪根本就不用找工作，羡慕吧。奶茶妹妹，人家也不用哎，羡慕吧。可是王思聪，奶茶妹妹只有一个，相信这也是很小的一部分人所具有的优势。我们大部分人面临的问题，依然是毕业之后，如何找到自己心仪的一份工作。如果你了解的够多，相信知道校招，也就是在学校中被招聘的成员，不得不说这部分很幸运。但是如果我们招聘不到，就说明我们不优秀吗？这里我们说下星爷和马云。星爷拉打酱油的梁朝伟去面试，结果梁朝伟考上，星爷落选。跟周星驰一起出道的很多，很多人都已经有很大的名气，结果星爷还只是一个儿童节目的小主持人。当然马云相信大家应该都了解，马云当年去面试肯德基，25个人里24个被录用了。这说明有的人可能赢在了起跑线上，可是人生是个马拉松，起跑超前，不意味着永远跑在前面。如果我们没有那么幸运，学校招聘中没有录取。很遗憾要接受社会考验了。社会招聘很严酷，而且残忍。是的，就是这么残忍。面临社会的考验，没有工作经验，我们该如何解决？那么你认为什么是工作经验？做着办公室，搞着公司的项目，做了几年，到处是漏洞，这就是工作经验？记得曾经流行一句话，你是拥有十年工作经验,还是一个经验用了十年。所以我们经验的获取，如果不用心，可能你永远没有成长。如果用心学习，不断成长，我们并不一定非要在办公室才能获取经验。现在我们来想想，如果在工作中接手一个项目，和我们自己来搞一个项目，他们之间有什么区别？ 1.技术广度与深度如果是已经有经验的人做一个项目，首先他的技术是经过别人考核通过的，是通过技术学习，技术认可洗礼的。在我们找工作的时候，我们会看到各种技术要求。（1）技术广度如下是区块链技术要求：

2018-07-26

2430

做技术到底可以做到哪种地步-技术为什么越走越窄

尽管做技术已经有不少年头了，不管是犹犹豫豫还是坚定不移，我们走到了现在，依然走在技术这条路上。不管我们处于何种职位，拿着哪种薪水，其实，我们会是不是的问问自己“做技术到底可以做到那种地步”，说的直白一点，其实我们很多人对技术这条路依然充满很多彷徨，不管我们的现状是多么的满意与辉煌。最近一直招聘技术人员，见了很多求职的朋友，也和他们探讨了很多与职业发展，技术能力方面的问题，下面说下我个人的看法，和大家分享一下。有很多的人总是一直在问“我搞.NET很多年了，但是感觉现在越走越窄了”。其实“越走越窄“主要

2018-03-27

5020

大数据架构和模式（二）如何知道一个大数据解决方案是否适合您的组织

大数据系统架构

问题导读 1.如何判断大数据问题是否需要大数据解决方案？ 2.如何评估大数据解决方案的可行性？ 3.可通过大数据技术获取何种洞察？ 4.是否所有大数据都存在大数据问题？接上篇：大数据架构和模式（一）: 大数据分类和架构简介简介在确定投资大数据解决方案之前，评估可用于分析的数据；通过分析这些数据而获得的洞察；以及可用于定义、设计、创建和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征。尽管组织一般情况对需要分

2018-03-27

7140

spark与hadoop相比，存在哪些缺陷（劣势）

spark hadoop 大数据开源

一说大数据，人们往往想到Hadoop。这固然不错，但随着大数据技术的深入应用，多种类型的数据应用不断被要求提出，一些Hadoop被关注的范畴开始被人们注意，相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。 Spark是一个基于RAM计算的开源码ComputerCluster运算系统，目的是更快速地进行数据分析。Spark早期的核心部分代码只有3万行。Spark提供了与HadoopMap/Reduce相似的分散式运算框架，但基于RAM和优化设计，因此在交换式数据分析和datami

2018-03-27

1.4K0

大数据融合将解锁物联网真正潜力

大数据物联网数据库

随着洛杉矶CES大会的落幕，局势渐渐明朗：2015年将成为物联网元年。从牙刷可以安排体检到瑜伽垫可以实时分析你的动作，今年的CES大会上，3000多家企业推出了超过2000件新产品。对于物联网这个概念我们显然已经不陌生了。实际上，Gartner公司预测物联网设备的数量在2020年将增长到250亿。由于便捷性的驱动和对曾经无法实现技术的迷恋，消费者将持续补充他们的电子产品仓库。随着联网设备增多，他们将会把目光转向商业，来提高互联性和用户体验。超前的用户体验意味着为这些设备创造出一条新的路——无缝互联。现

2018-03-27

6370

浅谈医学大数据（上）

编者按：作者：陈漪伊，美国俄勒冈州，健康科技大学，公共卫生预防系，生物统计助理教授。　　陈遵秋和陈漪伊夫妇是美籍华人，现在美国定居。其二人是目前研究医疗大数据及生物样本大数据真正的专家。现将两位的文章进行公开发表，与大家一起探讨。　　现在无论国内外均出现了移动医疗热，所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说，90%以上的人都不知道医疗大数据分析是什么东西，因此这是一篇扫盲贴，但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本，以及需要的专业人

2018-03-27

7890

大数据架构师、开发人员、公司必读：国外大数据应用的10个项目案例（图表）

大数据数据可视化数据分析

问题导读 1.大数据如何应用于电力能源项目，带来效益？ 2.数据可视化有哪些应用？ 3.是否可以将可视化应用于空气污染？ 4.大数据如何应用于各种（手机）应用？ 5.你认为大数据还可以应用于那些场景？小编翻译了意大利大数据应用10个项目案例例,供感兴趣的读者享用：一、数据分析案例1：题目：感测人类行为，预测能源消费应用领域：能源消费预测模型项目负责人：Andrey Bogomolov 项目简介：项目致力于优化意大利Trentino省

2018-03-27

1.7K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态