about云-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

about云

专栏成员

216

文章

329457

阅读量

58

订阅数

Flink未来-将与 Pulsar集成提供大规模的弹性数据处理

大数据 apache windows 数据处理编程算法

问题导读 1.什么是Pulsar？ 2.Pulsar都有哪些概念？ 3.Pulsar有什么特点？ 4.Flink未来如何与Pulsar整合？ Apache Flink和Apache Pulsar的开源数据技术框架可以以不同的方式集成，以提供大规模的弹性数据处理。在这篇文章中，我将简要介绍Pulsar及其与其他消息传递系统的差异化元素，并描述Pulsar和Flink可以协同工作的方式，为大规模弹性数据处理提供无缝的开发人员体验。 Pulsar简介 Apache Pulsar是一个开源的分布式pub-sub消息系统，由Apache Software Foundation管理。 Pulsar是一种用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本地支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。现在让我们讨论Pulsar和其它pub-sub消息传递框架之间的主要区别：第一个差异化因素源于这样一个事实：虽然Pulsar提供了灵活的pub-sub消息传递系统，但它也有持久的日志存储支持 - 因此在一个框架下结合了消息传递和存储。由于采用了分层架构，Pulsar提供即时故障恢复，独立可扩展性和无平衡的集群扩展。 Pulsar的架构遵循与其他pub-sub系统类似的模式，因为框架在主题中被组织为主要数据实体，生产者向主体发送数据，消费者从主题（topic）接收数据，如下图所示。

2019-05-15

1.3K0

Flink1.7稳定版发布：新增功能为企业生产带来哪些好处

问题导读 1.Flink1.7开始支持Scala哪个版本？ 2.Flink1.7状态演变在实际生产中有什么好处？ 3.支持SQL/Table API中的富集连接可以做那些事情？ 4.Flink1.7新增了哪些连接器 Apache Flink社区宣布Apache Flink 1.7.0发布。最新版本包括超过420个已解决的问题以及Flink的一些新增内容，About云将在本文的以下部分中对其进行描述。

2018-12-24

1.2K0

Cloudera Enterprise 6.0发布【集成Hadoop3.0】

erp hadoop 开源机器学习 apache

问题导读 1.cloudera集成了哪些新的组件？ 2.Cloudera Manager可以管理多少节点？ 3.升级版本有哪些条件？看到同行Fayson文章，公众号为Hadoop实操，发布了关于Cloudera Enterprise 6.0文章，非常的兴奋，这里根据英文原文翻译，分享给大家。

2018-10-08

7750

Hadoop 2.x与3.x 22点比较：3.x将节省大量存储空间

hadoop 存储 api apache 开源

1.Hadoop3.x通过什么方式来容错？ 2.Hadoop3.x存储开销减少了多少？ 3.Hadoop3.x MR API是否兼容hadoop1.x？

2018-10-08

2.3K0

适合小白入门Spark的全面教程

spark apache 开源

1.实时分析在我们开始之前，让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。

2018-08-16

6.2K0

kafka sql入门

sql 数据库 apache

问题导读 1.kafka sql与数据库sql有哪些区别？ 2.KSQL有什么作用？ 3.KSQL流和表分别什么情况下使用？

2018-07-26

2.5K0

Spark AI Summits大会介绍及如何下载相关视频资料【附2018年6月AI ppt下载】

spark 人工智能 apache

问题导读 1.Spark Summit更名为什么名字？ 2.Spark集群在哪些名企应用？ 3.Spark Summit的相关视频和ppt在哪可以下载？自2013年首次举办峰会以来，Spark Summits已成为全球最大的专注于Apache Spark的大型数据活动，聚集全球最优秀的工程师，科学家，分析师和高管，分享他们的知识并接受有关此次开放式培训的专业培训。此外，还有数以千计的人学习了Spark，大数据，机器学习，数据工程和数据科学如何为全球的企业和机构提供新的见解。现在Spark想进一步探索Spark和AI如何共同塑造认知计算领域，以及AI如何通过创新用例在业务中创造新的机会。Spark Summit已经更名为Spark + AI Summit，并将其重点转移到了AI的各个方面：从自驾车到语音和图像识别，以及从智能聊天机器人和新的深度学习框架和技术到高效的机器学习算法，模型和在视觉，言语，深度学习和规模分布式学习方法。 Apache Spark是一个强大的开源处理引擎，以速度，易用性和复杂的分析为基础。它于2009年在加利福尼亚大学伯克利分校启动，现在由独立于供应商的Apache软件基金会开发。自从发布以来，Spark已广泛应用于各行各业的企业迅速采用。雅虎，eBay和Netflix等互联网巨头已经大规模地部署了Spark，在超过8,000个节点的集群上处理了数PB的数据。 Apache Spark也成为最大的大数据开源社区，来自250多个组织的超过1000个贡献者。 Spark Summits每年举行，大家都喜欢下载相关视频和ppt。那么这些视频和ppt官网到底在哪里下载，下面详细介绍。首先输入下面网址： https://databricks.com/sparkaisummit 我们看到下面图示：

2018-07-26

5370

搭建hadoop集群必参考的文章：为Hadoop集群选择合适的硬件配置

问题导读 1.哪些情况会遇到io受限制？ 2.哪些情况会遇到cpu受限制？ 3.如何选择机器配置类型？ 4.为数据节点/任务追踪器提供的推荐哪些规格？随着Apache Hadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格列表那么简单。选择硬件，为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。（比如，IO密集型工作负载的用户将会为每个核心主轴投资更多）。在

2018-03-27

1.3K0

大数据处理分析的六大工具

hadoop 开源 apache 数据挖掘

下面请看详细介绍： Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元

2018-03-27

3K0

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

我们在进行日志分析的时候，那么日志的数据是杂乱无章的，或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗，说的直白一点就是要过滤里面的字符串。下面便是我们需要过滤的数据： 1

2018-03-27

7400

discuz论坛apache日志hadoop大数据分析项目：hive以及hbase是如何入库以及代码实现

hive 编程算法 hbase apache hadoop

about云discuz论坛apache日志hadoop大数据分析项目：数据时如何导入hbase与hive的到了这里项目的基本核心功能已经完成。这里介绍一下hive以及hbase是如何入库以及代码实现。首先我们将hbase与hive整合，详细参考 about云分析discuz论坛apache日志hadoop大数据项目：hive与hbase是如何整合使用的 about云分析discuz论坛apache日志hadoop大数据项目：hive与hbase是如何整合使用的整合完毕，我们就可以通过map

2018-03-27

8530

让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

apache bash bash 指令

问题导读： 1.什么是flume？ 2.如何安装flume？ 3.flume的配置文件与其它软件有什么不同？一、认识flume 1.flume是什么？这里简单介绍一下，它是Cloudera的一个产品 2.flume是干什么的？收集日志的 3.flume如何搜集日志？我们把flume比作情报人员（1）搜集信息（2）获取记忆信息（3）传递报告间谍信息 flume是怎么完成上面三件事情的，三个组件： source：搜集信息 channel：传递信息 sink：存储信息上面有点简练，详细可以

2018-03-27

9420

从零教你在Linux环境下（ubuntu）如何编译hadoop2.4

bash bash 指令 hadoop apache maven

问题导读： 1.如果获取hadoop src maven包？ 2.编译hadoop需要装哪些软件？ 3.如何编译hadoop2.4? 扩展：编译hadoop为何安装这些软件？一、首先

2018-03-27

1.2K0

Cloudera 系列1：Cloudera 入门指南

问题导读 1.Cloudera 提供了那些产品和工具？ 2.Cloudera Navigator的作用是什么？ Cloudera 提供一个可扩展、灵活、集成的平台，可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 和相关项目、操作和分析您的数据以及保护数据的安全。 Cloudera 提供下列产品和工具： CDH — Cloudera 分发的 Apache Hadoop 和其他相关开放源代码项目，包括 Imp

2018-03-26

2K0

日志分析实战之清洗日志小实例1：使用spark&Scala分析Apache日志

spark scala apache shell

问题导读 1.如何进入spark shell？ 2.spark shell中如何加载外部文件？ 3.spark中读取文件后做了哪些操作？ about云日志分析，那么过滤清洗日志。该如何实现。这里参考国外的一篇文章，总结分享给大家。使用spark分析网站访问日志，日志文件包含数十亿行。现在开始研究spark使用，他是如何工作的。几年前使用hadoop，后来发现spark也是容易的。下面是需要注意的：如果你已经知道如何使用spark并想知道如何处理spark访问日志记录，我写了这篇短的文章，介

2018-03-26

1.1K0

flume搜集日志：如何解决实时不断追加的日志文件及不断增加的文件个数问题

人工智能 apache

本文的背景：在搜集日志的过程中，日志文件的个数及日志文件需要不断的追加。flume1.6中，可以使用tail -f可以解决不断追加的文件，但是由于日志文件的个数是变化的，不可能只产生一个文件。所以tail -f就已经不能解决这个搜集日志的问题。需求：需要能够监控不断增加的文件，并且单个文件也是不断追加的解决办法：这时候flume1.7就产生了，很好的通过 TAILDIRl解决了这个问题。TAILDIRl可以监控一个目录下的文件。官网地址：http://flume.apache.org/Fl

2018-03-26

1.7K0

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

apache spark nat kubernetes

问题导读 1.什么是Kubernetes？ 2.在Kubernetes集群尝试新功能，该如何实现？ 3.观看群集上创建的Spark资源，该如何操作？在开始之前我们需要知道什么是Kubernetes Kubernetes（通常写成“k8s”）是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工

2018-03-26

1.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态