SmartSi-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SmartSi

专栏成员

270

文章

617169

阅读量

53

订阅数

DataX 快速入门

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。具体请查阅：DataX 异构数据源离线同步

2022-05-01

1.8K0

Spark Streaming 与 Kafka0.8 整合

spark api zookeeper python scala

在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法，一种为使用 Receivers 和 Kafka 高级API的旧方法，以及不使用 Receivers 的新方法（在 Spark 1.3 中引入）。它们具有不同的编程模型，性能特征和语义保证。就目前的 Spark 版本而言，这两种方法都被为稳定的API。

2019-08-08

2.3K1

Spark 在Spark2.0中如何使用SparkSession

sql api hive python json

除了有时限的交互之外，SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互，并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。最重要的是，它减少了开发人员在与 Spark 进行交互时必须了解和构造概念的数量。

2019-08-08

4.7K0

Spark Streaming 2.2.0 初始化StreamingContext

java scala spark python

为了初始化 Spark Streaming 程序，必须创建一个 StreamingContext 对象，它是 Spark Streaming 所有流操作的主要入口。StreamingContext 对象可以用 SparkConf 对象创建。

2019-08-07

1.3K0

Spark2.3.0 使用spark-submit部署应用程序

spark php jar python

Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。可以通过一个统一的接口使用 Spark 所有支持的集群管理器，因此不必为每个集群管理器专门配置你的应用程序。

2019-08-07

3K0

Spark Streaming 与 Kafka 整合的改进

kafka spark api python

Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此，在 Apache Spark 1.3 中，我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下：

2019-08-07

7720

Spark 多文件输出

spark hadoop python api

在Hadoop 多文件输出MultipleOutputFormat中介绍了如何在Hadoop中根据Key或者Value的值将属于不同的类型的记录写到不同的文件中。在这里面用到了MultipleOutputFormat这个类。

2019-08-07

2.2K0

Python 数据库操作

python 数据库 mongodb 云数据库 SQL Server

Python使用数据库驱动模块与MySQL通信。诸如pymysql等许多数据库驱动都是免费的。这里我们将使用pymysql，它是Anaconda的一部分。驱动程序经过激活后与数据库服务器相连，然后将Python的函数调用转换为数据库查询，反过来，将数据库结果转换为Python数据结构。

2019-08-07

1.1K0

Python 文件处理

json python 编程算法文件存储

记录中的字段通常由逗号分隔，但其他分隔符也是比较常见的，例如制表符（制表符分隔值，TSV）、冒号、分号和竖直条等。建议在自己创建的文件中坚持使用逗号作为分隔符，同时保证编写的处理程序能正确处理使用其他分隔符的CSV文件。

2019-08-07

7.1K0

Python 字符串操作

python 编程算法

字符串是 Python 中最常用的数据类型。我们可以使用引号(‘或”)来创建字符串。创建字符串很简单，只要为变量分配一个值即可。例如：

2019-08-07

8980

Python Numpy 数组

编程算法 numpy python

NumPy（Numeric Python，以numpy导入）是一系列高效的、可并行的、执行高性能数值运算的函数的接口。numpy模块提供了一种新的Python数据结构——数组(array)，以及特定于该结构的函数工具箱。该模块还支持随机数、数据聚合、线性代数和傅里叶变换等非常实用的数值计算工具。

2019-08-07

2.4K0

Flink1.4 定义keys的几种方法

java scala mapreduce python

一些转换(例如，join，coGroup，keyBy，groupBy)要求在一组元素上定义一个key。其他转换(Reduce，GroupReduce，Aggregate，Windows)允许在使用这些函数之前根据key对数据进行分组。

2019-08-07

9950

Scala 学习笔记之数组

scala java 编程算法 python

对于那种长度按需要变化的数组，Java有 ArrayList．Scala中等效数据结构为 ArrayBuffer．

2019-08-07

4170

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态