腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SmartSi
专栏成员
举报
270
文章
617169
阅读量
53
订阅数
订阅专栏
申请加入专栏
全部文章(270)
大数据(82)
编程算法(63)
java(45)
spark(36)
api(33)
scala(32)
sql(29)
文件存储(29)
存储(26)
flink(26)
unix(25)
mapreduce(25)
kafka(25)
hive(24)
数据库(23)
hadoop(22)
apache(19)
zookeeper(19)
windows(16)
node.js(14)
python(13)
缓存(13)
Elasticsearch Service(13)
分布式(12)
TDSQL MySQL 版(11)
网站(11)
http(11)
hbase(11)
数据处理(10)
数据结构(10)
javascript(9)
云数据库 Redis(9)
云数据库 SQL Server(7)
html(6)
json(6)
jar(6)
容器(6)
shell(6)
jvm(6)
https(6)
打包(5)
maven(5)
jdbc(5)
bash(4)
xml(4)
analyzer(4)
yarn(4)
tcp/ip(4)
socket编程(4)
linux(3)
bash 指令(3)
容器镜像服务(3)
网络安全(3)
jdk(3)
ssh(3)
正则表达式(3)
hexo(3)
php(2)
css(2)
oracle(2)
github(2)
lucene/solr(2)
ubuntu(2)
腾讯云测试服务(2)
serverless(2)
kubernetes(2)
数据分析(2)
processing(2)
ios(1)
mac os(1)
regex(1)
postgresql(1)
ruby on rails(1)
git(1)
全文检索(1)
批量计算(1)
日志服务(1)
访问管理(1)
消息队列 CMQ 版(1)
数据加密服务(1)
云推荐引擎(1)
mongodb(1)
企业(1)
vr 视频解决方案(1)
rollup.js(1)
开源(1)
压力测试(1)
numpy(1)
sql server(1)
面向对象编程(1)
npm(1)
单元测试(1)
rpc(1)
uml(1)
云计算(1)
任务调度(1)
utf8(1)
raft(1)
数据湖(1)
elasticsearch(1)
fetch(1)
get(1)
iterable(1)
join(1)
key(1)
search(1)
size(1)
storm(1)
task(1)
worker(1)
yaml(1)
搜索(1)
索引(1)
搜索文章
搜索
搜索
关闭
DataX 快速入门
python
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。具体请查阅:DataX 异构数据源离线同步
smartsi
2022-05-01
1.8K
0
Spark Streaming 与 Kafka0.8 整合
spark
api
zookeeper
python
scala
在这里我们解释如何配置 Spark Streaming 以接收来自 Kafka 的数据。有两种方法,一种为使用 Receivers 和 Kafka 高级API的旧方法,以及不使用 Receivers 的新方法(在 Spark 1.3 中引入)。它们具有不同的编程模型,性能特征和语义保证。就目前的 Spark 版本而言,这两种方法都被为稳定的API。
smartsi
2019-08-08
2.3K
1
Spark 在Spark2.0中如何使用SparkSession
sql
api
hive
python
json
除了有时限的交互之外,SparkSession 提供了一个单一的入口来与底层的 Spark 功能进行交互,并允许使用 DataFrame 和 Dataset API 对 Spark 进行编程。最重要的是,它减少了开发人员在与 Spark 进行交互时必须了解和构造概念的数量。
smartsi
2019-08-08
4.7K
0
Spark Streaming 2.2.0 初始化StreamingContext
java
scala
spark
python
为了初始化 Spark Streaming 程序,必须创建一个 StreamingContext 对象,它是 Spark Streaming 所有流操作的主要入口。StreamingContext 对象可以用 SparkConf 对象创建。
smartsi
2019-08-07
1.3K
0
Spark2.3.0 使用spark-submit部署应用程序
spark
php
jar
python
Spark的 bin 目录中的 spark-submit 脚本用于在集群上启动应用程序。可以通过一个统一的接口使用 Spark 所有支持的集群管理器,因此不必为每个集群管理器专门配置你的应用程序。
smartsi
2019-08-07
3K
0
Spark Streaming 与 Kafka 整合的改进
kafka
spark
api
python
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:
smartsi
2019-08-07
772
0
Spark 多文件输出
spark
hadoop
python
api
在Hadoop 多文件输出MultipleOutputFormat中介绍了如何在Hadoop中根据Key或者Value的值将属于不同的类型的记录写到不同的文件中。在这里面用到了MultipleOutputFormat这个类。
smartsi
2019-08-07
2.2K
0
Python 数据库操作
python
数据库
mongodb
云数据库 SQL Server
Python使用数据库驱动模块与MySQL通信。诸如pymysql等许多数据库驱动都是免费的。这里我们将使用pymysql,它是Anaconda的一部分。驱动程序经过激活后与数据库服务器相连,然后将Python的函数调用转换为数据库查询,反过来,将数据库结果转换为Python数据结构。
smartsi
2019-08-07
1.1K
0
Python 文件处理
json
python
编程算法
文件存储
记录中的字段通常由逗号分隔,但其他分隔符也是比较常见的,例如制表符(制表符分隔值,TSV)、冒号、分号和竖直条等。建议在自己创建的文件中坚持使用逗号作为分隔符,同时保证编写的处理程序能正确处理使用其他分隔符的CSV文件。
smartsi
2019-08-07
7.1K
0
Python 字符串操作
python
编程算法
字符串是 Python 中最常用的数据类型。我们可以使用引号(‘或”)来创建字符串。 创建字符串很简单,只要为变量分配一个值即可。例如:
smartsi
2019-08-07
898
0
Python Numpy 数组
编程算法
numpy
python
NumPy(Numeric Python,以numpy导入)是一系列高效的、可并行的、执行高性能数值运算的函数的接口。numpy模块提供了一种新的Python数据结构——数组(array),以及特定于该结构的函数工具箱。该模块还支持随机数、数据聚合、线性代数和傅里叶变换等非常实用的数值计算工具。
smartsi
2019-08-07
2.4K
0
Flink1.4 定义keys的几种方法
java
scala
mapreduce
python
一些转换(例如,join,coGroup,keyBy,groupBy)要求在一组元素上定义一个key。其他转换(Reduce,GroupReduce,Aggregate,Windows)允许在使用这些函数之前根据key对数据进行分组。
smartsi
2019-08-07
995
0
Scala 学习笔记之数组
scala
java
编程算法
python
对于那种长度按需要变化的数组,Java有 ArrayList.Scala中等效数据结构为 ArrayBuffer.
smartsi
2019-08-07
417
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档