腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
文渊之博
专栏作者
举报
182
文章
305708
阅读量
38
订阅数
订阅专栏
申请加入专栏
全部文章(182)
sql server(67)
sql(64)
数据库(48)
其他(11)
python(11)
spark(11)
编程算法(9)
hive(9)
大数据(9)
云数据库 SQL Server(8)
node.js(7)
存储(7)
java(6)
linux(5)
数据处理(5)
hbase(5)
打包(4)
mapreduce(4)
TDSQL MySQL 版(4)
http(4)
缓存(4)
powershell(4)
数据(4)
go(3)
bash(3)
api(3)
unix(3)
bash 指令(3)
shell(3)
hadoop(3)
jvm(3)
数据分析(3)
windows(3)
数据结构(3)
机器学习(2)
javascript(2)
scala(2)
xml(2)
html(2)
jquery(2)
云数据库 Redis(2)
搜索引擎(2)
es 2(2)
数据备份(2)
数据安全(2)
kafka(2)
Elasticsearch Service(2)
clickhouse(2)
null(2)
函数(2)
连接(2)
排序(2)
数据挖掘(1)
perl(1)
actionscript(1)
r 语言(1)
flask(1)
ide(1)
lucene/solr(1)
apache(1)
专用宿主机(1)
云推荐引擎(1)
mongodb(1)
企业(1)
yarn(1)
rollup.js(1)
容器(1)
开源(1)
分布式(1)
html5(1)
ftp(1)
grep(1)
tcp/ip(1)
安全(1)
数据可视化(1)
nest(1)
es(1)
flink(1)
数据脱敏(1)
数据集成(1)
app(1)
default(1)
definition(1)
difference(1)
hdfs(1)
intersection(1)
join(1)
lag(1)
list(1)
offset(1)
partition(1)
presto(1)
rank(1)
set(1)
sort(1)
sum(1)
union(1)
部署(1)
地图(1)
集合(1)
脚本(1)
配置(1)
事件(1)
统计(1)
优化(1)
搜索文章
搜索
搜索
关闭
常用spark优化参数
spark
hdfs
join
partition
优化
常用spark优化参数 强制使用spark engine set tqs.query.engine.type = sparkCli; set spark.yarn.priority = 4; 双写HDFS开启: set spark.shuffle.hdfs.enable=true; set spark.shuffle.io.maxRetries=1; set spark.shuffle.io.retryWait=0s; set spark.network.timeout=120s; ## 双写HDFS开启
用户1217611
2023-03-31
636
0
如何快速同步hdfs数据到ck
大数据
spark
kafka
数据处理
hive
ClickHouse是面向OLAP的分布式列式DBMS。我们部门目前已经把所有数据分析相关的日志数据存储至ClickHouse这个优秀的数据仓库之中,当前日数据量达到了300亿。
用户1217611
2022-05-06
931
0
试用最强Spark IDE--IDEA
ide
scala
spark
打包
IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。
用户1217611
2022-05-06
578
0
解决spark日志清理问题
spark
shell
linux
由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨,达到了硬盘的预警,不得已必须指定策略定期删除日志已保证服务器硬盘空间。
用户1217611
2020-11-24
2K
0
Spark Standalone模式 高可用部署
bash
bash 指令
spark
hadoop
本文使用Spark的版本为:spark-2.4.0-bin-hadoop2.7.tgz。
用户1217611
2020-11-13
1.3K
0
spark shuffle参数调优
spark
bash
bash 指令
spark shuffle参数调优 spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。 调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle write过程中溢写磁盘文件的次数,也就可以减少磁盘IO次数,进而提升性能。在实践
用户1217611
2020-06-19
1.1K
0
Spark DataFrame简介(二)
python
spark
unix
java
Spark的TimestampType类型与Java的java.sql.Timestamp对应,
用户1217611
2020-06-19
412
0
Spark DataFrame简介(一)
spark
api
java
sql
scala
本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。
用户1217611
2020-06-19
1.7K
0
sparksql 概述
spark
api
hive
python
mapreduce
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。
用户1217611
2020-06-19
1K
0
Flink入门介绍
flink
api
windows
缓存
spark
Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。
用户1217611
2020-06-19
1.1K
0
pyspark 内容介绍(一)
spark
大数据
python
pyspark 包介绍 子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 PySpark是针对Spark的Python API。根据网上提供的资料,现在汇总一下这些类的基本用法,并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 Public 类们: SparkContext: Spark 功能的主入口。 RDD: 弹性分布式数
用户1217611
2018-01-30
2.5K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档