腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
最新最全的大数据技术体系
专栏成员
举报
751
文章
643647
阅读量
35
订阅数
订阅专栏
申请加入专栏
全部文章(751)
大数据(216)
sql(121)
数据库(111)
编程算法(110)
数据(87)
java(70)
spark(68)
hive(66)
node.js(65)
kafka(51)
hadoop(49)
python(47)
存储(45)
hbase(39)
云数据库 SQL Server(32)
TDSQL MySQL 版(30)
模型(30)
服务(28)
api(27)
物联网(27)
flink(27)
mapreduce(25)
网络安全(25)
数据分析(25)
https(25)
linux(24)
网站(24)
文件存储(22)
yarn(22)
apache(21)
分布式(21)
数据结构(21)
配置(21)
ide(19)
javascript(18)
scala(17)
xml(17)
spring(17)
基础(17)
函数(16)
windows(15)
html(14)
腾讯云测试服务(14)
容器(14)
缓存(14)
设计(14)
jar(13)
maven(13)
http(13)
tcp/ip(13)
数据处理(13)
工程师(13)
机器学习(12)
vue.js(12)
进程(11)
语法(11)
bash(10)
打包(10)
容器镜像服务(10)
数据湖(10)
部署(10)
可视化(10)
统计(10)
json(9)
nosql(9)
微服务(9)
pyspark(9)
oracle(8)
shell(8)
面向对象编程(8)
jdbc(8)
腾讯云开发者社区(8)
gpt(8)
编码(8)
工具(8)
集群(8)
tomcat(7)
nginx(7)
消息队列 CMQ 版(7)
yum(7)
zookeeper(7)
openai(7)
笔记(7)
博客(7)
测试(7)
公众号(7)
系统(7)
php(6)
bash 指令(6)
推荐系统(6)
微信(6)
云计算(6)
bi(6)
flume(6)
table(6)
教程(6)
解决方案(6)
内存(6)
算法(6)
索引(6)
数据接口(6)
对象存储(5)
c++(5)
jsp(5)
unix(5)
人工智能(5)
电商(5)
企业(5)
jdk(5)
mybatis(5)
数据可视化(5)
虚拟化(5)
es(5)
error(5)
mysql(5)
全栈(5)
视频(5)
腾讯(5)
原理(5)
字符串(5)
ajax(4)
云数据库 Redis(4)
mvc(4)
git(4)
github(4)
全文检索(4)
深度学习(4)
专用宿主机(4)
访问管理(4)
日志数据(4)
数据安全(4)
hashmap(4)
二叉树(4)
aop(4)
插件(4)
程序(4)
服务器(4)
镜像(4)
连接(4)
入门(4)
事务(4)
搜索(4)
线程(4)
优化(4)
AI绘画(4)
其他(3)
自动驾驶(3)
servlet(3)
react(3)
jquery(3)
access(3)
搜索引擎(3)
lucene/solr(3)
神经网络(3)
日志服务(3)
游戏(3)
运维(3)
jvm(3)
正则表达式(3)
rpc(3)
sdn(3)
airflow(3)
exception(3)
gateway(3)
join(3)
mq(3)
nested(3)
prompt(3)
redis(3)
set(3)
shuffle(3)
编程(3)
产品(3)
队列(3)
对象(3)
工作(3)
集合(3)
脚本(3)
接口(3)
开发(3)
开发者(3)
论文(3)
排序(3)
日志(3)
软件(3)
同步(3)
需求分析(3)
负载均衡(2)
NLP 服务(2)
c#(2)
regex(2)
css(2)
负载均衡缓存(2)
批量计算(2)
mongodb(2)
serverless(2)
parcel(2)
开源(2)
自动化(2)
ssh(2)
监督学习(2)
rabbitmq(2)
kernel(2)
spring cloud(2)
安全(2)
机器人(2)
系统架构(2)
mvcc(2)
ascii(2)
sdk(2)
迁移(2)
实时etl(2)
数据库管理(2)
app(2)
break(2)
bug(2)
char(2)
com(2)
config(2)
connect(2)
connection(2)
csv(2)
for循环(2)
hdfs(2)
host(2)
list(2)
map(2)
null(2)
pandas(2)
pip(2)
process(2)
pycharm(2)
rdd(2)
select(2)
server(2)
service(2)
time(2)
truncate(2)
version(2)
video(2)
view(2)
word(2)
百度(2)
变量(2)
编译(2)
代理(2)
多线程(2)
工作流(2)
管理(2)
架构(2)
框架(2)
实践(2)
数据存储(2)
数据类型(2)
数学(2)
数组(2)
图表(2)
网关(2)
微信公众号(2)
效率(2)
性能(2)
异步(2)
源码(2)
费用中心(1)
云服务器(1)
内容分发网络 CDN(1)
ruby(1)
bootstrap(1)
ecmascript(1)
android(1)
eclipse(1)
ubuntu(1)
centos(1)
容器服务(1)
云直播(1)
命令行工具(1)
云推荐引擎(1)
DevOps 解决方案(1)
数据备份(1)
o2o(1)
渲染(1)
vr 视频解决方案(1)
express(1)
kubernetes(1)
压力测试(1)
数据迁移(1)
无人驾驶(1)
wordpress(1)
强化学习(1)
spring boot(1)
线性回归(1)
npm(1)
seo(1)
dubbo(1)
jenkins(1)
gradle(1)
scikit-learn(1)
socket编程(1)
lamp(1)
ntp(1)
小程序(1)
网站建设(1)
nat(1)
processing(1)
信息流(1)
任务调度(1)
防火墙(1)
聚类算法(1)
实时监控(1)
Elasticsearch Service(1)
数据集成(1)
大数据存储(1)
汽车(1)
教育(1)
腾讯云(1)
alias(1)
alpha(1)
amqp(1)
apollo(1)
async(1)
backend(1)
between(1)
chat(1)
chatgpt(1)
classnotfoundexception(1)
clickhouse(1)
cloud(1)
cloudera(1)
code(1)
conda(1)
core(1)
count(1)
cpu(1)
data(1)
date(1)
default(1)
dll(1)
docx(1)
drawing(1)
ear(1)
echarts(1)
edge(1)
equals(1)
excel(1)
exec(1)
execution(1)
export(1)
field(1)
fifo(1)
function(1)
geo(1)
having(1)
hibernate(1)
ibatis(1)
import(1)
insert(1)
int(1)
io(1)
it(1)
jetbrains(1)
jetty(1)
key(1)
live(1)
location(1)
matplotlib(1)
meta(1)
model(1)
monitor(1)
packet(1)
partition(1)
path(1)
port(1)
prometheus(1)
ps(1)
queue(1)
regexp(1)
registry(1)
reset(1)
root(1)
rows(1)
runtimeexception(1)
socket(1)
sqoop(1)
ssl(1)
substr(1)
sys(1)
tampermonkey(1)
target(1)
this(1)
thread(1)
timeout(1)
token(1)
txt(1)
types(1)
unique(1)
vim(1)
window(1)
worker(1)
zero(1)
报表(1)
备份(1)
编辑器(1)
遍历(1)
并发(1)
操作系统(1)
产品经理(1)
程序设计(1)
程序员(1)
磁盘(1)
登录(1)
递归(1)
地图(1)
多进程(1)
二进制(1)
二维码(1)
翻译(1)
分页(1)
高可用(1)
工具类(1)
行业(1)
华为(1)
技巧(1)
计算机(1)
加密(1)
监控(1)
客户端(1)
科技(1)
流量(1)
内核(1)
配色(1)
权限(1)
生命周期(1)
事件(1)
实时计算(1)
手机(1)
数据仓库(1)
数据管理(1)
数据结构与算法(1)
数据同步(1)
推送(1)
网络(1)
协议(1)
性能监控(1)
虚拟机(1)
压缩(1)
异常(1)
域名(1)
在线教育(1)
主机(1)
LLM(1)
搜索文章
搜索
搜索
关闭
机器学习(一)Spark机器学习基础
机器学习
人工智能
spark
基础
数据
大数据框架实现基础的数据存储和数据计算,如果从大量的数据中发现和挖掘出有价值的信息,需要借助机器学习算法,结合数据,构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式,机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。
Maynor
2023-10-13
223
0
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
python
spark
大数据
pyspark
开发
需求:[(‘Spark’, 2), (‘Flink’, 1), (‘hello’, 3), (‘you’, 1), (‘me’, 1), (‘she’, 1)]
Maynor
2023-09-29
452
0
【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
python
apache
spark
connect
worker
TypeError: ‘JavaPackage’ object is not callable
Maynor
2023-09-28
854
0
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
spark
大数据
数据湖
jetty
version
修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。
Maynor
2023-07-28
252
0
学习笔记:StructuredStreaming入门(十二)
spark
kafka
数据库
sql
云数据库 SQL Server
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]
Maynor
2022-11-30
1.7K
0
工作常用之Spark调优【二】资源调优
spark
yarn
node.js
文件存储
jar
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-11-28
536
0
工作常用之Spark调优【一】
jar
spark
sql
yarn
数据库
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-11-28
413
0
工作常用之Spark调优[二】资源调优
spark
linux
yarn
node.js
文件存储
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-09-27
736
0
工作常用之Spark调优一】
spark
linux
sql
jar
yarn
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-09-27
463
0
物流项目中SparkSQL的相关调优
spark
实时ETL开发之流计算程序【编程】 编写完成从Kafka消费数据,打印控制台上,其中创建SparkSession实例对象时,需要设置参数值。 package cn.itcast.logistics.etl.realtime import cn.itcast.logistics.common.Configuration import org.apache.commons.lang3.SystemUtils import org.apache.spark.SparkConf import org.apa
Maynor
2022-05-10
543
0
【Spark】 Spark的基础环境 Day03
yarn
node.js
spark
当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2022-05-08
467
0
Spark的常用算子大总结
scala
spark
编程算法
作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2. 需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD (1)创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at :24 (2)打印 scala> source.collect() res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) (3)将所有元素2 scala> val mapadd = source.map(_ * 2) mapadd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[9] at map at :26 (4)打印最终结果 scala> mapadd.collect() res8: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)
Maynor
2022-05-08
1.3K
0
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
python
云数据库 SQL Server
sql
spark
数据库
在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
Maynor
2022-05-08
2.5K
0
Spark_Day01:Spark 框架概述和Spark 快速入门
spark
虚拟化
hadoop
yarn
node.js
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2022-05-08
604
0
Note_Logistics_Day01(客快物流项目概述及Docker入门)
spark
实时etl
大数据
数据分析
编程算法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RadClEeU-1625444773065)(/img/1615516690862.png)]
Maynor
2022-05-08
475
0
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
大数据
hbase
TDSQL MySQL 版
yarn
spark
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2022-05-08
4.2K
0
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
spark
sql
大数据
python
scala
这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10) 不过我在复盘的时候,发现自己的致命弱点:写sql的能力太菜了。。
Maynor
2022-05-08
484
0
Spark综合练习——电影评分数据分析
spark
大数据
数据库
云数据库 SQL Server
sql
全部数据: 链接:https://pan.baidu.com/s/1qiO9aRb7yQeuHDtH1cWklw 提取码:nwxj
Maynor
2022-05-08
1.5K
0
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
spark
好了,本篇主要为大家带来的就是菜鸡博主为大家贡献的Spark的思维导图,剩余部分图片太大博客加载不了。
Maynor
2022-05-08
449
0
Kylin 是什么?
hadoop
sql
apache
大数据
spark
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Maynor
2022-03-28
678
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档