最新最全的大数据技术体系-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏成员

751

文章

643647

阅读量

35

订阅数

机器学习(一)Spark机器学习基础

机器学习人工智能 spark 基础数据

大数据框架实现基础的数据存储和数据计算，如果从大量的数据中发现和挖掘出有价值的信息，需要借助机器学习算法，结合数据，构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式，机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。

2023-10-13

2230

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

python spark 大数据 pyspark 开发

需求：[(‘Spark’, 2), (‘Flink’, 1), (‘hello’, 3), (‘you’, 1), (‘me’, 1), (‘she’, 1)]

2023-09-29

4520

【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.

python apache spark connect worker

TypeError: ‘JavaPackage’ object is not callable

2023-09-28

8540

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

spark 大数据数据湖 jetty version

修改了Hive版本为3.1.2，其携带的jetty是0.9.3，hudi本身用的0.9.4，存在依赖冲突。

2023-07-28

2520

学习笔记:StructuredStreaming入门（十二）

spark kafka 数据库 sql 云数据库 SQL Server

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]

2022-11-30

1.7K0

工作常用之Spark调优【二】资源调优

spark yarn node.js 文件存储 jar

先设定单个 Executor 核数，根据 Yarn 配置得出每个节点最多的 Executor 数量，每个节

2022-11-28

5360

工作常用之Spark调优【一】

jar spark sql yarn 数据库

Spark 3.0 大版本发布， Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ，成

2022-11-28

4130

工作常用之Spark调优[二】资源调优

spark linux yarn node.js 文件存储

先设定单个 Executor 核数，根据 Yarn 配置得出每个节点最多的 Executor 数量，每个节

2022-09-27

7360

工作常用之Spark调优一】

spark linux sql jar yarn

Spark 3.0 大版本发布， Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ，成

2022-09-27

4630

物流项目中SparkSQL的相关调优

实时ETL开发之流计算程序【编程】编写完成从Kafka消费数据，打印控制台上，其中创建SparkSession实例对象时，需要设置参数值。 package cn.itcast.logistics.etl.realtime import cn.itcast.logistics.common.Configuration import org.apache.commons.lang3.SystemUtils import org.apache.spark.SparkConf import org.apa

2022-05-10

5430

【Spark】 Spark的基础环境 Day03

yarn node.js spark

当Spark Application运行到YARN上时，在提交应用时指定master为yarn即可，同时需要告知YARN集群配置信息（比如ResourceManager地址信息），此外需要监控Spark Application，配置历史服务器相关属性。

2022-05-08

4670

Spark的常用算子大总结

scala spark 编程算法

作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成 2. 需求：创建一个1-10数组的RDD，将所有元素2形成新的RDD （1）创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at :24 （2）打印 scala> source.collect() res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) （3）将所有元素2 scala> val mapadd = source.map(_ * 2) mapadd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[9] at map at :26 （4）打印最终结果 scala> mapadd.collect() res8: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)

2022-05-08

1.3K0

Spark_Day07：Spark SQL(DataFrame是什么和数据分析（案例讲解）)

python 云数据库 SQL Server sql spark 数据库

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。 DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。

2022-05-08

2.5K0

Spark_Day01：Spark 框架概述和Spark 快速入门

spark 虚拟化 hadoop yarn node.js

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]

2022-05-08

6040

Note_Logistics_Day01(客快物流项目概述及Docker入门)

spark 实时etl 大数据数据分析编程算法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RadClEeU-1625444773065)(/img/1615516690862.png)]

2022-05-08

4750

一图胜千言:大数据入门必备的16张数据流转图(建议收藏)

大数据 hbase TDSQL MySQL 版 yarn spark

以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~

2022-05-08

4.2K0

面试官嫌我Sql写的太low？要求我重写还加了三个需求？——二战Spark电影评分数据分析

spark sql 大数据 python scala

这是我的上篇博文，当时仅是做了一个实现案例（demo级别），没想到居然让我押中了题，还让我稳稳的及格了（这次测试试卷难度极大，考60分都能在班上排进前10）不过我在复盘的时候，发现自己的致命弱点：写sql的能力太菜了。。

2022-05-08

4840

Spark综合练习——电影评分数据分析

spark 大数据数据库云数据库 SQL Server sql

全部数据：链接：https://pan.baidu.com/s/1qiO9aRb7yQeuHDtH1cWklw 提取码：nwxj

2022-05-08

1.5K0

大数据生态思维导图____2021最新最全Spark生态圈思维导图!

好了，本篇主要为大家带来的就是菜鸡博主为大家贡献的Spark的思维导图，剩余部分图片太大博客加载不了。

2022-05-08

4490

Kylin 是什么?

hadoop sql apache 大数据 spark

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

2022-03-28

6780

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态