为什么对于pyspark中的S3目录源，input_file_name()是空的？ - 腾讯云开发者社区

我们在做数据分析，清洗的过程中，很多时候会面对各种各样的数据源，要针对不同的数据源进行清洗，入库的工作。当然python这个语言，我比较喜欢，开发效率高，基本上怎么写都能运行，而且安装配置简单，基本上有网的环境pip install全部都搞定，没网的话，把whl包copy过来一行命令也就解决了( windows下python3.5使用pip离线安装whl包)。

您找到你想要的搜索结果了吗？

是的

没有找到

spark杂记：movie recommendation using ALS

大数据ETL实践探索（2）---- python 与aws 交互

本系列文章主要针对ETL大数据处理这一典型场景，基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战，如：

如何使用5个Python库管理大数据？

如今，Python真是无处不在。尽管许多看门人争辩说，如果他们不使用比Python更难的语言编写代码，那么一个人是否真是软件开发人员，但它仍然无处不在。

PySpark 读写 CSV 文件到 DataFrame

PySpark 在 DataFrameReader 上提供了csv("path")将 CSV 文件读入 PySpark DataFrame 并保存或写入 CSV 文件的功能dataframeObj.write.csv("path")，在本文中，云朵君将和大家一起学习如何将本地目录中的单个文件、多个文件、所有文件读入 DataFrame，应用一些转换，最后使用 PySpark 示例将 DataFrame 写回 CSV 文件。

ffmpeg android视频解码

要解码，我们需要获取解码器AVCodec,解码器我们需要通过codec_id获取，codec_id我们需要通过AVStream获取，AVStream我们需要通过AVCodecContext获取，AVCodecContext我们要根据AVFormatContext获取,解码的时候我们要通过AVFormatContext读取，解码数据存储在AVFrame里面,编码数据存储在AVPacket里面。

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc，我们始终致力于为最终用户简化医疗保健服务，随着公司的发展，我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量，以解决我们决定改进数据平台架构的问题。在我们之前的博客中，我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中，我们将讨论我们的新架构、涉及的组件和不同的策略，以拥有一个可扩展的数据平台。

Spark笔记16-DStream基础及操作

DStream 无状态转换操作 map：每个元素采用操作，返回的列表形式 flatmap：操作之后拍平，变成单个元素 filter：过滤元素 repartition：通过改变分区的多少，来改变DStream的并行度 reduce：对函数的每个进行操作，返回的是一个包含单元素RDD的DStream count：统计总数 union：合并两个DStream reduceByKey：通过key分组再通过func进行聚合 join：K相同，V进行合并同时以元组形式表示有状态转换操作在有状态转换操作而言，本批次

想学习Spark？先带你了解一些基础的知识

之前也学习过一阵子的Spark了，是时候先输出一些知识内容了，一来加深印象，二来也可以分享知识，一举多得，今天这篇主要是在学习实验楼的一门课程中自己记下来的笔记，简单梳理了一下，当做是需要了解得基础知识，让不熟悉Spark的同学也有一些简单的认识，里面若有写错的地方也希望大伙们指出哈。

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache Spark 3.0.0正式发布！

2021-10-27 假如人生可以overwrite

这么写TMD 的有大问题。尤其这个overwrite（），上面的代码会直接在程序运行时候重写当前文件系统目录，覆盖代码，数据恢复软件都找不回来。我很不清楚为何能有这么厉害的权限

大数据ETL实践探索（6）---- 使用python将大数据对象写回本地磁盘的几种方案

数据湖学习文档

参考资料：https://segment.com/blog/cultivating-your-data-lake/

如何使用libavcodec将.yuv图像序列编码为.h264的视频码流？

2.视频编码器的初始化(在介绍这部分内容之前，先来了解一下几个非常重要的结构体：AVCodec,AVCodecContext,AVPacket以及AVFrame)

Elasticsearch 数据离线迁移方案（含冷热分层场景）

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

021

如何使用libavfilter库给pcm音频采样数据添加音频滤镜？

初始化音频滤镜的方法基本上和初始化视频滤镜的方法相同，不懂的可以看上篇博客，这里直接给出代码：

geotrellis使用（二十）geotrellis1.0版本新功能及变化介绍

目录前言变化情况介绍总结一、前言之前版本是0.9或者0.10.1、0.10.2，最近发现更新成为1.0.0-2077839。1.0应该也能称之为正式版了吧。发现其中有很多变化，在这里为大家简单介绍。二、变化情况介绍 2.1 数据导入变化之前数据导入参数基本都要写在命令行，刚查看之前写的博客发现没有介绍数据导入的，只有一个老版的调用本地数据的，本文就在这里简单介绍Geotrellis的数据导入。 Geotrellis可以将数据（Tiff）从本地、HDFS

Spark入门_2_LoadSaveData

本文介绍了如何通过Spark在Hadoop上读取和写入数据，包括使用Spark SQL读取结构化数据，使用Spark Streaming进行流式处理，以及使用Spark Core进行批处理。同时，本文还介绍了如何将数据存储在分布式文件系统中，并提供了相关示例代码。

0899-7.1.7-如何在CDP中安装Zeppelin并配置Interpreter

Zeppelin默认的管理权限是admins组，所以用户要加admins组才可以添加和修改interpreter

使用libswresample库实现音频重采样

在音频重采样时，用到的核心结构是SwrContext，我们可以通过swr_alloc()获取swr_ctx实例，然后通过av_opt_set_int()函数和av_opt_set_sample_fmt()函数来设置音频重采样的参数，最后通过swr_init()函数初始化SwrContext实例即可。下面给出代码：

3种 Elasticsearch 数据离线迁移方案，你知道吗？

基于 COS 快照的迁移方式是使用 ES 的 snapshot api 接口进行迁移，基本原理就是从源 ES 集群创建索引快照，然后在目标 ES 集群中进行恢复。通过 snapshot 方式进行数据迁移时，特别需要注意 ES 的版本问题：

如何使用libswscale库将YUV420P格式的图像序列转换为RGB24格式输出？

将视频中的图像帧按照一定比例缩放或指定宽高进行放大和缩小是视频编辑中最为常见的操作之一，这里我们将1920x1080的yuv图像序列转换成640x480的rgb图像序列，并输出到文件。视频图像转换的核心为一个SwsContext结构，其中保存了输入图像和输出图像的宽高以及像素格式等多种参数。我们通过调用sws_getContext()函数就可以十分方便地创建并获取SwsContext结构的实例。下面给出初始化的代码：

jsmug：一个针对JSON Smuggling技术的测试PoC环境

JSON Smuggling技术可以利用目标JSON文档中一些「不重要」的字节数据实现任意文件传输。根据JSON文档的官方定义，JSON文件中的某些位置允许使用被称为不重要字节的字节数据来传输内容。这些所谓不重要的字节在JSON文档中没有任何的意义，因此会被jq之类的JSON解析工具直接忽略。这种「不重要」的字节包括：

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

DolphinScheduler 之Docker 部署

这种方式需要先安装 docker-compose, docker-compose 的安装网上已经有非常多的资料，请自行安装即可

MongoDB Spark Connector 实战指南

1、高性能，官方号称 100x faster，因为可以全内存运行，性能提升肯定是很明显的；

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐