腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
spark.read.jdbc
读取
不同
Pyspark
数据
帧
中
的
多个
文件
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
在
Pyspark
中
,我有一段代码可以将
多个
文件
(>10)
读取
到
不同
的
数据
帧
中
。但是,我想
使用
for循环和引用变量或类似的东西来优化这段代码。我
的
代码如下: Features_PM = (spark.read propertie
浏览 45
提问于2020-11-24
得票数 0
回答已采纳
2
回答
对于1-2列,
多个
镶嵌块
文件
具有
不同
的
数据
类型
python
、
pyspark
、
schema
、
parquet
我尝试
使用
Pyspark
将
不同
的
拼图
文件
读取
到一个
数据
帧
中
,但它给了我错误,因为
多个
拼图
文件
中
的
一些列具有
不同
数据
类型
的
列。例如:列"geo“在某些
文件
中
的
数据
类型为"Double”,在另一些
文件
<em
浏览 12
提问于2021-11-22
得票数 0
1
回答
在一个列表
中
存储
多个
pysparks
数据
帧
?
python
、
apache-spark
、
pyspark
如何
在一个列表
中
存储
多个
数据
帧
? 我有一个函数可以
读取
文件
夹
中
的
多个
拼图
文件
。但是,我需要创建一个列表,其中包含正在
读取
以执行其他进程
的
数据
帧
。预期
的
结果如下所示: dfs = df1、df2、df3、df4、dfn 注意:我正在
使用
pyspark
数据
<em
浏览 8
提问于2021-07-15
得票数 0
1
回答
将
多个
PySpark
DataFrames与MergeSchema合并
python
、
pyspark
、
pyspark-dataframes
我想将
多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所
不同
,因为有时会缺少一些列(例如,模式通常包含200个具有已定义
数据
类型
的
列,其中dataFrame A有120列,dataFrame B有60列)。是否有可能在不写入和
读取
所有
数据
帧
的
情况下再次
使用
浏览 2
提问于2020-06-22
得票数 0
1
回答
如何
从
多个
目录
中
读取
多个
.parquet
文件
到单个pandas
数据
帧
中
?
pandas
、
parquet
我需要从
多个
目录
中
读取
拼图
文件
。.parquet .parquet 有没有办法将这些
文件
读取
到单个pandas
数据
帧
中
?注意:所有的拼图
文件
都是
使用
pyspark
生成
的
。
浏览 87
提问于2020-01-15
得票数 3
回答已采纳
1
回答
将
文件
从S3存储桶
读取
到
PySpark
数据
帧
Boto3
apache-spark
、
amazon-s3
、
pyspark
、
boto3
如何
将S3存储桶
中
的
大量
文件
加载到单个
PySpark
数据
帧
中
?我在一个EMR实例上运行。如果
文件
是本地
的
,我可以
使用
SparkContext textFile方法。但是当
文件
在S3上时,我
如何
使用
boto3加载
多个
不同
类型
的
文件
(CSV,JSON,...)转换成一个单独<em
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
1
回答
如何
使用
Azure databricks在第二代ADLS
的
多张工作表
中
读写excel
数据
python
、
pyspark
、
databricks
、
azure-databricks
我想
使用
pyspark
在Azure databricks
中
实现以下逻辑。我有一个下面的
文件
,其中有多张纸。我想将所有工作表
的
数据
读入一个
不同
的
文件
中
,并将该
文件
写入到ADLS2
中
的
某个位置。注意:所有工作表都有相同
的
模式( Id,名称) 我
的
最终输出
文件
应该包含来自所有工作表
的
数据</
浏览 4
提问于2021-10-27
得票数 0
1
回答
关于在
PySpark
中
写入拼图
的
问题
csv
、
pyspark
、
parquet
在
PySpark
中将csv
文件
转换为parquet时遇到问题。当转换相同模式
的
多个
文件
时,它们不具有相同
的
模式,因为有时数字字符串将被
读取
为浮点型,其他字符串将被
读取
为整数,等等。列
的
顺序似乎也有问题。似乎当编写具有相同列
的
数据
帧
时,但是以
不同
的
顺序排列以拼接,那么这些拼接就不能被加载到相同
的
语句中。
如何
将d
浏览 23
提问于2021-01-20
得票数 0
1
回答
从星火上游
不同
系统
读取
数据
apache-spark
、
rdbms
如果
数据
来自
多个
源系统(如RDBMS ),有时来自CSV
文件
或任何其他
文件
格式或上游系统,那么
如何
处理file
中
的
数据
摄取。如果
文件
格式已知,则可以在
读取
为spark.read.csv或
spark.read.jdbc
时指定它。但是如果它是动态
的
,那么
如何
处理
数据
摄入呢?
浏览 6
提问于2021-12-13
得票数 0
2
回答
从MySQL
读取
位
数据
类型和用AWS胶转换为红移
的
问题
mysql
、
pyspark
、
aws-glue
我在MySQL
数据
库中有一个表,其中包含一个名为activity
的
列,该列
的
数据
类型为BIT。当转换为INT时,它可以接受值1、2或3。我还尝试
使用
ApplyMapping将其转换为INT,但没有成功。对
如
浏览 0
提问于2018-10-25
得票数 3
回答已采纳
1
回答
Azure权限
中
的
Databricks notebooks沿袭
databricks
、
azure-databricks
、
azure-purview
如果我将
文件
从ADLS
读取
到
PySpark
数据
帧
中
,并以
不同
文件
格式写回另一个ADLS
文件
夹,那么在配置单元
中
捕获
的
谱系是否会显示为这种操作
的
谱系?
浏览 24
提问于2021-09-28
得票数 0
2
回答
读取
PySpark
中
的
所有分区拼图
文件
apache-spark
、
pyspark
、
apache-spark-sql
、
parquet
我想要加载存储在S3 AWS
文件
夹结构
中
的
所有拼图
文件
。
文件
夹结构如下:<code>D0</code> 我想要
的
是一次
读取
所有的拼图
文件
,所以我希望
PySpark
读取
2019年所有可用
的
月份和日期
的
所有
数据
,然后将其存储在一个
数据
帧
中
(这样您就可以获得一个包含2019年所有日期
浏览 70
提问于2019-12-04
得票数 0
1
回答
Spark和
数据
的
连续处理
amazon-web-services
、
amazon-s3
、
pyspark
、
amazon-emr
我是Spark
的
新手,但我正在尽可能多地阅读。我有一个小项目,其中
多个
数据
文件
(在gzip
中
)将每小时连续地放在一个S3存储桶
中
。我需要能够打开/
读取
这些gzip
文件
,并在它们之间合并/聚合
数据
。因此,我需要以整体
的
方式来看待它们。
如何
使用
Amazon AWS提供
的
哪些技术和工具?我是在S3
文件
夹
中
创建临时<
浏览 0
提问于2020-01-23
得票数 0
2
回答
可以修改Apache Spark JDBC连接器
的
查询吗?
python
、
sql
、
oracle
、
apache-spark
、
pyspark
我正在
使用
PySpark
从Oracle DB表
中
读取
数据
。我这样做
的
方式是: url=db_url, properties=connection_details,
浏览 0
提问于2020-08-13
得票数 2
4
回答
Pyspark
:
如何
将spark dataframe转换为json并保存为json
文件
?
python-3.x
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在尝试将我
的
pyspark
sql dataframe转换为json,然后保存为
文件
。df_final = df_final.union(join_df) 我试过这样
的
东西。但是它创建了一个无效
的
json。overwrite=True) {"Variable":"Col1","Min":"20","Max":"30"}
浏览 0
提问于2018-11-22
得票数 7
0
回答
用于在
PySpark
中
定义JSON Schema结构
的
配置
文件
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我已经创建了一个
PySpark
应用程序,它通过定义
的
模式
读取
数据
帧
中
的
JSON
文件
。LongType(), True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到
如何
在一种配置或ini
文件
等
中
定义此模式,并在主
PySpark
应用程序
中
读取
浏览 3
提问于2016-07-09
得票数 9
2
回答
如何
在Databricks SQL
中
执行for或while循环
sql
、
loops
、
for-loop
、
while-loop
、
databricks
有人知道
如何
在Databricks
的
SQL
中
编写for或while循环吗?我尝试了以下SQL Server类型代码
的
许多变体,但似乎都不起作用。我似乎也找不到任何关于它
的
参考资料。我不喜欢用SQL语言,因为我需要将输出提供给更多
的
PySpark
代码。
浏览 4
提问于2021-11-13
得票数 1
1
回答
Spark SQL更新/删除
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
、
pyspark-dataframes
目前,我正在做一个
使用
pySpark
的
项目,它
读取
一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免
使用
Spark语法来创建一个框架,该框架只接受参数
文件
中
的
SQL,该参数
文件
将
使用
我
的
pySpark
框架运行。现在
的
问题是,我必须在我
的
最终
数据</e
浏览 7
提问于2019-11-15
得票数 1
1
回答
使用
配置单元元
数据
读取
HDFS
文件
-
Pyspark
python
、
dataframe
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我是
PySpark
新手,正在尝试
读取
HDFS
文件
(上面创建了hive表)并创建
PySpark
数据
帧
。通过
PySpark
读取
配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe
中
的
模式)?我希望将
文件
位置、表名和
数据
库名作为输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)
中</em
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
PySpark
使用
自定义记录分隔符
读取
CSV
文件
python
、
python-3.x
、
pyspark
、
apache-spark-sql
在
pyspark
中
读取
csv
文件
时,有没有办法
使用
自定义记录分隔符?在我
的
文件
中
,记录用**分隔,而不是换行符。在将csv读入
PySpark
数据
帧
时,有没有办法
使用
这个自定义
的
行/记录分隔符?
浏览 15
提问于2021-05-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
pyspark 安装
一文读懂PySpark数据框
一文读懂 PySpark 数据框
如何在CDH集群上部署Python3运行环境及运行Python作业
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券