腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(359)
视频
沙龙
1
回答
将
单列
(
固定
字段
宽度
)
Dataframe
转
换为
多
列
Dataframe
(
Databricks
,
pyspark
)
、
、
我有一个从文本文件中摄取的
单列
数据帧。这种格式没有可靠的分隔符(例如,空格不起作用,因为一些
字段
中有空格),但是,
列
的
宽度
是
固定
的,所以我知道每个
字段
的列名和
宽度
(所有
字段
都是字符串)。包含了所有
列
: ? 因此,我正在尝试弄清楚如何遍历
dataframe
以使用value
列
中的适当数据更新所有
列
。我
将
非常感谢任何想法,无论是基于我所做的工作,还是更简单的解决方
浏览 34
提问于2021-08-12
得票数 0
回答已采纳
1
回答
Databricks
:如何
将
行的值转
换为
数组类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
用数据库中的
pyspark
将
纳秒值转
换为
日期时间
、
、
、
我正在尝试重新创建我已经用Python使用
Databricks
完成的一些工作。我有一个数据,其中有一个名为“time”的
列
,以纳秒为单位。在Python中,我使用以下代码
将
字段
转
换为
适当的日期时间值:此
浏览 5
提问于2022-07-05
得票数 0
回答已采纳
2
回答
Databricks
-
将
Python
DataFrame
转
换为
Scala
DataFrame
、
、
、
我在python,df中有一个
dataframe
,我想传递它以便能够在% scala中使用。
浏览 0
提问于2022-04-26
得票数 0
回答已采纳
1
回答
映射函数在
DataFrame
上的应用
、
、
我刚刚开始使用
databricks
/
pyspark
。我正在使用python/spark 2.1。我已将数据上载到表中。该表是一个充满字符串的
单列
。我希望对
列
中的每个元素应用一个映射函数。我
将
表加载到数据帧中:我能看到的唯一方法是别人说的是将其转
换为
RDD以应用映射函数,然后返回到
dataframe
以显示数据。例如,
将
某些内容附加到
列
浏览 1
提问于2017-07-31
得票数 18
回答已采纳
3
回答
Pyspark
:
将
PythonRDD转
换为
Dataframe
、
有人能引导我把PythonRDD转换成
DataFrame
吗。 if type(row) == unicode else row) 现在,我希望
将
PythonRDD转
换为</e
浏览 3
提问于2016-07-12
得票数 0
回答已采纳
1
回答
在
databricks
sql中选择一个以“@”开头的
列
、
、
、
我在
databricks
中导入数据,首先通过python扫描,然后
将
数据转
换为
dataframe
,然后
将
dataframe
转
换为
databricks
中的临时视图。然后可以在sql建模中使用此视图。这个过程是不能改变的 现在的挑战是:我的一个
字段
名叫做@timestamp,我可以看到
databricks
显示<em
浏览 3
提问于2021-05-19
得票数 1
回答已采纳
1
回答
在
pyspark
中,Inferschema
将
列
检测为字符串,而不是parquet中的双精度
、
问题-我正在使用azure
databricks
在
pyspark
中读取拼图文件。有一些列有很多空值并且有十进制值,这些
列
被读取为字符串而不是双精度。有没有办法推断出
pyspark
中正确的数据类型?代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100
多
列
的数据帧,其中大多数列都是doubleP.S -我有一个可以有动态
列
的拼图文件,因此为
datafr
浏览 16
提问于2020-06-23
得票数 0
4
回答
如何选择所有以公共标签开头的
列
、
、
我在Spark 1.6中有一个
dataframe
,只想从中选择一些
列
。列名如下:我知道我可以像这样选择特定的
列
:但是如何一次选择"colA“、"colB”和所有的colF-*
列
呢?
浏览 3
提问于2016-02-11
得票数 18
回答已采纳
1
回答
将
嵌套的JSON
列
转
换为
Pyspark
列
、
、
、
我已经使用S3数据格式在
pyspark
.pandas中读取和存储了拼花文件。现在,在第二阶段,我试图在
databricks
中读取
pyspark
dataframe
中的parquet文件,并面临
将
嵌套的json
列
转
换为
适当
列
的问题。首先,我使用以下命令从S3读取拼图数据:我的
pyspark
dataframe</
浏览 8
提问于2022-06-07
得票数 0
2
回答
Apache Spark中使用
pyspark
的
Dataframe
转
置
、
、
、
、
|+-------+-----+-----+-------+------+我
将
这两个解决方案绑定在一起,但它返回的是
dataframe
没有指定的使用方法: for x in df.columns:方法二
浏览 4
提问于2017-09-28
得票数 12
回答已采纳
3
回答
删除
列
中不一致的空格
、
、
我必须读取一个以不一致的空格作为
列
分隔符的文件。有什么建议可以让我用Python来读这篇文章吗?最终,我需要将这些数据放在
pyspark
数据帧中。
浏览 3
提问于2020-03-14
得票数 0
2
回答
散
列
md5:
Pyspark
和submit在时间戳列上不提供相同的输出
、
、
在
PySpark
中,我使用md5函数散
列
一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1")dfha = df_hive.withColumn("ha
浏览 2
提问于2021-04-26
得票数 1
回答已采纳
1
回答
pyspark
中的to_json包含空值,但我需要空值作为空
、
、
、
、
我正在使用
pyspark
中的to_json
将
dataframe
中的结构
列
转
换为
json
列
,但是在json中忽略了少数结构
字段
中的空值,我不希望这些空值被忽略。
浏览 6
提问于2020-10-14
得票数 0
1
回答
基于spark结构流的Xml解析
、
、
、
我正在尝试使用
PySpark
Structured Streaming on
Databricks
中的Kinesis source分析数据。 我创建了一个
Dataframe
,如下所示。("streamName", "test-stream-1").load() 稍后,我
将
数据从base64编码转
换为
如下所示。df = kinDF.withColumn("xml_data", expr("CAST(data as string)&quo
浏览 36
提问于2019-08-15
得票数 1
2
回答
PySpark
dataframe
到python不带嵌套字典列表
、
、
、
|-- confidence: string (nullable = true)我正在尝试将其转
换为
在火星雨中:转
换为
python
dataframe
:python
浏览 4
提问于2022-03-10
得票数 0
1
回答
使一个函数成为.agg()在groupBy语句中的组件,
将
生成一个AssertionError
、
、
否则,在
Databricks
集群上复制该问题,该集群将自动初始化星体上下文。from
pyspark
.sql import SparkSession
dataframe
{'id'
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
3
回答
Python
将
逗号分隔列表转
换为
pandas
dataframe
、
、
我正在努力
将
逗号分隔的列表转
换为
多
列
(7)数据帧。下面创建了一个
单列
的框架:我已经检查了Pandas内置的csv功能,但是我的csv数据保存在一个列表中。如何才能简单地
将
列表转
换为
7
列
数据框。
浏览 0
提问于2015-08-26
得票数 21
回答已采纳
2
回答
使用来自另一个
dataframe
的JSON对象创建新的数据
、
、
、
、
我有一个
dataframe
,它在一个
列
中存储一个JSON对象。我希望处理JSON对象来创建一个新的
dataframe
(
列
的数目和类型不同,每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时,
将
字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each row of a new
dataframe
df_fin
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
为什么pandas
Dataframe
.to_csv的输出与Series.to_csv不同?
、
、
、
、
我的问题是,当我尝试使用apply遍历我的
Dataframe
时,我得到了一个Series对象,to_csv方法给了我一个拆分成行的str,
将
None设置为"",没有任何,。但是,如果我使用for遍历数据帧,我的方法
将
获得一个
Dataframe
对象,并在一行中给出一个包含,的str,而不会将None设置为""。""0.43"" 0
浏览 28
提问于2021-04-22
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券