腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
作为
PySpark
DataFrame
中新
列
的
行
的
模式
、
、
、
是否可以基于先前列
的
最大值添加新
列
,其中先前
的
列
是字符串文字。"white" ), ['ID','cash','colour_body','colour_head','colour_foot', 'max_v'] ) 如果没有最大可检测到
的
颜色,则应使用最后有效
的
颜色。是否有某种可用
的
反可能性或udf?
浏览 32
提问于2019-06-04
得票数 1
回答已采纳
1
回答
如何将所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印
模式
时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式
。 如何使用
pyspark
将date
列
中
的
行
值转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
2
回答
PySpark
配置单元SQL -未插入数据
、
、
、
、
我想插入一些数据,我
的
表“测试”通过一个
pySpark
脚本(火种
的
python)。我首先在HUE
的
图形界面中为Hive创建了一个表"animals“,感谢下面的查询:于是我买了一张新桌子。我写这个脚本是为了给它添加一个新
行
(1,dog):from
pyspark
import SparkConte
浏览 2
提问于2018-01-25
得票数 0
1
回答
Dataframe
中新
列
的
PySpark
1.5组和
、
、
、
、
我试图使用groupBy和sum (使用
PySpark
1.5)在中创建一个新
列
(“
PySpark
”)。我
的
数字
列
已被转换为长列或双列。用来形成groupBy
的
列
是字符串和时间戳。我
的
代码如下我对错误
的
追踪到了那一
行
Cannot co
浏览 2
提问于2016-03-07
得票数 2
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据帧合并到一个
PySpark
数据帧中。它们都来自相同
的
模式
,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,
模式
通常包含200个具有已定义数据类型
的
列
,其中
dataFrame
A有120
列
,
dataFrame
B有60
列
)。是否有可能在不写入和读取所有数据帧
的
情况下再次使用mergeSchema合并
模式
? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
1
回答
将向量
列
添加到吡咯
DataFrame
中
、
、
、
如何将Vectors.dense
列
添加到
pyspark
中?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115., 156., 421.], "event&
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
如何将Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML中缺少多类SVM )
、
、
、
、
我有220 GB
的
数据。我已经将其
作为
两
列
读取到spark
dataframe
中: JournalID和Text。现在,我
的
数据帧中缺少27
行
。使用NGram类,我在
dataframe
中添加了另外两个
列
Unigram和Bigram,其中包含文本
列
中
的
单字和双字。然后,我使用一元和二元语法列上
的
pyspark
的
TF和IDF类计算TFIDF,并将其
作为</em
浏览 1
提问于2018-12-17
得票数 0
2
回答
我是否可以从另一个数据帧
行
创建数据帧
、
、
我可以使用
Pyspark
从下面的
行
创建一个
dataframe
,
作为
新
dataframe
的
列
吗?
浏览 1
提问于2021-01-13
得票数 0
1
回答
如何根据
行
的
内容拆分
pyspark
数据
、
、
、
、
我想根据
DataFrame
中一
行
的
第一个字符来分割文件。原始数据有一
列
,数据包括输入样例文件(
Pyspark
):我想要一个
DataFrame
文件名
作为
数据
的
分割。文件名放在
DataFrame
浏览 3
提问于2019-10-10
得票数 1
回答已采纳
2
回答
pyspark
withColumn,如何改变列名
、
、
有没有办法用
pyspark
2.1.0创建/填充
列
,其中
列
的
名称是另一个
列
的
值?colName to targetColName's value cols =
dataFrame
.columnsTypeError: 'Column' ob
浏览 0
提问于2018-09-13
得票数 1
1
回答
从多个S3存储桶导入
pyspark
dataframe
,其中有一
列
指示条目来自哪个存储桶
、
、
这些存储桶中
的
每一个都存储我正在读取到
pyspark
dataframe
中
的
拼图文件。从每个存储桶生成
的
pyspark
dataframe
具有完全相同
的
模式
。我想要做
的
是迭代这些存储桶,并将所有这些拼图文件存储到一个单独
的
pyspark
dataframe
中,该数据框有一个date
列
,表示
dataframe
中
的
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
1
回答
使用配置单元元数据读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作
dataframe
中
的
模式
)?我希望将文件位置、表名和数据库名
作为
输入传递给aa程序/函数,以便从配置单元元数据(可能是元数据xml)中获取
模式
/列名称,并
作为
dataframe
返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
在1节点和2节点集群上加入
的
数据
的
吡火花性能(混叠数据)
、
、
、
我有一个脚本片段,我运行在不同
的
集群设置上,在
pyspark
2.4上v2= {}_new'.format(x,x )) tmp.show() 这两种都是带有200+
列
和150万条记录
的
数据格式,因此out
dataframe
有400+
列
,这些
列</em
浏览 1
提问于2020-07-30
得票数 0
1
回答
删除
pyspark
中
的
嵌套
列
、
、
、
、
我有一个包含一
列
结果
的
pyspark
数据帧。在结果
列
中,我想删除
列
"Attributes“。
dataframe
的
模式
是:(在结果中有更多
的
列
,但为了方便起见,我没有显示它们,因为
模式
很大) |-- results: struct (nullable = true) | | | | |
浏览 20
提问于2020-06-15
得票数 0
回答已采纳
1
回答
在
PySpark
DataFrame
中添加多个空
列
、
有人能建议我如何在
pyspark
dataframe
中添加多个空
列
吗?目前我正在做这样
的
事情,但它不起作用: for col in column_list: return
dataframe
在应用add_columns函数
浏览 1
提问于2018-09-14
得票数 0
2
回答
从
pyspark
中
的
字典
列
创建数据帧
、
、
、
、
我想从
pyspark
中现有的
dataframe
创建一个新
的
dataframe
。数据帧"df“包含一个名为"data”
的
列
,该
列
具有字典
行
,并具有字符串形式
的
模式
。并且每个字典
的
键都不是fixed.For,例如,name和address是第一个
行
字典
的
键,但对于其他
行
来说情况并非如此,它们可能不同。如何转换为包含单个
列<
浏览 2
提问于2018-11-09
得票数 1
1
回答
PySpark
将
列
拆分到具有应用架构
的
新数据帧
、
、
、
如何通过逗号将字符串列拆分为具有应用
模式
的
新数据帧?
作为
示例,下面是一个包含两
列
(id和value)
的
pyspark
DataFrame
df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列
并将其拆分到一个新
的
Da
浏览 18
提问于2021-11-10
得票数 1
1
回答
读取几行列数不同
的
CSV文件
、
、
、
、
我在ADLS 2中有一个CSV文件,在几行中有不同
的
列计数。第一排有8
列
,第二排有12
列
。当我试图用它来创建
Pyspark
dataframe
时,它创建了基于第一
行
的
df,即带有8
列
的
dataframe
,而忽略了第二
行
的
4
列
。 我也尝试过使用ADF映射数据流,但是正在创建相同
的
模式
。我还试图生成
模式
,因为我知道
浏览 1
提问于2022-06-30
得票数 -1
1
回答
Pandas read_csv():如果与架构不匹配,则删除
行
、
、
、
、
我有一个csv文件,需要读取并解析为Pandas
dataframe
。理论上,所有
列
都应该遵循已知
的
数字数据和字符串
模式
。我知道一些记录被打破了,要么是字段数量减少,要么是顺序错误。我想要做
的
是摆脱所有这些有问题
的
行
。
作为
参考,在
PySpark
上,我经常使用'DROPMALFORMED'来过滤出与
模式
不匹配
的
记录。StructType([ StructField(&q
浏览 26
提问于2019-02-17
得票数 0
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据
作为
输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据
的
共生矩阵。该代码在熊猫中运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联
作为
输入。我尝试使用psdf.squeeze()将<em
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券