腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用map函数
将
Spark Dataframe转换为RDD
apache-spark
、
dataframe
、
pyspark
我正在尝试
将
spark
数据
框
中的
列
拆
分为
多个
值。因此,我分隔了要拆分的
列
,并检查了其类型:O:
pyspark
.sql.dataframe.DataFrameO:
pyspark
.rdd.PipelinedRDD 如何在拆分此列的同时保持
数据
框
属
浏览 0
提问于2016-06-22
得票数 0
1
回答
将
PySpark
数据
框
列
拆
分为
多个
python
、
apache-spark
、
pyspark
我有一个
pyspark
dataframe
列
,其中包含以下
数据
。 Column 1B1D2 我必须根据逗号
将
这一
列
分成2
列
。输出应如下所示。Column 2 B1 D2 我尝试使用split()函数,但是我的B1和D2被填充到第一
列
而不是第二
列
浏览 5
提问于2020-04-11
得票数 1
回答已采纳
1
回答
将
字典从spark
数据
帧中的StringType
列
中分离出来
python
、
apache-spark
、
databricks
日志
数据
存储在单个字符串列中,但它是一个字典。 我如何拆分字典中的条目来阅读它们。['maine','14','']]).toDF('LogData','State','Orders','OrdDate') 我想要做的是
将
spark表读取到
数据
帧中,找到最大事件时间戳,找到具有该时间戳的行,然后计数并仅
将
这些行读取到具有
数据
列
的新
数据</em
浏览 39
提问于2020-07-01
得票数 1
回答已采纳
1
回答
Javascript Regexp被
多个
字符拆分并保持分隔符
javascript
、
regex
我试图
将
下面的字符拆
分为
多个
字符,并将它们保存在数组中。"arg&&(arg||(!
浏览 4
提问于2013-09-30
得票数 0
回答已采纳
2
回答
Dataproc未使用
pyspark
并行处理大
数据
apache-spark
、
pyspark
、
dataproc
我开发了一个
pyspark
代码,它从GCS读取一个csv文件。csv文件的大小约为30G。csv(infile)df_raw = df_raw.repartition(20, "Product")下面是我如何
将
pyspark
启动到dataproc中: gcloud dataproc jobs submit
pyspark
gs://<my-gcs-bucket>/<my-pr
浏览 4
提问于2021-05-03
得票数 0
1
回答
拆分
数据
列
和订单列
r
、
sapply
如何
将
数据
划
分为
不同的类别,然后按特定
列
的降序排序每个类别。我先把车
拆
了那如果我做了 按顺序错误(Mpg):找不到对象
浏览 5
提问于2015-05-25
得票数 2
回答已采纳
1
回答
在Scala中拆分列
scala
嗨,我想分
拆
一个专栏。
数据
集样本: 2019 10并在一年内进一步统计所有的推特(我知道如何在这里使用reduceByKey(+) ) 如何分割星火中的
列
?我不想使用
数据
帧。
浏览 4
提问于2020-05-27
得票数 2
3
回答
如何
将
DataFrame中的字符串列拆
分为
多个
列
?
pyspark
这是当前的代码: .builder\我该怎么办?
浏览 0
提问于2020-04-20
得票数 3
回答已采纳
1
回答
如何读取火花流的分区
列
apache-spark
、
pyspark
、
parquet
、
spark-structured-streaming
我有一个火花流工作,在这里我流
数据
,并将其划
分为
一个或
多个
列
,并存储在gcs桶中。下面是示例代码,我将其按团队划分并存储在gcs桶中。from
pyspark
import SparkContext spark = SparkSession.builder.getOrCreateparquet').outputMode('append').option('path'
浏览 5
提问于2022-11-29
得票数 0
回答已采纳
1
回答
如何
将
一
列
拆
分为
多个
列
,这些
列
的名称会发生变化
python
、
pandas
、
split
、
multiple-columns
我
将
一个
数据
框定义为一个“函数”,其中
数据
框
中每个
列
的名称不断变化,因此我不能指定该
列
的名称,然后将其拆
分为
多个
列
。例如,我不能一边说df ['name'],一边把它分成许多
列
。此
数据
帧的
列
数和行数不是恒定的。我需要将包含
多个
项目的任何
列
拆
分为
多个
组件(
列
)。例如: 这是我
浏览 14
提问于2020-05-01
得票数 0
回答已采纳
1
回答
使用timeseries
列
创建
PySpark
数据
格式
apache-spark
、
date
、
pyspark
、
apache-spark-sql
、
time-series
我有一个初始的
PySpark
数据
,我希望从date
列
中获取MIN和MAX,然后使用来自初始
数据
的MIN和MAX创建一个新的带有timeseries (每日日期)的
PySpark
数据
。然后,我将使用它加入我的初始
数据
并查找丢失的天数( inital
列
的其余部
分为
null)。 我尝试了许多不同的方法来构建timeseries,但它在
PySpark
中似乎不起作用。有什么建议吗?
浏览 8
提问于2022-05-03
得票数 1
回答已采纳
1
回答
将
大型数组
列
拆
分为
多个
列
-
Pyspark
pyspark
我有:| id| var1| var2|| a|[1,2,3]|[1,2,3]|+---+-------+-------++---+-------+-------+-------+-------+-------+-------++---+-------+-------+-------+-------+-------+------
浏览 6
提问于2018-08-02
得票数 5
回答已采纳
1
回答
按日期
将
吡火花
数据
集拆
分为
两个
python
、
pyspark
、
pyspark-sql
我有
pyspark
数据
集,我想按照datetime
列
将其划
分为
列车和测试
数据
集,其中,训练
数据
集的日期时间应该小于日期时间
列
的中位数,而测试
数据
集应该有其余的
数据
集。我尝试按datetime
列
对dataset进行排序,并选择上半部分。但是这只解决了火车部件的问题,我不知道如何从
PySpark
中的初始
数据
集中“减除”训练
数据
集。如果
PySpark
与
浏览 0
提问于2019-08-21
得票数 0
回答已采纳
1
回答
火花放电的UDF能返回与
列
不同的对象吗?
python
、
dataframe
、
pyspark
、
user-defined-functions
我想将一些函数应用到pysaprk dataframe的
列
中,这是一个用UDF实现这一点的管理方法,但是我希望返回是另一个对象,而不是dataframe的一个
列
、一个熊猫
数据
框
、一个python列表等等我使用分类器
将
每一
列
划
分为
类,但我希望结果是类的摘要,而不是修改,我不知道这是否适用于UDF。我的代码是这样的import pandas as pdfrom
pyspark
浏览 0
提问于2018-12-18
得票数 1
回答已采纳
0
回答
C#零基础学习笔记001-
数据
类型和变量?
c#
、
编程算法
数据
类型
分为
:值类型,引用类型; - int,long等; * 引用类型:堆存储; - string
拆
箱:
将
引用类型转换成值类型,必须显示转换;
浏览 120
提问于2020-12-23
1
回答
如何导入大型csv文件并执行操作
python
、
bigdata
pd.read_csv('myfile.csv', low_memory=False, header=None, names= ['column1','column2', 'column3'])即使
将
low_meemory
浏览 0
提问于2019-04-15
得票数 0
1
回答
Pyspark
数据
帧过滤语法错误
pyspark
、
pyspark-sql
我正在使用
Pyspark
版本1.6处理
Pyspark
数据
帧。在将此
数据
框
导出到.CSV文件之前,我需要根据特定条件对特定
列
使用LIKE和OR运算符过滤
数据
。为了向您介绍我到目前为止所做的工作,我从
多个
.JSON文件创建了初始
数据
帧。此
数据
框
已子集,因此仅包含所需的
列
。然后创建了一个sqlContext临时表。到目前为止,我已经尝试了两种不同的方法,使用sqlContext和使用<e
浏览 0
提问于2017-07-27
得票数 0
回答已采纳
1
回答
列表
框
的分区?
silverlight
、
listbox
、
silverlight-2.0
、
multiple-columns
是否可以
将
列表
框
划
分为
多个
列
。如果是,在Silver light中使用哪个属性?
浏览 0
提问于2009-07-24
得票数 1
回答已采纳
1
回答
如何使用scala在spark dataframe中使用正则表达式?
regex
、
scala
、
apache-spark
在我的例子中,我有一个包含一些生物学
数据
的
数据
框架,这些
数据
是:蛋白质名称、ecnumber (可以是
多个
)和蛋白质结构域(也可以是
多个
结构域)。
数据
框
是一个包含所有
数据
的一
列
,我想将其拆
分为
三
列
,但问题是,如果拆分一行(包含
多个
ECnumber),则第二个ECnumber
将
转到第三
列
,然后域
将
消失。
浏览 0
提问于2020-06-22
得票数 0
3
回答
用不一致的分隔符
将
日期划
分为
年、月和日
python
、
apache-spark
、
pyspark
我正在尝试将我的日期
列
(现在是字符串类型)拆
分为
3
列
(年份、月份和日期)。我使用(
PySpark
):df= df.withColumn('Year',如何使用和或操作
将
日期拆
分为
“-”或“/”,这取决于用例。另外,当它被'/‘分隔时,格式是mm/dd
浏览 4
提问于2017-05-04
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel数据分组技巧:如何用函数将单列拆分为多列
一文读懂PySpark数据框
一文读懂 PySpark 数据框
不服不行!Power Query这功能狂甩函数、VBA好几条街!
数据分列——“文本分列向导”的应用
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券