腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
按
分隔符
拆分
的
PySpark
RDD
列表
、
、
我是Python和Spark
的
超级新手,我正在尝试通过
分隔符
删除string中
的
值。我有一个包含以下代码行
的
RDD
。 # Pre
浏览 6
提问于2017-07-22
得票数 0
回答已采纳
2
回答
属性错误:使用lambda
拆分
spark sql python
、
、
、
、
在Spark sql中,我使用Python,并尝试处理以下SQL
的
输出
RDD
。这是一个推文
列表
。我需要
拆分
单词并提取@,但是当使用map并尝试
按
空格
拆分
时,我得到了下面提到
的
异常消息tweetrdd = tw.
rdd
.map(lambda line: line.sp
浏览 1
提问于2016-11-17
得票数 2
1
回答
如何在
Pyspark
中创建
按
列
拆分
的
RDD
子集?
、
我有一个大型数据集作为一个
RDD
。我想创建这个
RDD
的
大约100个
按
列排列
的
子集,这样我就能够在循环中单独对每个子集运行映射转换。我
的
RDD
示例如下:(1,2,3,...,1000)我想要一个
按
列
拆分
,例如10个
拆分
,因此一个子集应该如下所示:(1,2,3,...,100)我如何
浏览 1
提问于2017-01-21
得票数 0
回答已采纳
1
回答
如何从pysark文件中匹配/提取多行模式
、
、
我有一个庞大
的
rdf三元组文件(主题谓词对象),如下图所示。它提取粗体项
的
目标,并具有以下输出 ------------------------------valuePointer依次指向其金额(<value/cebcf9> <quantityAmount> "24954")和单位(<value/cebcf9> <quantityUnit> <Meter>
浏览 0
提问于2019-08-14
得票数 3
回答已采纳
1
回答
在
分隔符
Scala之前和之后修剪所有空格
的
正则表达式
、
、
、
、
我正在用星火scala读取一个分隔
的
文本文件。我正在尝试为
分隔符
~之前
的
所有内容以及之后
的
所有内容创建一个regex修剪。目前,我有它
的
所有空格被修剪。我正在寻找关于如何完成这一或改进
的
任何建议。def truncateRDD(fileName : String):
RDD
[String] = {
rdd
.map(lines
浏览 3
提问于2017-02-01
得票数 0
回答已采纳
1
回答
使用map函数将Spark Dataframe转换为
RDD
、
、
我正在尝试将spark数据框中
的
列
拆分
为多个值。因此,我分隔了要
拆分
的
列,并检查了其类型:O:
pyspark
.sql.dataframe.DataFrame它会转换成流水线
的</
浏览 0
提问于2016-06-22
得票数 0
1
回答
如何使用
RDD
连接两个表?
、
、
shades.txt2 | 1 | light red4 | 3 | light blue如何使用
RDD
shades.txt
的
第二列是来自color.txt
的
键。
浏览 0
提问于2017-09-11
得票数 1
回答已采纳
3
回答
如何从文本文件中读取整数值并统计每个值在
pyspark
中出现
的
次数
、
、
我想从下面显示
的
文本文件中读取,遍历每个单独
的
数字,并确定哪个数字出现
的
次数最多。我怎么才能在
pyspark
中做这件事呢?
浏览 18
提问于2019-11-15
得票数 0
0
回答
pyspark
按
列将数据帧
拆分
成几个数据帧
、
、
我正在使用Python (
pyspark
)IMSI X Y 我想创建
按
IMSI列
拆分
的
RDD
-DF对象
浏览 0
提问于2016-12-23
得票数 0
1
回答
PySpark
:从数据帧
列表
创建
RDD
、
、
我无法从
pyspark
数据帧
列表
创建
RDD
,如下所示:df = sqlContext.createDataFrame(l)df2= sqlContext.createDataFrame(m)sc.parallelize(df_list) 我得到
的
错误是:Py4JError: An error它适用于像[1,2,3]这样
的
简单
列表
,但
浏览 4
提问于2017-04-10
得票数 1
2
回答
RDD
[string]:将DataFrame转换为
pyspark
、
、
、
、
我想将
pyspark
.sql.dataframe.DataFrame转换为
pyspark
.
rdd
.
RDD
[String]data = df.
rdd
type (data)新
的
RDD
data包含Rowtype(first) ##
pyspark
.
浏览 2
提问于2016-02-17
得票数 8
回答已采纳
2
回答
平分一列并取n个元素
、
、
、
我想取一个列,用一个字符
拆分
一个字符串。与往常一样,我知道方法
拆分
将返回一个
列表
,但在编写代码时,我发现返回
的
对象只有getItem或getField方法,其中包含来自API
的
以下描述: @ item (1.3) def getItem(self,key):“”是一个表达式,该表达式在ordinal位置从
列表
中获取项,或从dict中按键获取项。@自(1.3) def getField(self,name):“”在StructField中
按
名称获取字段
的</em
浏览 0
提问于2019-03-13
得票数 2
回答已采纳
3
回答
Pyspark
:将PythonRDD转换为Dataframe
、
根据我
的
理解,读取文件应该创建一个DF,但在我
的
例子中,它已经创建了一个PythonRDD。我发现很难将PythonRDD转换为DataFrame。请找到我下面的代码来读取一个标签分开
的
文本文件:
rdd
2 =
rdd
1.我想要转换成DF来映射模式,这样我就可以在列级别进行进一步
的
处理了。 另外,如果你认为有更好<
浏览 3
提问于2016-07-12
得票数 0
回答已采纳
1
回答
PySpark
-由一个或多个选项卡
拆分
RDD
的
记录
、
、
、
、
我从一个输入文件中创建了一个
RDD
,如下所示:[u'$, Homo\t\t\tNykytaiteenSluts (2003) (V) <12>'] 很容易根据选项卡字符'\t'
拆分
RDD
中
的
每个记录,但我想得到
的
是基于一个或多个选项卡
拆分
的
每条记录。我已经尝试过处理Pytho
浏览 5
提问于2015-10-14
得票数 1
回答已采纳
1
回答
在火花中提取python中
的
元组数组
、
、
我有一个
RDD
的
表格: PairRDD=
rdd
.flatMap(lambda (k,v): v.split(',')).map(lambda x: (k,x)).reduceByKey()) 这将无法工作,因为我在地图转换中没有k。
浏览 5
提问于2015-11-06
得票数 0
1
回答
“
列表
”对象在火花放电错误中没有属性“map”
llist = df.collect() t= simple_tokenize(line)
rdd
3 =
rdd
2.reduceByKey(lambda a,b: a+b) 我在
rdd
2上遇到了一个错误
浏览 4
提问于2022-09-28
得票数 0
2
回答
使用自定义行/行
分隔符
/
分隔符
将DataFrame写入csv文件
、
、
似乎没有用于更改csv输出类型
的
行
分隔符
的
选项。
浏览 25
提问于2019-08-30
得票数 1
回答已采纳
1
回答
PySpark
:读取gzipped文件时为空
RDD
、
、
我有一个脚本来分析BSON转储,但是它只适用于未压缩
的
文件。在读取gz bson文件时,我得到了一个空
的
RDD
。
pyspark
_location = 'lib/pymongo_spark.py'INPUT_FILE = 'big_bson.gz'= spark_context.BSONFileRDD(filename) print(
rdd
浏览 2
提问于2016-04-27
得票数 0
2
回答
Pyspark
将多值列提取到另一个表中
、
、
我有一个csv文件,其中一列名为id,另一列名为genre,可以包含任意数量
的
列。
浏览 0
提问于2017-03-27
得票数 0
3
回答
用
拆分
列将
RDD
写入csv
、
、
我刚刚开始使用
Pyspark
,我希望将一个文件保存为csv,而不是文本文件。我尝试使用在堆栈溢出中找到
的
几个答案,例如 return ','.join(str(d) for d in data)
rdd
= lines.map(toCSVLine)它
的
工作原理是我可以在excel中打开它,但是所有的信息都被放入电子表格
的
A列中。
浏览 5
提问于2017-02-21
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel高级技能:按分隔符拆分成多行,支持多列批量拆分
拆分含有多种分隔符的字符串
机器学习实践:如何将Spark与Python结合?
合众首创——按业务维度的水平数据拆分
PySpark,一个大数据处理利器的Python库!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券