按分隔符拆分的PySpark RDD列表

、、

我是Python和Spark的超级新手，我正在尝试通过分隔符删除string中的值。我有一个包含以下代码行的RDD。 # Pre

浏览 6提问于2017-07-22得票数 0

回答已采纳

2回答

属性错误:使用lambda拆分spark sql python

、、、、

在Spark sql中，我使用Python，并尝试处理以下SQL的输出RDD。这是一个推文列表。我需要拆分单词并提取@，但是当使用map并尝试按空格拆分时，我得到了下面提到的异常消息tweetrdd = tw.rdd.map(lambda line: line.sp

浏览 1提问于2016-11-17得票数 2

1回答

如何在Pyspark中创建按列拆分的RDD子集？

、

我有一个大型数据集作为一个RDD。我想创建这个RDD的大约100个按列排列的子集，这样我就能够在循环中单独对每个子集运行映射转换。我的RDD示例如下：(1,2,3,...,1000)我想要一个按列拆分，例如10个拆分，因此一个子集应该如下所示：(1,2,3,...,100)我如何

浏览 1提问于2017-01-21得票数 0

回答已采纳

1回答

如何从pysark文件中匹配/提取多行模式

、、

我有一个庞大的rdf三元组文件(主题谓词对象)，如下图所示。它提取粗体项的目标，并具有以下输出 ------------------------------valuePointer依次指向其金额(<value/cebcf9> <quantityAmount> "24954")和单位(<value/cebcf9> <quantityUnit> <Meter>

浏览 0提问于2019-08-14得票数 3

回答已采纳

1回答

在分隔符Scala之前和之后修剪所有空格的正则表达式

、、、、

我正在用星火scala读取一个分隔的文本文件。我正在尝试为分隔符~之前的所有内容以及之后的所有内容创建一个regex修剪。目前，我有它的所有空格被修剪。我正在寻找关于如何完成这一或改进的任何建议。def truncateRDD(fileName : String): RDD[String] = { rdd.map(lines

浏览 3提问于2017-02-01得票数 0

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame它会转换成流水线的</

浏览 0提问于2016-06-22得票数 0

1回答

如何使用RDD连接两个表？

、、

shades.txt2 | 1 | light red4 | 3 | light blue如何使用RDDshades.txt的第二列是来自color.txt的键。

浏览 0提问于2017-09-11得票数 1

回答已采纳

3回答

如何从文本文件中读取整数值并统计每个值在pyspark中出现的次数

、、

我想从下面显示的文本文件中读取，遍历每个单独的数字，并确定哪个数字出现的次数最多。我怎么才能在pyspark中做这件事呢？

浏览 18提问于2019-11-15得票数 0

0回答

pyspark按列将数据帧拆分成几个数据帧

、、

我正在使用Python (pyspark)IMSI X Y 我想创建按IMSI列拆分的RDD-DF对象

浏览 0提问于2016-12-23得票数 0

1回答

PySpark:从数据帧列表创建RDD

、、

我无法从pyspark数据帧列表创建RDD，如下所示：df = sqlContext.createDataFrame(l)df2= sqlContext.createDataFrame(m)sc.parallelize(df_list) 我得到的错误是：Py4JError: An error它适用于像[1,2,3]这样的简单列表，但

浏览 4提问于2017-04-10得票数 1

2回答

RDD[string]：将DataFrame转换为pyspark

、、、、

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]data = df.rddtype (data)新的RDD data包含Rowtype(first) ## pyspark.

浏览 2提问于2016-02-17得票数 8

回答已采纳

2回答

我想取一个列，用一个字符拆分一个字符串。与往常一样，我知道方法拆分将返回一个列表，但在编写代码时，我发现返回的对象只有getItem或getField方法，其中包含来自API的以下描述： @ item (1.3) def getItem(self，key)：“”是一个表达式，该表达式在ordinal位置从列表中获取项，或从dict中按键获取项。@自(1.3) def getField(self，name)：“”在StructField中按名称获取字段的</em

浏览 0提问于2019-03-13得票数 2

回答已采纳

3回答

Pyspark:将PythonRDD转换为Dataframe

、

根据我的理解，读取文件应该创建一个DF，但在我的例子中，它已经创建了一个PythonRDD。我发现很难将PythonRDD转换为DataFrame。请找到我下面的代码来读取一个标签分开的文本文件：rdd2 = rdd1.我想要转换成DF来映射模式，这样我就可以在列级别进行进一步的处理了。另外，如果你认为有更好<

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

PySpark -由一个或多个选项卡拆分RDD的记录

、、、、

我从一个输入文件中创建了一个RDD，如下所示：[u'$, Homo\t\t\tNykytaiteenSluts (2003) (V) <12>'] 很容易根据选项卡字符'\t'拆分RDD中的每个记录，但我想得到的是基于一个或多个选项卡拆分的每条记录。我已经尝试过处理Pytho

浏览 5提问于2015-10-14得票数 1

回答已采纳

1回答

在火花中提取python中的元组数组

、、

我有一个RDD的表格： PairRDD= rdd.flatMap(lambda (k,v): v.split(',')).map(lambda x: (k,x)).reduceByKey()) 这将无法工作，因为我在地图转换中没有k。

浏览 5提问于2015-11-06得票数 0

1回答

“列表”对象在火花放电错误中没有属性“map”

llist = df.collect() t= simple_tokenize(line) rdd3 = rdd2.reduceByKey(lambda a,b: a+b) 我在rdd2上遇到了一个错误

浏览 4提问于2022-09-28得票数 0

2回答

使用自定义行/行分隔符/分隔符将DataFrame写入csv文件

、、

似乎没有用于更改csv输出类型的行分隔符的选项。

浏览 25提问于2019-08-30得票数 1

回答已采纳

1回答

PySpark:读取gzipped文件时为空RDD

、、

我有一个脚本来分析BSON转储，但是它只适用于未压缩的文件。在读取gz bson文件时，我得到了一个空的RDD。pyspark_location = 'lib/pymongo_spark.py'INPUT_FILE = 'big_bson.gz'= spark_context.BSONFileRDD(filename) print(rdd

浏览 2提问于2016-04-27得票数 0

2回答

Pyspark将多值列提取到另一个表中

、、

我有一个csv文件，其中一列名为id，另一列名为genre，可以包含任意数量的列。

浏览 0提问于2017-03-27得票数 0

3回答

用拆分列将RDD写入csv

、、

我刚刚开始使用Pyspark，我希望将一个文件保存为csv，而不是文本文件。我尝试使用在堆栈溢出中找到的几个答案，例如 return ','.join(str(d) for d in data) rdd = lines.map(toCSVLine)它的工作原理是我可以在excel中打开它，但是所有的信息都被放入电子表格的A列中。

浏览 5提问于2017-02-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

属性错误:使用lambda拆分spark sql python

如何在Pyspark中创建按列拆分的RDD子集？

如何从pysark文件中匹配/提取多行模式

在分隔符Scala之前和之后修剪所有空格的正则表达式

使用map函数将Spark Dataframe转换为RDD

如何使用RDD连接两个表？

如何从文本文件中读取整数值并统计每个值在pyspark中出现的次数

pyspark按列将数据帧拆分成几个数据帧

PySpark:从数据帧列表创建RDD

RDD[string]：将DataFrame转换为pyspark

平分一列并取n个元素

Pyspark:将PythonRDD转换为Dataframe

PySpark -由一个或多个选项卡拆分RDD的记录

在火花中提取python中的元组数组

“列表”对象在火花放电错误中没有属性“map”

使用自定义行/行分隔符/分隔符将DataFrame写入csv文件

PySpark:读取gzipped文件时为空RDD

Pyspark将多值列提取到另一个表中

用拆分列将RDD写入csv

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐