如何在RDD中使用PySpark的FP-growth？

在RDD中使用PySpark的FP-growth，可以按照以下步骤进行：

导入必要的库和模块：from pyspark import SparkContext from pyspark.mllib.fpm import FPGrowth
创建SparkContext对象：sc = SparkContext(appName="FP-growth")
加载数据集并进行预处理：data = sc.textFile("path_to_dataset") transactions = data.map(lambda line: line.strip().split(' '))
构建FP-growth模型：model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)其中，minSupport参数表示最小支持度，可以根据实际情况进行调整。
使用模型进行频繁项集挖掘：freqItemsets = model.freqItemsets().collect()
打印频繁项集：for itemset in freqItemsets: print(itemset)

在上述代码中，freqItemsets是一个RDD，可以通过collect()方法将其转换为列表进行打印。

FP-growth算法是一种用于频繁项集挖掘的高效算法，它通过构建FP树来避免了频繁项集挖掘中的多次扫描数据集的问题。它的优势在于可以处理大规模数据集，并且具有较高的效率。

FP-growth算法在许多领域都有广泛的应用，例如市场篮子分析、推荐系统、网络流量分析等。在腾讯云中，可以使用TencentDB for Redis等产品来支持FP-growth算法的应用。

更多关于PySpark的FP-growth算法的信息，可以参考腾讯云的文档：PySpark FP-growth。

星星之火-提交抛出错误，不像火星雨

、

我一直在测试一个使用Ipython笔记本的脚本，并将吡火花传递给它。我想要完成的一切都做得很好。我还在命令行中没有笔记本的情况下运行它，使用pyspark并工作。使用1.3.1版当使用火花提交作为作业提交时 spark-submit --master local[*] myscript.py 我得到了以下错误： x_map = rdd.map(lambda s: (s[1][1],s[1][3])).distinct().toDF().toPandas() AttributeError: 'PipelinedRDD' object has no attribute &#

浏览 11提问于2015-09-03得票数 2

回答已采纳

1回答

火花放电数据的预处理

、、

在查看了星星之火/示例目录中的kmeans示例之后，我尝试在一组纬度和经度数据上进行K-意思聚类。我已经将.csv数据导入到spark (~1M行)中，并试图将数据读取作为我的k-means模型的输入，但是我一直得到一个错误。我的星星之火看起来像： ID col1 col2 Latitude Longitude ford ... ... 22.2 13.5 landrover ... ...

浏览 3提问于2017-07-05得票数 1

回答已采纳

1回答

如何在Spark中从另一个RDD的前n项生成RDD？

在pyspark中给出一个RDD，我想创建一个新的RDD，它只包含它的前n项(副本)，如下所示： n=100 rdd2 = rdd1.limit(n) 除了RDD没有像DataFrame那样的方法limit()。注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。我使用的是pyspark 2.44。

浏览 19提问于2019-10-13得票数 0

回答已采纳

1回答

火花放电不起作用

、、、

我正试图在Pyspark的映射函数中解析。我感兴趣的是从第21行提取“费用”字段:481000。如果我在普通的python (即没有pyspark)中这样做，我可以用下面的方法来完成，它可以工作！ import json f=open("block_395545.json") lines = f.read() json_data = json.loads(lines) fee_data = json_data["fees"] print fee_data 但是，如果我按下面的方式将它放入映射函数中，它将不起作用： function get_tx_fee(line

浏览 1提问于2016-02-03得票数 0

回答已采纳

1回答

如何在Pyspark的每个元素上使用Pyspark的csv读取器？(没有“来自广播变量的引用SparkContext”)

、、、

我想使用Pyspark在数百个csv文件中读取，创建一个数据文件，即(粗略地)连接所有csv。因为每个csv都可以安装在内存中，但一次不超过一到两个，这似乎是一个很好的契合。我的策略不起作用，而且我认为这是因为我想在映射函数的内核函数中创建一个Pyspark dataframe，从而导致一个错误： # initiate spark session and other variables sc = SparkSession.builder.master("local").appName("Test").config( "spark.driver.bindA

浏览 6提问于2022-10-03得票数 0

1回答

坚持Spark 2.0指的是什么？

、

假设我在pyspark工作。我有一个RDD，rdd = sc.Textfile(file.txt)，我调用rdd.persist()，然后重新分配它：rdd = rdd.filter(lambda x: 'hi' in x)。现在是将sc.Textfile(file.txt)持久化在内存中，还是将rdd.filter(lambda x: 'hi' in x)持久化？

浏览 0提问于2018-02-20得票数 0

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD，我还能用典型的Python函数做操作吗？如

浏览 34提问于2017-03-01得票数 1

回答已采纳

4回答

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last): File "/home/docs/dp_model/dp_algo_platform/dp_algo_core/test/test.py", line 36, in <module> df = df.rdd.map(lambda x: x.value.split(" ")).toDF() File "/home/softs/spark-2.4.3-

浏览 56提问于2020-01-06得票数 3

2回答

RDD[string]：将DataFrame转换为pyspark

、、、、

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String] 我将DataFrame df转换为RDD data data = df.rdd type (data) ## pyspark.rdd.RDD 新的RDD data包含Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc', _c3=u'ddd&#

浏览 2提问于2016-02-17得票数 8

回答已采纳

1回答

AttributeError：“NoneType”对象中没有属性“_jvm”

、、、、

我试图通过循环遍历该数据的每一行来打印数据。然后，我使用对dataframe的RDD的map()转换来应用lambda函数，并尝试将其转换回dataframe。我通过conda env在木星笔记本上运行这个程序。我的猜测是，在应用rlike()函数时存在一些问题，因为没有rlike()函数，映射工作得很好。下面的代码如下： from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.window import Window spark = SparkSession.bui

浏览 14提问于2022-09-19得票数 0

回答已采纳

1回答

电火花纱获得烟斗拒绝许可

、、

我试图用CDH在纱线上运行电火花，在这个生火的主程序中，有一条类似于rdd.pipe("XXX.sh")的语句，每次我运行它时，都会弹出一个被拒绝的错误，我该怎么办来解决这个错误呢？谢谢。错误日志信息是blow：文件"/data/yarn/nm/usercache/work/appcache/application_1495632173402_0079/container_1495632173402_0079_01_000001/pyspark.zip/pyspark/rdd.py"，第2346行，pipeline_func文件"/data/yarn

浏览 3提问于2017-05-25得票数 0

1回答

如何批量收集RDD中的元素

、、

我有一个pyspark RDD，它有大约200万个元素。我不能一次收集它们，因为它会导致OutOfMemoryError异常。如何批量采集？这是一个潜在的解决方案，但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.RDD.take.html#pyspark.RDD.take)，然后从该批处理中的RDD中删除所有元素(使用filter、https://spark.apache.org/docs/3.1.2/api/python/reference/a

浏览 29提问于2021-10-12得票数 0

回答已采纳

1回答

如何从任何数据库表创建PySpark RDD？

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

2回答

pyspark错误:parallelize：'SparkSession‘对象没有'parallelize’属性

、、、、

我在Jupyter notebook上使用了pyspark。下面是Spark的设置方法： import findspark findspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive', python_path='python2.7') import pyspark from pyspark.sql import * sc = pyspark.sql.SparkSession.builder.master(&

浏览 21提问于2016-09-16得票数 22

回答已采纳

1回答

如何在PySpark中从文本文件创建DataFrame？

、、、

我是Pyspark的新手，我想在pyspark中将txt文件转换为Dataframe。我正在尝试让pyspark中的数据整齐。有什么帮助吗？谢谢我已经尝试将其转换为RDD，然后再转换为datafram，但它对我不起作用，所以我决定将其从txt文件转换为dataframe一次。我试着这样做，但它还没有起作用。 # read input text file to RDD lines = sc.textFile("/home/h110-3/workspace/spark/weather01.txt") # collect the RDD to a list lli

浏览 11提问于2019-07-11得票数 0

回答已采纳

1回答

火花放电rdd分裂问题

、、

我试图从rdd中筛选值为"01-10-2019“的 print("\n ### Remove duplicates in merged RDD:") insuredata = insuredatamerged_cache.distinct() print("insuredata: ",type(insuredata)) print("\n ### Increase partition to 8 in merged RDD:") insuredata.getNumPartitions() insuredatarepart = insu

浏览 5提问于2020-02-08得票数 1

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext import re from pyspark.mllib.clustering import KMeans, KMeansModel from pyspark.mllib.linalg import DenseVector from pyspark.mllib.linalg import SparseVector from nump

浏览 2提问于2017-03-02得票数 5

回答已采纳

8回答

ImportError:火花工作者上没有名为numpy的模块

、、、

在客户端模式下启动火花放电。bin/pyspark --master yarn-client --num-executors 60，shell上的导入numpy很好，但是在kmeans中失败了。不知怎么的，执行者们没有安装过，这是我的感觉。我在任何地方都找不到好的解决办法，让工人们知道“无生气”的事。我试着设置PYSPARK_PYTHON，但这也不起作用。 import numpy features = numpy.load(open("combined_features.npz")) features = features['arr_0'] features.

浏览 7提问于2016-02-05得票数 19

回答已采纳

2回答

Pyspark读取csv

、、

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？ from pyspark.sql import SQLContext import pyspark from pyspark.sql import Row import csv sql_c = SQLContext(sc) rdd = sc.textFile('data.csv').map(lambda line: line.split(",")) rdd.count() ()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

浏览 3提问于2018-05-14得票数 1

回答已采纳

2回答

需要创建一个Dataframe，其中通过循环遍历另一个Dataframe列的值来创建列。我如何在PySpark中做到这一点？

、、

我试图从原始的Dataframe "User_df“中获取每个列的列名和数据类型，到它们自己的列中，其中列的值分别是列名和数据类型。我有88列和9500行。当我尝试用一个列("ColumnDataTypes")创建一个Dataframe时，下面的代码是有效的，但当我试图为这两个列创建一个Dataframe时，代码就不起作用了： col_types = User_df.dtypes col_types2, col_types3 = [items[:] for items in zip(*col_types)] rdd_col_names = sc.parallel

浏览 36提问于2022-08-16得票数 0

回答已采纳

1回答

使用FP-growth实现Apache Spark教程，在freqItemsets上没有结果

、、

这是我在这里的第一个问题，我希望我这样做是正确的。因此，我试图了解Apache Spark及其FP-growth算法。因此，我尝试将FP-growth教程应用于Spark附带的银行教程。我对所有这些数据映射的东西和scala都是新手，所以这个问题对你们来说可能很基本，但我很感谢你们的帮助！ case class Bank(age:Integer, job: String, marital: String, education: String, balance: Integer) val bank = bankTest.map(s=>s.split(

浏览 1提问于2016-07-08得票数 0

1回答

方案没有FileSystem :os

、、

我正在使用阿里巴巴云存储来自spark脚本的处理数据，但我无法将数据上传到存储中。我通过添加一些jars来了解s3，但不确定如何在阿里巴巴OSS服务中做到这一点 from pyspark.sql import SparkSession conf = SparkConf() conf.set("spark.hadoop.fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem") spark = SparkSession.builder.config("spark.jars", "/

浏览 21提问于2021-02-23得票数 0

1回答

用电火花将时间戳写到Postgres

、、、、

我正在Python上开发一个Spark脚本(使用Pyspark)。我有一个函数，它用一些字段返回一个Row，包括 timestamp=datetime.strptime(processed_data[1], DATI_REGEX) processed_data1是一个有效的日期时间字符串。编辑显示完整的代码： DATI_REGEX = "%Y-%m-%dT%H:%M:%S" class UserActivity(object): def __init__(self, user, rows): self.user = int(user)

浏览 5提问于2017-01-19得票数 0

回答已采纳

1回答

Pyspark：“rdd”对象没有属性“平面映射”

、、、

我是刚接触过Pyspark的人，我实际上是在尝试用Pyspark对象构建一个平面图。但是，根据文档，即使这个函数显然存在于吡火花RDD类中，我也无法使用它并得到以下错误： AttributeError: 'RDD' object has no attribute 'flatmap' 我在下面一行中调用后一个函数： my_rdd = my_rdd.flatmap(lambda r: (r[5].split('|'))) 进口商品如下： from pyspark.sql import * from pyspark.sql.functions impo

浏览 2提问于2018-10-28得票数 4

回答已采纳

1回答

对reducedByKey的对表示使用(，)和[，]的区别

、、、

我正在应用一个映射，然后使用pyspark在RDD上应用reduceByKey转换。我尝试了以下两种语法，这两种语法似乎都有效：案例1： my_rdd_out = my_rdd.map(lambda r: [r['my_id'], [[r['my_value']]]])\ .reduceByKey(lambda a, b: a+b)\ .map(lambda r: r[1]) 案例2： my_rdd_out = my_rdd.map(

浏览 0提问于2016-09-26得票数 0

回答已采纳

1回答

PicklingError:未能序列化对象:同时将数据插入到dynamoDB

、、

我试图在dynamoDB中插入200万项(WCU = 40,000)。但是当我使用星图时，它是抛出的错误。 %livy.pyspark import shutil from typing import Text, List from pyspark.sql import SparkSession, DataFrame import boto3 from urllib.parse import urlparse from boto3.dynamodb.conditions import Key dynamodb = boto3.resource('dynamodb', reg

浏览 6提问于2021-02-27得票数 0

2回答

火花相交

、

我希望在pyspark中得到两个RDD的交集。它们看起来如下： rdd1 = sc.parallelize(["abc","def", "ghi"]) rdd2 = sc.parallelize([["abc","123"],["df",345], ["ghi","678"]) 是否可以使用pyspark的rdd操作符来获得： intersection_rdd --> ["abc","123"] ["ghi",&#

浏览 4提问于2016-12-19得票数 1

回答已采纳

1回答

flatMap对火星雨中自定义对象列表的控制

、、、

在类的对象列表上运行flatMap()时，我会收到一个错误。对于常规python数据类型(如int、list等)，它可以正常工作，但是当列表包含类的对象时，我会遇到一个错误。以下是整个代码： from pyspark import SparkContext sc = SparkContext("local","WordCountBySparkKeyword") def func(x): if x==2: return [2, 3, 4] return [1] rdd = sc.parallelize([2]) rdd =

浏览 1提问于2015-09-26得票数 0

回答已采纳

4回答

如何在Pyspark中使用pyspark.rdd.PipelinedRDD ()方法将数据帧转换成数据帧？

、、、、

我有pyspark.rdd.PipelinedRDD (Rdd1)。当我做Rdd1.collect()时，它会给出如下的结果。 [(10, {3: 3.616726727464709, 4: 2.9996439803387602, 5: 1.6767412921625855}), (1, {3: 2.016527311459324, 4: -1.5271512313750577, 5: 1.9665475696370045}), (2, {3: 6.230272144805092, 4: 4.033642544526678, 5: 3.1517805604906313}), (3, {

浏览 13提问于2018-01-05得票数 9

回答已采纳

1回答

使用PySpark和paho向MQTT代理发送foreachRDD结果

、

我试图向MQTT代理发送一个带有计算结果的DStream，但是foreachRDD一直在崩溃。我正在运行Spark2.4.3与Bahir的MQTT订阅，从git主编译。到目前为止一切都很顺利。在尝试用MQTT发布我的结果之前，我尝试了saveAsFiles()，这起作用了(但不是我想要的)。 def sendPartition(part): # code for publishing with MQTT here return 0 mydstream = MQTTUtils.createStream(ssc, brokerUrl, topic) mydstream = p

浏览 0提问于2019-07-15得票数 1

回答已采纳

1回答

如何在流水线RDD上使用flatMap()？

、、、

浏览 4提问于2016-03-30得票数 0

回答已采纳

1回答

将现有函数用作UDF以修改列时出错

、、、、

我有一个包含纯文本的字符串类型列的dataframe，我想使用pyspark.sql.functions.udf (或pyspark.sql.functions.UserDefinedFunction?)修改这个列。我在OSX10.11.4上使用Python2.7、Pyspark 1.6.1和Flask 0.10.1。当我使用lambda表达式时，它似乎工作得很好： @spark.route('/') def run(): df = ... # my dataframe myUDF = udf(lambda r: len(r), IntegerType()

浏览 10提问于2016-05-24得票数 0

回答已采纳

1回答

PySpark MLLib齐柏林飞艇逻辑回归度量错误: AssertionError:维度不匹配

、、

我正在尝试用MLLib在Pyspark中运行逻辑回归。模型运行了，但我无法获得任何指标。我的数据是csv格式，我按如下方式进行转换： def load(prefix): lines = spark.read.text(prefix).rdd parts = lines.map(lambda row: row.value.split(",")) ratingsRDD = parts.map(lambda p: Row(pct = str(p[0]), date = str(p[1]), res_burg_label=int(p[2]), com_burg

浏览 1提问于2018-03-17得票数 0

1回答

如何像scala .drop中那样删除rdd列

、、、、

文件videos.csv如下所示 2482cal-2792-48da,Action,Comedy 099acca-8888-48ca,Action,Comedy 在Scala中，Scala可以使用.drop(1)删除RDD列1，以便对所有行删除rdd列1，例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在PySpark rdd中PySpark中这样做，如下所示，在第2行代码中火花Scala val records = sc.textFile("file:///home/videos.csv") val words = records.

浏览 2提问于2016-12-29得票数 3

1回答

如何在pyspark中播放一个巨大的rdd？

、

当我打印出rdd的第一个元素时，如下所示： print("input = {}".format(input.take(1)[0])) 我得到的结果是：(u'motor', [0.001,..., 0.9]) [0.001,..., 0.9]的类型是列表。输入rdd中的元素数等于53304100 当我想广播输入RDD时，我的问题出现了，如下所示： brod = sc.broadcast(input.collect()) 生成的异常如下所示(我只显示了exeception的第一部分)： WARN TaskSetManager: Lost task 56.

浏览 11提问于2019-02-25得票数 0

回答已采纳

1回答

将解析文本文件火花发送到DataFrame

、

目前，我可以通过RDD使用以下代码将文本文件解析为DataFrame： def row_parse_function(raw_string_input): # Do parse logic... return pyspark.sql.Row(...) raw_rdd = spark_context.textFile(full_source_path) # Convert RDD of strings to RDD of pyspark.sql.Row row_rdd = raw_rdd.map(row_parse_function).filter(bool) # Conver

浏览 6提问于2016-09-02得票数 0

回答已采纳

1回答

制作和操作numpy数组，并通过pyspark使用数据

、

我在使用pyspark.mllib.stat.KernelDensity中手工创建的测试数据时遇到了一个问题。在使用(某些)pyspark时，numpy.float和Python的通用float之间存在某种问题/差异；特别是使用numpy.float的中断构造的RDDs。有没有办法让我创建的NumPy数组的元素是python的浮点数而不是numpy.float的？ import pyspark import pyspark.mllib.stat import numpy sc = pyspark.SparkContext("local", 'test2') r

浏览 0提问于2018-05-15得票数 0

1回答

如何从Pyspark中读取列并在其上应用UDF？

、

我正在创建一个DF，方法是读取Pyspark中的csv文件，然后转换为RDD来应用UDF。它在应用UDF时抛出一个错误。这是我的代码片段- # My UDF definition def my_udf(string_array): // some code // return float_var spark.udf.register("my_udf", my_udf, FloatType()) #Read from csv file read_data=spark.read.format("csv").load("/path/to/

浏览 2提问于2020-02-21得票数 0

回答已采纳

1回答

如何在星火中检查或保存大型矩阵文件

、、、、

我在PySpark中创建了一个大块矩阵，名为mtm，具有85Kx85K维度。我想检查矩阵，以确保它是以我想要的方式创建的。我尝试过不同的路径，它们都失败了，退出代码143或92的内存问题都失败了。我已经尝试过的选项: 1.将矩阵转换为rdd，并查看第一个条目： mtm_coor = mtm.toCoordinateMatrix() mtm_rdd = mtm_coor.entries mtm_rdd.take(1) 将其保存到文本文件中 mtm_rdd.saveAsTextFile('./mtm.txt') 将其转换为DataFrame mtm_df = mtm_rd

浏览 2提问于2017-08-22得票数 1

2回答

python spark AttributeError：'module‘对象没有'getrusage’属性

、

我从一个数据集中计算每个id的值。这是我的数据集 44,erere,35 42,asdfasdf,10 44,asdfasdf,22 因此，我们的目标是拥有44个=> (35 + 22)和42个(10) 这是我的代码： from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("AA") sc = SparkContext(conf = conf) rdd = sc.textFile("data4.txt")

浏览 0提问于2021-03-03得票数 3

5回答

ModuleNotFoundError:没有名为“pyarrow”的模块

、、

我正尝试在我的服务器上运行一个简单的pandas UDF示例。来自为了运行这段代码，我创建了一个全新的环境。 (PySparkEnv) $ conda list # packages in environment at /home/shekhar/.conda/envs/PySparkEnv: # # Name Version Build Channel arrow-cpp 0.10.0 py36h70250a7_0 conda-forge blas

浏览 4提问于2018-09-14得票数 5

1回答

Spark exectuors找不到已安装的包

、、、

我已经为python3.6安装了pycountry包。我使用以下命令启动PySpark外壳： pyspark --driver-memory 50g --executor-memory 10g --conf "spark.pyspark.python=/usr/bin/python3.6" --conf "spark.pyspark.driver.python=/usr/bin/python3.6" 我定义了这个UDF： @F.udf def get_phone_number_country_iso(phone_number): try:

浏览 0提问于2021-01-31得票数 1

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

、

我已经编写了一个模块，其中包含了在PySpark DataFrames上工作的函数。它们对DataFrame中的列进行转换，然后返回一个新的DataFrame。下面是代码的一个示例，缩短为只包含其中一个函数： from pyspark.sql import functions as F from pyspark.sql import types as t import pandas as pd import numpy as np metadta=pd.DataFrame(pd.read_csv("metadata.csv")) # this contains metad

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

星星之火:如何将元组转化为DataFrame

、、

我的train_rdd和(('a',1),('b',2),('c',3))一样。我使用以下方法将其转换为DataFrame from pyspark.sql import Row train_label_df = train_rdd.map(lambda x: (Row(**dict(x)))).toDF() 但也许某些RDDS中缺少了一些钥匙。所以错误就会发生。 File "/mnt/hadoop/yarn/local/usercache/hdfs/appcache/application_/container_05_000017/py

浏览 8提问于2020-07-07得票数 1

回答已采纳

1回答

PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误

、

我有这个csv文件(test.csv)，它包含以下内容： COLUMN_STRING;COLUMN_INT;COLUMN_TIMESTAMP String_Value_1;123456;20131226224757 String_Value_2;234567;20141227234858 String_Value_3;345678;20151228214555 我试图使用以下代码将第3列时间戳yyyyMMddhhmmss导入到TimestampType()中： from pyspark.sql.types import * data = sc.textFile('test.csv

浏览 1提问于2017-02-21得票数 3

1回答

为什么火花处理要花更长的时间？

、

我正在尝试使用Python (Pyspark)来学习火花。我写了这个简单的例子： from pyspark.shell import sc import time def Func(lines): lines = lines.lower() lines = lines.split() return lines if __name__ == '__main__': full_name = "book_1.txt" N = 10000 start_time = time.time()

浏览 0提问于2022-02-21得票数 0

1回答

如何解决？(将列表添加到列dataframe pyspark)

、、、

如果我已经存在数据帧，且我想要向数据框中添加新列 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import Row numbers=[1,2,30,4] rdd1 = sc.parallelize(li) row_rdd = rdd1.map(lambda x: Row(x)) test_df = sqlContext.createDataFrame(row_rdd,['numbers']) ------------------------------------

浏览 0提问于2020-10-05得票数 1

2回答

冲突的PySpark存储级别默认设置？

、

不明白为什么缓存的DFs (特别是第一个)在Spark中根据代码段显示不同的Storage Levels print(spark.version) 2.4.3 # id 3 => using default storage level for df (memory_and_disk) and unsure why storage level is not serialized since i am using pyspark df = spark.range(10) print(type(df)) df.cache().count() print(df.storageLeve

浏览 2提问于2019-07-07得票数 1

2回答

我如何才能在PySpark中得到一个不同的数据集？

、、、

我有一个字典的RDD，我想得到一个只包含不同元素的RDD。但是，当我试图打电话给 rdd.distinct() PySpark给出了以下错误 TypeError: unhashable type: 'dict' at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:207) at org.ap

浏览 5提问于2016-02-19得票数 2

回答已采纳

2回答

星火StorageLevel在本地模式不工作？

、

局部模式运行计算机内存：16‘s 计算机可用磁盘空间：500‘s 输入文件大小：50 错误消息：java.lang.OutOfMemoryError: Java堆空间代码:在命令窗口中使用.\pyspark后，输入到windows命令提示符中的码 from pyspark import SparkConf, SparkContext import pyspark rdd = sc.textFile('file:///myBigFile.xml') rdd.persist(pyspark.StorageLevel.DISK_ONLY) r

浏览 2提问于2019-01-31得票数 0