Pyspark使用自定义函数将每行存储到自定义对象中，例如节点对象_如何将自定义类对象存储到spaCy.doc中并使用`doc.to_disk`？_我正在尝试使用Java上的gson将大量自定义对象写入到json文件中，但在文件完成之前就中断了？ - 腾讯云开发者社区

pyspark、vectorization、data-science

我有一个包含令牌列表的数据帧。 data1 = [(1, ["This","is", "category", "A"]), (2, ["This", "is", "category", "B","This", "is", "category", "B"]), (3, ["This", "is", "category", "F&#

浏览 0提问于2020-04-22得票数 1

2回答

使用来自另一个dataframe的JSON对象创建新的数据

python、json、pandas、dataframe、pyspark

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。 data = [] def process_row_data(row): global data for item in row.json_object['obj']: # create a dictionary to represent each row of a new dataframe

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

将源文件存储在与Google云存储( google )中

apache-spark、hadoop、pyspark、google-cloud-storage、google-cloud-dataproc

我想处理~500 GB的数据，分布在64个JSON文件中，每个文件都包含5M records。基本上，地图(火花)功能的每一个300米的记录。为了测试我的PySpark映射函数，我设置了集群(仅测试一个JSON文件的一个主5名工作人员)。这里的最佳做法是什么？我应该复制主节点中的所有文件(利用Dataproc中的Hadoop分布式文件系统)，还是如果我将文件保存在GCS桶中并将文件位置指向我的Pyspark中，那么它是否同样有效？另外，我的代码导入了相当多的外部模块，我已经将这些模块复制到我的主模块中，并在主模块中导入工作。将其复制到所有其他工作节点上的最佳实践是什么，这样当Pyspa

浏览 1提问于2019-06-04得票数 1

回答已采纳

1回答

在AWS EMR上搜索时找不到有效的SPARK_HOME

python、apache-spark、hadoop、pyspark、amazon-emr

当使用spark submit命令在EMR集群上运行python脚本时，进程卡住了10% (可以通过yarn application --list看到)，当我检查日志时，所有内核执行器都显示了以下类型的消息，因为最近出现了错误： Could not find valid SPARK_HOME while searching ['/mnt1/yarn/usercache/hadoop/appcache/application_x_0001', '/mnt/yarn/usercache/hadoop/filecache/11/pyspark.zip/pyspark'

浏览 18提问于2020-10-21得票数 1

1回答

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob.时出错ModuleNotFoundError:没有名为“numpy”的模块

python、machine-learning、pyspark、jupyter-notebook、data-science

有人能帮助解决这个问题吗？它没有显示名为'numpy‘的模块，但我已经在笔记本中安装并导入了它。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 223.0 failed 1 times, most recent failure: Lost task 0.0 in stage

浏览 118提问于2019-12-03得票数 0

2回答

火花不能腌制method_descriptor

python、hbase、apache-spark、pickle、happybase

我收到一条奇怪的错误信息 15/01/26 13:05:12 INFO spark.SparkContext: Created broadcast 0 from wholeTextFiles at NativeMethodAccessorImpl.java:-2 Traceback (most recent call last): File "/home/user/inverted-index.py", line 78, in <module> print sc.wholeTextFiles(data_dir).flatMap(update).top(1

浏览 4提问于2015-01-25得票数 7

回答已采纳

7回答

Pyspark --py-files不工作

python、hadoop、apache-spark、emr

我使用它作为文档建议的 spsark版本1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py 以及代码中的conf： conf = (SparkConf() .setMaster("yarn-client") .setAppName("LogAnalysis") .set("spark.executor.memory&

浏览 0提问于2014-12-25得票数 22

2回答

Dataproc未使用pyspark并行处理大数据

apache-spark、pyspark、dataproc

我在GCP中启动了一个DataProc集群，有一个主节点和3个工作节点。每个节点有8个vCPU和30G内存。我开发了一个pyspark代码，它从GCS读取一个csv文件。csv文件的大小约为30G。 df_raw = ( spark .read .schema(schema) .option('header', 'true') .option('quote', '"') .option('multiline',

浏览 4提问于2021-05-03得票数 0

1回答

maya保存/保存由命令生成的内存中的数据？

c++、api

我写了一个玛雅插件(类)。在maya中执行插件/命令将产生一些数据。在Maya中再次执行插件/命令将取决于上次执行后生成的数据，但在最后一次执行中生成的数据将随着插件class.How的销毁而被销毁，我是否保存/保存在执行命令后在内存中生成的数据？也许在场景中创建自定义节点?有没有更好、更方便的方法？

浏览 4提问于2022-10-28得票数 0

回答已采纳

1回答

如何在使用makeBranch后检索变量分支

cplex

我使用makeBranch在每个节点的特定变量上创建分支。在使用makeBranch之前，我使用NodeCallback来检索选择进行分支的变量。现在，当我使用makeBranch时，NodeCallback不会显示任何有关变量分支的信息。我如何控制和显示我指定的变量被选中进行分支？以及它没有在Cplex(Concert C++)领事日志中显示任何记录。

浏览 13提问于2019-10-27得票数 0

回答已采纳

1回答

与纯python替代方案相比，Pyspark代码的性能不够好。

python、apache-spark、pyspark

我转换了现有的代码，它在python中粘贴，下面是pyspark。 Python代码： import json import csv def main(): # create a simple JSON array with open('paytm_tweets_data_1495614657.json') as str: tweetsList = [] # change the JSON string into a JSON object jsonObject = json.load(str)

浏览 0提问于2017-06-18得票数 1

2回答

从边构建一棵树

java、algorithm、graph、tree

如果我试图构建一个给定输入的树，每行一条边，其中一条边由它连接的两个顶点表示。可以使用Node结构/类构建树吗?还是应该像图一样将其表示为邻接表？我遇到的主要问题是输入的顺序。如果我得到了两条或更多的一开始根本不相连的边，然后我有一堆没有连接的Node对象，而通常情况下，你会得到一棵树，插入到树中只是让新节点成为一个子节点(或父节点？)另一个节点的。

浏览 2提问于2013-02-20得票数 1

2回答

使用spark连接器从snowflake自定义数据类型映射

python、pyspark、pyspark-sql、snowflake-cloud-data-platform

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.table as select array_construct('1','a') as array_col, object_construct(

浏览 26提问于2019-05-30得票数 1

1回答

气流迁移时火花的酸洗误差

python、apache-spark、pyspark、airflow

我从旧的气流迁移到新的气流环境。在迁移到新的气流env时，我遇到了。我理解由于RDD操作关闭，需要对对象进行筛选。我还了解到，由于redis集群库中的，我声明的对象是不能被腌制的。 rc = RedisCluster( startup_nodes=config["redis"]["mydashboard"]["nodes"], password=redis_pwd, decode_responses=True, ) def write_to_redis(row) -> None: rc.set(

浏览 6提问于2022-05-22得票数 0

2回答

Drupal:如何将变量从一个节点传递到另一个块？

drupal、drupal-theming、drupal-7

我想做在node.tpl.php中对节点字段进行处理将其保存到变量中并在节点后加载的块中显示(在同一页上)。如何将变量从节点传递到块？

浏览 5提问于2011-01-13得票数 1

回答已采纳

1回答

如果我使用类方法作为pyspark中的udf，会发生什么呢？

python、apache-spark、pyspark

我理解如果我定义一个Python函数并将它用于PySpark UDF，会发生什么。但是，我并不完全清楚，当调用实例化对象的方法时，PySpark在做什么： class Foo: _const = 1 def f(x): return x +_const foo_object = Foo() f_udf = pyspark.functions.udf(foo_object.f) 执行者是如何发挥这一作用的？对象是保存在管理器上，还是复制到执行程序中？

浏览 0提问于2018-10-08得票数 2

回答已采纳

1回答

基于列存储索引创建新的数据帧

pyspark、apache-spark-sql

我正在致力于在pyspark上使用ALS来做协同过滤。这些模型在数据框中给出了预测结果，如下所示。 CustomerID ProductID Rating 0 4 4.2 0 2 2.7 0 6 3 1 7 2.3 1 0 0.5 2 3 3.1 我希望将数据帧转换为用户到项目矩阵，

浏览 21提问于2019-05-21得票数 0

回答已采纳

1回答

pyspark MLUtils保存saveaslibsvm仅保存在_temporary下，不保存在主机上

python、apache-spark、pyspark、libsvm、svmlight

我用的是pyspark 并使用MLUtils 在标记点上保存RDD。它可以工作，但会将该文件保存在/_temporary/下的所有工作节点中。没有抛出错误，我希望将文件保存在适当的文件夹中，并且最好将所有输出保存到一个将位于节点或主服务器上的libsvm文件中。这有可能吗？编辑+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++无论我做什么，我都不能使用MLUtils.loadaslibsvm()从保存它的相同路径加载libsvm数据。也许写文件的时候出了问题？

浏览 24提问于2017-08-01得票数 1

回答已采纳

1回答

在google cloud dataproc上使用spark管理python依赖项

apache-spark、pyspark、google-cloud-platform、google-cloud-dataproc

我已经编写了一个依赖于six和各种其他python包的Spark脚本。 $ cat ./test_package/__init__.py from six.moves.urllib.request import urlopen def download_size(url): return len(urlopen(url).read()) 因此，我已经编写了一个setup.py来声明这种依赖关系。 $ cat ./setup.py from setuptools import setup setup( name="Test App", packages=

浏览 1提问于2017-02-19得票数 1

6回答

Delphi对象持久化，最好的方法是什么

delphi、object、persistence

我已经开发了一些绘制形状(主要是线条)的应用程序，现在我需要能够将草图存储到文件中，我知道delphi有内置的对象持久化例程，但我从未使用过它。谁能告诉我，如果我必须持久化引用了其他对象(将被存储到)的对象，我有可以连接到其他TLine对象的TLine对象，那么可以使用对象持久化吗？使用此功能或编写自定义过程将对象存储到文件或从文件读取对象，哪个更好。

浏览 0提问于2008-12-28得票数 8

回答已采纳

2回答

为什么在Google Dataproc中运行的Spark在使用saveAsTextFile时将临时文件存储在外部存储上，而不是本地磁盘或硬盘上？

apache-spark、pyspark、google-cloud-dataproc

我已经运行了以下PySpark代码： from pyspark import SparkContext sc = SparkContext() data = sc.textFile('gs://bucket-name/input_blob_path') sorted_data = data.sortBy(lambda x: sort_criteria(x)) sorted_data.saveAsTextFile( 'gs://bucket-name/output_blob_path', compressionCodecClass="o

浏览 1提问于2016-12-16得票数 2

2回答

如何将AWS EMR笔记本连接到Oracle数据库？

apache-spark、pyspark、jupyter-notebook、amazon-emr

在CLI中，我移动到hadoop目录(在EMR中)并下载了ojdbc.jar文件。我试着使用下面的shell命令连接Oracle DB： pyspark \ --jars "/home/hadoop/ojdbc6.jar" \ --master yarn-client \ --num-executors 5 \ --driver-memory 14g \ --executor-memory 14g \ df = spark.read \ .format("jdbc") \ .option("url", &

浏览 1提问于2020-08-27得票数 1

回答已采纳

1回答

使用PySpark创建一个包含唯一单词的列

python、apache-spark、pyspark

我有一个Spark dataframe，其中包含一个列，其中包含部分行的重复单词： id source_value 1 Peter, Julia, Peter, Michael 2 NULL 3 Michael, Sara, Michael 4 John 我需要创建一个列，其中将排除每行中重复的单词： id result_value 1 Peter, Julia, Michael 2 NULL 3 Michael, Sara 4 John 使用PySpark实现这一点的最佳方法是什么？

浏览 17提问于2021-08-22得票数 0

回答已采纳

2回答

google dataproc - image版本2.0.x如何将pyspark版本降级到3.0.1

apache-spark、pyspark、google-cloud-dataproc、delta-lake

在google云中使用dataproc镜像版本2.0.x，因为在这个dataproc镜像版本中提供了delta0.7.0。然而，这个dataproc实例附带了pyspark 3.1.1的默认版本，Apache Spark 3.1.1还没有正式发布。因此，没有与3.1兼容的Delta Lake版本，因此建议降级。我已经尝试了下面的方法， pip install --force-reinstall pyspark==3.0.1 在dataproc实例的主节点上以根用户身份执行上述命令，但是，当我检查pyspark --version时，它仍然显示3.1.1 如何修复默认的pyspark版本为3

浏览 1提问于2021-02-09得票数 1

1回答

使用Chef参数化节点关系

chef-infra、chef-recipe

我有一组服务器，它们之间具有依赖关系，执行特定角色，即 web server -> application server -> database server 我有厨师食谱，可以用这些角色构建节点。我正在使用Chef生成每个节点的主机文件，并使用。到目前一切尚好。我不能完全理解的是如何灵活地表示具有不同角色的节点之间的关系。灵活地说，我的意思是在开发中，我可能只有一个节点完成所有三个角色，而在分期和生产环境中，每个角色至少有一个节点。我不清楚如何参数化主机文件的生成来满足这一要求。其他人是如何处理这个问题的？提前谢谢。

浏览 1提问于2015-06-02得票数 0

回答已采纳

2回答

PySpark -逐行转换为JSON

python、json、pyspark、spark-dataframe

我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串，然后将该字符串发布到Kafka主题。我最初使用的是以下代码。 for message in df.toJSON().collect(): kafkaClient.send(message) 但是，数据帧非常大，因此在尝试collect()时会失败。我在考虑使用UDF，因为它逐行处理它。 from pyspark.sql.functions import udf, struct def get_row(row): json = row.toJSON() kafkaCli

浏览 3提问于2018-01-31得票数 7

回答已采纳

1回答

将数据存储在word文件中

excel、vba、ms-word

我有一个Excel文件，它有大约800行和几列数据。这个单词文件有三次下降率。第一个下拉列表具有一列的数据。第二个下拉列表的内容取决于下拉列表1中选定的数据，而下拉列表3的内容取决于下拉列表2。我已经做了一个VBA脚本，它通过从excel文件中读取来实现这一点。我的问题是，我需要摆脱excel文件，因为我需要拥有自己的word文件。如何在用户无法看到的情况下将800行excel数据存储到word文件中，以便在VBA代码中使用它。我已经研究过了：，但是它只是生成另一个文件，这与仅仅拥有一个excel文件并没有太大的不同。

浏览 0提问于2018-10-31得票数 0

回答已采纳

1回答

在火花中，spark.executor.pyspark.memory配置选项的含义是什么？

apache-spark、pyspark

文件说明如下：除非另有规定，否则在每个执行器中分配给PySpark的内存量，在MiB中分配。如果设置了，执行器的PySpark内存将被限制在此数量之内。如果没有设置，Spark将不会限制Python的内存使用，这取决于应用程序避免超过与其他非JVM进程共享的开销内存空间。当PySpark在YARN或Kubernetes中运行时，此内存将添加到执行器资源请求中。注意:此特性依赖于Python的resource模块；因此，行为和限制是继承的。例如，Windows不支持资源限制，实际资源在macOS上也不受限制。还有另外两个配置选项。一种控制分配给每个执行器- spark.executo

浏览 5提问于2021-07-04得票数 6

回答已采纳

1回答

查询以保存10个字段

nodes、entities

使用Drupal 7，我创建了一个具有10个字段的节点；这些字段作为表插入。由于多个表是多个字段，我可以使用什么查询将字段值插入到多个表？

浏览 0提问于2012-06-28得票数 1

2回答

如何将List<CustomObject>持久化为节点的属性？

neo4j、spring-data-neo4j-4、neo4j-ogm

我试图持久化一个类的对象列表，假设xyz。当我在NodeEntity类中这样做时： @Property List<xyz> listOfConditions 当通过Neo4jOperations.load(entity)方法从新4j-数据库加载Node表时，将返回一个错误:- error将GraphModel映射为NodeEntity类型类。是否有任何方法将对象列表持久化到Neo4j中的节点属性上？我使用的是新4j-ogm-嵌入式驱动程序和Spring新4j。

浏览 5提问于2016-09-05得票数 5

回答已采纳

1回答

如何解决pyspark中的pickle错误？

python、dictionary、unicode、apache-spark、pyspark

我正在遍历文件，以收集有关字典中它们的列和行的值的信息。我有以下代码，可以在本地运行： def search_nulls(file_name): separator = ',' nulls_dict = {} fp = open(file_name,'r') null_cols = {} lines = fp.readlines() for n,line in enumerate(lines): line = line.split(separator) for m,data in

浏览 0提问于2015-11-07得票数 1

回答已采纳

1回答

hadoop示例中每行一张地图是否正确？

hadoop、grep

我是个菜鸟。当在一个相当大的集群中查看类似实现的hadoop示例时，我想知道为什么伴随hadoop代码的grep示例，为什么每行有一个映射？我知道从一个教学例子的角度来看，这是有意义的。但是在真正的hadoop集群中，要在行业(1PB日志文件)规模上实现grep，是否值得每一行创建一个map()？如果我们每一行创建一个映射，那么创建map()的开销、跟踪它的任务跟踪器以及相关的带宽使用是否合理？

浏览 3提问于2015-01-23得票数 0

回答已采纳

2回答

如何在新的spark会话中再次读回spark表？

python、apache-spark、pyspark、apache-spark-sql

我可以在表创建后立即读取它，但是如何在另一个spark会话中再次读取它呢？给定代码： spark = SparkSession \ .builder \ .getOrCreate() df = spark.read.parquet("examples/src/main/resources/users.parquet") (df .write .saveAsTable("people_partitioned_bucketed")) # retrieve rows from table as expected spark.sql("

浏览 0提问于2018-01-24得票数 5

2回答

UDF的性能改进-获取pyspark中每行最小值的列名

python-3.x、pyspark、apache-spark-sql、pyspark-dataframes

我使用这个udf： mincol = F.udf(lambda row: cols[row.index(min(row))], StringType()) df = df.withColumn("mycol", mincol(F.struct([df[x] for x in cols]))) 获取每行最小值的列名作为另一个名为'mycol‘的列的值。但是这段代码非常慢。有什么改进性能的建议吗？我使用的是Pyspark 2.3

浏览 0提问于2020-09-10得票数 2

2回答

只捕捉到的有效载荷的CDC在火花结构化的流？

sql-server、apache-spark、pyspark、apache-kafka、cdc

为了捕捉Server中的数据更改，我尝试执行从Server到Pyspark的管道，我已经准备好了一切：在Server中启用CDC 从SQL Server到Kafka进行生产，并使用Pyspark结构化流中的Kafka主题。问题是:当我试图用控制台使用者检查数据更改是否经过Kafka时，它会向我显示JSON格式的消息，分为两个记录: Schema和Payload，以及Payload内部，在此之前和之后，分别给出更改之前的数据和更改后的数据。我只在有效负载中被处理->在这部分JSON消息之后因为当我像这样流它时，在木星命令行中，在我需要的字段上显示n

浏览 0提问于2021-06-30得票数 0

回答已采纳

3回答

如何在Zeppelin中将Spark连接到JDBC驱动程序？

apache-spark、pyspark、amazon-emr、apache-zeppelin

我正在尝试使用Zeppelin笔记本中的Spark将数据从SQL服务器拉入Hive表。我正在尝试运行以下代码： %pyspark from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.dataframe import DataFrame from pyspark.sql.functions import * spark = SparkSession.builder \ .appName('sample') \ .getOrCreate() #set ur

浏览 65提问于2018-08-28得票数 2

回答已采纳

1回答

在Apache中缓存RDD的目的是什么？

caching、apache-spark、pyspark、rdd

我是Apache的新手，我有几个基本的问题，在阅读火花材料时，我无法理解。每一种材料都有自己的解释风格。我正在使用PySpark朱庇特笔记本在Ubuntu上练习。根据我的理解，当我运行以下命令时，testfile.csv中的数据被分区并存储在相应节点的内存中。 rdd1 = sc.textFile("testfile.csv") 我的问题是，当我运行以下转换和操作命令时，rdd2数据将存储在哪里。 1.它是否存储在记忆中？ rdd2 = rdd1.map( lambda x: x.split(",") ) rdd2.count() 我知道rdd2中的数据在关

浏览 2提问于2016-07-26得票数 6

回答已采纳

1回答

不能从火花放电加载管道模型

apache-spark、pyspark、apache-spark-mllib

你好，我试着用管道模型加载节省的管道。 selectedDf = reviews\ .select("reviewerID", "asin", "overall") # Make pipeline to build recommendation reviewerIndexer = StringIndexer( inputCol="reviewerID", outputCol="intReviewer" ) produc

浏览 1提问于2018-07-10得票数 6

回答已采纳

2回答

pySpark forEachPartition -代码在哪里执行？

python、pandas、apache-spark、pyspark

我正在使用版本2.3中的pySpark (在我当前的开发系统中不能更新到2.4 )，并且有以下有关的问题。首先是一个小上下文:据我所知，pySpark-UDFs强制在Python实例中的Java (JVM)之外执行Python，从而使其性能成本降低。由于我需要将一些Python-函数应用于我的数据，并且希望最小化开销，所以我的想法是至少将一组可处理的数据加载到驱动程序中，并将其作为Pandas-DataFrame处理。无论如何，这将导致并行性的损失-优势火花。然后，我看到foreachPartition对分区中的所有数据应用了一个函数，因此允许并行处理。我现在的问题是：当我通过for

浏览 0提问于2019-04-12得票数 4

回答已采纳

4回答

在PySpark中运行自定义Java类

java、python、apache-spark、pyspark、py4j

我正尝试在PySpark中运行一个自定义的HDFS阅读器类。这个类是用Java语言编写的，我需要从PySpark访问它，可以从shell访问，也可以通过spark-submit访问。在PySpark中，我从SparkContext检索JavaGateway (sc._gateway)。假设我有一个类： package org.foo.module public class Foo { public int fooMethod() { return 1; } } 我尝试将其打包到一个jar中，并将其与--jar选项一起传递给pyspark，然后运行： f

浏览 0提问于2015-11-05得票数 6

2回答

为动态数据结构预分配内存

c++、c、memory、memory-management

我有一个问题/好奇心。假设我想实现一个列表，举个例子，我基本上可以使用cormen book方法。这里解释了如何实现，插入，删除，关键字搜索等。但是，对于内存使用情况，并没有给出任何说明。例如，如果我想在整数列表中插入一个整数。例如，我可以首先创建一个节点(我在那里分配内存)，插入整数，然后在列表中插入节点。如果我想删除一个整数，一旦我知道存储在哪个节点上，我就必须释放内存。我现在在想，如果改为预先分配内存来存储，比如说10个节点，并保留一个指向空闲节点的指针，会不会更方便。如果内存池已满，那么我将为20个节点重新分配内存，如果内存池的大小是这样的池大小的一半(依此类推)。当然，池的管理更

浏览 0提问于2016-06-29得票数 5

2回答

火花源按位置推断时区

apache-spark、pyspark、timezone

考虑到事件的经度和纬度，我试图推断PySpark中的时区。我偶然发现了在本地工作的库。我将它封装在一个用户定义的函数中，试图使用它作为时区推断器。 def get_timezone(longitude, latitude): from timezonefinder import TimezoneFinder tzf = TimezoneFinder() return tzf.timezone_at(lng=longitude, lat=latitude) udf_timezone = F.udf(get_timezone, StringType()) df = sq

浏览 2提问于2018-05-10得票数 1

1回答

在Pyspark上安装seaborn

python-2.7、pyspark、seaborn

我正在使用Apache Pyspark和Jupyter notebook。在其中一个机器学习教程中，讲师使用了seaborn和pyspark。我们如何在Apache Spark (而不是Pyspark)上安装和使用像Seaborn这样的第三方库？

浏览 20提问于2017-06-28得票数 0

1回答

无法在PySpark项目中生成文档而不运行session

python、apache-spark、pyspark、apache-spark-sql、databricks

我有一个Python包，其中有一个模块，其中包含要在PySpark设置中使用的UDF。在运行单元测试时，我已经想出了一种初始化和关闭Spark会话的方法，但是我在创建文档时遇到了问题。我使用的是，所以我只需运行make clean docs并遇到以下错误： File "/usr/local/lib/python3.9/site-packages/pyspark/sql/pandas/functions.py", line 432, in _create_pandas_udf return _create_udf(f, returnType, evalType)

浏览 8提问于2022-03-31得票数 1

回答已采纳

2回答

使用JEP将数据从scala传递到python

python、scala、apache-spark、jep

以下是我要做的事：我把数据读入scala 提取几个列使用JEP将创建的数据pass传递给Python脚本 Python脚本将dataframe转换为熊猫，执行一些操作并返回。但是，我不知道如何将dataframe传递给python脚本。下面是python脚本(这只是示例脚本，而不是实际脚本)： import findspark findspark.init() import pandas as pd #from pyspark.sql import types.* from pyspark.sql import DataFrame as dataframe de

浏览 3提问于2019-05-12得票数 2

回答已采纳

1回答

使用Apache来执行ML。继续获取序列化错误

apache-spark、pyspark、sentiment-analysis

因此，我使用Spark来进行情感分析，并且我一直在使用序列化器(我认为)来传递python对象时出现错误。 PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outf

浏览 0提问于2014-07-25得票数 7

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

分发在pyspark中使用的jar

pyspark

我已经构建了一个jar，我可以通过将它添加到${SPARK_HOME}/jars并使用以下命令调用它来从pyspark中使用它 spark._sc._jvm.com.mypackage.myclass.mymethod() 但是，我想要做的是将jar捆绑到一个python轮子中，这样人们就可以通过pip将jar安装到他们正在运行的pyspark/jupyter会话中。我对python打包不是很熟悉，有没有可能在一个轮子中分发jar，并且让那个jar自动对pyspark可用？我想把一个罐子放进一个轮子或鸡蛋里(甚至不确定我能不能做到？)并且在安装所述轮/蛋时，将该jar放在jvm可用的位置。

浏览 18提问于2020-05-03得票数 1

3回答

什么是pyspark驱动程序？

apache-spark、pyspark

我看到启动pyspark的一个常见设置是使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g，但是驱动内存和可执行内存有什么不同呢？您能解释一下什么是驱动程序吗?在这里设置驱动程序对pyspark工作流/性能有何影响？谢谢!

浏览 1提问于2017-10-29得票数 2

1回答

电火花在AWS电子病历中的应用

amazon-s3、pyspark、amazon-emr

我对PySpark和AWS都是新手。我得到了一个小项目，在这个项目中，我需要每小时清除大量的数据文件，并在此基础上构建聚合数据集。这些数据文件存储在S3上，我可以利用Spark中的一些基本功能(如filter和map)来派生聚合数据。为了节省出口成本，在执行了一些CBA分析之后，我决定创建一个EMR集群并进行pypark调用。这个概念使用由S3桶中创建的文件触发的Lambda函数很好。我正在将输出文件写回S3。但我无法理解我创建的3节点EMR集群的需求及其对我的使用。我如何利用Hadoop文件系统在这里和在节点上可用的所有存储？如何(如果可能的话)查看集群中从节点/核心节点的使用情

浏览 4提问于2020-01-14得票数 0