仅检索数据框列时发生pyspark java堆空间错误 - 腾讯云开发者社区

python、pyspark

我有一个pyspark 2.0.1。我正在尝试按我的数据框分组，并从我的数据框中检索所有字段的值。我发现 z=data1.groupby('country').agg(F.collect_list('names')) 将给我的国家和名称的属性和名称属性的值，它将给出的列标题为collect_list(names)。但是对于我的工作，我有大约15列的数据帧&我会运行一个循环，每次在循环中改变groupby字段，需要所有剩余的fields.Can的输出，你能建议我如何使用collect_list()或任何其他pyspark函数吗？我也试过这个代码 fro

浏览 6提问于2017-10-18得票数 3

2回答

在脚本中迭代/循环Spark拼图文件会导致内存错误/堆积(使用Spark SQL查询)

loops、apache-spark、pyspark、apache-spark-sql、pyspark-sql

当我循环处理拼图文件和几个后处理函数时，我一直在试图弄清楚如何防止Spark因为内存问题而崩溃。很抱歉出现了大量的文本，但这并不是一个特定的bug (我使用的是PySpark)。如果这破坏了正确的堆栈溢出形式，我深表歉意！基本伪码为： #fileNums are the file name partitions in the parquet file #I read each one in as a separate file from its "=" subdirectory for counter in fileNums: sparkDataFrame = sqlC

浏览 0提问于2016-05-20得票数 5

2回答

Java堆空间问题

apache-spark、pyspark、heap-memory

我正在尝试访问蜂箱拼板表，并将其加载到Pandas数据帧中。我使用的是pyspark，我的代码如下所示： import pyspark import pandas from pyspark import SparkConf from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import HiveContext conf = (SparkConf().set("spark.driver.maxResultSize", "10g").setApp

浏览 0提问于2017-05-31得票数 1

1回答

用QueryDatabaseTable从NiFi中获取数据

mysql、apache、apache-nifi

我在MySQL中有一个数据库，它有近200万行计数和30列。我的流程是QueryDatabaseTable ->转换记录-> PutElasticSearchHttpRecord。我的QueryDatabaseTable有以下内容(请看截图)：我的Jjava.args值如下所示：(虽然我将以下两个值更新为8GB，但仍然得到java堆空间错误) java.arg.2=-Xms512mjava.arg.3=-Xmx512m 我正在应用select * from Tablename (将导致跨越9列的749,748行)，但得到“Java堆空间错误”。是因为我试图调用

浏览 0提问于2018-11-21得票数 2

回答已采纳

1回答

Pyspark数据帧过滤语法错误

pyspark、pyspark-sql

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用Pyspark方法。 sqlContext方法： df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR

浏览 0提问于2017-07-27得票数 0

回答已采纳

2回答

错误-无法在JFreeChart中将java.sql.Timestamp强制转换为java.sql.Date

java、sql、jfreechart

当我使用JFreeChart从我的数据库中检索数据以添加到图表时，我得到了错误： java.sql.Timestamp cannot be cast to java.sql.Date 我有四列，前三列是使用case正确检索的，但在浏览最后一列时，它转到了正确的case： case Types.TIMESTAMP: { 但是错误发生在这一部分： Date date = (Date) resultSet.getObject(column); 数据库中的数据格式如下(HH、MM、SS)。编辑-还想添加此类包含在JFreeCharts API中- JDBCCategoryDataset.java

浏览 1提问于2013-11-22得票数 3

6回答

为什么Java使用堆进行内存分配？

java、memory、heap、heap-memory

我刚在一本java书中读到这样一句话: java中的对象驻留在堆上。使用堆是因为它是存储数据和快速检索数据的最佳方式吗？作为一个初学者，我只对数据结构有一个想法。我的意思是为什么不堆叠或者别的什么呢？

浏览 2提问于2010-05-07得票数 16

回答已采纳

3回答

Python/pyspark数据框重新排列列

python、pyspark、spark-dataframe

我有一个python/pyspark格式的数据框，其中包含列id、time、city、zip等...... 现在，我向该数据框添加了一个新的列name。现在，我必须以这样的方式排列列：name列在id之后我已经做了如下工作 change_cols = ['id', 'name'] cols = ([col for col in change_cols if col in df] + [col for col in df if col not in change_cols]) df = df[cols] 我得到了这个错误 pyspark.

浏览 0提问于2017-03-21得票数 46

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

pandas、apache-spark、dataframe、scikit-learn、pyspark

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pys

浏览 1提问于2018-12-17得票数 0

1回答

Pyspark Error+Method getnewargs([])不存在

python、pyspark、pyspark-sql

我正在使用spark版本2.2.0和Python2.7，我正在使用pyspark连接BigSQL，并试图检索数据。以下是我使用的代码 import cPickle as cpick import numpy as np import pandas as pd import time import sys from pyspark.sql.session import SparkSession spark = SparkSession.builder.getOrCreate() spark_train_df = spark.read.jdbc("jdbc:db2://BigSQL U

浏览 0提问于2017-10-14得票数 3

1回答

从Python运行Spark时Java堆大小错误

java、python、apache-spark、pyspark

我正在尝试使用pyspark库运行Python。我使用以下命令创建一个SparkConf()对象： conf = SparkConf().setAppName('test').setMaster(<spark-URL>) 当我运行脚本时，这一行会遇到一个错误：拾起_JAVA_OPTIONS：-Xmx128m 拾起_JAVA_OPTIONS：-Xmx128m 将VM初始堆大小设置为比最大堆大小更大的值时发生错误。我试图通过将configuration属性spark.driver.memory设置为各种值来解决这个问题，但是没有什么改变。有什么问题，我怎么

浏览 0提问于2016-10-26得票数 1

回答已采纳

1回答

从oracle检索时，值将转换为浮点数

oracle、pyspark

oracle中使用pyspark检索时的列数据类型为NUMBER的数据库将转换为float。例如：ID列-数据类型编号在检索时具有值111该值显示为111.000000 列名是动态的，我不想通过硬编码来转换它。oracle中的数据是否可以按其在数据库中的显示方式进行检索。我不想在后面加上零。

浏览 28提问于2019-03-04得票数 0

2回答

在Spark dataframe中创建不带毫秒部分的时间戳列

python、apache-spark、pyspark、apache-spark-sql

我正尝试在Pyspark的数据框中创建一个名为load_time_stamp的新列，它应该只包含截止到几秒的日期和时间，而不应该包含毫秒。我已经写了下面的代码来做同样的事情，但是在这个过程中，一个新的列是用null值创建的，而不是我期望的时间戳值。 from pyspark.sql import functions as F x.withColumn("load_time_stamp", F.to_timestamp(F.substring(F.current_timestamp(), 0, 19), "yyyy-MM-dd'T'HH:mm:ss&#

浏览 0提问于2021-02-22得票数 1

1回答

从JNI线程调用叉时Java堆发生了什么？

java、java-native-interface

当从JNI线程调用fork()时，Java堆会发生什么。Java堆是复制的吗？本地内存段、JNI内存、类内存、线程内存和线程本地堆(TLH)会发生什么情况？

浏览 1提问于2018-08-17得票数 1

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

py4JJavaError:调用o253.load时出错。：java.lang.ClassNotFoundException:未能找到数据源: bigquery

apache-spark、pyspark、apache-spark-sql

尝试从bigquery读取数据到jupyter笔记本，并使用吡火花库。apache和java的所有文件都被下载到我的C:驱动器中。阅读和观看教程视频，但没有一个似乎是有效的。寻求指导代码： import pyspark import findspark from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession from pyspark.sql.functions import window, col, year, month, aggregate, date_add, timestam

浏览 9提问于2022-02-04得票数 -1

1回答

当导出到PDF时，SSRS 2005报告会抛出“对象变量未设置为对象实例”错误。

reporting-services、reportingservices-2005、bids

我有一份报告是我在标书里写的。报表顶部有几个文本框，后面是一个表，该表显示来自我的一个数据集的所有结果。当此表中填充了足够多的数据以使导出中有多个页面时，它将不会在投标预览版中或当报表上载到服务器时导出为PDF格式。在投标中，我得到了以下错误：本地报表处理过程中发生错误。报表呈现过程中发生错误。报表呈现过程中发生错误。对象引用未设置为对象的实例。我已经将问题缩小到表中的特定项，该项来自Server数据库视图中的文本列。该列中的值包含换行符。如果用空格替换换行符，报告将导出为PDF格式，没有问题，但是如果我将它们放在或者即使我用VbCRLF替换报表中的文本框表达式中，我就会得到

浏览 5提问于2016-06-28得票数 0

回答已采纳

2回答

无法使用databasemetadata检索数据库中存在的所有表属性

java、jdbc

我正在尝试访问databasemetadata以检索其中存在的所有表。getTables应返回10列的ResultSet。当我尝试遍历ResultSet以获取所有列数据时，我得到 Exception in thread "main" java.sql.SQLException: Invalid column index 我从第一行检索前5列数据，然后在打印第6列TYPE_CAT时发生异常。相关代码： DatabaseMetaData dbmd = connection1.getMetaData(); ResultSet rs = dbmd.getTables(nul

浏览 0提问于2013-04-03得票数 3

1回答

PySpark shell命令不产生输出

python、scala、apache-spark、pyspark

在我的机器(Windows1064位，Anaconda4.9.2，Java 1.8.0_281)上重新安装火花二进制文件时，我遇到了以下问题。从Powershell中运行pyspark将生成--不产生任何输出，只生成一个空白的新行。如果我运行火花壳的话，也会发生同样的事情。我下载了不同的二进制版本，但它们都给了我完全相同的行为。我检查了各种SPARK_HOME、JAVA_HOME等环境变量，它们似乎都是正确设置的。有趣的是，我对Scala二进制文件也有相同的行为。我也尝试过在Python中安装pyspark并创建星火上下文，但是我得到了错误。异常:在向驱动程序发送其端口号之前退出Jav

浏览 2提问于2021-03-16得票数 0

1回答

使用map函数将Spark Dataframe转换为RDD

apache-spark、dataframe、pyspark

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型： I: type(TopicModelVectorSplit) O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时： TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()) 它会转换成流水线的RDD，而这些是不可能使用的。 I: type(TopicModelVectorSplit) O: p

浏览 0提问于2016-06-22得票数 0

2回答

在Matlab中查找XML元素和读取属性

xml、matlab、xml-parsing

我对XML非常陌生，在Matlab中对XML也非常陌生，但我正在尝试从(非常大的) XML文件中读取属性。该文件如下所示： <WorkGen> <experiment> <parameters> <exptid> abcd </exptid> <years> 400 </years> </parameters> </experiment> <experiment> <parameters> <exptid> wxyz &

浏览 10提问于2014-08-20得票数 0

回答已采纳

1回答

星星之火:耗尽java堆空间: java.lang.OutOfMemoryError: Java堆空间

python、apache-spark、pyspark、apache-spark-mllib

我在一台机器上运行火花，有24个核心，48G Ram。我能够训练一个有600万用户，120万个项目，2.16亿个动作(视图/购买)的隐式模型。现在，我试图对700万用户、150万用户和4.4亿用户在项目上进行推荐。我使用20个执行器，驱动内存15G，执行器内存4G。 8级训练，15次迭代。在使用ALS.trainImplicit训练模型时，我正在从内存错误中获取java堆空间。 model = ALS.trainImplicit(training_RDD, rank, seed=seed, iterations=iterations, lambda_=regularization_pa

浏览 1提问于2017-04-26得票数 0

3回答

Java进程大小为32位与64位

java、memory、jvm

来自 32位Java进程有一个由Java堆、本机堆和操作系统共享的4GB进程地址空间。 ..。 64位进程没有这个限制，地址能力是以兆字节为单位的。对于许多企业应用程序来说，拥有大型java堆是很常见的(我们已经看到了java堆需求超过100 GB的应用程序)。64位Java允许大量Java堆(以高达200 GB的堆发布基准)。 64位处理器有相当大(基本上非常大)的地址空间和32位没有地址空间，这背后的解释是什么？基本上，64位内部发生的事情不是32位机器内部发生的。

浏览 4提问于2013-11-25得票数 1

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

json、dataframe、pyspark、nested

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式： ? 我怎样才能获得数据类型，比如说，姓氏？编辑: Json文件当然已经写在dataframe中，我的问题是如何查询dataframe以检索数据类型非常感谢!

浏览 42提问于2021-10-22得票数 0

1回答

java.lang.OutOfMemoryError:将GWT应用程序部署到Google时的Java堆空间

java、google-app-engine、gwt

准备部署： Created staging directory at: '/var/folders/14/l6tq2_1x17s0p1bcq5nsqphwthd17d/T/appcfg2818721238209183883.tmp' 扫描jsp文件。 java.lang.OutOfMemoryError: Java堆空间此错误发生在将我的应用程序从eclipse部署到google应用程序引擎时。

浏览 1提问于2014-12-02得票数 1

1回答

当我单击Java Eclipse应用程序时，它不会打开

java、eclipse

到目前为止，Eclipse一直运行得很好，但现在我无法在单击应用程序时进入。没有弹出任何东西，程序就是不能加载(我多次重启计算机)。在点击一堆东西后，我进入eclipse的插件文件夹，然后我点击了org.eclipse.equinox.launcher，它打开了一个叫做"platform launcher“的屏幕，当我加载其中一个工作空间时，它将我带到一个eclipse平台页面，然后突然弹出两个错误，上面写着： “显示内部错误时发生内部错误。建议您退出工作台...”“内部错误发生在:构建工作区”(和4个列表，“构建工作区”，"Java堆空间“，"Java堆空间”和“更

浏览 5提问于2019-12-28得票数 0

12回答

java.lang.OutOfMemoryError: Java堆空间

java、multithreading、out-of-memory、heap-memory

在执行多线程程序时，我会收到以下错误 java.lang.OutOfMemoryError: Java heap space 上述错误发生在其中一个线程中。据我所知，堆空间只被实例变量占用。如果这是正确的，那么当在对象创建时分配空间(例如，变量的空间)之后，为什么会出现这个错误。有没有增加堆空间的方法？我应该对我的程序做什么修改，这样它就可以少占用堆空间了？

浏览 1提问于2009-10-20得票数 107

回答已采纳

1回答

Spark Java堆错误

python、pandas、apache-spark、py4j

我不确定这里发生了什么以及为什么。我有一个数据帧，这是加载为熊猫和火花数据帧。数据帧是稀疏的，这意味着大部分数据都是零。它的尺寸是56K×9K。所以不是很大我还在spark/conf/spark-defaults.conf文件中放入了以下命令 spark.driver.memory 8g spark.executor.memory 2g spark.driver.maxResultSize 2g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value s

浏览 2提问于2016-09-07得票数 1

1回答

JDBC ODBC和4D数据库:读取一行时，不发送列的第一个空格字符

java、jdbc、odbc、jdbc-odbc、4d-database

我在Windows上使用远程4D v11数据库和ODBC4D驱动程序来访问和读取数据。问题是关于表的一些行:这些行有以空格字符开头的列。这是故意的。我的java应用程序必须检索这些列的第一个空格字符。但不起作用。 ODBC 4D驱动程序工作正常。在Excel中使用Microsoft查询进行测试，读取具有第一个空格字符的表。在我的java程序中，我使用JDBC驱动程序(jdk 1.7.0_51)。open()、语句、execute()和ResultSet指令或类是标准JDBC。不幸的是，第一个空格字符在阅读时从未被检索过。该列被视为CLOB： int myColumnWithFirstSp

浏览 1提问于2014-03-04得票数 1

回答已采纳

1回答

使用JMX的Cassandra列族列表

cassandra

我想从cassandra中的JMX方法中检索列族列表。我正在使用JMX方法从cassandra检索数据。我能够检索keyspace列表，但是没有任何预定义的mbean来获取属于该keyspace的列族列表。我想知道是否有任何方法可以使用JMX或JAVA获得特定于键空间的列族列表。

浏览 18提问于2016-07-27得票数 0

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

SSRS页脚

reporting-services

我正在使用Visual studio / Reporting services 2008制作报告。报告需要在每个页脚显示患者的医疗记录。它需要格式化为表格，但不能将表格放在页脚中。我尝试使用一堆文本框，但它们并不一致。例如，在VS预览中，框可以很好地对齐，但当我部署到服务器并在报告查看器中查看它们时，它们的对齐方式发生了变化。 1.)有没有办法在页脚伪造一个表格？-or 2.)有没有一种建议的方法来对齐一堆文本框，使它们呈现一致？

浏览 0提问于2011-03-05得票数 2

4回答

从显示OutOfMemoryError: Java堆空间的Pyspark创建字典

java、python、apache-spark、pyspark

我见过并尝试过许多关于这个问题的 StackOverflow帖子，但都没有效果。我想我的JAVA堆空间并不像我的大型数据集预期的那么大，My包含650万行。我的Linux实例包含64 My的Ram，4核。根据这个，我需要修复我的代码，但是我认为用pyspark编写一个字典应该不太昂贵。如果有其他计算方法，请告诉我。我只想用我的pyspark dataframe制作一本python字典，这是我的pyspark dataframe的内容， property_sql_df.show()显示， +--------------+------------+--------------------+---

浏览 0提问于2020-07-26得票数 3

回答已采纳

1回答

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

apache-spark、pyspark、apache-spark-sql、quantile、percentile

我有一个非常大的CSV文件，它已经作为一个PySpark数据文件导入：df。dataframe包含许多列，包括列ireturn。我想要计算该列的0.99和0.01百分位数，然后将另一列添加到dataframe df中，作为new_col_99和new_col_01，它们分别包含0.99和0.01百分位数。我编写了下面的代码，它适用于小数据格式，但是当我将它应用到我的大型数据文件时会出现错误。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.read.csv(&#

浏览 0提问于2019-01-15得票数 3

1回答

如何在将数据从亚马逊网络服务数据库归档到S3时拆分数据

amazon-web-services、amazon-data-pipeline

对于我们继承的一个项目，我们有一大堆600 be的遗留数据，我们想要存档，但如果需要的话，仍然可以使用。根据本教程，我们正在考虑使用亚马逊网络服务数据管道将数据从数据库移动到S3中。但是，如果我们发现应用程序实际上正在使用特定的行，我们也希望能够检索数据的“行”。显然，该教程将表中的所有数据放入一个巨大的CSV文件中。是否可以将数据拆分为多个单独的文件，每个文件中有100行数据，并为每个文件指定一个可预测的文件名，例如： foo_data_10200_to_10299.csv 因此，如果我们意识到需要检索第10239行，我们就可以知道要检索哪个文件，并下载该文件，而不是下载所有600

浏览 5提问于2018-03-16得票数 0

1回答

请求已超过允许的时间限制& Java堆空间空值错误

java、mysql、coldfusion、jvm

我知道这个话题似乎已经讨论过很多次了，但是我已经尝试了所有提到的方法，但都没有用。我一直在犯错误：请求超过了允许的时间限制标签: CFQUERYThe错误发生在第152行。而且还 Java堆空间为空错误发生在第-1行。在同一个html页面上。我认为Java堆空间错误导致超时，反之亦然。超时发生的程序是 <CFQUERY DATASOURCE="#datasource#" USERNAME="#username#" PASSWORD="#password#" NAME="myQuery&#

浏览 0提问于2016-10-10得票数 1

1回答

如何使用Pyspark的模式从Pyspark数据帧创建hive表？

python、pyspark

我已经使用以下代码创建了数据框： import pyspark from pyspark.sql import functions as F sc = pyspark.SparkContext() spark = pyspark.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)] columns = ['Column1', 'Col

浏览 12提问于2020-06-15得票数 0

1回答

Spark在EC2实例上运行K均值时出现Java堆空间错误

java、amazon-ec2、apache-spark

我试图在一个只有22MB的示例文档上运行K-means with Spark，但我得到了一个Java堆空间错误。有什么想法吗？它在clusters行上失败。示例数据和代码在我的上 # run in ipython spark shell, IPYTHON=1 pyspark from pyspark import SparkContext from pyspark.mllib.feature import HashingTF from pyspark.mllib.clustering import KMeans, KMeansModel from numpy import array fr

浏览 0提问于2015-06-17得票数 0

2回答

星火StorageLevel在本地模式不工作？

apache-spark、pyspark

局部模式运行计算机内存：16‘s 计算机可用磁盘空间：500‘s 输入文件大小：50 错误消息：java.lang.OutOfMemoryError: Java堆空间代码:在命令窗口中使用.\pyspark后，输入到windows命令提示符中的码 from pyspark import SparkConf, SparkContext import pyspark rdd = sc.textFile('file:///myBigFile.xml') rdd.persist(pyspark.StorageLevel.DISK_ONLY) r

浏览 2提问于2019-01-31得票数 0

1回答

PySpark在数据框列中插入常量SparseVector

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

我希望在我的数据帧tfIdfFr中插入一个名为"ref"的列，其中包含一个类型为pyspark.ml.linalg.SparseVector的常量。当我尝试这个的时候 ref = tfidfTest.select("features").collect()[0].features # the reference tfIdfFr.withColumn("ref", ref).select("ref", "features").show() 我得到这个错误AssertionError: col should be

浏览 9提问于2019-01-15得票数 1

回答已采纳

1回答

Spark 2.0.2 Data Frame -如何添加由现有列的前两个字符组成的新列？

python、apache-spark、pyspark

我来自熊猫的背景，在一个简单的操作上，我正在与Spark 2.0.2 (PySpark)作斗争。如何向现有数据框添加新列，该数据框包含现有列的前两个字符。理想情况下，我想要的本质是 df.withColumn("new_column", col('FirstName')[:2]) 这显然是Spark 2.0.2无法理解的。数据源 df = sqlContext.createDataFrame([("Ranjeet", 4, "California", 2), ("Anthony", 5, "Hawaii&

浏览 3提问于2016-11-20得票数 0

2回答

Java的PERM区域

java

垃圾收集是否发生在Java Heap的PERM Area中？ PERM区域用于存储有关类、方法、变量等的元数据。另外，String Pool是在堆的PERM区域创建的，所以我相信垃圾收集不会在这里发生？

浏览 8提问于2011-03-22得票数 4

回答已采纳

1回答

PySpark或方法异常

pyspark

我试图修改PySpark数据中的列值，如下所示： df_cleaned = df_cleaned.withColumn('brand_c', when(df_cleaned['brand'] == "samsung" |\ df_cleaned['brand'] == "oppo", df_cleaned.brand)\ .otherwise(&

浏览 0提问于2020-10-23得票数 1

回答已采纳

1回答

熊猫到PySpark会产生OOM错误而不是溢出到磁盘上

python-2.7、apache-spark、pyspark、rdd

我有一个用例，在这个用例中，我想迭代地将数据加载到Pandas中，使用外部函数(即xgboost，在示例代码中没有显示)进行一些处理，然后将结果推到单个PySpark对象(RDD或DF)中。在将数据存储为RDD或Dataframe时，我尝试让PySpark溢出到磁盘，同样，源是Pandas DataFrame。似乎什么都没有用，我一直在破坏Java驱动程序，无法加载数据。或者，我尝试加载我的数据而不使用基本的textFile RDD进行处理，它工作起来很有魅力。我想知道这是否是PySpark错误，还是有解决办法。样本代码： from pyspark import SparkContext

浏览 1提问于2017-09-18得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

azure、pyspark、apache-spark-sql、azure-synapse

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。 PySpark查询如下： df = ( spark.read.option("multiline", "true") .options(encoding="UTF-8") .load( "abfss://<Container>]@<DIR>.

浏览 3提问于2021-11-25得票数 0

2回答

Py4JError:调用o129和时出错。跟踪: py4j.Py4JException:方法和([类java.lang.string])不存在

dataframe、pyspark、py4j

我正在尝试检查pyspark dataframe中的条件，并将值添加到如下所示的列中： DF： cd id Location A A A A AA A A AAA A B B A BB B A BBB 预期输出： cd id Location A A A A AA A A AAA New_Loc A B B A BB B A BBB New_Loc 我尝试使用下面的pyspark转换来填充 df

浏览 20提问于2020-05-15得票数 0

回答已采纳

2回答

pyspark和spark之间的记忆差异？

apache-spark、pyspark、rdd

我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD，然后我使用flatMap操作将二进制数据处理成一堆行。这导致了一堆内存不足的错误，在尝试了一段时间的内存设置后，我决定让最简单的事情尽可能地工作，这就是计算RDD中的文件数。此操作也会失败，并显示OOM错误。所以我打开了spark-shell和PySpark，并使用默认设置运行了REPL/shell中的命令，唯一的附加参数是--master yarn. spark-shell版本可以工作，而PySpark版本显示了相同的OOM错误。运行PySpark有那么大的开销吗？或者这是binaryFiles是新的问题吗？我使用的

浏览 1提问于2018-08-11得票数 0

1回答

无法将RDD转换为DataFrame (RDD有数百万行)

python、csv、apache-spark、pyspark

我正在使用ApacheSpark1.6.2 我有一个.csv数据，它包含大约800万行，我想将它转换为DataFrame 但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。映射RDD很好，但是当涉及到将RDD转换为DataFrame时，火花抛出一个错误。 Traceback (most recent call last): File "C:/Users/Dzaky/Project/TJ-source/source/201512/final1.py", line 38, in <module> result_iso = input_i

浏览 3提问于2017-01-14得票数 4

回答已采纳

1回答

线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间

r、apache-spark、sparkr

我正在将数据从文件中读取到R数据中。数据格式的维数为1788228 10。由于这很大，所以当我试图转换为SparkDataFrame时，我会收到以下警告：警告scheduler.TaskSetManager:阶段0包含一个非常大的任务(48092 KB)。建议的最大任务大小为100 KB。当我尝试执行任何动作操作时，就像 dim(df) 它给了我下面的错误线程“dispatcher-event-循环-0”中的异常java.lang.OutOfMemoryError: Java堆空间从这样的其他帖子中，我可以理解它的发生是因为dataframe的大小非常大。但我该

浏览 4提问于2017-01-26得票数 0

9回答

究竟是什么导致堆栈溢出错误？

java、jvm、stack-overflow

我到处找遍了，却找不到确切的答案。根据文档，在以下情况下Java抛出一个错误：由于应用程序递归太深而发生堆栈溢出时引发。但这提出了两个问题：堆栈溢出没有其他方式发生，不仅是通过递归发生的吗？ StackOverflowError是在JVM实际溢出堆栈之前还是之后发生？关于第二个问题：当Java抛出StackOverflowError时，您能安全地假设堆栈没有写入堆吗？如果对抛出堆栈溢出的函数进行try/catch缩小堆栈或堆的大小，可以继续工作吗？这里有记录吗？我并不是在寻找答案： StackOverflow是因为递归不好而发生的。当堆满足堆栈时，

浏览 2提问于2014-03-04得票数 236

回答已采纳