withColumn的Spark (使用python)问题_在Java Spark中使用withcolumn遍历不同的列_Spark DAG与'withColumn‘和'select’的不同 - 腾讯云开发者社区

json、pyspark、apache-spark-sql、databricks

我有一个pyspark dataframe，其中重要信息作为json字符串存储在列中，这些字符串具有类似但不一致的模式。我的问题提出了三个问题，如下所述：如果要用json字符串列平平数据格式，应该创建一个新的结构列并使用explodeDo 将单个单元格值传递给它们包装的函数？如何将每个条目的不同长度和字段的json数组加载到单个列中？这种情况既发生在databricks中，也发生在火花放电的本地安装中。此代码可以生成此表的MWA： from pyspark.sql.functions import from_json from pyspark.sql.types import * j

浏览 6提问于2022-02-03得票数 0

1回答

Py4JJavaError同时将PySpark数据写入Parquet文件

python、apache-spark、hadoop、pyspark、parquet

总之，我有100 k行数据作为csv文件。这是它的样本： ID，姓名，姓氏，生日，详细信息 0，Agjqyru，Qtltzu，1923-02-23，{City=Neftchala，Gender=male，Education=collage} 1，Zkaczi，Gvuvwwle，2002-02-28，{City=Mingachevir，Gender=female，Education=doctor} 2，Hkbfros，Llmufk，1948-02-29，{City=Ujar，Gender=male，Education=collage} 3，Dddtulkeo，Fdnccbp，1903-07-0

浏览 4提问于2021-11-26得票数 1

回答已采纳

1回答

toString数据Pyspark数据帧

apache-spark、pyspark、rdd

我正在尝试对一个列执行一些正则表达式操作。为了做到这一点，我用如下的基本小写操作进行了说明： df.select('name').map(lambda x: x.lower()) 这里的df是一个DataFrame，当我调用collect()操作时，该操作抛出了一个异常。 Ques 1: After map(or reduce) operation, every DataFrame converts to a Pipelined RDD. Am I right? 如果是这样，为什么这个命令在收集流水线RDD时抛出异常。我错过了什么吗？异常太大，无法读取： 17/07

浏览 11提问于2017-07-07得票数 0

回答已采纳

1回答

pyspark pandas_udf函数出错，随后是官方示例

pyspark、user-defined-functions

我关注了官方文档(pyspark version=2.4.4)： df = spark.createDataFrame([(1, "John Doe", 21)], ("id", "name", "age")) slen = pandas_udf(lambda s: s.str.len(), IntegerType()) df.select(slen("name")).show() @pandas_udf(StringType()) def to_upper(s): return s.str.upper(

浏览 0提问于2019-10-19得票数 0

1回答

udf中的F.regexp_extract返回AttributeError：'NoneType‘对象没有属性'_jvm’

python、regex、apache-spark、pyspark、user-defined-functions

我完全是火花和火种的初学者。我有一个庞大的数据集，我有一组关键字需要检查并从列中提取。我的代码如下所示 temp_skills = ['sales', 'it', 'c'] @F.udf def lookhere(z) -> str: strng = ' ' for skill in temp_skills: strng += F.regexp_extract(z, skill, 0) return strng spark.udf.register("lookhere&

浏览 2提问于2020-08-26得票数 0

回答已采纳

2回答

大型数据集的火花崩溃

python、apache-spark、pyspark

我正在学习火花放电，但遇到了这个错误。我已经坚持了几个小时了。我在StackOverflow上看到了许多问题，但大多数问题要么增加了驱动程序内存，要么增加了执行器内存。我也尝试过，但似乎没有发挥作用。如果这里的任何人都经历过这样的错误，我们将非常感谢您的帮助。如果我有一个较小的数据集，同样的代码也能工作，但是当我使用一个大数据集时，这个错误再次出现。我的笔记本电脑配置： Windows 10 home Pyspark 2.4+ Java 8 python 3.5 and pypy RAM: 16GB spark-defaults.conf spark.master

浏览 1提问于2020-10-13得票数 0

回答已采纳

1回答

ValueError:未能将字符串转换为浮点数/无效文本用于float()

python、pyspark、spark-dataframe、k-means

我试图使用火花数据作为输入我的k-均值模型。不管怎么说，我总是犯错误。(检查代码后的部分) 我的看起来像这样(大约有100万行)： ID col1 col2 Latitude Longitude 13 ... ... 22.2 13.5 62 ... ... 21.4 13.8 24 ... ...

浏览 2提问于2017-07-06得票数 2

1回答

当试图打印数据集表时出现问题

linux、apache-spark、machine-learning、pyspark、apache-spark-mllib

我正在为PySpark试用机器学习教程。一直在跟踪。当我进入“相关性和数据准备”一节时，遇到了一个问题。试图在这里运行以下代码： from pyspark.sql.types import DoubleType from pyspark.sql.functions import UserDefinedFunction binary_map = {'Yes':1.0, 'No':0.0, 'True':1.0, 'False':0.0} toNum = UserDefinedFunction(lambda k: binary

浏览 8提问于2017-06-20得票数 0

1回答

ValueError: as_list()不是在未知的TensorShape上定义的

python、apache-spark、tensorflow、deep-learning、bigdata

我在这个中做了这个例子，下面是我得到的 jobs_train, jobs_test = jobs_df.randomSplit([0.6, 0.4]) >>> zuckerberg_train, zuckerberg_test = zuckerberg_df.randomSplit([0.6, 0.4]) >>> train_df = jobs_train.unionAll(zuckerberg_train) >>> test_df = jobs_test.unionAll(zuckerberg_test) >>>

浏览 0提问于2018-06-08得票数 0

回答已采纳

1回答

在多个dataframe列上，是否有一个吡火花函数可以给我两个小数位呢？

pyspark、apache-spark-sql

我对编码很陌生，对、pyspark、和python也很陌生(新的意思是我是个学生，正在学习它)。我的代码不断出错，我不知道为什么。我要做的是让我的代码给我一个2小数点的输出，如下所示。下面是我希望输出的示例输出： +------+--------+------+------+ |col_ID| f.name |bal | avg. | +------+--------+------+------+ |1234 | Henry |350.45|400.32| |3456 | Sam |75.12 | 50.60| +------+--------+------+------+

浏览 2提问于2021-04-17得票数 0

1回答

在PySpark中使用Flashtext提取关键字

pyspark-dataframes

我正在尝试从PySpark数据文件中的一列菜单名称中提取关键字。下面是如何生成关键字处理器。keywords是一个关键字列表，如['sandwiches', 'burgers', ...]。 from flashtext import KeywordProcessor kp = KeywordProcessor() for keyword in keywords: kp.add_keyword(keyword) 我定义了一个从菜单名称中提取关键字的函数。 def extractKeywords(menu_name, kp=kp): keywo

浏览 3提问于2019-11-11得票数 1

回答已采纳

1回答

将datetime映射到DoW的PySpark

datetime、apache-spark、pyspark

我尝试使用以下函数将一个列'eventtimestamp‘映射到它的星期几： from datetime import datetime import calendar from pyspark.sql.functions import UserDefinedFunction as udf def toWeekDay(x): v = int(datetime.strptime(str(x),'%Y-%m-%d %H:%M:%S').strftime('%w')) if v == 0: v = 6 else:

浏览 19提问于2017-07-20得票数 0

回答已采纳

1回答

筛选数组大小=1 pyspark的行出错

python、arrays、apache-spark、pyspark、apache-spark-sql

以前，数据帧是这样的 +----------+--------------------+ | appId| lang| +----------+--------------------+ |1000098520| ["EN"]| |1001449696| ["EN"]| |1001780528|["AR","ZH","CS","...| |1001892954| ["EN"]

浏览 44提问于2021-11-19得票数 0

回答已采纳

1回答

Split()函数在火花放电中的应用

python、apache-spark、pyspark

我正试图用木星笔记本在火星雨中进行编码。在使用split()函数Dataframe时面临的问题我正在使用 import_csv=spark.read.csv("F:\\Learning\\PySpark\\DATA\\Iris.csv",header="true") import_csv.show() import_csv=spark.read.csv("F:\\Learning\\PySpark\\DATA\\Iris.csv",header="true") import_csv.show() +---+------------

浏览 4提问于2020-07-21得票数 2

1回答

如何使用pyspark解压缩火花DataFrame中的列

python、apache-spark、pyspark、spark-dataframe

我正在用一个压缩的列处理一个数据文件。我想通过使用zlib.decompress解压缩它。下面的代码片段是我的尝试： from zlib import decompress from pyspark.sql.functions import udf toByteStr = udf(bytes) unzip = udf(decompress) df = (spark.read.format("xx.xxx.xx.xx"). load()) df1 = df.withColumn("message", unzip(toByteStr("content&#

浏览 5提问于2018-01-14得票数 0

2回答

IF语句Pyspark

if-statement、apache-spark、pyspark、apache-spark-sql、pyspark-sql

浏览 1提问于2017-12-01得票数 6

回答已采纳

1回答

(PySpark)创建一个新的数组列，其中包含列表列和静态列表的二进制比较结果

python、apache-spark、pyspark

场景我有一个包含以下数据的数据： import pandas as pd from pyspark.sql.types import ArrayType, StringType, IntegerType, FloatType, StructType, StructField import pyspark.sql.functions as F a = [1,2,3] b = [['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h',

浏览 9提问于2022-10-09得票数 1

回答已采纳

3回答

Spark 2.3.1错误:将dataframe的timestamp列转换为整型时获取错误

python、apache-spark、pyspark、apache-spark-sql

我使用以下代码进行了聚合：获取月度销售总额： summary = data.select("OrderMonthYear", "SaleAmount").groupBy("OrderMonthYear").sum().orderBy("OrderMonthYear").toDF("OrderMonthYear","SaleAmount") 将OrderMonthYear转换为整数类型： results = summary.rdd.map(lambda r: (int(r.OrderMonthYea

浏览 0提问于2018-10-29得票数 0

2回答

使用别名选择列

apache-spark、pyspark

我试图做一个简单的选择，从别名使用SQLContext.sql在火花1.6。 sqlCtx = SQLContext(sc) ## Import CSV File header = (sc.textFile("data.csv") .map(lambda line: [x for x in line.split(",")])) ## Convert RDD to DF, specify column names headerDF = header.toDF(['header', 'adj', 'des

浏览 8提问于2017-03-07得票数 3

回答已采纳

1回答

如何读取Python火花错误中的CSV文件

python、apache-spark、hadoop、pyspark

您能帮我看看这段代码中的错误是什么吗?这个文件确实存在，但我知道您正在HDFS sc.textFile中查找它(“/user/spark/Archivo.csv”) 或者为什么会发生此错误？执行 export PYSPARK_PYTHON=python3 export PYSPARK_DRIVER_PYTHON=python3 spark-submit --queue=OID Proceso_Match1.py Python import os import sys from pyspark.sql import HiveContext, Row from pyspark import S

浏览 4提问于2022-09-30得票数 0

回答已采纳

1回答

如何将字典中的值映射到Pyspark中的新列

python-3.x、pyspark

我尝试将这些值映射到我的pyspark df中的新列。 dict = {'443368995': 0, '667593514': 1, '940995585': 2, '880811536': 3, '174590194': 4} I am reading a csv which has following data - +--------------------+----------------+---------+------------+-------------+----------+---------+

浏览 0提问于2021-10-21得票数 0

1回答

PySpark: TypeError:不支持的操作数类型为+：'datetime.datetime‘和'str’

python、apache-spark、pyspark、apache-spark-sql

我有DataFrame在PySpark中，它有以下模式： root |-- id: string (nullable = true) |-- date: timestamp (nullable = true) |-- time: string (nullable = true) |-- start: timestamp (nullable = true) |-- end: timestamp (nullable = true) 我想再添加一个类型为date_time的列timestamp import datetime to_datetime_func = udf (lambda

浏览 0提问于2019-07-22得票数 1

1回答

PySpark DataFrame中向量列上的UDF问题

apache-spark、apache-spark-sql、pyspark

我在PySpark中的向量列上使用UDF有困难，可以在这里说明如下： from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions import udf from pyspark.mllib.linalg import Vectors FeatureRow = Row('id', 'features') data = sc.parallelize([(0, Vecto

浏览 2提问于2015-06-18得票数 2

回答已采纳

1回答

如何从火花放电中的字符串中创建相同的结构数组？

python、scala、apache-spark、pyspark、apache-spark-sql

我编写了将字符串转换为结构数组的代码。我也想在python上做同样的事情。你知道我该怎么做吗？ import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column val df: DataFrame = Seq( "adserviceCalculateCpcAlgorithmV1:2;searchProductsDecorator:3;searchOffersDecorator:3;bundlediscounts:5;se

浏览 3提问于2022-08-02得票数 0

回答已采纳

2回答

PySpark Dataframe基于函数返回值创建新列

python、apache-spark、dataframe、pyspark、calculated-columns

我有一个dataframe，我想根据函数返回的值添加一个新列。这个函数的参数是来自同一个dataframe的四列。 one和 one有点类似于我想要的内容，但没有回答我的问题。这是我的数据框架(列比这四列更多) + ------ + ------ + ------ + ------ + | lat1 | lng1 | lat2 | lng2 | + ------ + ------ + ------ + ------ + | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71

浏览 0提问于2018-11-22得票数 5

回答已采纳

1回答

如何编写(保存)包含向量列的PySpark数据？

python、apache-spark、pyspark、parquet

在使用ML管道对PySpark数据进行转换之后，我试图保存它。但是当我保存它时，奇怪的错误每次都会被触发。下面是这个dataframe的列：下面的错误发生在我试图将dataframe写成parquet文件格式时：我尝试使用与不同的可用winutils来实现Hadoop，但运气不太好。请在这方面帮助我。如何保存此数据，以便在任何其他jupyter笔记本文件中读取？随时可以问任何问题。注意:我还试图保存简单的CSV，该文件不包含向量数据，但仍然存在相同的错误。编辑：，我也尝试保存数组数据，但是再次遇到相同的错误。它可以在以下图像中看到：谢谢完整的错误消息可以在这里看到

浏览 16提问于2022-08-05得票数 1

回答已采纳

1回答

Spark2 Kafka结构流Java不知道from_json函数

java、apache-spark-sql、spark-structured-streaming、apache-spark-2.2

我有一个关于Kafka流上的Spark结构化流媒体的问题。我有一个模式，类型是： StructType schema = new StructType() .add("field1", StringType) .add("field2", StringType) .add("field3", StringType) .add("field4", StringType) .

浏览 10提问于2018-09-24得票数 0

1回答

Pyspark:如何提取子列并将它们重新转换为分类变量

python、pyspark、apache-spark-sql、categorical-data、apache-spark-ml

我有一个问题，火花数据来自一个RandomForestRegressor，我需要加入另一个数据(原始数据)。 from pyspark import SparkContext, SparkConf sc = SparkContext(conf=SparkConf()) from pyspark.sql import HiveContext sqlContext = HiveContext(sc) 以下是一些样本数据： columns = ['pays', 'zol', 'group_cont_typ', 'id_periode_gesti

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

使用Python在同一spark数据帧中的两行之间减去数据

python、pyspark、apache-spark-sql

我有一个两行的spark数据帧。此数据框包含数值和字符串类型值。我需要从row1中减去row2的数值，同时保持字符串值和列名不变。这需要在同一数据帧中的新行中显示。我在代码中使用Spark Python。请帮帮我

浏览 2提问于2020-10-20得票数 0

1回答

火花放电柱上循环的优化

python、pandas、dataframe、apache-spark、pyspark

我不知道我的头衔是不是很清楚。我有一张列很多的桌子(一百多列)。我的一些列包含带括号的值，我需要将它们分解成几行。下面是一个可重复的例子： # Import libraries from pyspark.sql.functions import * from pyspark.sql.types import * from pyspark.sql import * import pandas as ps # Create an example columns = ["Name", "Age", "Activity", "Studies&#

浏览 5提问于2022-06-15得票数 1

回答已采纳

1回答

PySpark:如何在PySpark SQL中创建计算列？

python、apache-spark、pyspark

使用PySpark SQL并给定3列，我想创建一个额外的列，该列将其中的两列分开，第三列是ID列。 df = sqlCtx.createDataFrame( [ (1, 4, 2), (2, 5, 2), (3, 10, 4), (4, 50, 10) ], ('ID', 'X', 'Y') ) 这是所需的输出： +----+----+----+---------------------+ | ID | x | y | z (expected resul

浏览 27提问于2019-05-10得票数 3

回答已采纳

1回答

java_gateway.py文件在send_command中无法为较大的有效负载发送命令

python、java、scala、apache-spark、pyspark

对问题的描述我目前正试图在定义的窗口(窗口的大小: 30，步骤: 1)上运行一个UDF (UDF函数名: mean_of_assets_in_win)，以从代码assets_with_yields_df中调用的数据文件中运行一个列。通常，这个UDF计算列中浮点数的平均值。当我在包含在文本文件中的800条记录的数据集上测试逻辑时，一切都很好。但是，将文本文件增加到500'000条记录会导致程序完成时出现错误。错误日志列于下： WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/E:

浏览 62提问于2022-06-07得票数 0

回答已采纳

1回答

创建一个具有范围的pyspark dataframe

python、dataframe、apache-spark、pyspark、apache-spark-sql

我的代码是 pdf = pd.DataFrame( { "Year": [x for x in range(2013, 2051)], "CSIRO Adjusted Sea Level": 0.0, } ) pdf.head() df_pyspark = spark.createDataFrame(pdf) df_pyspark.show() 上述结果导致此错误： An error occurred while calling o406.showString. : org.apache.spark.SparkException: Job a

浏览 4提问于2022-06-02得票数 0

回答已采纳

1回答

火花放电条件爆炸

apache-spark、pyspark、hive

我有如下数据 +----------+-----------------------------------+---------------------------------------------------------------------+ |athl_id |Interest |branch | +----------+-----------------------------------+-------

浏览 0提问于2020-09-24得票数 1

回答已采纳

3回答

为pyspark[非熊猫]中的每一行数据调用一个函数

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

在火星雨中有一个功能： def sum(a,b): c=a+b return c 它必须在一个非常大的数据文件的每个记录上运行，使用spark： x = sum(df.select["NUM1"].first()["NUM1"], df.select["NUM2"].first()["NUM2"]) 但是这只会在df的第一条记录上运行，而不是对所有行运行。我知道它可以使用lambda来完成，但是我无法以所需的方式对它进行编码。实际上，c将是一个dataframe，该函数将执行大量的spark.sql操作并返回它。

浏览 3提问于2019-11-12得票数 3

回答已采纳

1回答

StackOverflowError失败

apache-spark、pyspark、parquet、fixed-width

我计划在AWS Glue中将固定宽度转换为Parquet，我的数据大约有1600列，大约3000行。似乎当我试图写火花数据(在地板)，我得到了"StackOverflow“的问题。即使在count()、show()等情况下也会发现问题。我尝试调用cache()、重新分区()，但仍然看到这个错误。如果我将列数减少到500列，代码就能工作。请帮帮忙下面是我的代码 data_df = spark.read.text(input_path) schema_df = pd.read_json(schema_path) df = data_df for

浏览 8提问于2021-11-10得票数 0

回答已采纳

1回答

从Databricks笔记本向Azure Eventhubs发送火花数据帧时出错(java.lang.NoSuchMethodError)

python、azure、pyspark、azure-databricks、azure-eventhub

我需要从我的Databricks笔记本上发送一个到一个Eventhub。这个问题发生在代码的这一部分： ehWriteConf = { 'eventhubs.connectionString' : EVENT_HUB_CONNECTION_STRING } def send_to_eventhub(df:DataFrame): ds = df.select(struct(*[c for c in df.columns]).alias("body"))\ .select("body")\ .write.form

浏览 10提问于2022-10-05得票数 0

2回答

在pyspark中的DataFrame上使用toPandas()时出现神秘的“pyarrow.lib.ArrowInvalid:浮点值被截断”错误

apache-spark、pyspark、apache-spark-sql、pyarrow、apache-arrow

我在一个不是很大的DataFrame上使用了toPandas()，但是我得到了以下异常： 18/10/31 19:13:19 ERROR Executor: Exception in task 127.2 in stage 13.0 (TID 2264) org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/home/hadoop/spark2.3.1/python/lib/pyspark.zip/pyspark/worker.py", line 23

浏览 2提问于2018-10-31得票数 2

3回答

计算spark数据帧中的字数

python、apache-spark、pyspark、apache-spark-sql

如果不使用SQL的REPLACE()函数，我们如何才能找到spark数据帧一列中的字数？下面是我正在使用的代码和输入，但replace()函数不起作用。 from pyspark.sql import SparkSession my_spark = SparkSession \ .builder \ .appName("Python Spark SQL example") \ .enableHiveSupport() \ .getOrCreate() parqFileName = 'gs://caserta-pyspark-eval/t

浏览 3提问于2018-02-22得票数 10

1回答

PySpark如何使用产生错误的名称重命名列？

python、apache-spark、pyspark、apache-spark-sql

我试图在PySpark中查询包含错误命名的列的DF。我不能在PySpark之外更改这个名称，因为它被隐藏在JSON的1TB内。下面是我用来更改名称的代码： data.select('fields').withColumn('npa_case_id ID', 'npa_case_id_ID').show() 列名是npa_case_id ID，PySpark抱怨空间太大。但是，上面的代码不起作用，并产生以下错误： An error was encountered: "cannot resolve '`npa_case_id ID`

浏览 0提问于2021-10-28得票数 0

2回答

string for Python -不能将字符串列强制转换为十进制/双进制

apache-spark、pyspark、apache-spark-sql

在所有发布的关于这个行动的问题中，我找不到有用的东西。我尝试了几个版本，在所有的版本中，我都有一个DataFrame dataFrame = spark.read.format("com.mongodb.spark.sql").load() dataFrame.printSchema()的打印输出是 root |-- SensorId: string (nullable = true) |-- _id: struct (nullable = true) | |-- oid: string (nullable = true) |-- _type: string (

浏览 1提问于2017-10-25得票数 3

回答已采纳

1回答

创建一个新列PySpark SQL - Python

python、sql、pyspark

我正在尝试创建一个新列，其中包含三个可能的值: DEF、FWD、MID。 DEF= ['LB','LWB','RB','LCB','RCB','CB','RWB'] FWD= ['RF','LF','LW','RS','RW','LS','CF','ST'] MID= ['LCM','LM','RDM',&#

浏览 3提问于2020-04-25得票数 2

回答已采纳

2回答

如何使用python或Scala将复杂的SQL查询转换为spark-dataframe

python、scala、apache-spark、pyspark、apache-spark-sql

我已经在spark中使用sqlcontext进行了一次转换，但我只想使用Spark Data frame来编写相同的查询。此查询包含join操作和SQL的case语句。sql查询编写如下： refereshLandingData=spark.sql( "select a.Sale_ID, a.Product_ID," "CASE " "WHEN (a.Quantity_Sold IS NULL) THEN b.Quantity_Sold "

浏览 0提问于2020-10-18得票数 0

10回答

如何将新列添加到星火DataFrame (使用PySpark)？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours"

浏览 13提问于2015-11-12得票数 179

回答已采纳

2回答

在星火Dataset<Row>中使用custome UDF withColumn；不能将java.lang.String转换为org.apache.spark.sql.Row

java、apache-spark、apache-spark-sql、user-defined-functions、apache-spark-dataset

我有一个包含许多字段的JSON文件。我在java中使用spark的Dataset读取该文件。火花版本2.2.0 java 1.8.0_121 下面是密码。 SparkSession spark = SparkSession .builder() .appName("Java Spark SQL basic example") .config("spark.some.config.option", "some-value")

浏览 2提问于2017-08-25得票数 4

回答已采纳

1回答

如何利用PySpark对图像进行预处理？

python、dataframe、apache-spark、image-processing、pyspark

我有一个项目，我需要建立一个大数据体系结构(AWS S3 + SageMaker)概念的证明: 1)使用PySpark对图像进行预处理；2) 执行PCA；3) 训练一些机器或深度学习模型。我的问题是了解如何使用PySpark处理图像数据，无法提供满意的在线答案。因此，我认为任何答案/暗示都能吸引像我这样的初学者的广泛兴趣。类似的线程仍未回答. 如下所示，您可以找到我到目前为止尝试过的内容(在木星笔记本上使用Python3.8)： Creating火花会话与我的AWS S3的凭据 from pyspark.sql import SparkSession import sagemaker_pys

浏览 3提问于2021-09-16得票数 3

3回答

在pyspark中读取嵌套的JSON文件

json、pyspark

我想要从hdfs中的json文件中创建一个。 json文件有以下内容： {“产品”：{ "0"：“桌面计算机”、"1"：“平板电脑”、"2"："iPhone“、"3"：”膝上型计算机“}、”价格“：{ "0"：700、"1"：250、"2"：800、"3"：1200 } 然后，我使用pyspark 2.4.4 df = spark.read.json("/path/file.json")读取了这个文件所以，我得到了这样的结果： df.

浏览 1提问于2019-09-05得票数 8

回答已采纳

1回答

Spark-Java :如何在spark Dataframe中添加数组列

java、arrays、list、apache-spark、apache-spark-sql

我正在尝试向我的Spark Dataframe添加一个新列。添加的新列的大小将基于变量(例如salt) post，我将使用该列分解数据集以用于盐连接。目前，我在array函数中使用连续的lit，但这有一个问题，它不能被参数化，而且作为一种编码实践看起来很糟糕。我目前的实现看起来像下面这样。 int salt =3; Dataset<Row> Reference_with_Salt_Col = Reference.withColumn("salt_array", array(lit(0), lit(1), lit(2))); 我参考和研究了各种方法，但似乎都不能

浏览 80提问于2021-03-14得票数 1

回答已采纳

1回答

无法从spark dataframe导出数据

pyspark、johnsnowlabs-spark-nlp

作为测试，我使用spark NLP解析了50万条tweet。数据帧看起来没问题。我将数组转换为字符串。使用 from pyspark.sql.functions import udf from pyspark.sql.types import StringType def array_to_string(my_list): return '[' + ','.join([str(elem) for elem in my_list]) + ']' array_to_string_udf = udf(array_to_string, Str

浏览 7提问于2021-07-29得票数 1

1回答

定义用于确定NaN或Null的用户定义函数不起作用。

null、pyspark、nan

我正试图用pyspark编写一个用户定义的函数，该函数确定数据文件中的给定条目是否是错误的(Null或NaN)。我似乎不知道我在这个函数中做错了什么： from pyspark.sql.functions import UserDefinedFunction from pyspark.sql.types import * def is_bad(value): if (value != value | (value.isNull())): return True else: return False isBadEntry = UserDefinedFu

浏览 1提问于2017-11-03得票数 3

回答已采纳