如何在pyspark - dataframe中将月份名称更改为其他语言 - 腾讯云开发者社区

c#、windows、xaml、datepicker、win-universal-app

我正在为非英语用户做UWP申请。我需要使用DatePicker，但我不喜欢月份的名字是用英语写的，我也不想用数字表示月份。如何设置自己的字符串列表，以便在月份选择器上显示它？

浏览 1提问于2016-03-08得票数 3

回答已采纳

1回答

如何在字典中正确使用reduce

python、apache-spark、pyspark、reduce

我正在使用一个自定义函数作为reduce操作的一部分。对于下面的例子，我得到了下面的消息TypeError: reduce() takes no keyword arguments -我相信这是由于我在函数exposed_colum中使用字典mapping的方式-你能帮我修复这个函数吗？ from pyspark.sql import DataFrame, Row from pyspark.sql.functions import col from pyspark.sql import SparkSession from functools import reduce def proces

浏览 18提问于2020-02-05得票数 0

回答已采纳

4回答

如何在保留现有模式的同时从行中创建DataFrame？

python、pandas、apache-spark、pyspark、pyspark-sql

如果我调用map或mapPartition，并且我的函数接收来自PySpark的行，那么创建本地PySpark或Pandas DataFrame的自然方法是什么？合并行并保留架构的东西？目前，我所做的事情如下： def combine(partition): rows = [x for x in partition] dfpart = pd.DataFrame(rows,columns=rows[0].keys()) pandafunc(dfpart) mydf.mapPartition(combine)

浏览 0提问于2015-12-23得票数 2

回答已采纳

1回答

动态区间间接公式

excel、dynamic、excel-formula、excel-indirect

我有一些动态输入，在我的例子中，是单元格I25中的月份名称。基于月份，单元格H32中的函数应该引用带有月份名称的工作表和该工作表中的单元格A18。现在，我可以通过间接函数来处理这个问题，并使之成为可能。我遇到的问题是动态范围。例如，我希望单元格H33在工作表“二月”中引用单元格A19。我最接近的是=INDIRECT($I$25"&"!A18:A200")。它似乎正在工作，但出于某种奇怪的原因，它开始引用从A36开始的单元格内容，而我不明白这一点。有什么建议吗？任何帮助都将不胜感激。

浏览 3提问于2014-03-16得票数 2

回答已采纳

1回答

Spark中的ClassCastException读Teradata和写拼图

java、apache-spark、pyspark、schema、classcastexception

我正在运行一个Spark作业，它从Teradata DBMS读取一个带有SQL查询的DataFrame。当作业将S3上的文件写为parquet时， partition_keys = ["Cat$col1", "Cat$col2"] df.write.mode("overwrite").partitionBy(partition_keys) 抛出以下java.lang.ClassCastException异常： File "/lib/python3.7/site-packages/pyspark/python/lib/pyspark.z

浏览 27提问于2021-07-15得票数 0

1回答

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

machine-learning、pyspark、apache-spark-ml

我正在尝试通过SparkNLP对文本数据进行主题建模和情感分析。我已经对数据集执行了所有预处理步骤，但在LDA中遇到错误。 Error 程序是： from pyspark.ml import Pipeline from pyspark.ml.feature import StopWordsRemover, CountVectorizer, IDF from pyspark.ml.clustering import LDA from pyspark.sql.functions import col, lit, concat, regexp_replace from pyspark.sql.ut

浏览 187提问于2021-04-22得票数 1

回答已采纳

2回答

日期列排序不正确的Kendo网格

c#、asp.net-mvc、kendo-grid

我有一个剑道网格，它的柱子是一个DateTime？类型。对此列进行排序时，日期排序不正确。它似乎是针对月份进行排序，而不是针对整个日期进行排序。是否需要某种魔术才能让它按整个日期排序，而不只是按月和日排序？下面是表格。Paymentdate列是DateTime？字段，我正在尝试对其进行排序。任何帮助都将不胜感激。 @(Html.Kendo().Grid<PaymentTransactionViewModel>() .Name("payment-history-list") .TableHtmlAttributes(ne

浏览 5提问于2016-12-09得票数 2

1回答

使用另一个数据筛选器进行PySpark筛选，通过使用ids对日期和组进行访问和分组。

dataframe、apache-spark、pyspark、filter

我有一个每月频率的火花放电数据date_dataframe date_dataframe from_date, to_date 2021-01-01, 2022-01-01 2021-02-01, 2022-02-01 2021-03-01, 2022-03-01 使用dataframe，我希望过滤另一个具有数百万记录(每日频率)的数据，方法是将它们按id分组并进行聚合以计算平均值。 data_df id,p_date,value 1, 2021-03-25, 10 1, 2021-03-26, 5 1, 2021-03-36, 7 2, 2021-03-25, 5 2, 2021-03-26

浏览 5提问于2022-11-29得票数 0

回答已采纳

2回答

如何在后元数据中翻译月份名称？

translation

我正在尝试翻译这幅图像中带有下划线的月份名称，而不使用更改整个WP后端，因为我要求后端保持英语。我成功地通过阿斯特拉的默认字符串页翻译了默认字符串，但它们没有为月份名称提供字符串。任何帮助都将不胜感激！谢谢您:)

浏览 0提问于2020-08-12得票数 1

1回答

使用select语句在数据挖掘中选择嵌套列时的py4j.protocol.Py4JJavaError

apache-spark、pyspark、apache-spark-sql、pyspark-sql

浏览 3提问于2016-01-26得票数 2

回答已采纳

1回答

无法使用pyspark运行简单的hql文件

python、pyspark、hive、pyspark-sql、spark-hive

我正在使用pyspark==2.4.3，我只想运行一个hql文件 use myDatabaseName; show tables; 下面是我尝试过的 from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row # warehouse_location points to the default location for managed databases and tables warehouse_location = abspat

浏览 10提问于2020-01-26得票数 0

2回答

如何在pyspark中删除字符串中的特定字符？

python、pandas、dataframe、pyspark

我正在尝试从字符串中删除特定字符，但无法获得任何适当的解决方案。你能教我怎么做吗？我使用pyspark将数据加载到dataframe中。其中一列包含我想要删除的额外字符。示例： |"\""warfarin was discontinued 3 days ago and xarelto was started when the INR was 2.7, and now the INR is 5.8, should Xarelto be continued or stopped?"| 但在结果中我只想： |"warfarin was discontinu

浏览 1提问于2020-03-23得票数 0

2回答

如何在php中用法语硬编码月份名称？

php、strftime、monthcalendar、setlocale

我正在编写php/javascript代码，在下面以法语返回月份名称，但它与我们使用的法语单词不匹配。 <script> document.getElementById('title_fr').value = "<?php setlocale(LC_TIME, "frc"); echo strftime("%d %b %Y", strtotime( $this_date )); ?>"; </script> 上面的脚本以法语返回月份名称，这与我们的一组法语月份名称不匹配。 mars avr.

浏览 0提问于2019-03-14得票数 2

1回答

如何在VS代码中启用针对pyspark和numpy的方法建议？

python、numpy、visual-studio-code、pyspark

我有一个像这样的python文件 import pandas as pd import numpy as np import pyspark df_pd = pd.DataFrame() spark = pyspark.sql.SparkSession.builder.getOrCreate() df_spark = spark.createDataFrame([ [1, ] ], ["A"]) a = np.arange(10) 当我键入df_pd.并在输入点后等待时，VS代码会给我一些方法建议，比如join、pivot等等。我想要同样的a和df_spa

浏览 3提问于2021-07-20得票数 1

回答已采纳

1回答

如何在数据库PySpark中使用在Scala中创建的DataFrame

python、scala、pyspark、databricks

我的Databricks笔记本使用的是Python。notebook中的一些代码是用Scala编写的(使用%scala)，其中之一是用于创建数据帧。如果我再次使用Python/PySpark (默认模式)，我如何使用/访问这个在scala模式下创建的dataframe？这有可能吗？谢谢

浏览 14提问于2019-11-17得票数 1

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

python、pandas、dataframe、pyspark

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

如何在Eclipse IDE中修复“异常: Java网关进程在发送其端口号之前退出”

pyspark

我正尝试在Eclipse IDE的pydev环境中使用pyspark连接MySQL。获取以下错误：异常:在发送其端口号之前，Java网关进程已退出我已经检查了Java是否安装正确，还在windows-> preferences->Pydev->Python Interpreter->Environment中将PYSPARK_SUBMIT_ARGS设置为值--master local[*] --jars path\mysql-connector-java-5.1.44-bin.jar pyspark-shell。还设置了Java路径。我也试过通过代码来设置它，但是没

浏览 23提问于2019-01-11得票数 1

2回答

如何在pyspark中打印具有特征名称的随机森林的决策路径？

python、apache-spark、pyspark

如何修改代码以打印包含功能名称而不仅仅是数字的决策路径。 import pandas as pd import pyspark.sql.functions as F from pyspark.ml import Pipeline, Transformer from pyspark.sql import DataFrame from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml.feature import VectorAssembler data = pd.DataFrame({

浏览 17提问于2018-08-01得票数 1

回答已采纳

2回答

PySpark DataFrames:筛选数组列中的值

pyspark、pyspark-sql

我在PySpark中有一个PySpark，它的一个字段有一个嵌套数组值。我想过滤数组包含特定字符串的DataFrame。我不知道该怎么做。模式如下所示：root |-- name: string (nullable = true) |-- lastName: array (nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName列(数组)包含'SMITH'和等式的所有行(就像我对名称所做的那样)。我在列值上找到了

浏览 4提问于2016-06-24得票数 0

回答已采纳

1回答

如何在流查询中生成摘要统计信息(使用Summarizer.metrics)？

apache-spark、pyspark、spark-structured-streaming

目前，我正在使用火花结构化流创建随机数据的数据帧(id，timestamp_value，device_id，temperature_value，注释)。每批火花数据采集：基于上面数据框架的屏幕截图，我想为列"temperature_value“提供一些描述性的统计数据。例如，最小、最大、平均、计数、方差。我在python中实现这一目标的方法如下： import sys import json import psycopg2 from pyspark import SparkContext from pyspark.streaming import StreamingCont

浏览 4提问于2019-12-17得票数 2

回答已采纳

2回答

需要创建一个Dataframe，其中通过循环遍历另一个Dataframe列的值来创建列。我如何在PySpark中做到这一点？

python、pyspark、apache-spark-sql

我试图从原始的Dataframe "User_df“中获取每个列的列名和数据类型，到它们自己的列中，其中列的值分别是列名和数据类型。我有88列和9500行。当我尝试用一个列("ColumnDataTypes")创建一个Dataframe时，下面的代码是有效的，但当我试图为这两个列创建一个Dataframe时，代码就不起作用了： col_types = User_df.dtypes col_types2, col_types3 = [items[:] for items in zip(*col_types)] rdd_col_names = sc.parallel

浏览 36提问于2022-08-16得票数 0

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

apache-spark、dataframe、pyspark、apache-spark-ml

如何将Vectors.dense列添加到pyspark中？ import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml.linalg import DenseVector py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event": [1, 1, 1, 0]}) sc = SparkContext(master="loc

浏览 1提问于2018-04-14得票数 1

回答已采纳

3回答

方法命名约定"setX“与"withX”

python、setters、spark

为什么要学习Fluent接口，我遇到了这个职位，它指出，使用set提示，一个是突变对象，而with是重新生成一个新对象。在使用PySpark ()时，我亲眼目睹了这种模式： # Using "set" to modify exiting object from pyspark.conf import SparkConf from pyspark.context import SparkContext conf = SparkConf() conf.setMaster("local") conf.setAppName("My app") s

浏览 0提问于2022-10-30得票数 2

回答已采纳

1回答

每次在python中迭代函数时，分别获取该函数的日志

python、linux、bash、pyspark

我有一个类似下面的pyspark脚本。在这个脚本中，我遍历表名的input文件并执行代码。现在，我想在每次迭代函数mysql_spark时分别收集日志。例如： input file table1 table2 table3 现在，当我执行pyspark脚本时，我将所有三个表的日志保存在一个文件中。 What I want is 3 separate log files 1 for each table Pyspark脚本： #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from py

浏览 1提问于2017-07-29得票数 0

回答已采纳

1回答

如何将数据帧中的列转换为字符串？

python、dataframe、apache-spark、pyspark、apache-spark-sql

我使用了转换为json的api，使用pandas进行了标准化，并使用pyspark转换为dataframe。但是我不能改变列，无论是表单还是任何东西，我不能选择它们。我想知道我哪里错了！ import requests import json import pandas as pd import pyspark.sql.functions as F import os from pyspark.sql.types import DoubleType from pyspark.sql import types base_url = "https://api.talkwalk

浏览 6提问于2020-12-11得票数 0

回答已采纳

1回答

将Dataframe激发到StringType

json、apache-spark、pyspark、apache-kafka

在PySpark中，如何将Dataframe转换为普通字符串？背景：我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。 Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面临问题。错误：只能将字符串(不是Dataframe)连接到字符串。 Json参数文件： { "broker": "https://at.com:8082", "t

浏览 0提问于2021-03-05得票数 0

2回答

如何在Jupyter中很好地展示Pyspark DataFrames？

python、jupyter-notebook、jupyter

我在Jupyter笔记本中使用Pyspark (现在只是在教程之后，没有什么复杂的东西)。在网上，我看到很多在Jupyter中很好地呈现的DataFrames的图片(使用display()函数)，但是当我在我的系统上使用它时，我看到的都是这样的代码行：DataFrame[id: string, name: string, age: bigint] 我导入了以下库： import pyspark from functools import reduce from graphframes import * from IPython.display import display, HT

浏览 18提问于2019-10-25得票数 1

回答已采纳

1回答

在pyspark数据帧中用数字替换字符串

pyspark、pyspark-sql

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？ ---------- | Name | ---------- | nameone| ---------- | nametwo| ---------- 应该变成 -------- | Name | -------- | 1 | -------- | 2 | --------

浏览 9提问于2019-07-25得票数 0

2回答

如何在for循环中命名数据帧

r、for-loop

我试图调用一个dataframe，但是它是用一个数字命名的，因为它最初是多个的。我想要重命名循环中的数据文件，或者找到一种方法来调用我的dataframe，即使它有一个数字的标题。现在，在我运行这段代码之后： filenames <- list.files(path = "filepath",pattern = ".*txt") head(filenames) names <- substr(filenames,1,22) for(i in names){ filepath <-file.path("filepath",

浏览 1提问于2020-10-05得票数 0

回答已采纳

2回答

pyspark获取周数月数

sql、hadoop、apache-spark、pyspark

我很难从datafrme列中的pyspark中获取月份的周数，例如，假设我的dataframe为 WeekID,DateField,WeekNUM 1,01/JAN/2017 2,15/Feb/2017 我的输出应该如下所示 WeekIDm,DateField,MOF 1,01/JAN/2017,1 2,15/FEB/2017,2 我尝试使用striftime和其他我无法实现的日期函数。请帮我解决这个问题。

浏览 16提问于2017-07-27得票数 1

1回答

我们如何看待同一个函数的不同实现

scala、apache-spark

我想了解如何在Scala中实现相同方法。 def createDataFrame[A <: Product](data: Seq[A])(implicit evidence$3: reflect.runtime.universe.TypeTag[A]): org.apache.spark.sql.DataFrame def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrame def createDataFrame(row

浏览 0提问于2020-07-19得票数 0

回答已采纳

1回答

只有在通过单独的脚本导入时才广播未定义的变量

apache-spark、pyspark、nameerror、udf、spark-submit

下面是两个最低限度的工作示例脚本，它们都在pyspark中调用一个UDF。UDF依赖于一个广播字典，它用它将一个列映射到一个新列。生成正确输出的完整示例如下： # default_sparkjob.py from pyspark.sql.types import * from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext, DataFrame import pyspark.sql.functions as F def _transform_df(sc, df): globa

浏览 0提问于2017-03-07得票数 1

1回答

如何在pyspark中使用pandas_udf拆分dataframe中的字符串

string、pyspark、user-defined-functions

我只有一列的dataframe。我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf('str') def split_msg(string): msg_ = string.split(" ") return msg_ temp = temp.select("_c6").withColumn("decoded", split_msg(temp._c

浏览 17提问于2019-10-03得票数 0

回答已采纳

1回答

如何在PySpark上并行计算同一数据的不同聚合？

python、performance、apache-spark、pyspark、apache-spark-sql

我想手工计算PySpark上大型数据的一些自定义汇总统计数据。为了简单起见，让我使用一个更简单的虚拟数据集，如下所示： from pyspark.sql import SparkSession from pyspark.sql.dataframe import DataFrame from pyspark.sql.types import DataType, NumericType, DateType, TimestampType import pyspark.sql.types as t import pyspark.sql.functions as f from datetime impo

浏览 5提问于2022-10-06得票数 2

回答已采纳

1回答

如何在使用PyArrow时捕获Python UDF异常

python、pyspark、user-defined-functions、pyarrow

当启用PyArrow时，由执行器引发的Pandas UDF异常变得不可能被捕获:请参见下面的示例。这是预期的行为吗？若然，理由何在？如果没有，我该如何解决这个问题？已确认PyArrow 0.11和0.14.1 (最新)以及PySpark 2.4.0和2.4.3中的行为。Python 3.6.5。 import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import udf spark = SparkSession.builder.getOrCreate() # setting

浏览 0提问于2019-08-22得票数 4

1回答

PySpark基于列的vlaue添加月份到日期字段

dataframe、apache-spark、date、pyspark、apache-spark-sql

我有一个带有日期列和整数列的dataframe，我想根据整数列将月份添加到date列中。我尝试了以下方法，但是我得到了一个错误： from pyspark.sql import functions as f withColumn('future', f.add_months('cohort', col('period'))) 其中'cohort‘是我的date列，period是一个整数。我得到了以下错误： TypeError:列不可迭代

浏览 2提问于2022-02-08得票数 0

回答已采纳

3回答

如何在PySpark数据框列中将日期转换为每月的第一天？

python、apache-spark、pyspark、apache-spark-sql

我有以下DataFrame： +----------+ | date| +----------+ |2017-01-25| |2017-01-21| |2017-01-12| +----------+ 下面是在DataFrame上面创建的代码： import pyspark.sql.functions as f rdd = sc.parallelize([("2017/11/25",), ("2017/12/21",), ("2017/09/12",)]) df = sqlContext.createDataFrame(rdd, [&#

浏览 4提问于2018-01-20得票数 10

回答已采纳

1回答

按表达式对数据进行平添排序

python、dataframe、apache-spark、pyspark

我目前正在阅读Spark the definitive guide，并且有一个通过使用expr来实现DataFrame的示例，但是它不起作用： from pyspark.sql.types import * from pyspark.sql.functions import * from pyspark.sql import Row schema = StructType([ StructField("origin", StringType(), True), StructField("destination", StringType(), True)

浏览 4提问于2020-07-27得票数 0

回答已采纳

2回答

如何在Pyspark中使用Scala类

python、scala、apache-spark、pyspark、apache-spark-sql

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) { def exe(): DataFrame = { import sqlContext.implicits._ df.select(col(column)) } } 有没有可能在Pyspark中使用这个类

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

如何在python编写的解释器中实现多重赋值？

python、python-2.7、python-3.x

我正在用python编写一个解释器，并且遵循这个示例我想知道如何实现多重赋值，例如： a=b=c=1和a=(b=1)*1 我尝试了一些规则，但都是徒劳的。我知道解析应该是这样的。 a b c 1 \ \ \/ \ \ / \ \ / \ / 我只是不确定如何用PLY来写这篇文章。

浏览 2提问于2013-04-11得票数 6

回答已采纳

2回答

如何访问由Row创建Dataframe的DataFrame列

apache-spark、pyspark

我对火种很陌生希望从由Row创建的DataFrame中访问列。请参阅下面我的.py文件中的代码它抛出错误AttributeError：'DataFrame‘对象没有属性'product’ import findspark findspark.init("/opt/spark") from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import SQLContext productRevenue = Row("product

浏览 2提问于2020-04-13得票数 0

回答已采纳

1回答

如何使用pyspark for循环打印迭代值

pyspark

我正在尝试使用pyspark打印数据帧值的阈值。下面是我写的R代码，但是我想在pyspark中这样做，我不知道如何在Pyspark中这样做。任何帮助都将不胜感激！值dataframe看起来如下 values dataframe is vote 0.3 0.1 0.23 0.45 0.9 0.80 0.36 # loop through all link weight values, from the lowest to the highest for (i in 1:nrow(values)){ # print status print(paste0("Iterations

浏览 0提问于2019-06-10得票数 0

回答已采纳

1回答

在Pyspark/Hive中处理更改的数据类型

python、apache-spark、pyspark、apache-spark-sql

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？我试图转换成不同的数据类型，但是没有工作，或者我可能做错了什么。输入文件内容: mypath {"id":1，"SA":{"SM"：{"Name"："John"，"Email"：“Jo

浏览 6提问于2020-10-10得票数 0

3回答

`df.loc`的火花源等价？

python、pandas、apache-spark、dataframe、pyspark

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作 # in pandas dataframe, I can do the following operation # assuming df = pandas dataframe index = df['column_A'] > 0.0 amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, &

浏览 0提问于2018-05-13得票数 8

回答已采纳

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： files=glob.glob(path +'*.csv') df=pd.DataFrame() for f in files: dff=pd.read_csv(f,delimiter=',') df.append(dff) 在Pyspark中，我已经尝试过了，但没有成功 schema=StructType([]) union_d

浏览 5提问于2017-04-10得票数 11

2回答

StructType在PySpark中的映射函数

dataframe、scala、apache-spark、pyspark、struct

我有一个StructType如下所示： to_Schema = StructType([StructField('name', StringType(), True), StructField('sales', IntegerType(), True)]) dataframe_1的两个字段都是StringType。所以我创建了上面的StructType，这样我就可以用它来键入dataframe_1中的字段。我可以在Scala中这样做： val df2 = dataframe_1.selectExpr(to_Schema.map( co

浏览 6提问于2022-08-06得票数 1

1回答

如何在每个执行器节点收集火花数据？

spark-dataframe

我的应用程序读取一个大的parquet文件，并执行一些数据提取，以获得一个小型的spark对象。在计算的下一阶段，必须在每个executor节点上显示此数据的所有内容。我知道我可以通过收集广播来做到这一点，就像在这个火星雨片段中一样。 sc = pyspark.SparkContext() sqlc = HiveContext(sc) # --- register hive tables and generate spark dataframe spark_df = sqlc.sql('sql statement') # collect spark dataframe co

浏览 1提问于2016-04-20得票数 5

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

python、python-3.x、pyspark、pyspark-sql

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。 from pyspark.sql import SparkSession from pyspark.sql import DataFrame from pyspark.sql import Row from pyspark.sql.types import ArrayType from pyspark.sql.functions import * from functools import

浏览 2提问于2018-07-05得票数 2

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

3回答

如何在PySpark中绑定？

apache-spark、pyspark

例如，我想根据年龄将一组人分为以下4个DataFrame。 age_bins = [0, 6, 18, 60, np.Inf] age_labels = ['infant', 'minor', 'adult', 'senior'] 我会在pandas中使用pandas.cut()来做这件事。如何在PySpark中执行此操作

浏览 0提问于2017-09-15得票数 33

回答已采纳