python参数验证-pyspark数据帧过滤器字符串

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、、

我需要将where子句字符串直接传递给输入数据帧以过滤输入记录。clm1') == '201')" # In the correct format现在，我想要编写python语法，以便在过滤器字符串不是上述格式的情况下引发一个异常。

浏览 5提问于2020-05-29得票数 0

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File "/home/source/fork/PySpark_Analyticsdffsameflname.drop_duplicates(subset=['INDIVIDUAL_LASTNAME'],

浏览 110提问于2019-06-20得票数 1

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。_createFromLocal(data, schema) File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。在迭代期间，它将字符串、最佳匹配和相似度以及其他一些信息写入bigquery。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册udf时遇到了问题，因为它没有返回

浏览 16提问于2019-07-19得票数 2

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.en

浏览 11提问于2021-11-19得票数 0

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧-from\ .appName("Python Spark SQL basic example") \

浏览 3提问于2020-09-09得票数 0

2回答

Apache toree - pySpark未加载包

、

但是，我无法通过在内核文件中的以下位置使用PYTHONPATH变量在pySpark内核中导入包： /usr/local/share/jupyter/kernels/apache_toree_pyspark

浏览 9提问于2017-07-06得票数 1

回答已采纳

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Py

浏览 0提问于2016-07-27得票数 1

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefrom pyspark.sql_createFromLocal(data,

浏览 0提问于2016-01-15得票数 2

1回答

Pyspark使用窗口函数和我自己的函数

、、、

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

如何模拟对pyspark* sql函数的内部调用*

、、、、

获得了以下pyspark代码：).count()from unittest import mock fr

浏览 11提问于2019-11-02得票数 12

回答已采纳

1回答

无法从spark dataframe导出数据

、

数据帧看起来没问题。我将数组转换为字符串。使用from pyspark.sql.types import StringType def array_to_stringarray_to_string_udf(result["ner_chunk"])).withColumn('document', array_to_string_udf(result["document"

浏览 7提问于2021-07-29得票数 1

3回答

如何创建动态数据帧

、、、、

我试图创建一个数据框，我之所以以下面的方式指定创建数据框，是为了使其成为动态的，但表达式是作为字符串传递的，并且exec命令无法创建数据框并将其赋值给变量。

浏览 18提问于2020-02-08得票数 0

3回答

在zeppelin中将pandas数据帧转换为spark数据帧

、、、

我有一个用例，其中我有一个熊猫数据帧。我需要使用齐柏林飞艇的内置图表来可视化集合。我在这里没有明确的方法。我的理解是，如果数据是RDD格式，我们可以使用zeppelin可视化数据。首先，我尝试将pandas的数据帧转换为spark的数据帧，但失败了import pandas as pdprintcompiledCode) Fi

浏览 0提问于2015-10-06得票数 17

2回答

使用pyspark进行加权采样

、、、

我在使用PySpark的spark上有一个不平衡的数据帧。我想对其进行重新采样，使其达到平衡。我只在PySpark中找到了示例函数但是我想在Python中用单位体积的权重来采样数据帧，我可以这样做有没有什么方法可以用PySpark做同样的事情呢？

浏览 2提问于2018-02-01得票数 5

2回答

如何使用pyspark将blob字符串转换为文件

、、、、

我有一个pyspark笔记本，我正在阅读azure event-hub消息，其中一个字段是一个字符串，它是oracle数据库中的blob字段和文件。我正在尝试将字符串转换为文件、二进制文件，然后写入azure中的blob存储，但我不能这样做。如何将字符串转换为文件？

浏览 0提问于2019-08-26得票数 0

1回答

如何从数据筛选器的输出中创建PySpark数据文件？

、、

我必须基于一个过滤器函数从一个数据文件创建2个数据文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class 'pyspark.sql.datafra

浏览 0提问于2022-03-24得票数 0

回答已采纳

2回答

从PySpark连接到Sharepoint的代码

、、、、

我想使用PySpark提取SharePoint列表数据。我不确定Sharepoint列表数据和存储。我想以PySpark数据帧的形式读取SharePoint列表数据。我尝试过Python Libraies: Sharepy Slum和许多其他库

浏览 2提问于2019-05-24得票数 2

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

1回答

使用Pyspark进行交叉验证

、

我尝试在使用spark时使用交叉验证，但它抛出了一个错误： gbtClassifier = GBTClassifier(featuresCol= "features", labelCol="is_goal

浏览 24提问于2021-01-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云