使用pyspark在dataframe的模式中进行搜索_在pyspark中对dataframe进行循环_在匹配模式的DataFrame列之间进行字符串搜索 - 腾讯云开发者社区

、、、

我有一组数据帧，dfs，具有不同的模式，例如： root |-- b_cd: string例如，我想检查其中一列(这里在d_info列下)中是否给出了"oid“。如何在模式中搜索一组数据帧并区分它们。Pyspark或Scala建议都很有帮助。谢谢

浏览 11提问于2019-10-11得票数 1

回答已采纳

1回答

HiveContext createDataFrame不工作于pySpark (jupyter)

、、、、

我正在使用木星笔记本对pySpark进行分析。我的代码最初使用SQLContext(sc)，= sqlContext构建数据格式，但现在我切换到了HiveContext，因为我将使用窗口函数。我的问题是，现在我在尝试创建dataframe时得到了一个Java错误：from pyspark.sql import SQLContext frompyspark

浏览 3提问于2016-07-13得票数 3

回答已采纳

1回答

使用PySpark实现MongoDB到Elasticsearch

、、

我想使用PySpark将我的MongoDB集合集成到Elasticsearch中。我有MongoDB的连接字符串，但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务的代码示例吗？

浏览 20提问于2021-11-10得票数 0

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

、、、

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得

浏览 33提问于2020-11-24得票数 0

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functions\ .getOrCreate() # Create DataFrame representi

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

将多个PySpark* DataFrames与MergeSchema合并*

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

、、

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import Str

浏览 27提问于2016-07-27得票数 0

回答已采纳

7回答

如何用Python创建示例单列星火DataFrame？

、、、

我想要创建一个示例单列DataFrame，但是下面的代码不起作用： ## ValueError

浏览 10提问于2017-12-06得票数 31

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。"name": "Green", "max": 1000000, } ] 在CosmosDB中，JSON文档

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前

浏览 16提问于2020-12-30得票数 2

1回答

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

、、

我正在尝试通过SparkNLP对文本数据进行主题建模和情感分析。我已经对数据集执行了所有预处理步骤，但在LDA中遇到错误。from pyspark.ml.linalg import Vectors get_tokenized

浏览 187提问于2021-04-22得票数 1

回答已采纳

2回答

PySpark配置单元SQL -未插入数据

、、、、

我想插入一些数据，我的表“测试”通过一个pySpark脚本(火种的python)。我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询：于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)：from pyspark import SparkConte

浏览 2提问于2018-01-25得票数 0

1回答

PySpark递归密钥搜索

、、

我有一个深度嵌套的json esque结构，我需要在所有级别(最多7)搜索给定的键，以查找所有事件。在0级中始终存在数据，我需要将这些数据与在任何级别上发现的search_key的每次发生关联起来。我尝试通过递归调用将这些数据推送并在返回时追加，但是当我将数据从标准的Python转移到PySpark RDD时，我遇到了堆和不可访问的类型问题。我的搜索功能如下： def search

浏览 1提问于2018-06-14得票数 1

回答已采纳

2回答

使用pyspark将数据帧移动到红移

、

我有一张红移的桌子1, 'aaa', 'xxx'我在pyspark中有一个dataframe5, 'ddd', 'xyx' 现在我需要使用upsert模式将pyspark<e

浏览 6提问于2018-01-09得票数 1

2回答

从pyspark中的列表中提取列

、、、

我一直在尝试从列表中提取列，但无法想象如何做到这一点。我对spark来说还是个新手。在Spark 2.4.3上运行pyspark。我有一个像这样组织的json： { "meta" : { ... }, [[ "a", 0, null, "{ }"], [ "b", 0, null, "{ }"],[ "c", 0, null, "{ }&qu

浏览 53提问于2020-12-18得票数 1

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'D

浏览 2提问于2018-08-12得票数 9

1回答

如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser

、、、、

我们怎么才能用在org.apache.spark.sql.catalyst.parser.CatalystSqlParser中导入它，它在Scala中工作得很好，现在根据需求，我们尝试转换我们的项目我正在用蓝色的数据砖来使用这个图书馆。

浏览 7提问于2022-06-09得票数 0

1回答

如何使用嵌入DSE的pyspark进行repartitionByCassandraReplica或joinWithCassandraTable？

、、、

如何在DSE (datastax-Entreprise4.8)中嵌入pyspark来实现repartitionByCassandraReplica或joinWithCassandraTable？

浏览 2提问于2016-02-10得票数 1

1回答

DataFrame错误: TypeError: Unary ~无法应用于布尔人

、、

我试图使用pandera来验证pyspark数据框架的模式，并在验证日期列上的约束时遇到一个意外的错误--这使得在对相同的熊猫数据框架应用验证时没有引发错误这一事实更加令人困惑。例如，我使用以下方法创建了熊猫和火花放电数据框架：from pyspark.sql import SparkSession spark = SparkSession.builder.appName("tes

浏览 12提问于2022-10-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云