从pyspark中的dataframe中提取数据

文章/答案/技术大牛

发布

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { import sqlContext.impli

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

、

我正在尝试在pyspark中创建一个脚本，它将从表中获取最小和最大日期，将它们存储在df中，然后将这两个值拆分为2个变量，然后将这些变量作为时间范围放在另一个查询中。我的问题是dates是这样的数据帧 +--------+--------++--------+--------++--------+--------+ 我只需要maxDate和minDate的</e

浏览 212提问于2021-07-01得票数 0

回答已采纳

1回答

如何解析pyspark中的html文件并使用Beautifulsoup？

、、、、

我遇到了一个非常困难的情况:我需要解析中的一堆html文件，但是我仍然希望使用BeautifulSoup来解析html文件。目前的困境是：如果我将这些html文件保存在本地，并使用BeautifulSoup来解析html文件，则不会使用pyspa

浏览 0提问于2017-10-23得票数 2

2回答

如何检查一个实例是否在Pyspark的dataframe中？

、、、、

我有一个从dataframe df1中提取的实例，我想检查该实例是否在Pyspark的另一个dataframe df2中。有没有办法去面对它？------++------+------+------++------+------+------+ 数据帧2 | 'C&#x

浏览 0提问于2017-09-04得票数 1

1回答

如何从pyspark中的spark dataframe中提取特定值？

、、

我需要使用sql查询从pyspark中提取计数。count在spark dataframe中，我想使用计数值在if条件中使用，但不能提取该值。如何从spark dataframe中提取int值 query = "select count(*) as count from abc where FLAG= 'C' " counter =

浏览 99提问于2021-08-03得票数 0

回答已采纳

2回答

如何创建空的考拉df

、

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

3回答

从DataFrame中提取字符串

、

我希望从我的pyspark dataframe中的一列XML数据(字符串)中提取一个字符串。我希望为每个客户提取ProductName的价值。以下是数据的示例： A, <XmlData ProductName="123">....</XmlData> 我想将我的数

浏览 3提问于2020-06-18得票数 0

1回答

将数据从Pyspark* Dataframe导出到字典或列表中，以便进一步处理Python*

、、、、

在Pyspark找到连接组件之后，我正在尝试从Pyspark Dataframe中检索值，但我不知道如何像从列表中那样提取数据。下面是从我正在处理的大型数据集创建的表的简化版本。实际上，下表是通过使用图的顶点和边的连通性数据创建的。如果组件编号相同，则意味着节点( in )

浏览 0提问于2019-05-06得票数 0

1回答

如何在pyspark* sql中通过循环日期来拉取数据？*

、、

我有一个脚本，我正在使用spark sql将数据拉到一个pyspark DataFrame中。脚本如下所示： from pyspark import SparkContext, SparkConf, HiveContext""&

浏览 42提问于2019-06-14得票数 0

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。from pysp

浏览 4提问于2016-09-08得票数 6

1回答

FInd数据帧中的第一个非零元素

、、

我正在处理一个pyspark dataframe，并尝试查看是否有一种方法可以提取spark dataframe中第一个非零元素的索引。我自己添加了索引列，因为pyspark不支持它，而不是pandas。

浏览 29提问于2021-10-08得票数 0

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataf

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

在pyspark.ml.pipeline中从管道对象中检索转换后的数据集

、、、、

我是Spark ML的新手。我正在尝试使用Spark ML Pipeline来链接数据转换(将其视为ETL过程)。换句话说，我想输入一个DataFrame，执行一系列转换(每次向该数据帧添加一列)，并输出转换后的DataFrame。我研究了Python中的Pipeline文档和代码，但我不知道如何将转换后的数据集从Pipeline中提取出来。请参见以下示例(从文档

浏览 0提问于2018-04-11得票数 1

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

我们是否可以在aws DMS中执行sql查询

、、、、

我们是否可以在DMS任务中执行sql查询，以便它只获取所需的数据，而不是整个数据库。如果不可能，那么使用哪种亚马逊网络服务来从本地数据源获取基于查询的数据到亚马逊网络服务S3。

浏览 5提问于2019-03-09得票数 0

1回答

Zeppelin: Scala Dataframe* to python*

、、、

如果我有一个带有DataFrame的Scala段落，我可以在python中分享和使用它吗？(据我所知，pyspark使用)Scala段落：z.put("xtable", x )%pyspark g = g.add_legend()Traceback (most recent call last): File "/tmp/z

浏览 8提问于2016-03-01得票数 14

回答已采纳

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas DataframePySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

如何以编程方式将Kafka主题加载和流到PySpark数据

、、、

卡夫卡有许多读/写火花数据的方法。我试着阅读来自卡夫卡主题的信息，并从中创建一个数据框架。可以从主题中提取消息，但无法将其转换为数据文件。任何建议都会有帮助。import pysparkfrom pyspark.context import SparkContext print(data)

浏览 1提问于2020-06-12得票数 1

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用

浏览 8提问于2022-10-14得票数 0

回答已采纳

点击加载更多

如何在Pyspark中使用Scala类