如何使用PySpark转换结构化数据流？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、

这似乎是显而易见的，但在回顾文档和示例时，我不确定是否可以找到一种方法来采用结构化的流并使用PySpark进行转换。例如： SparkSession .appName('StreamingWordCount有没有一种“正确”的方法来使用结构化流媒体和PySpark来应用map或mapPartition风格的

浏览 11提问于2018-07-26得票数 6

回答已采纳

1回答

非结构化数据

、

这是一个基于高度研究的问题，关于将非结构化文本数据转换为结构化数据的问题。是否有任何系统或工具在没有人工干预的情况下执行将非结构化数据转换为结构化数据集的自动化过程？来自不同资源的非结构化数据流可以定向到要自动提取的工具/软件。

浏览 0提问于2016-01-29得票数 0

回答已采纳

1回答

Azure Data Lake在存储用于Power BI可视化的SQL数据库方面有多好？

、、、

我们有一个Azure SQL数据库，在那里我们收集了大量的传感器数据，我们定期从其中提取数据，并使用python脚本对其进行一点转换。最终结果是一个pandas DataFrame文件。我们希望将转换后的数据存储在Azure数据库中，并将其用作power BI仪表板的来源。一方面，我们希望在仪表板上显示“几乎”实时的数据(由于转换等原因造成的延迟是可以接受的，但是仪表板需要非常频繁地刷新，比方说每分钟刷新一次)，但我们也希望存储转换后的数据并在以后查询它，例如，仅在给定的一天可视化数据有没有可能将熊猫的D

浏览 15提问于2020-07-24得票数 0

回答已采纳

2回答

如何在pyspark中从kafka中以字符串格式从Confluent Schema Registry获取Avro数据？

、、、、

我正在从spark (结构化数据流)中读取Kafka中的数据，但在spark中从kafka中获取的数据不是字符串格式。:316,"Name":"Richa","MobileNo":{"long":7049123177},"BDate":{"int":740},"Gender":"female"} 下面是kafka触发结构化流媒体的代码from pyspark imp

浏览 1提问于2019-12-27得票数 0

1回答

按范围触发SQL分组数据并触发警报

、、

我正在处理来自Kafka的数据流，使用的是带有pyspark的结构化数据流。我可以发布带有简单where条件的警报，但我不能像上面那样转换数据框，并且如果任何警报优先级的计数是20 (窗口中的所有记录都与任何优先级高->计数(20)匹配，等等)，我就不能触发警报。有谁能建议如何做到这一点吗？此外，我能够使用json格式发布数据，但不能使用AVRO生成数据。Scala和Java都有to_avro()函数，但是pyspar

浏览 24提问于2019-04-28得票数 0

2回答

如何使用Spark Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)

、

我想从数据流中的rdds中提取样本。因为数据流没有sample()转换，它是一个rdds序列，所以我这样做是为了从数据流中提取样本，并对其应用字数计数：from pysparkconf.set("spark.cores.max", "2") sc = SparkContext('local[3]

浏览 8提问于2016-08-19得票数 0

回答已采纳

1回答

在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

、、

我正在寻找一个包，或者使用redshift作为结构化数据流的源的以前的实现。.option('url', redshift_url) \ .load()如

浏览 2提问于2020-11-18得票数 0

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。df = ( .options(encoding="

浏览 3提问于2021-11-25得票数 0

2回答

如何将数据从Google PubSub主题流到PySpark* ( Google上)*

、、、

我在Google PubSub中有一个主题的数据流。我可以看到使用简单Python代码的数据：def callback(message):future.result() 上面的python代码从Google PubSub主题(使用订阅服务器我希望将来自主题的相同数据流到PyS

浏览 1提问于2018-09-17得票数 1

1回答

如何在python中实现带结构流的雪花连接器？

、、、

目前，我有接受输入并创建数据流的代码。我的目标是将数据上传到snowflake。目前我正在尝试，有没有更简单的方法来解决这个问题。它以前只适用于结构化流媒体，而没有连接到snowflake。from pyspark.sql import SparkSessionfrom pyspark.sql.types import

浏览 18提问于2020-08-13得票数 0

1回答

与卡夫卡的直接流？

、、、、

Pyspark 2.4.7包含创建卡夫卡主题()的直接流侦听器的能力。但是，3.1.1 (最新)版本的pyspark没有这个特性。卡夫卡直接流的不再包括python示例。我的问题是如何使用直接流(而不是结构化流)与kafka和pyspark 3.1.1？

浏览 2提问于2021-05-06得票数 1

回答已采纳

1回答

在火花流/结构化流中阅读Kafka的avro消息

、、、、

我第一次使用火花放电。火花版本: 2.3.0卡夫卡版本: 2.2.0 我有一个卡夫卡生产者，它以avro格式发送嵌套数据，我正在尝试用火花流/结构化流写代码，这将反序列化从kafka到dataframe的avro，做转换，把它以拼花格式写成我能够在spark/scala中找到avro转换器，但是还没有增加对pyspark的支持。如何在火花放电中转换相同的内容。谢谢。

浏览 3提问于2019-05-02得票数 3

回答已采纳

4回答

hive、pig、map-reduce用例之间的区别

、、、

map-reduce、hive、pig之间的区别我知道在后端，猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或pig for sql来说都是很好的工具我只想知道是否有任何特定的用例，我们

浏览 0提问于2014-10-29得票数 0

1回答

如何使用Pyspark提取Azure应用程序洞察事件？

、、、、

我正在尝试使用Pyspark (Azure Databricks)中的以下代码来捕获结构化格式的Azure应用程序洞察事件-import json 请帮帮我！

浏览 25提问于2021-09-24得票数 0

1回答

星火‘结构化API’是什么意思？

、

我不知道星火‘结构化API’是什么意思。如果你能更具体地告诉我，我将不胜感激。对不起，我没有完美的英语。(我得到了翻译的帮助。)

浏览 1提问于2019-06-06得票数 2

回答已采纳

1回答

我需要一个健壮、高效的Python序列化程序

、、、

为了寻找比cPickle更有效的替代品，我尝试了以下方法，但对数据类型都不起作用: json，simplejson，用于将numpy类型转换为原生Python的json的自定义子类，marshal (不处理内置类型的子类

浏览 2提问于2016-04-07得票数 0

1回答

如何优化存储数据，以便在谷歌云上使用PySpark

、、

我将使用PySpark运行一些东西(回归、ML等)。在相当大的结构化数值数据集(>1TB)上。目前，谷歌云存储上的数据是CSV格式的。是否将数据转换为其他格式(Parquet等)？

浏览 2提问于2017-06-27得票数 0

回答已采纳

2回答

如何将Kinesis数据流合并为一个数据流以进行Kinesis数据分析？

、、、

我有多个AWS kinesis数据流/firehose和CSV格式的结构化数据。我需要使用运动数据分析对这些数据执行分析。但是如何将多个流合并为一个流呢？数据流可以存在于不同的地域。问题:如何将Kinesis数据流合并为一个用于Kinesis数据分析的数据流？

浏览 3提问于2020-08-25得票数 0

1回答

将星火流PySpark数据格式写入Cassandra覆盖表而不是追加

、、、、

从一个简单的Python脚本中，我每5秒将一些虚拟数据流到Kafka主题中。然后，使用Spark结构化流，我将这个数据流(每次一行)读入PySpark DataFrame中，其中包含startingOffset = latest。offset bigint, timestampType int,); 发射PySpark/bin/py

浏览 1提问于2020-10-21得票数 0

回答已采纳

1回答

到rdd的结构化流不起作用

、

尝试对结构化的流做一些操作，因此需要使用.rdd函数，但得到"""AnalysisException: Queries with streaming sources must be executed with

浏览 0提问于2018-11-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云