腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
PySpark
转换
结构化
数据流
?
、
、
这似乎是显而易见的,但在回顾文档和示例时,我不确定是否可以找到一种方法来采用
结构化
的流并
使用
PySpark
进行
转换
。例如: SparkSession .appName('StreamingWordCount有没有一种“正确”的方法来
使用
结构化
流媒体和
PySpark
来应用map或mapPartition风格的
浏览 11
提问于2018-07-26
得票数 6
回答已采纳
1
回答
非
结构化
数据
、
这是一个基于高度研究的问题,关于将非
结构化
文本数据
转换
为
结构化
数据的问题。是否有任何系统或工具在没有人工干预的情况下执行将非
结构化
数据
转换
为
结构化
数据集的自动化过程?来自不同资源的非
结构化
数据流
可以定向到要自动提取的工具/软件。
浏览 0
提问于2016-01-29
得票数 0
回答已采纳
1
回答
Azure Data Lake在存储用于Power BI可视化的SQL数据库方面有多好?
、
、
、
我们有一个Azure SQL数据库,在那里我们收集了大量的传感器数据,我们定期从其中提取数据,并
使用
python脚本对其进行一点
转换
。最终结果是一个pandas DataFrame文件。我们希望将
转换
后的数据存储在Azure数据库中,并将其用作power BI仪表板的来源。一方面,我们希望在仪表板上显示“几乎”实时的数据(由于
转换
等原因造成的延迟是可以接受的,但是仪表板需要非常频繁地刷新,比方说每分钟刷新一次),但我们也希望存储
转换
后的数据并在以后查询它,例如,仅在给定的一天可视化数据有没有可能将熊猫的D
浏览 15
提问于2020-07-24
得票数 0
回答已采纳
2
回答
如何
在
pyspark
中从kafka中以字符串格式从Confluent Schema Registry获取Avro数据?
、
、
、
、
我正在从spark (
结构化
数据流
)中读取Kafka中的数据,但在spark中从kafka中获取的数据不是字符串格式。:316,"Name":"Richa","MobileNo":{"long":7049123177},"BDate":{"int":740},"Gender":"female"} 下面是kafka触发
结构化
流媒体的代码from
pyspark
imp
浏览 1
提问于2019-12-27
得票数 0
1
回答
按范围触发SQL分组数据并触发警报
、
、
我正在处理来自Kafka的
数据流
,
使用
的是带有
pyspark
的
结构化
数据流
。我可以发布带有简单where条件的警报,但我不能像上面那样
转换
数据框,并且如果任何警报优先级的计数是20 (窗口中的所有记录都与任何优先级高->计数(20)匹配,等等),我就不能触发警报。有谁能建议
如何
做到这一点吗? 此外,我能够
使用
json格式发布数据,但不能
使用
AVRO生成数据。Scala和Java都有to_avro()函数,但是
pyspar
浏览 24
提问于2019-04-28
得票数 0
2
回答
如何
使用
Spark Dstream进行简单的随机采样?(
使用
spark 1.6.1的
pyspark
)
、
我想从
数据流
中的rdds中提取样本。因为
数据流
没有sample()
转换
,它是一个rdds序列,所以我这样做是为了从
数据流
中提取样本,并对其应用字数计数:from
pyspark
conf.set("spark.cores.max", "2") sc = SparkContext('local[3]
浏览 8
提问于2016-08-19
得票数 0
回答已采纳
1
回答
在
结构化
流应用编程接口(
pyspark
)中
使用
redshift作为readStream的JDBC源
、
、
我正在寻找一个包,或者
使用
redshift作为
结构化
数据流
的源的以前的实现。.option('url', redshift_url) \ .load()如
浏览 2
提问于2020-11-18
得票数 0
1
回答
运行spark.read.json时在json中找到重复列,即使没有重复列
、
、
、
在
PySpark
和Synapse
数据流
中,我遇到了非常奇怪的错误。df = ( .options(encoding="
浏览 3
提问于2021-11-25
得票数 0
2
回答
如何
将数据从Google PubSub主题流到
PySpark
( Google上)
、
、
、
我在Google PubSub中有一个主题的
数据流
。我可以看到
使用
简单Python代码的数据:def callback(message):future.result() 上面的python代码从Google PubSub主题(
使用
订阅服务器我希望将来自主题的相同
数据流
到
PyS
浏览 1
提问于2018-09-17
得票数 1
1
回答
如何
在python中实现带结构流的雪花连接器?
、
、
、
目前,我有接受输入并创建
数据流
的代码。我的目标是将数据上传到snowflake。目前我正在尝试,有没有更简单的方法来解决这个问题。它以前只适用于
结构化
流媒体,而没有连接到snowflake。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.types import
浏览 18
提问于2020-08-13
得票数 0
1
回答
与卡夫卡的直接流?
、
、
、
、
Pyspark
2.4.7包含创建卡夫卡主题()的直接流侦听器的能力。 但是,3.1.1 (最新)版本的
pyspark
没有这个特性。卡夫卡直接流的不再包括python示例。我的问题是
如何
使用
直接流(而不是
结构化
流)与kafka和
pyspark
3.1.1?
浏览 2
提问于2021-05-06
得票数 1
回答已采纳
1
回答
在火花流/
结构化
流中阅读Kafka的avro消息
、
、
、
、
我第一次
使用
火花放电。火花版本: 2.3.0卡夫卡版本: 2.2.0 我有一个卡夫卡生产者,它以avro格式发送嵌套数据,我正在尝试用火花流/
结构化
流写代码,这将反序列化从kafka到dataframe的avro,做
转换
,把它以拼花格式写成我能够在spark/scala中找到avro
转换
器,但是还没有增加对
pyspark
的支持。
如何
在火花放电中
转换
相同的内容。谢谢。
浏览 3
提问于2019-05-02
得票数 3
回答已采纳
4
回答
hive、pig、map-reduce用例之间的区别
、
、
、
map-reduce、hive、pig之间的区别我知道在后端,猪和蜂窝都
使用
map -reduces。我知道map-reduce对于程序员、hive或pig for sql来说都是很好的工具 我只想知道是否有任何特定的用例,我们
浏览 0
提问于2014-10-29
得票数 0
1
回答
如何
使用
Pyspark
提取Azure应用程序洞察事件?
、
、
、
、
我正在尝试
使用
Pyspark
(Azure Databricks)中的以下代码来捕获
结构化
格式的Azure应用程序洞察事件-import json 请帮帮我!
浏览 25
提问于2021-09-24
得票数 0
1
回答
星火‘
结构化
API’是什么意思?
、
我不知道星火‘
结构化
API’是什么意思。如果你能更具体地告诉我,我将不胜感激。 对不起,我没有完美的英语。(我得到了翻译的帮助。)
浏览 1
提问于2019-06-06
得票数 2
回答已采纳
1
回答
我需要一个健壮、高效的Python序列化程序
、
、
、
为了寻找比cPickle更有效的替代品,我尝试了以下方法,但对数据类型都不起作用: json,simplejson,用于将numpy类型
转换
为原生Python的json的自定义子类,marshal (不处理内置类型的子类
浏览 2
提问于2016-04-07
得票数 0
1
回答
如何
优化存储数据,以便在谷歌云上
使用
PySpark
、
、
我将
使用
PySpark
运行一些东西(回归、ML等)。在相当大的
结构化
数值数据集(>1TB)上。目前,谷歌云存储上的数据是CSV格式的。是否将数据
转换
为其他格式(Parquet等)?
浏览 2
提问于2017-06-27
得票数 0
回答已采纳
2
回答
如何
将Kinesis
数据流
合并为一个
数据流
以进行Kinesis数据分析?
、
、
、
我有多个AWS kinesis
数据流
/firehose和CSV格式的
结构化
数据。我需要
使用
运动数据分析对这些数据执行分析。但是
如何
将多个流合并为一个流呢?
数据流
可以存在于不同的地域。 问题:
如何
将Kinesis
数据流
合并为一个用于Kinesis数据分析的
数据流
?
浏览 3
提问于2020-08-25
得票数 0
1
回答
将星火流
PySpark
数据格式写入Cassandra覆盖表而不是追加
、
、
、
、
从一个简单的Python脚本中,我每5秒将一些虚拟
数据流
到Kafka主题中。然后,
使用
Spark
结构化
流,我将这个
数据流
(每次一行)读入
PySpark
DataFrame中,其中包含startingOffset = latest。offset bigint, timestampType int,); 发射
PySpark
/bin/
py
浏览 1
提问于2020-10-21
得票数 0
回答已采纳
1
回答
到rdd的
结构化
流不起作用
、
尝试对
结构化
的流做一些操作,因此需要
使用
.rdd函数,但得到"""AnalysisException: Queries with streaming sources must be executed with
浏览 0
提问于2018-11-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券