腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
numInputRows
在
流
中
始终
为
0-
数据库
Pyspark
、
、
、
address:string, attention:string, city:string, state:string, zip:string >,submittedAt string " from
pyspark
.sql.functions
浏览 8
提问于2021-06-09
得票数 0
1
回答
如何获取spark structured streaming
中
的写入记录数量?
、
、
、
我
在
一个spark会话
中
配置了几个结构化的
流
。我需要知道
在
每个
流
中
读取和写入了多少条记录。例如,我有这两个
流
: read-s3 -> transform -> write-s3 read-s3 -> transform -> write-db 我知道如何使用SparkListener()、.onTaskEnd(),但在这一点上,我没有查询名,taskEnd.taskMetrics().outputMetrics().recordsWritten(
浏览 25
提问于2018-02-01
得票数 2
回答已采纳
1
回答
从大的s3存储桶
中
读取电子病历
PySpark
结构化流花费的时间太长
、
、
、
、
我有一个两台计算机的EMR集群,安装了从s3读取数据的
PySpark
。代码是一个非常简单的过滤和转换操作,使用sqlContext.readStream.text从存储桶
中
获取数据。该存储桶大小约为10TB,由bucket/year/month/day/hour/*组织的大约75k个文件,其中*最多代表20个大小
为
128MB的文件。我通过提供存储桶s3://bucket_name/dir/并让
PySpark
读取其中的所有文件来启动<e
浏览 0
提问于2018-02-20
得票数 0
2
回答
码头电火花集群容器没有接收卡夫卡
流
从主机?
、
、
、
、
火花主 我按照以下文件
中
的具体步骤启动了kafka from
pyspark
import SparkContext from
pys
浏览 1
提问于2020-09-09
得票数 0
回答已采纳
1
回答
WriteStream无法
在
Delta表
中
写入数据
、
、
、
我正在尝试使用以下代码从
流
路径连接
流
Json文件 .option("maxFilesPerTrigger", 1).json(stream_path)) .partiti
浏览 1
提问于2021-07-21
得票数 2
1
回答
在
同一个火花会话
中
运行多个Spark结构化
流
查询,增加偏移量,但显示
numInputRows
0
、
我有一个星火结构
流
消费记录,从卡夫卡主题与2分区。 .queryName("query2").start()Problem:每次
在
两个分区
中
推送记录时例如,卡夫卡分区
0-
记录被推送,火花将处理query1。Kafka Partition1-当query1忙于处理时,记录被推送,spa
浏览 0
提问于2020-07-24
得票数 1
1
回答
使用套接字的火花结构化
流
,设置模式,
在
控制台中显示DATAFRAME
、
、
、
如何在DataFrame
中
为
流
PySpark
设置架构。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functionsimport splitfrom
pyspark
.sql.types import * .bui
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
2
回答
查找由writeStream操作编写的记录数量: SparkListener OnTaskEnd总是
在
结构化
流
中
返回0
、
bytesWritten = " + bytesWritten) }代码进入块,但是由recordsWritten编写的输入记录的值
始终
为
dfb4fa939228", "timestamp" : "2018-07-30T14:20:33.486Z", "batchId"
浏览 0
提问于2018-07-25
得票数 3
1
回答
如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra数据传输到火花源?
、
、
、
、
我只是使用querycassandra处理器查询cassandra表,但我不理解的是如何将Json输出文件作为输入文件传递给ExecutePyspark处理器,然后我需要将我的Spark数据传递给Hive。请帮我一下,谢谢。 火花特性:
浏览 1
提问于2018-03-14
得票数 3
回答已采纳
1
回答
有人能解释一下卡夫卡/火花中所有这些价值观的含义吗?
、
、
我正在做星火结构的
流
/kafka,这些都被记录在控制台中,但我不知道这一切意味着什么。45bb-ac20-68318e704e30", "timestamp" : "2019-08-04T22:02:08.870Z", "
numInputRows
} "endOffset" : { "service-calls
浏览 0
提问于2019-08-04
得票数 2
回答已采纳
2
回答
星星之火卡夫卡流媒体取得进展,但没有数据可供消耗
、
、
我有一个简单的Spark结构化
流
作业,它使用Kafka0.10API从Kafka读取数据并写入我们的S3存储。从日志
中
我可以看到,对于触发的每一批,
流
应用程序正在取得进展,并且正在消耗来自源的数据,因为endOffset大于startOffset,而且每一批都在增加。但是
numInputRows
始终
为
零,并且没有写入S3的行。 "name" : null, &
浏览 0
提问于2019-09-10
得票数 0
回答已采纳
1
回答
如何安全地将Google Apps脚本连接到Azure SQL Server
数据库
?
、
、
、
我不愿意在GAS中使用getConnection连接到Azure SQL
数据库
,因为我不确定连接是否会加密。因为这是我想要从GAS中提取的敏感数据,我想让它通过加密连接,但我不知道如何实现它?如果我将
数据库
托管
在
非Azure SQL Server上,我是否会有ore安全选项?getConnection提供了_serverSslCertificate、_clientSslCertificate和_clientSslKey,但我不认为它们可以
在
Azure SQL Server上使用
浏览 4
提问于2018-01-07
得票数 0
1
回答
Spark streaming from eventhub:一旦没有更多的数据,如何停止
流
?
、
、
、
我正在尝试做的,是从我的事件中心读取一些数据,并将其保存在azure数据湖
中
。然而,问题是,
流
不会停止,writeStream步骤也不会触发。我找不到任何设置来确定输入速率何时达到0,以便在那时停止
流
。 ?
浏览 26
提问于2021-07-10
得票数 2
2
回答
方法的默认泛型比较器返回不正确的结果
、
、
在
使用建议的方法来回答问题时,代码无法添加多个事件处理程序。问题与将方法添加到TDelegateImpl<T>.Add()
中
的事件列表有关,TList<T>.IndexOf方法使用Compare方法查找现有方法,结果
始终
为
0-
这意味着TMethod的左和右是相同的Equals方法使用TMethod类型转换,并显式比较TMethod.Code和TMethod.Data,其中Compare转换为
始终
相同的地址。为什么
在
TList<T>.I
浏览 0
提问于2011-09-15
得票数 5
回答已采纳
2
回答
带有隐藏视图的视觉约束
、
、
在
我的iOS应用程序
中
,我遇到了一些视觉限制。+-------------------++-------------------++-------------------+ 一次只有一个View2、View3或View4是可见的,而其他的
在
不使用时是隐藏的。HeaderView
为
100,View2、View3和V
浏览 0
提问于2016-06-03
得票数 0
回答已采纳
1
回答
SSIS将数据导出到平面文件,并从输出中省略头。
、
、
我正在创建一个SSIS包来查询
数据库
并将结果提取到csv文件
中
。我正在使用2019。我将“标题行设置
为
跳过:”设置
为
0-
4。我对Preview选项卡
中
的数据行做了相同的操作,没有任何更改。数据
流
任务平面文件目标2:平面文件目标的输入列数。InputsFlat文件目标输入不能为零。
浏览 3
提问于2022-07-06
得票数 0
回答已采纳
1
回答
Azure Data Lake
在
存储用于Power BI可视化的SQL
数据库
方面有多好?
、
、
、
我们有一个Azure SQL
数据库
,在那里我们收集了大量的传感器数据,我们定期从其中提取数据,并使用python脚本对其进行一点转换。最终结果是一个pandas DataFrame文件。我们希望将转换后的数据存储
在
Azure
数据库
中
,并将其用作power BI仪表板的来源。有没有可能将熊猫的DataFrame转换成SQL,并将其存储
在
Data Lake上,然后从那里流式传输数据?我读到可以
在
data Lake上存储结构化数据,甚至可以对其进行查询,但我不确定这是否是最好的解决方案。 (我
浏览 15
提问于2020-07-24
得票数 0
回答已采纳
1
回答
使用自定义接收器的spark结构化
流
中
的输入行数
、
、
、
我
在
结构化
流
(spark 2.2.0)中使用了一个自定义接收器,并注意到spark
为
输入行数生成了错误的度量--它总是零。8710-78223a88edc7", "timestamp" : "2018-01-25T18:39:52.949Z", "logOffs
浏览 8
提问于2018-01-27
得票数 2
回答已采纳
1
回答
Spark structured streaming with python
、
、
、
、
要求:我需要在Spark (执行转换)
中
处理来自Kafka ( JSON格式)的
流
数据,然后将其存储在
数据库
中
。("string"), schema))程序运行,但我
在
控制台上获得的值是9fc462e0-385a-4b05-97ed-8093dc6ef37b", "name&qu
浏览 1
提问于2017-04-08
得票数 1
1
回答
使用kafka作为外接程序的Heroku postgresql的火花
流
、
、
、
、
我正在尝试使用
数据库
中
的
pyspark
从Heroku postgres
数据库
流
,使用kafka作为插件。下面有这样的代码,但是它连续运行,没有返回任何内容,也没有错误。我尝试
在
代码
中
添加触发器,但不知道要使用什么导入,因为我没有在网上找到它的包。.{“消息”:“初始化源”,“isDataAvailable”:False,“isTriggerActive”:False} 我使用了kafka-python,并且能够读取
流
,但是使用
pyspark<
浏览 14
提问于2022-10-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券