腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1487)
视频
沙龙
1
回答
如
何在
python
中将
spark
数据
帧
的
输出
作为
结构化
输出
写入
日志
文件
python
、
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我已经在pyspark中创建了一个
spark
dataframe,我想要将过滤后
的
输出
数据
写入
日志
文件
或文本
文件
。让我们把下面的代码看作df df=
spark
.sql(select * from tbl1) 我希望以下命令
的
输出
为文本
文件
或
日志
文件
df.select("col1").show(5) 我试过下面的方法open(
浏览 27
提问于2020-04-16
得票数 0
1
回答
使用hive优化hive
数据
聚合
apache-spark
、
optimization
、
hive
、
distributed-computing
、
bigdata
我有一个带有followig模式(event_id,country,unit_id,date)
的
hive表(8,000,000条记录),我需要将这些
数据
导出到一个文本
文件
中,满足以下要求:1- event_id2-聚合
的
行必须根据日期进行排序。使用
spark
完成这项工作
的
最佳性能明智解决方案是什么? 注意:这应该是一个批处理作业。
浏览 6
提问于2017-05-05
得票数 0
2
回答
Apache
Spark
当调用repartition($" key ")时,当每个键
的
所有记录
的
大小大于单个分区
的
大小时会发生什么?
scala
、
apache-spark
、
apache-spark-sql
、
apache-spark-sql-repartition
假设我有一个10 c1
的
数据
帧
,其中一个列
的
"c1“对于每条记录都有相同
的
值。每个单独
的
分区最大为128 MB(默认值)。如果是这样,它不会超过每个分区
的
最大大小吗?在这种情况下,重新分区是如何工作
的
?
浏览 34
提问于2021-09-23
得票数 2
回答已采纳
1
回答
jsonPayload (
结构化
日志
)
输出
来自函数
的
日志
记录,以在GCP中创建基于
日志
的
度量
logging
、
google-cloud-platform
、
python
、
google-cloud-functions
我
的
目标是使用字典中
的
键
作为
基于
日志
的
度量
的
标签(参见基于
日志
的
度量标签),以便能够在Grafana中解决这些问题。我需要
日志
中
的
输出
:但是我得到一个textPayload
输出
,下一行是一个字符串: "2022-02-08
结构化</
浏览 0
提问于2022-02-09
得票数 4
回答已采纳
1
回答
如
何在
非实时地使用sql在蜂窝表上进行星火流?
apache-spark
、
hive
、
spark-streaming
、
spark-structured-streaming
我们有一些
数据
(数百万)在蜂箱表中,每天都有。第二天,一旦熬夜摄入完成,不同
的
应用程序就会查询我们
的
数据
(使用sql)。这导致火花驱动程序占用过多内存,我们是否可以使用火花流(或
结构化
流)以管道方式流,而不是收集驱动程序上
的
所有内容,然后发送给客户端
浏览 1
提问于2020-07-12
得票数 0
4
回答
AWS Glue-如何以.txt
文件
的
形式在S3中编写动态框架,并使用'|‘
作为
分隔符
pyspark
、
apache-spark-sql
、
aws-glue
、
aws-glue-spark
我想将动态框架
作为
文本
文件
写入
S3,并使用'|‘
作为
分隔符。 如何修改下面的代码,使Glue将
帧
保存为.txt
文件
,并使用'|‘
作为
分隔符。
浏览 0
提问于2021-04-08
得票数 0
1
回答
使用kafka
的
sbt项目
spark
streaming
scala
、
apache-kafka
、
sbt
、
spark-streaming
、
apache-spark-dataset
以下行出错: val temp: RDD[String] = tRDD.rddscalaVersion := "2.11.8" "org.apache.
spark
" % "
spark
-streaming_2.11" % sparkVersion, "org.apache.
浏览 0
提问于2018-07-14
得票数 1
2
回答
如何将
数据
帧
中
的
数据
存储在变量中,以用作cassandra中select
的
参数?
apache-spark
、
cassandra
、
apache-spark-sql
、
spark-structured-streaming
、
spark-cassandra-connector
我有一个
Spark
结构
的
流媒体应用程序。应用程序从kafka接收
数据
,并且应该使用这些值
作为
参数来处理来自cassandra
数据
库
的
数据
。我
的
问题是,我如何使用输入
数据
帧
(kafka)中
的
数据
,
作为
cassandra中
的
"where“参数"select”,而不会出现以下错误: Exception in thread &qu
浏览 25
提问于2021-05-24
得票数 0
回答已采纳
1
回答
Spark
:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte],Array[Byte])]
scala
、
hadoop
、
apache-spark
我正在使用
spark
读取压缩
文件
这为我提供了RDD[string]形式
的
数据
。如
何在
scala
中将
其转换为RDD[(Array[Byte], Array[Byte])]?我在
spark
上使用terasort。默认情况下,terasort不
写入
压缩
输出
HDFS。classOf[TextOutputFormat[Text
浏览 3
提问于2016-10-26
得票数 0
1
回答
马赛克决策Azure BLOB编写器节点创建多个
文件
mosaic-decisions
我正在使用马赛克决策
数据
流功能从Azure blob读取
文件
,执行一些转换,然后将该
数据
写回Azure。它工作得很好,除了在我给出
的
输出
文件
路径中,它创建了一个
文件
夹,我可以看到许多
文件
的
名称中有一些奇怪
的
“part-000”等。我需要
的
是
输出
位置中
的
一个
文件
--不是很多。
浏览 15
提问于2020-06-18
得票数 2
回答已采纳
1
回答
如何避免/禁用.crc
文件
编写csv
文件
的
火花?
r
、
csv
、
amazon-s3
、
sparklyr
我使用
spark
_write_csv函数将火花
数据
帧
作为
csv
文件
写入
本地
文件
系统。在
输出
目录中,每个部件
文件
有一个.crc
文件
。我正在寻找任何函数或属性
的
Hadoop/火花,以避免生成这些.crc
文件
。flights_tbl<-copy_to(sc,flights,"flights")
spark
_write_csv(flig
浏览 0
提问于2018-07-05
得票数 1
1
回答
如何将火花
输出
链接到Logstash输入
python
、
apache-spark
、
hdfs
、
logstash
、
spark-streaming
我有一个
Spark
流作业,
输出
一些
日志
,这些
日志
目前存储在HDFS中,我想用logstash处理它们。不幸
的
是,虽然hdfs中有一个用于
日志
存储
的
插件,但实际上用它从读取是不可能
的
。我已经搜索了一个链接这两个部分
的
解决方案,但是在
python
的
中,存储某些内容
的
唯一方法是将其
作为
文本
文件
写入
hdfs,所以我必须从hdfs中读取!
浏览 2
提问于2016-07-25
得票数 1
1
回答
如
何在
火花
数据
帧
csv
输出
和UTF-8-BOM编码中添加特殊字符分隔符
csv
、
apache-spark
、
spark-dataframe
、
spark-csv
我必须将我
的
星火
数据
帧
输出
写入
一个csv
文件
中,该
文件
中有一个“\^\\”分隔符。我正试着这样做。df.write.format("csv").option("delimiter", "\\|\\^\\|") 如何添加UTF-8-B
浏览 1
提问于2017-10-04
得票数 0
1
回答
pyspark 2.4.x
结构化
流foreachBatch未运行
pyspark
、
spark-structured-streaming
我正在使用
spark
2.4.0和
python
3.6。我正在开发一个
python
程序与pyspark
结构化
流操作。该程序从两个套接字运行两个readstream读取,然后将这两个流
数据
帧
合并。我尝试了
spark
2.4.0和2.4.3,但什么都没有改变。然后,我执行唯一
的
写流,以便只
写入
一个
输出
流
数据
帧
。这很好用。我把
spark
.scheduler.mode=F
浏览 37
提问于2019-06-15
得票数 1
1
回答
为什么Hadoop选择MapReduce
作为
其计算引擎?
hadoop
我知道MapReduce(MR)是Hadoop
的
三个核心框架之一,我熟悉它
的
mapper-shuffle-reducer进程。我
的
问题可以分为两个部分:2)其他语言(
如
:shell、
python
)
的
计算部分是如何工作
的
?它们
的
计算过程与MR相似吗?
浏览 0
提问于2018-05-30
得票数 0
1
回答
正在将pyspark
数据
帧
写入
文本
文件
apache-spark
、
pyspark
我有一个从sql server中
的
一个表创建
的
pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶中
的
文本
文件
。当我将
数据
帧
写入
文本
文件
时,我将向该
文件
添加另一个头
文件
。这是我
的
动态
数据
框,将保存为
文件
: 202
浏览 0
提问于2021-04-23
得票数 0
1
回答
如何使用bat
文件
记录MySQL错误
mysql
、
winapi
、
error-logging
我在Windows中运行bat
文件
来清理MySQL
数据
库.bat-file只是使用sql-脚本和简单
的
删除-其中操作符。bat
文件
中
的
代码,
如
:"date /T >> cleaner_front.log“将一些有用
的
信息记录到
输出
文件
中。script.sql
文件
中
的
代码如下:选择'14.从表中删除(7天)‘
作为
’_‘;选择NOW();也记录
浏览 6
提问于2014-05-29
得票数 0
1
回答
使用Apache
写入
HDFS时
的
输出
序列
scala
、
hadoop
、
apache-spark
、
rdd
我正在进行apache中
的
一个项目,要求将处理后
的
输出
从
Spark
写入
特定
的
格式,
如
Header -> Data -> Trailer。为了
写入
HDFS,我使用.saveAsHadoopFile方法,并使用密钥
作为
文件
名将
数据
写入
多个
文件
。但是问题是序列
的
数据
是没有维护
的
,
文件
都是
浏览 3
提问于2016-02-25
得票数 0
回答已采纳
1
回答
在palantir foundry中,如
何在
不使用transform或transform_df
的
情况下导入和读取
数据
集?
pyspark
、
palantir-foundry
、
foundry-code-repositories
我想知道有什么方法可以在不使用transform_df或在代码存储库中进行转换
的
情况下导入
文件
。 基本上,我希望从
数据
集中提取
数据
,并以列表
的
形式返回所有值。如果我使用transform或transform_df装饰器,那么在调用返回函数时将无法访问输入
文件
。
浏览 11
提问于2021-08-05
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
关于Hadoop,你该知道的
使用 logzero在Python 中进行简单日志记录
基于Azure 数据湖分析与U-SQL实现大数据查询处理
用Python脚本模仿Hadoop处理大数据
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券