腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
写
入时
对
数据
进行
分区
的
自定义
文件格式
apache-spark
您好,我想将我
的
spark
数据
帧保存到一个具有
自定义
文件格式
的
文件中,以便它在写入文件时将
数据
分区
到不同
的
文件中。此外,我需要为每个
分区
关键字
的
单一部分文件。我已经尝试扩展TextBasedFileFormat和change writer来满足我
的
需求。在没有随机写入文件
的
情况下对
数据
进行
分区
。但我觉得每个rdd
分区</
浏览 16
提问于2019-05-29
得票数 0
回答已采纳
1
回答
是否可以使用Pig从HDFS中
的
Parquet表加载
分区
,并将
分区
作为列添加?
apache-pig
、
hdfs
、
database-partitioning
、
parquet
我有一张Impala
分区
表,商店是Parquet。我可以使用Pig从这个表加载
数据
,并将
分区
作为列添加吗?name: chararray,)stored as parquet;但我会收到这样
的
浏览 0
提问于2015-11-11
得票数 0
回答已采纳
1
回答
如何在卡夫卡中均匀分布
数据
,通过火花产生信息?
apache-spark
、
apache-kafka
、
spark-streaming-kafka
我有一个流作业,它将
数据
写入Kafka,我注意到一个Kafka
分区
(#3)比其他
分区
接收更多
的
数据
。6100140089 | 6288410789 |我找到了一个选项--使用Kafka
分区
数重新划分输出
数据
集还有其他方法来平均分配
数据
吗?
浏览 2
提问于2020-05-22
得票数 1
回答已采纳
2
回答
为卡夫卡
写
我们自己
的
定制分割器
java
、
apache-kafka
我需要根据我们
的
钥匙
写
我自己
的
分类器。看起来我们可以
写
我们自己
的
自定义
分区
器。 生产者向他们选择
的
主题发布
数据
。生产者负责选择要分配给主题中
的
哪个
分区
的
记录。这可以以循环
的
方式完成,只需平衡负载,也可以根据某些语义
分区
函数(例如,基于记录中
的
某个键)来完成。更多关于
分区</
浏览 1
提问于2016-10-24
得票数 4
回答已采纳
2
回答
文件格式
转换时维护进出口商
的
解决方案
architecture
、
software-engineering
、
file-format
、
asset-management
在与youtube上
的
Delix就
自定义
数据
存储格式
进行
了非常简短
的
讨论(请参阅下面的链接)之后,我开始思考。当您在游戏开发过程中更改您
的
文件格式
时,有哪些有用
的
方法来维护进出口商?比如使用第一个字节(S)来存储
文件格式
的
版本。然而,这似乎是极其低效
的
。特别是因为您必须编写转换函数来在
文件格式
之间
进行
转换。即v1tov2converter().通常在
写</
浏览 0
提问于2018-08-04
得票数 4
1
回答
带文件扩展名
的
Spark saveAsTextFile
apache-spark
我希望
对
结果
进行
分区
,并将其作为CSV文件保存到指定位置。但是,我没有找到使用以下代码指定
文件格式
的
任何选项。所有文件都是以part-000**格式创建
的
。如何在此处指定所需
的
文件格式
?
浏览 38
提问于2021-09-10
得票数 0
5
回答
谁将有机会首先执行,组合或
分区
?
hadoop
、
mapreduce
、
hadoop-streaming
、
hadoop-partitioning
、
combiners
在阅读了下面关于Hadoop-权威指南第4版(第204页)
的
文章后,我感到困惑。 运行组合器函数可以实现更紧凑
的
映射输出,因此向本地磁盘写入和传输到减速器
的
数据
较少。2)
自定义
组合器和
浏览 3
提问于2015-08-20
得票数 3
回答已采纳
1
回答
从
数据
库重新生成SSAS多维
分区
文件
visual-studio
、
ssas
、
multidimensional-cube
、
ssdt-2019
我有一个ssas多维
数据
集,我想在visual studio上用ssdt创建解决方案。我需要生成多维
数据
集
的
.partations文件。当我从服务器(多维和
数据
挖掘)导入新项目->时,项目被创建,但是.partations文件是空
的
(2ko)
对
这个问题有什么想法吗?
浏览 9
提问于2022-02-24
得票数 0
回答已采纳
1
回答
星火HBase/BigTable -全范围/稀疏
数据
持久化
apache-spark
、
hbase
、
sparse-matrix
、
google-cloud-dataproc
、
google-cloud-bigtable
我想坚持使用BigTable,一个非常宽
的
(>100,000列),它是稀疏填充
的
(>99%
的
值为空),同时只保留非空值(以避免存储成本)。谢谢!
浏览 1
提问于2021-01-09
得票数 2
回答已采纳
1
回答
范围划分时间
数据
Postgres
postgresql
、
query-optimization
、
database-partitioning
当谈到CRUD操作时,我很好奇什么时候更好地对时间序列
数据
进行
范围
分区
,将列上
的
索引用作范围,而不是只在时间上有一个索引。因此,对于一个简单
的
示例,如果您有一个具有三列(time、device_id、value)
的
表: ,在第一种情况下,我按时间对表
进行
分区
,同时按时创建索引。我
的
问题是,在性能(主要是速度)方面,range parition选项与为每个CRUD操作提供索引
的
单块表相比有什么好处?在高层次上,为什么这
浏览 1
提问于2022-06-29
得票数 2
2
回答
oracle如何管理散列
分区
oracle
、
hash
、
partitioning
我理解范围划分
的
概念。如果我有一个日期列,并根据月份
对
该列
进行
分区
,那么如果我
的
查询有一个where子句只过滤了一个月,那么我可以命中特定
的
分区
并获取
数据
,而不会命中整个表。在Oracle文档中,我读到如果像'month‘这样
的
逻辑
分区
不可用(例如,您在名为customer id
的
列上
分区
),那么使用散列
分区
。那么这将如何工作呢?Oracle将随机划分<
浏览 1
提问于2013-08-26
得票数 2
回答已采纳
1
回答
时间
分区
_字段
的
bq告诉我“基于字段
的
分区
支持还不能用于此项目”
google-bigquery
我在用于
分区
的
文档中看到,您可以根据模式中
的
时间戳字段而不是
数据
的
插
入时
间对表
进行
分区
。我本来希望通过使用现有的一个表,导出它
的
数据
,然后用相同
的
模式创建一个新表,并在时间戳字段上
进行
分区
,从而对其
进行
实验,但当我尝试它时,我得到:这是我必须要求为我
的
项
浏览 4
提问于2017-09-28
得票数 0
回答已采纳
2
回答
使用BigQuery存储
写
API实现
对
特定
分区
的
Google存储
google-bigquery
、
google-cloud-dataflow
、
google-bigquery-storage-api
我希望通过使用特定
的
分区
将
数据
存储到BigQuery。
分区
是基于摄取时间
的
。我想使用跨越两年
的
一系列
分区
。我使用
分区
别名目标项目-id:data-set.table-id$
分区
-date。我会遇到失败,因为它确实将目标识别为别名,但作为一个实际
的
表。它支持吗?
浏览 14
提问于2022-09-12
得票数 1
回答已采纳
1
回答
BigQuery :在
自定义
分区
字段上运行时处理
的
数据
google-bigquery
我有一个表,该表按日使用模式中
的
时间戳字段my_partition_field (而不是摄
入时
间_PARTITIONTIME)
进行
分区
。处理
的
数据
量与该字段不是
分区
字段相同。但是,如果有相同
的
表按摄
入时
间
进行
分区
,并且运行以下查询:BigQuery告诉我,“运行该查询时将处理0B”。为什么这两种情况下处理
的</e
浏览 2
提问于2021-10-27
得票数 0
回答已采纳
1
回答
按列
分区
但保持固定
分区
计数
的
有效方法是什么?
apache-spark
、
apache-spark-sql
将
数据
按字段划分为预定义
分区
计数
的
最佳方式是什么?rawJson.write.parquet(filenameParquet) 现在,我想按列'eventName‘
浏览 3
提问于2016-07-30
得票数 10
2
回答
在体积很低(总记录< 50k)
的
情况下如何选择Azure Cosmos中
的
分区
键
azure
、
nosql
、
azure-cosmosdb
、
azure-cosmosdb-sqlapi
我读过微软网站和互联网上
的
所有文件,但大多数都是关于大
数据
的
,但我
的
要求很小。 我在试着保存客户上机
数据
。在客户进入董事会之前,我们为他分配他
的
公司Id和用户Id以及管理角色和默认环境。该公司可以创建多个虚拟环境
进行
测试。例如,Dev1、Stage和Test123等,上机将在环境级别上
进行
。根据
数据
,公司最多可以拥有10到15种环境。在上面的文档中,用户Id只是用来检查哪个用户在环境stg1上开始登录
的
元
数据
浏览 1
提问于2020-05-23
得票数 0
回答已采纳
1
回答
如何使用spring动态跟踪
数据
库更改?
java
、
spring
、
hibernate
、
spring-mvc
、
spring-data
我使用
的
是spring、spring-data、spring-cronjobs和java-mail。我需要立即扫描my-sql
数据
库中
的
表中
的
更改,并向管理员发送有关更改
的
电子邮件。我要做
的
就是运行cronjob来扫描表中
的
所有更改,但这是一个繁重
的
过程,因为表与货币交易相关,并且消耗了大量资源,因此应用程序变得太慢。 那么,有没有更好
的
流程可以让我跟踪
数据
库中的当前更改。例如,如果有任何方法可以在spring中设置
浏览 12
提问于2016-07-28
得票数 5
回答已采纳
1
回答
双安装Xubuntu和Windows 7
installation
、
partitioning
、
windows-7
、
xubuntu
在我
的
电脑上安装了Xubuntu 12.04。后来,我决定双安装Windows 7,打开GParterd,为Windows 7创建一个
分区
,并在NTSF上
对
其
进行
格式化。嗯,当我试图安装Windows 7时,它不识别NTSF
分区
。它声明所有
分区
都是GPT
文件格式
。尽管我已经作为NTSF多次重新设置了该
分区
,但除了GPT文件系统之外,Windows 7仍然无法识别它。我甚至还使用了来格式化该
分区
。如何格式化NTSF中
的
浏览 0
提问于2013-07-24
得票数 0
2
回答
强制Cassandra保存要
分区
到特定节点
的
特定键值。
cassandra
、
replication
、
database-replication
、
database-partitioning
、
partition
如何使用ByteOrderedPartitioner (BOP)强制根据
自定义
需求
对
特定
的
键值
进行
分区
。我想强迫Cassandra根据
自定义
需求来
分区
和复制
数据
,而不引入
自定义
分区
器,我可以在多大程度上控制这种行为,以及如何控制?总体上:我希望以特定ID开头
的
数据
位于预定义节点,因为我知道
数据
将从该节点大量访问。还喜欢要复制到附近节点
的
数
浏览 0
提问于2015-11-26
得票数 0
回答已采纳
2
回答
postgresql在
数据
库之间快速传输表
database
、
postgresql
、
data-warehouse
、
postgresql-9.1
、
database-optimization
我有一个每天
分区
数据
的
postgresql操作
数据
库和一个postgresql
数据
仓库
数据
库。为了快速地将
数据
从操作
数据
库复制到DWH,我希望以最少
的
资源快速地复制表。由于表是按天
进行
分区
的
,因此我认为每个
分区
本身都是一个表。这是否意味着我可以以某种方式在机器之间复制
数据
文件,并使用这些
数据
文件在DWH中创建表?在这种情况下,最
浏览 2
提问于2012-08-29
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hive之HiveQL数据定义
Spark核心编程RDD分区器以及文件读取与保存
日均TB级数据,携程支付统一日志框架
第八篇|Spark SQL百万级数据批量读写入MySQL
Kafka 和 RocketMQ 之性能对比
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券