写入时对数据进行分区的自定义文件格式_是否可以按摄入时间对按摄入时间分区的BQ表进行集群？_如何对每个月的数据库表进行分区？ - 腾讯云开发者社区

apache-spark

您好，我想将我的spark数据帧保存到一个具有自定义文件格式的文件中，以便它在写入文件时将数据分区到不同的文件中。此外，我需要为每个分区关键字的单一部分文件。我已经尝试扩展TextBasedFileFormat和change writer来满足我的需求。在没有随机写入文件的情况下对数据进行分区。但我觉得每个rdd分区</

浏览 16提问于2019-05-29得票数 0

回答已采纳

1回答

是否可以使用Pig从HDFS中的Parquet表加载分区，并将分区作为列添加？

apache-pig、hdfs、database-partitioning、parquet

我有一张Impala分区表，商店是Parquet。我可以使用Pig从这个表加载数据，并将分区作为列添加吗？name: chararray,)stored as parquet;但我会收到这样的

浏览 0提问于2015-11-11得票数 0

回答已采纳

1回答

如何在卡夫卡中均匀分布数据，通过火花产生信息？

apache-spark、apache-kafka、spark-streaming-kafka

我有一个流作业，它将数据写入Kafka，我注意到一个Kafka分区(#3)比其他分区接收更多的数据。6100140089 | 6288410789 |我找到了一个选项--使用Kafka分区数重新划分输出数据集还有其他方法来平均分配数据吗？

浏览 2提问于2020-05-22得票数 1

回答已采纳

2回答

为卡夫卡写我们自己的定制分割器

java、apache-kafka

我需要根据我们的钥匙写我自己的分类器。看起来我们可以写我们自己的自定义分区器。生产者向他们选择的主题发布数据。生产者负责选择要分配给主题中的哪个分区的记录。这可以以循环的方式完成，只需平衡负载，也可以根据某些语义分区函数(例如，基于记录中的某个键)来完成。更多关于分区</

浏览 1提问于2016-10-24得票数 4

回答已采纳

2回答

文件格式转换时维护进出口商的解决方案

architecture、software-engineering、file-format、asset-management

在与youtube上的Delix就自定义数据存储格式进行了非常简短的讨论(请参阅下面的链接)之后，我开始思考。当您在游戏开发过程中更改您的文件格式时，有哪些有用的方法来维护进出口商？比如使用第一个字节(S)来存储文件格式的版本。然而，这似乎是极其低效的。特别是因为您必须编写转换函数来在文件格式之间进行转换。即v1tov2converter().通常在写</

浏览 0提问于2018-08-04得票数 4

1回答

带文件扩展名的Spark saveAsTextFile

apache-spark

我希望对结果进行分区，并将其作为CSV文件保存到指定位置。但是，我没有找到使用以下代码指定文件格式的任何选项。所有文件都是以part-000**格式创建的。如何在此处指定所需的文件格式？

浏览 38提问于2021-09-10得票数 0

5回答

谁将有机会首先执行，组合或分区？

hadoop、mapreduce、hadoop-streaming、hadoop-partitioning、combiners

在阅读了下面关于Hadoop-权威指南第4版(第204页)的文章后，我感到困惑。运行组合器函数可以实现更紧凑的映射输出，因此向本地磁盘写入和传输到减速器的数据较少。2)自定义组合器和

浏览 3提问于2015-08-20得票数 3

回答已采纳

1回答

从数据库重新生成SSAS多维分区文件

visual-studio、ssas、multidimensional-cube、ssdt-2019

我有一个ssas多维数据集，我想在visual studio上用ssdt创建解决方案。我需要生成多维数据集的.partations文件。当我从服务器(多维和数据挖掘)导入新项目->时，项目被创建，但是.partations文件是空的(2ko)对这个问题有什么想法吗？

浏览 9提问于2022-02-24得票数 0

回答已采纳

1回答

星火HBase/BigTable -全范围/稀疏数据持久化

apache-spark、hbase、sparse-matrix、google-cloud-dataproc、google-cloud-bigtable

我想坚持使用BigTable，一个非常宽的(>100,000列)，它是稀疏填充的(>99%的值为空)，同时只保留非空值(以避免存储成本)。谢谢！

浏览 1提问于2021-01-09得票数 2

回答已采纳

1回答

范围划分时间数据Postgres

postgresql、query-optimization、database-partitioning

当谈到CRUD操作时，我很好奇什么时候更好地对时间序列数据进行范围分区，将列上的索引用作范围，而不是只在时间上有一个索引。因此，对于一个简单的示例，如果您有一个具有三列(time、device_id、value)的表：，在第一种情况下，我按时间对表进行分区，同时按时创建索引。我的问题是，在性能(主要是速度)方面，range parition选项与为每个CRUD操作提供索引的单块表相比有什么好处?在高层次上，为什么这

浏览 1提问于2022-06-29得票数 2

2回答

oracle如何管理散列分区

oracle、hash、partitioning

我理解范围划分的概念。如果我有一个日期列，并根据月份对该列进行分区，那么如果我的查询有一个where子句只过滤了一个月，那么我可以命中特定的分区并获取数据，而不会命中整个表。在Oracle文档中，我读到如果像'month‘这样的逻辑分区不可用(例如，您在名为customer id的列上分区)，那么使用散列分区。那么这将如何工作呢？Oracle将随机划分<

浏览 1提问于2013-08-26得票数 2

回答已采纳

1回答

时间分区_字段的bq告诉我“基于字段的分区支持还不能用于此项目”

google-bigquery

我在用于分区的文档中看到，您可以根据模式中的时间戳字段而不是数据的插入时间对表进行分区。我本来希望通过使用现有的一个表，导出它的数据，然后用相同的模式创建一个新表，并在时间戳字段上进行分区，从而对其进行实验，但当我尝试它时，我得到：这是我必须要求为我的项

浏览 4提问于2017-09-28得票数 0

回答已采纳

2回答

使用BigQuery存储写API实现对特定分区的Google存储

google-bigquery、google-cloud-dataflow、google-bigquery-storage-api

我希望通过使用特定的分区将数据存储到BigQuery。分区是基于摄取时间的。我想使用跨越两年的一系列分区。我使用分区别名目标项目-id:data-set.table-id$分区-date。我会遇到失败，因为它确实将目标识别为别名，但作为一个实际的表。它支持吗？

浏览 14提问于2022-09-12得票数 1

回答已采纳

1回答

BigQuery :在自定义分区字段上运行时处理的数据

google-bigquery

我有一个表，该表按日使用模式中的时间戳字段my_partition_field (而不是摄入时间_PARTITIONTIME)进行分区。处理的数据量与该字段不是分区字段相同。但是，如果有相同的表按摄入时间进行分区，并且运行以下查询：BigQuery告诉我，“运行该查询时将处理0B”。为什么这两种情况下处理的</e

浏览 2提问于2021-10-27得票数 0

回答已采纳

1回答

按列分区但保持固定分区计数的有效方法是什么？

apache-spark、apache-spark-sql

将数据按字段划分为预定义分区计数的最佳方式是什么？rawJson.write.parquet(filenameParquet) 现在，我想按列'eventName‘

浏览 3提问于2016-07-30得票数 10

2回答

在体积很低(总记录< 50k)的情况下如何选择Azure Cosmos中的分区键

azure、nosql、azure-cosmosdb、azure-cosmosdb-sqlapi

我读过微软网站和互联网上的所有文件，但大多数都是关于大数据的，但我的要求很小。我在试着保存客户上机数据。在客户进入董事会之前，我们为他分配他的公司Id和用户Id以及管理角色和默认环境。该公司可以创建多个虚拟环境进行测试。例如，Dev1、Stage和Test123等，上机将在环境级别上进行。根据数据，公司最多可以拥有10到15种环境。在上面的文档中，用户Id只是用来检查哪个用户在环境stg1上开始登录的元数据

浏览 1提问于2020-05-23得票数 0

回答已采纳

1回答

如何使用spring动态跟踪数据库更改？

java、spring、hibernate、spring-mvc、spring-data

我使用的是spring、spring-data、spring-cronjobs和java-mail。我需要立即扫描my-sql数据库中的表中的更改，并向管理员发送有关更改的电子邮件。我要做的就是运行cronjob来扫描表中的所有更改，但这是一个繁重的过程，因为表与货币交易相关，并且消耗了大量资源，因此应用程序变得太慢。那么，有没有更好的流程可以让我跟踪数据库中的当前更改。例如，如果有任何方法可以在spring中设置

浏览 12提问于2016-07-28得票数 5

回答已采纳

1回答

双安装Xubuntu和Windows 7

installation、partitioning、windows-7、xubuntu

在我的电脑上安装了Xubuntu 12.04。后来，我决定双安装Windows 7，打开GParterd，为Windows 7创建一个分区，并在NTSF上对其进行格式化。嗯，当我试图安装Windows 7时，它不识别NTSF分区。它声明所有分区都是GPT文件格式。尽管我已经作为NTSF多次重新设置了该分区，但除了GPT文件系统之外，Windows 7仍然无法识别它。我甚至还使用了来格式化该分区。如何格式化NTSF中的

浏览 0提问于2013-07-24得票数 0

2回答

强制Cassandra保存要分区到特定节点的特定键值。

cassandra、replication、database-replication、database-partitioning、partition

如何使用ByteOrderedPartitioner (BOP)强制根据自定义需求对特定的键值进行分区。我想强迫Cassandra根据自定义需求来分区和复制数据，而不引入自定义分区器，我可以在多大程度上控制这种行为，以及如何控制？总体上:我希望以特定ID开头的数据位于预定义节点，因为我知道数据将从该节点大量访问。还喜欢要复制到附近节点的数

浏览 0提问于2015-11-26得票数 0

回答已采纳

2回答

postgresql在数据库之间快速传输表

database、postgresql、data-warehouse、postgresql-9.1、database-optimization

我有一个每天分区数据的postgresql操作数据库和一个postgresql数据仓库数据库。为了快速地将数据从操作数据库复制到DWH，我希望以最少的资源快速地复制表。由于表是按天进行分区的，因此我认为每个分区本身都是一个表。这是否意味着我可以以某种方式在机器之间复制数据文件，并使用这些数据文件在DWH中创建表？在这种情况下，最

浏览 2提问于2012-08-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云