使用Spark生成拼图数据文件用于测试Hive/Presto/Drill/等的快速方法是什么？

、、

我经常发现自己需要生成拼图文件来测试基础设施组件，如Hive、Presto、Drill等。令人惊讶的是，网上的拼花样本数据集很少，我在这里遇到的唯一一个https://github.com/Teradata/kylo/tree/master/samples/sample-data/parquet是关于信用卡号码、收入等<

浏览 42提问于2019-06-07得票数 3

回答已采纳

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。我想做<

浏览 0提问于2020-02-23得票数 0

回答已采纳

6回答

parquet.io.ParquetDecodingException:无法读取文件中块1中0处的值

、、、

我已经使用saveAsTable方法在配置单元中保存了一个远程DB表，现在当我尝试使用命令select * from table_name访问配置单元表数据时，它给出了以下错误：Error fetching results: org.apache.hive.service.cli.HiveSQLException

浏览 2提问于2016-06-15得票数 20

2回答

大数据存储和查询与传统的关系/非关系数据库相比

、

我是一所大型州立大学的高级计算机专业，在他们的数据科学系担任一家大型上市科技公司的实习生。我在学校学过数据结构和算法(地图、树、图、排序算法、搜索算法、MapReduce等)。我在MySQL和SQL查询的个人项目中也有一些经验。我的实习项目是创建一个仪表板，用于显示从Hadoop数据库收集的分析数据。我很难理解这些数据是如何构造和查询的。存储在Hadoop中的数据是什么样子的？有

浏览 0提问于2019-06-01得票数 1

4回答

如何将Apache Spark与Play Framework集成以实时显示预测？

、、、、

我正在用Apache Spark做一些测试，为我的大学期末项目做一些测试。我有一个数据集，用于生成决策树，并对新数据进行一些预测。在未来，我想将这个项目用于生产，在那里我将生成一个决策树(批处理)，并通过web界面或移动应用程序接收新数据，对该条目的类别进行预测，并将结果立即通知用户。并在生成新的决策树(批处理)之后存储这些新条目，并连续重复此过程。尽管Apache Spark的目

浏览 2提问于2015-05-10得票数 6

2回答

AWS胶与EMR Serverless

、、、

最近，AWS发布了Amazon (预览版) --一种非常有前途的新服务。现在我有一个问题-- AWS胶的核心区别是什么，以及何时选择而不是Glue？潜在的ecosystem，甚至可能是AWS胶水生态系统的一部分，用于转换层？也许AWS将用EM

浏览 16提问于2021-12-12得票数 8

6回答

使用拼花文件元数据创建蜂箱表

、、、

而且，我想使用Hive来读取这个文件，使用的是来自parquet的元数据。' 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'LOCATION

浏览 18提问于2015-11-10得票数 7

回答已采纳

4回答

如何控制拼图文件在胶水中的大小？

、、、

connection_options = { }, ) 结果是12个拼图文件首先，我不明白为什么Glue/Spark在默认情况下不会创建一个大约36MB的文件，因为几乎所有的消费软件(Presto/Athena，Spark)都喜欢大约100MB<e

浏览 2提问于2019-10-06得票数 2

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

、、、

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我们使用Parquet并不是因为组织上的原因。这种方法运行得相当好，并解决了下游团队使用Hive而不是Spark看不到由大量文件导致的性能问题的问题。但是，对于较

浏览 0提问于2020-05-09得票数 0

回答已采纳

4回答

测试数据库的创建:方法，重点，有用的链接，数据生成器，文件存储？

、、、、

作为高级QA，我经常面临一个同样的问题:对于我参与的每一个项目，我都需要准备/收集/生成各种测试数据。基本上，我经常花太多的时间来准备/收集隔壁房间里已经有“架子上”的东西。这就是为什么我希望组织一个集中的解决方案，比如网络驱动器或共享，并为整个QA部门提供一组测试数据文件和/或生成器。很难维护和保持最新的设置:每个团队/ QA都尽力做到最好，因此，

浏览 0提问于2013-02-08得票数 10

回答已采纳

2回答

内存管理火花

、、

1.)我理解“星火的操作人员如果数据不适合内存，就会将数据泄漏到磁盘上，允许它在任何大小的数据上运行良好”。如果这是真的，为什么我们会得到OOM (内存中的)错误？3.)与Hive相比，Spark更容易受到OOM的影响，因为它在内存中执行操作，Hive会重复读取、写入磁盘。对吗？

浏览 4提问于2020-07-17得票数 0

回答已采纳

5回答

与hive相比，impala如何提供更快的查询响应

、、

我最近开始研究使用Hive和Impala查询HDFS上的大量CSV数据。正如我所期望的那样，与Hive相比，我使用Impala获得了更好的响应时间，对于我到目前为止使用的查询。我想知道是否有一些类型的查询/用例仍然需要Hive，而Impala不太适合。与Hive相比，Impala如何为HDFS上的相同数据提供更快的查询响应？

浏览 2提问于2013-05-26得票数 57

回答已采纳

1回答

我有以下要求:我需要每天处理大约20.000个元素(让我们称之为篮子)，这些元素生成100到1.000条记录(让我们把它们称为篮子中的产品)。这个解决方案是基于Python的，我可以使用任何Hadoop、、Google等等。我正在阅读很多关于Avro、Parquet、Hive、HBASE等的文章。在第一个测试中，我使用SQL Server和两个表(一个用于主要元素，另一个用于所有天产生的</

浏览 4提问于2022-12-02得票数 0

回答已采纳

10回答

如何在Windows中查看文件？

、、

我找不到关于Apache文件的任何简单的英文解释。例如：如何查看拼花文件？任何有关这些问题的帮助都将不胜感激。

浏览 1提问于2018-06-19得票数 58

回答已采纳

2回答

大型(Isch)数据集上光线的低延迟响应

、、、、

TL;DR背景我正在开发一个应用程序，它使用半大型数据集(熊猫数据集在100‘m到700’m之间)，并试图减少每次查询时间。对于我的许多查询，数据加载是响应时间的大部分。数据集是优化的拼图文件(类别而不是字符串等)，它只读取所需的列。目前，我使用了一种天真的方法，每次请求加

浏览 1提问于2020-06-10得票数 1

回答已采纳

14回答

覆盖火花数据写入方法中的特定分区

、

我想要覆盖特定的分区，而不是在火花中的所有分区。我正在尝试以下命令：其中df是dataframe，具有要覆盖的增量数据当我尝试上述命令时，它将删除所有分区，并在hdfs路径上插入df中的分区。我的要求是只覆盖在指定hdfs路径上的df中的</em

浏览 62提问于2016-07-20得票数 101

回答已采纳

3回答

对于hadoop来说，java是必需的吗？

、、、

hadoop的确切用途是什么？在hadoop之前有什么？hdfs和gfs有什么区别？多谢各位。

浏览 11提问于2015-09-06得票数 1

4回答

在Spark中使用Dataframe编写SQL

、、、

我是Spark世界的新手。我目前正在迁移我的应用程序的摄取代码，其中包括在HDFS中摄取数据，在HDFS中使用原始数据和应用层，并执行CDC(变更数据捕获)，这是目前在Hive查询中编写的，并通过Oozie执行。这需要迁移到Spark应用程序(当前版本1.6)中。代码的另一部分稍后将迁移。在spark中，我可以直接从Hive中的表创建数据格式，只需按原样执行查询(如sqlConte

浏览 1提问于2017-08-01得票数 43

回答已采纳

4回答

hive、pig、map-reduce用例之间的区别

、、、

map-reduce、hive、pig之间的区别我知道在后端，猪和蜂窝都使用map -reduces。我知道map-reduce对于程序员、hive或pig for sql来说都是很好

浏览 0提问于2014-10-29得票数 0

3回答

Maven下多个spring引导应用程序的端到端集成测试

、、、、

在Spring构建的验证阶段，为多个Maven引导应用程序运行端到端集成测试的推荐方法是什么？基本上，我有一个多模块Maven项目，其中几个模块是单独的spring引导应用程序。这些独立的应用程序有它们自己的数据源配置、与JMS队列的集成流等。例如，应用程序A将轮询数据库中的一个事件，当这种情况发生时，它将生成一个JSON数据文件，并将消息放入JMS队列。我已经

浏览 2提问于2015-11-23得票数 22

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使火花放电和SparkSQL在星火上执行蜂巢？

parquet.io.ParquetDecodingException:无法读取文件中块1中0处的值

大数据存储和查询与传统的关系/非关系数据库相比

如何将Apache Spark与Play Framework集成以实时显示预测？

AWS胶与EMR Serverless

使用拼花文件元数据创建蜂箱表

如何控制拼图文件在胶水中的大小？

将星火数据分割成分区，并并行地将这些分区写入磁盘。

测试数据库的创建:方法，重点，有用的链接，数据生成器，文件存储？

内存管理火花

与hive相比，impala如何提供更快的查询响应

阿夫罗，蜂巢或HBASE -使用什么10兆。每天都有记录？

如何在Windows中查看文件？

大型(Isch)数据集上光线的低延迟响应

覆盖火花数据写入方法中的特定分区

对于hadoop来说，java是必需的吗？

在Spark中使用Dataframe编写SQL

hive、pig、map-reduce用例之间的区别

Maven下多个spring引导应用程序的端到端集成测试

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐