腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(627)
视频
沙龙
4
回答
使用
Spark
生成
拼图
数据文件
用于
测试
Hive
/
Presto
/
Drill
/
等
的
快速
方法
是什么
?
、
、
我经常发现自己需要
生成
拼图
文件来
测试
基础设施组件,如
Hive
、
Presto
、
Drill
等
。令人惊讶
的
是,网上
的
拼花样本数据集很少,我在这里遇到
的
唯一一个https://github.com/Teradata/kylo/tree/master/samples/sample-data/parquet是关于信用卡号码、收入
等<
浏览 42
提问于2019-06-07
得票数 3
回答已采纳
1
回答
如何使火花放电和SparkSQL在星火上执行蜂巢?
、
、
、
、
通过
使用
spark
-shell / pyspark,我还遵循并实现了创建
Hive
表,加载数据,然后正确选择。我想做<
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
6
回答
parquet.io.ParquetDecodingException:无法读取文件中块1中0处
的
值
、
、
、
我已经
使用
saveAsTable
方法
在配置单元中保存了一个远程DB表,现在当我尝试
使用
命令select * from table_name访问配置单元表数据时,它给出了以下错误:Error fetching results: org.apache.
hive
.service.cli.HiveSQLException
浏览 2
提问于2016-06-15
得票数 20
2
回答
大数据存储和查询与传统
的
关系/非关系数据库相比
、
我是一所大型州立大学
的
高级计算机专业,在他们
的
数据科学系担任一家大型上市科技公司
的
实习生。我在学校学过数据结构和算法(地图、树、图、排序算法、搜索算法、MapReduce
等
)。我在MySQL和SQL查询
的
个人项目中也有一些经验。 我
的
实习项目是创建一个仪表板,
用于
显示从Hadoop数据库收集
的
分析数据。我很难理解这些数据是如何构造和查询
的
。存储在Hadoop中
的
数据
是什么
样子
的
?有
浏览 0
提问于2019-06-01
得票数 1
4
回答
如何将Apache
Spark
与Play Framework集成以实时显示预测?
、
、
、
、
我正在用Apache
Spark
做一些
测试
,为我
的
大学期末项目做一些
测试
。我有一个数据集,
用于
生成
决策树,并对新数据进行一些预测。在未来,我想将这个项目
用于
生产,在那里我将
生成
一个决策树(批处理),并通过web界面或移动应用程序接收新数据,对该条目的类别进行预测,并将结果立即通知用户。并在
生成
新
的
决策树(批处理)之后存储这些新条目,并连续重复此过程。尽管Apache
Spark
的
目
浏览 2
提问于2015-05-10
得票数 6
2
回答
AWS胶与EMR Serverless
、
、
、
最近,AWS发布了Amazon (预览版) --一种非常有前途
的
新服务。现在我有一个问题-- AWS胶
的
核心区别
是什么
,以及何时选择而不是Glue?潜在
的
ecosystem,甚至可能是AWS胶水生态系统
的
一部分,
用于
转换层?也许AWS将用EM
浏览 16
提问于2021-12-12
得票数 8
6
回答
使用
拼花文件元数据创建蜂箱表
、
、
、
而且,我想
使用
Hive
来读取这个文件,
使用
的
是来自parquet
的
元数据。' 'org.apache.hadoop.
hive
.ql.io.parquet.MapredParquetInputFormat'LOCATION
浏览 18
提问于2015-11-10
得票数 7
回答已采纳
4
回答
如何控制
拼图
文件在胶水中
的
大小?
、
、
、
connection_options = { }, ) 结果是12个
拼图
文件首先,我不明白为什么Glue/
Spark
在默认情况下不会创建一个大约36MB
的
文件,因为几乎所有的消费软件(
Presto
/Athena,
Spark
)都喜欢大约100MB<e
浏览 2
提问于2019-10-06
得票数 2
2
回答
将星火数据分割成分区,并并行地将这些分区写入磁盘。
、
、
、
问题概要:假设我在AWS中
的
EMR集群上
使用
spark
处理了300+ GB
的
数据。该数据有三个属性,
用于
在
Hive
中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我们
使用
Parquet并不是因为组织上
的
原因。 这种
方法
运行得相当好,并解决了下游团队
使用
Hive
而不是
Spark
看不到由大量文件导致
的
性能问题
的
问题。但是,对于较
浏览 0
提问于2020-05-09
得票数 0
回答已采纳
4
回答
测试
数据库
的
创建:
方法
,重点,有用
的
链接,数据
生成
器,文件存储?
、
、
、
、
作为高级QA,我经常面临一个同样
的
问题:对于我参与
的
每一个项目,我都需要准备/收集/
生成
各种
测试
数据。基本上,我经常花太多
的
时间来准备/收集隔壁房间里已经有“架子上”
的
东西。这就是为什么我希望组织一个集中
的
解决方案,比如网络驱动器或共享,并为整个QA部门提供一组
测试
数据文件
和/或
生成
器。很难维护和保持最新
的
设置:每个团队/ QA都尽力做到最好,因此,
浏览 0
提问于2013-02-08
得票数 10
回答已采纳
2
回答
内存管理火花
、
、
1.)我理解“星火
的
操作人员如果数据不适合内存,就会将数据泄漏到磁盘上,允许它在任何大小
的
数据上运行良好”。如果这是真的,为什么我们会得到OOM (内存中
的
)错误?3.)与
Hive
相比,
Spark
更容易受到OOM
的
影响,因为它在内存中执行操作,
Hive
会重复读取、写入磁盘。对吗?
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
5
回答
与
hive
相比,impala如何提供更快
的
查询响应
、
、
我最近开始研究
使用
Hive
和Impala查询HDFS上
的
大量CSV数据。正如我所期望
的
那样,与
Hive
相比,我
使用
Impala获得了更好
的
响应时间,对于我到目前为止
使用
的
查询。我想知道是否有一些类型
的
查询/用例仍然需要
Hive
,而Impala不太适合。 与
Hive
相比,Impala如何为HDFS上
的
相同数据提供更快
的
查询响应?
浏览 2
提问于2013-05-26
得票数 57
回答已采纳
1
回答
阿夫罗,蜂巢或HBASE -
使用
什么10兆。每天都有记录?
、
、
、
、
我有以下要求:我需要每天处理大约20.000个元素(让我们称之为篮子),这些元素
生成
100到1.000条记录(让我们把它们称为篮子中
的
产品)。这个解决方案是基于Python
的
,我可以
使用
任何Hadoop、、Google等等。我正在阅读很多关于Avro、Parquet、
Hive
、HBASE
等
的
文章。在第一个
测试
中,我
使用
SQL Server和两个表(一个
用于
主要元素,另一个
用于
所有天产生
的</
浏览 4
提问于2022-12-02
得票数 0
回答已采纳
10
回答
如何在Windows中查看文件?
、
、
我找不到关于Apache文件
的
任何简单
的
英文解释。例如: 如何查看拼花文件?任何有关这些问题
的
帮助都将不胜感激。
浏览 1
提问于2018-06-19
得票数 58
回答已采纳
2
回答
大型(Isch)数据集上光线
的
低延迟响应
、
、
、
、
TL;DR背景 我正在开发一个应用程序,它
使用
半大型数据集(熊猫数据集在100‘m到700’m之间),并试图减少每次查询时间。对于我
的
许多查询,数据加载是响应时间
的
大部分。数据集是优化
的
拼图
文件(类别而不是字符串
等
),它只读取所需
的
列。目前,我
使用
了一种天真的
方法
,每次请求加
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
14
回答
覆盖火花数据写入
方法
中
的
特定分区
、
我想要覆盖特定
的
分区,而不是在火花中
的
所有分区。我正在尝试以下命令:其中df是dataframe,具有要覆盖
的
增量数据当我尝试上述命令时,它将删除所有分区,并在hdfs路径上插入df中
的
分区。 我
的
要求是只覆盖在指定hdfs路径上
的
df中
的</em
浏览 62
提问于2016-07-20
得票数 101
回答已采纳
3
回答
对于hadoop来说,java是必需
的
吗?
、
、
、
hadoop的确切用途
是什么
?在hadoop之前有什么?hdfs和gfs有什么区别?多谢各位。
浏览 11
提问于2015-09-06
得票数 1
4
回答
在
Spark
中
使用
Dataframe编写SQL
、
、
、
我是
Spark
世界
的
新手。我目前正在迁移我
的
应用程序
的
摄取代码,其中包括在HDFS中摄取数据,在HDFS中
使用
原始数据和应用层,并执行CDC(变更数据捕获),这是目前在
Hive
查询中编写
的
,并通过Oozie执行。这需要迁移到
Spark
应用程序(当前版本1.6)中。代码
的
另一部分稍后将迁移。在
spark
中,我可以直接从
Hive
中
的
表创建数据格式,只需按原样执行查询(如sqlConte
浏览 1
提问于2017-08-01
得票数 43
回答已采纳
4
回答
hive
、pig、map-reduce用例之间
的
区别
、
、
、
map-reduce、
hive
、pig之间
的
区别我知道在后端,猪和蜂窝都
使用
map -reduces。我知道map-reduce对于程序员、
hive
或pig for sql来说都是很好
浏览 0
提问于2014-10-29
得票数 0
3
回答
Maven下多个spring引导应用程序
的
端到端集成
测试
、
、
、
、
在Spring构建
的
验证阶段,为多个Maven引导应用程序运行端到端集成
测试
的
推荐
方法
是什么
? 基本上,我有一个多模块Maven项目,其中几个模块是单独
的
spring引导应用程序。这些独立
的
应用程序有它们自己
的
数据源配置、与JMS队列
的
集成流
等
。例如,应用程序A将轮询数据库中
的
一个事件,当这种情况发生时,它将
生成
一个JSON
数据文件
,并将消息放入JMS队列。我已经
浏览 2
提问于2015-11-23
得票数 22
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Calcite 动态数据管理框架入门介绍
Presto在滴滴的探索与实践
Presto 在有赞的实践之路
加密谷大数据:大数据全系技术概览
大数据全系技术概览
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券