查询在tez上失败,但对先生很好。我们尝试了许多不同的排列和集合组合。无法在tez中成功运行此查询。查询在MR中运行约20分钟,但是tez引擎,我们看到查询在集群中消耗了大量内存,当这个查询运行时,我看到集群上的内存使用量不断上升,在许多节点上达到100%,并且在丢失的节点消息上容器退出导致查询失败。
tmp_track_tempo_category_link_rc is 600 Million rows and less than 10GB size on hdfs
set hive.execution.engine=tez;
DROP TEMPORARY FUNCTION row_ra
我们正在测试Hive和Hadoop来挖掘我们的数据,我安装了一段时间前Hadoop1.2.1和Hive0.11(是稳定的版本)
测试服务器是4核和16 of的ram。
现在,我想知道切换到Hive0.12和Hadoop2.2是否值得在查询性能方面升级服务器?
查询如下:
SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);
所以,在我的查询中使用了一些东西,但是在升级时,我找不到关于性能增益的体面信息。
我正在亚马逊网络服务EC2上运行一个从头开始的集群。我有一个用S3上的数据定义的外部表(分区的)。我可以通过一条简单的select *语句查询这个表并将结果接收到控制台:
hive> set hive.execution.engine=tez;
hive> select * from external_table where partition_1='1' and partition_2='2';
<correct results returned>
运行需要Tez的查询不会将结果返回到控制台:
hive> set hive.exe
我想优化在PRESTO/HIVE上运行的查询的计算时间。我在Redshift上使用的技术之一是提高临时表的效率,如下所示:
BEGIN;
CREATE TEMPORARY TABLE my_temp_table(
column_a varchar(128) encode lzo,
column_b char(4) encode bytedict)
distkey (column_a) -- Assuming you intend to join this table on column_a
sortkey (column_b) -- Assuming you are sorting or gr
下面是我的hive/conf/hive-site.xml:
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://127.0.0.1/metastore?createDatabaseIfNotExist=true</value>
<description>metadata is stored in a MySQL server</desc
我刚刚把我12岁的服务器升级为一个非常快速的新服务器。它是一个专用服务器,戴尔R620 1 x Intel E5-2620 (2.0GHz,6C) CPU 32 my -4×250 my RAID 1,简而言之,在每一种方式上都比我的旧服务器快得多。然而,每当我查询MySql数据库时,响应仍然相当缓慢。
装上任何静电都是闪电般的速度。此外,当我看到我的另一个网站(这个服务器托管两个网站),利用Mongodb,它是快速照明。目前我只使用+- 2.5Gb或32 of中的ram。是否为MySql设置了一些允许它使用更多资源以加快速度的设置?或者,我还能做什么(只处理设置或MySql查询)来加速这个缓
在S3存储桶中写入数据时出现奇怪的错误。我不会经常收到这个错误。所以,不能弄清楚问题到底是什么。仅供参考,我每次都会保持EMR的配置不变。此外,s3存储桶中的文件夹是NOT写保护的。
insert overwrite directory 's3://logs/apr'
select f.cookie,sum(f.pgvw) as pageview, count(distinct(f.cookie)) as visits from
(
SELECT a.cookie,a.session,count(distinct(a.date_time)) as pgvw from
(
我正在尝试创建一个带有hadoop和hive的码头容器。这是我的Dockerfile
FROM ubuntu:latest
USER root
RUN apt-get update
#RUN apt-get -y install default-jre
RUN apt-get install -y python-pip python-dev build-essential
RUN apt-get install -y libmysqlclient-dev
RUN apt-get install -y python-mysqldb
RUN apt-get update && \
对于在生产环境中使用Hadoop,我还是个新手。我使用《独家新闻》将数据库中的大表引入到Hive中。《独家新闻》创建了一个逗号分隔的文本文件,并在Hive中创建了相应的表。
然后我执行了一个create table new_table_orc stored as orc as select * from old_table_csv
由于与ORC (二进制数据、fat表的列数据存储、压缩等)相比,文本文件的效率很低,我预计会有巨大的数量级改进,但查询执行时间似乎根本没有变化!
我在两个版本(text、ORC甚至parquet)上使用了相同的简单查询,并在连接中使用了其中几个表时执行了相同的操作。