hive mysql性能优化_mysql性能优化_使用Hive分区表优化join性能 - 腾讯云开发者社区

、、、

我使用Sqoop1.4.6使用import-all-tables选项将数据从MySQL导入到Hive。结果是可以的，但是导入过程本身很慢。例如，其中一个数据库包含40-50个总行数远低于100万行的表，大约需要25到30分钟的才能完成。经过调查，似乎大部分时间都花在初始化每个导入表的Hive上。在同一个数据库上测试一个普通的mysqldump在中完成，在1分钟的下完成。那么问题是如何缩短初始化时间，如果是这样的话，例如使用一个单独的Hive会话？ import命令是： sqoop import-all-tables -Dorg.apache.sqoop.splitter.allow_text_

浏览 15提问于2017-02-15得票数 1

1回答

缩放mysql插入的方法

、、、

我有一个php-cli脚本，它在amazon服务器的crontab上进行+200万mysql查询(使用索引的1/2 select语句、一对varchar(25)、int(5)列的1/2行插入)。脚本本身需要几个小时才能运行。我想把它降到5分钟。我想知道如何扩大行插入以缩短时间？(这个脚本本质上是对一些api数据的前端循环，所以我也在研究如何在每次迭代中分叉脚本((作为一个单独的问题))。我一直在查看mysql集群，但对数据仓库等一无所知。有人知道这里是否是开始寻找的合适地方吗？像Hive/Hadoop这样的东西会更合适吗？ -编辑我是在一个ec2微实例的上下文。我希望迁移到更重的任务实例是

浏览 1提问于2013-10-30得票数 0

回答已采纳

1回答

合唱团表演中的蜂巢大战猪

、、、

我有一些脚本来处理我的网站日志。我已经将这些数据加载到Hive中的多个表中。我每天运行这些脚本来分析流量。最近，我发现我在这些脚本中编写的蜂巢查询花费了太多的时间。早些时候，生成报告通常需要10到15分钟，但现在也要花上几个小时。我对数据进行了分析，数据集大约增长了5-10% . 我的一个朋友建议我，当涉及到加入多个蜂箱表时，Hive是不好的，我应该将我的脚本转换为Pig。与猪相比，蜂巢在加入餐桌方面有问题吗？

浏览 1提问于2013-01-10得票数 1

1回答

hive tez mapr分发查询与tez引擎有问题。

、、

查询在tez上失败，但对先生很好。我们尝试了许多不同的排列和集合组合。无法在tez中成功运行此查询。查询在MR中运行约20分钟，但是tez引擎，我们看到查询在集群中消耗了大量内存，当这个查询运行时，我看到集群上的内存使用量不断上升，在许多节点上达到100%，并且在丢失的节点消息上容器退出导致查询失败。 tmp_track_tempo_category_link_rc is 600 Million rows and less than 10GB size on hdfs set hive.execution.engine=tez; DROP TEMPORARY FUNCTION row_ra

浏览 15提问于2022-02-25得票数 1

1回答

花了太长时间才完成这项工作(洗牌)

、、、、

我正在EMR上运行一个火花作业，并试图将一个大的压缩CSV文件(15 S3 )转换为拼板，但是写到S3需要太长时间。我将R5实例用于主实例(1个实例)和核心实例(3个实例)。这是我的代码： from pyspark.sql import SparkSession from pyspark.sql.functions import col, to_date def main(): spark = SparkSession \ .builder \ .appName("csv-to-parquer-convertor") \

浏览 4提问于2021-12-15得票数 0

4回答

提高配置单元jdbc的性能

、、、、

是否有人知道如何提高配置单元JDBC连接的性能。详细问题：当我从hive CLI查询Hive时，我在7秒内得到了响应，但从HIVE JDBC connection我在14秒后得到了响应。我想知道是否有任何方法(配置更改)可以提高通过JDBC连接进行查询的性能。提前谢谢。

浏览 3提问于2017-06-19得票数 4

2回答

使用Hive清理大数据

、、、

我正在使用Hive查询我拥有的数据。问题是，这些数据需要清理，而且它太大了，我无法尝试在我的计算机上处理它(因此使用Hadoop和Hive)。有没有办法让我用蜂巢做到这一点？我研究了用户定义的函数，但我的理解是它们是逐行操作的，因此可能不是清理数据的最佳方式。谢谢

浏览 1提问于2013-07-16得票数 0

3回答

使用hadoop执行复杂查询

我们有1TB大小的mysql数据库。如果我们执行任何带有多个连接的复杂查询，那么系统将花费大量时间来执行。有人建议，bigdata Hadoop可以解决这个性能问题。您能解释一下如何使用Hadoop集群来实现这一点吗?我需要使用哪些概念，即Apache Hadoop、Sqoop、Spark、Hive？

浏览 2提问于2016-03-02得票数 0

1回答

无法在hive 0.12中使用桶映射连接

、、

我尝试了一些蜂箱优化特性，并遇到了这样的问题:我不能在hive0.12中使用桶映射连接。在我尝试了下面的所有设置之后，只生成了一个哈希表文件，并且这个连接结果只是映射连接。我有两个表，它们都是rcfile格式的，它们都被扣入10个桶中，它们被创建并填充如下(起源数据是从TPC生成的)： hive> create table lsm (l_orderkey int, l_partkey int, l_suppkey int, l_linenumber int, l_quantity double, l_extendedprice double, l_discount double, l

浏览 2提问于2014-03-24得票数 0

回答已采纳

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。但是，有一个值得注意的例外情况，即查询涉及在单个记录级别上基于键的选择。在这种情况下，星火在Tez上比Hive慢得多。在互联网上研究了这个话题之后，我找不到一个令人满意的答案，我想给SO社区举个例子，看看这是一个与我们的环境或数据相关的一次性案例，还是一个更大的与火花相关的模式。火花1.6.1火花控制:执行器2，可执行内存32G，执行器核心4。数据位于内部Hive表中，该表存储为用zlib压缩的OR

浏览 12提问于2016-10-18得票数 2

回答已采纳

2回答

Hadoop / Hive升级性能

、、

我们正在测试Hive和Hadoop来挖掘我们的数据，我安装了一段时间前Hadoop1.2.1和Hive0.11(是稳定的版本) 测试服务器是4核和16 of的ram。现在，我想知道切换到Hive0.12和Hadoop2.2是否值得在查询性能方面升级服务器？查询如下： SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time); 所以，在我的查询中使用了一些东西，但是在升级时，我找不到关于性能增益的体面信息。

浏览 7提问于2014-01-31得票数 0

回答已采纳

2回答

Apache Hive未正确返回YARN应用程序结果

、、、

我正在亚马逊网络服务EC2上运行一个从头开始的集群。我有一个用S3上的数据定义的外部表(分区的)。我可以通过一条简单的select *语句查询这个表并将结果接收到控制台： hive> set hive.execution.engine=tez; hive> select * from external_table where partition_1='1' and partition_2='2'; <correct results returned> 运行需要Tez的查询不会将结果返回到控制台： hive> set hive.exe

浏览 64提问于2019-11-06得票数 3

回答已采纳

2回答

Hive中是否有字符串数据类型的最大大小？

、、

谷歌搜索了一大堆，但没有找到它。或者，这是否意味着只要集群被允许，Hive就可以支持任意大字符串数据类型？如果是这样，我在哪里可以找到我的集群可以支持的字符串数据类型的最大大小？提前感谢！

浏览 1提问于2016-01-27得票数 15

回答已采纳

1回答

在重新启动Hive服务后，Knox无法工作。

、、、

我使用和一些第三方jar文件访问Hive。当出现Hive服务重新启动时，我的连接对象将不允许我在重启后连接到Hive。我的管理团队也需要重新启动亚稳态。然后很少有更多的配置更改，管理团队会这样做-然后我需要删除仙人掌文件，使用Apache再次向仙人掌添加证书。你们中有谁遇到过类似的问题并设法解决了吗？谢谢LNC

浏览 3提问于2020-08-06得票数 0

1回答

是否可以通过编写单独的mapreduce程序来并行执行Hive查询？

、

我已经问了一些关于提高配置单元查询性能的问题。其中一些答案与映射器和缩减程序的数量有关。我尝试使用多个映射器和减法器，但在执行过程中看不到任何差异。不知道为什么，可能是我没有按正确的方式做，或者我错过了其他的东西。我想知道是否可以并行执行配置单元查询？我的确切意思是，通常查询是在队列中执行的。例如: query1 query2 query3 。。。N 它需要太多的时间来执行，我想减少执行时间。我想知道如果我们在Hive JDBC程序中使用mapreduce程序，那么是否可以并行执行它？不知道这是否可行，但这是我要实现的目标吗？我恢复我的问题如下： 1)如果可以并行运行多个hive查询，是

浏览 0提问于2012-05-11得票数 6

回答已采纳

2回答

Spark是否包括用于联接的表流优化？

、

Spark是否包括连接的表流优化，如果是，它如何决定要流哪个表？在进行联接时，Hive假设最后一个表是最大的。作为连接优化，它将尝试缓冲较小的连接表，并将最后一个连接表通过。如果联接列表中的最后一个表不是最大的表，则Hive有/*+ STREAMTABLE(tbl) */提示，它告诉它应该流的表。在1.4.1版本中，Spark不支持STREAMTABLE提示。这个问题已经被要求在Spark，之外进行正常的RDD处理。答案不适用于Spark，因为开发人员无法控制显式缓存操作。

浏览 9提问于2015-08-20得票数 5

回答已采纳

1回答

SparkSQL连接池

、、

DataStax4.6中有4个节点集群，其中包含2个spark、1个solr和1个cassnadra节点。我正在使用java从远程服务器接收请求，请求从远程服务器执行闪烁‘m查询(使用hive上下文)。在这个过程中，每当我连接到触发和使用hivecontext时，查询执行最多需要2分钟。可能是由于蜂巢转移，随着表数的增加，其执行时间增加。有人能提出解决办法吗？对象/连接池是一种方式吗？谢谢

浏览 3提问于2015-03-12得票数 0

2回答

在Presto/Hive SQL上优化临时表

、、、

我想优化在PRESTO/HIVE上运行的查询的计算时间。我在Redshift上使用的技术之一是提高临时表的效率，如下所示： BEGIN; CREATE TEMPORARY TABLE my_temp_table( column_a varchar(128) encode lzo, column_b char(4) encode bytedict) distkey (column_a) -- Assuming you intend to join this table on column_a sortkey (column_b) -- Assuming you are sorting or gr

浏览 43提问于2020-10-16得票数 0

1回答

我对hive和hadoop的性能有什么期望？

、、

我实际上正在尝试用Hadoop实现一个解决方案，在CDH5.0上使用Hive和Yarn。所以我的架构是:1，Namenode 3，DataNode，我在查询1.23亿行，有21列我的节点被2 2vCPU @2.27和8 GO RAM虚拟化所以我尝试了一些请求，得到了一些结果，然后在一个基本的MySQL中尝试了相同的请求，并使用相同的数据集来比较结果。事实上，MySQL比蜂巢快得多。所以我想弄明白为什么。我知道因为我的主人我表现不好。我的主要问题是:我的集群是否具有良好的规模？我是否需要为这个数量的数据添加相同的DataNode (在我看来，这并不是很大的数据)？如果有人尝试使用相同架

浏览 2提问于2014-04-28得票数 0

回答已采纳

1回答

MySQL群集顶部的配置单元层

、、、

免责声明:我是Hadoop和Hive的新手。我们已经设置了一个MySql集群(版本7.2.5)，它存储了大量数据。这些行达到数百万行，并基于Mysql的自动分片逻辑进行分区。尽管我们正在利用集群7.2的自适应查询本地化(AQL)，但我们的一些查询有多个连接，并且需要运行几分钟甚至几个小时。在这种情况下，我可以结合使用Hive和Hadoop来查询数据库和检索数据吗？它会使查询速度更快吗？它是否复制其文件系统中的数据？这种方法的优缺点是什么？我的意图是使用配置单元作为MySQL集群的顶层，并使用它对MySQL集群数据库进行读写。我的应用程序中没有任何事务。那么这真的是可能的吗？

浏览 0提问于2012-05-29得票数 1

回答已采纳

2回答

用HCatalog处理HAWQ/PXF上的蜂巢数据

、、、、

我已经配置了Hortonworks HDP和ambari服务，之后我添加了HAWQ和PXF。通过一些研究，我看到通过HCatalog查询存储在Hive中的数据是可能的，而且由于我已经加载了数据集以进行蜂窝化，这将简化工作，但我正在做一些基准测试，有人能告诉我使用Hcatalog是否会影响HAWQ的性能吗？

浏览 5提问于2017-09-25得票数 0

1回答

如何将shell脚本参数传递给oozie

、、、

我有一个从MySQL to hdfs导入数据的shell脚本，即sqoop shell脚本。我想使用oozie来调度sqoop导入作业。该脚本具有以下sqoop query sqoop import --connect ${domain}:${port}/${database} --username ${username} --password ${password} --query "select * from ${table} where \$CONDITIONS" -m 1 --hive-import --hive-database ${hivedatabase}

浏览 2提问于2017-03-07得票数 1

回答已采纳

1回答

PXF配置单元插件，用于仅选择查询中选定的列

、、

除了配置单元分区筛选之外，是否有一种方法可以只选择查询中使用的列。我有以Hive-ORC格式存储的数据，并使用pxf外部表在HAWQ中执行查询。最大的表存储在Hive中，我们不能在HAWQ中创建另一个数据副本。谢谢-- P.S -在HAWQ 2.0中，查询优化器是否收集外部表的统计数据？

浏览 6提问于2016-09-10得票数 0

1回答

Hadoop、HBase和Hive中的性能问题

、、、

我正在将数据从SQL迁移到Hadoop，其中我也使用了HBase & Hadoop。我已经成功地将数据从SQL导入到Hadoop、HBase和Hive。但问题在于系统的性能。在SQL中，我在5-10分钟内得到了数百万条条目的结果，但是从HBase & Hive获取1000万个数据需要花费大约1小时的时间。有人能帮我提高Hadoop系统的性能吗？

浏览 5提问于2015-11-20得票数 0

回答已采纳

1回答

无法通过更改hive-site.xml以连接spark-HiveContext来运行配置单元

、、、

下面是我的hive/conf/hive-site.xml： <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://127.0.0.1/metastore?createDatabaseIfNotExist=true</value> <description>metadata is stored in a MySQL server</desc

浏览 10提问于2017-11-23得票数 0

4回答

配置单元元存储未创建MYSQL或Derby连接

、、、

配置单元元存储未创建MYSQL或Derby连接。对于Derby schematool -dbType derby -initSchema Metastore connection URL: jdbc:mysql://localhost/metastore Metastore Connection Driver : com.mysql.jdbc.Driver Metastore connection User: hive schematool -dbType derby -info Metastore connection URL: jdbc:mysql://local

浏览 1提问于2014-01-30得票数 1

1回答

基于S3的AWS与硬盘存储服务器的性能比较

、、、

我们有大约10 TB来自客户的数据，这些数据必须使用hive加载和查询，并创建聚合表，这些表必须再次被多次查询。我计划使用AWS S3将10个TB数据存储在一个桶中，并使用EMR查询数据。这是一种可行的方法，还是性能会很差？可以使用哪些替代方法来加快查询速度？

浏览 2提问于2019-07-23得票数 0

回答已采纳

1回答

单元中的元数据错误

、、

我已经将hadoop、hive和MySQL安装在CENT OS的同一台服务器上。我还设置了MySQL，并且用户ID - hive可以通过以下步骤访问数据库。 mysql> CREATE DATABASE metastore; mysql> USE metastore; mysql> SOURCE $HIVE_HOME/scripts/metastore/upgrade/mysql/hive-schema-0.10.0.mysql.sql; mysql> CREATE USER 'hiveuser'@'%' IDENTIFIED BY

浏览 4提问于2015-07-11得票数 0

1回答

与Amazon Elastic Mapreduce中作业的执行速度相关

我的任务是1)最初我想使用SQOOP将数据从MS SQL Server导入HDFS。2)通过Hive我正在处理数据并在一个表中生成结果3)从Hive中包含表的结果再次导出到MS SQL SERVER。我想使用Amazon Elastic Map Reduce执行所有这些操作。我从MS SQL Server导入的数据非常大(一个表中大约有5,000,000个条目。比如wise我有30张桌子)。为此，我在Hive中编写了一个任务，它只包含查询(并且每个查询都在其中使用了大量的连接)。因此，在我的单个本地机器上，性能非常差(大约需要3个小时才能完全执行)。我想尽可能地减少这段时间。为此，我们决

浏览 0提问于2012-05-04得票数 0

2回答

用MSSQL报告Hadoop的可能性

、、、、

我一直在评估azure HDInsight上的Hadoop，以便为我们的报告应用程序找到一个大数据解决方案。这个技术评估的关键部分是I需要与集成，因为这正是我们的应用程序已经使用的。我们非常缺乏开发人员的资源，所以我越能把它变成一个工程练习就越好。到目前为止我尝试过的使用从MSSQL映射到HDInsight上的Hive的ODBC连接。在HDInsight上使用HBASE从MSSQL使用ODBC连接。在天蓝色HDInsight远程桌面上本地使用SPARKQL 我发现HBASE和Hive在我们的报告中使用得慢得多。对于测试数据，我使用了一个60k行的表，发现MSSQL上的

浏览 3提问于2015-06-09得票数 2

1回答

如何在hadoop中执行配置单元查询

、、、、

我想知道像Hadoop这样的分布式系统是如何执行hive查询的。我已经检查了其他问题，但都没有详细解释。我正在寻找完整的执行过程。正如在中一样，我想知道为什么hive join查询比简单的select查询花费更多的时间。任何知道hive执行过程的人，请解释一下。 PS:我使用hortonworks data platform作为Hadoop框架。

浏览 2提问于2017-03-27得票数 1

1回答

以文本文件和oracle表为源的Hive或Pig或performance将提供最佳性能？

、、、、

我有以下的要求和困惑，为高性能选择哪一个。我不是java开发人员。我对蜂巢，猪和Python感到安慰。我正在使用HDP2.1与tez引擎。数据源是文本文件(80 GB)和Oracle表(15 GB)。两者都是结构化数据。我听说Hive将套件的结构数据和Python减少流的概念，也将有较高的性能比蜂箱和猪。请澄清。我正在使用Hive，原因是：需要基于一列连接这两个源。使用ORC格式表存储连接结果，因为数据大小很大文本文件名将用于生成一个输出列，并已在虚拟列概念input__file__name字段中执行。 join之后，需要对每一行执行一些算术操作，并通过python完

浏览 2提问于2015-04-10得票数 2

1回答

如何查询hive中的具体存储桶数据

、

我在hive中创建了一个分桶的表，其模式如下： CREATE TABLE Songs_data_bucket ( Song_id STRING, artist_id STRING, album_name STRING, song_views INT, song_rating FLOAT) CLUSTERED BY(song_rating) INTO 4 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'; 在这里，对song_rating列进行了分类

浏览 77提问于2020-04-23得票数 0

1回答

创建由一个/多个列分区的BigQuery外部表

、

我正在将一个java应用程序从Hadoop/Hive移植到Google /BigQuery。应用程序将avro文件写入hdfs，然后在文件之上创建一个/多个分区的Hive外部表。据我所知，Big目前只支持日期/时间戳分区，不支持嵌套分区。我们现在处理hive的方式是生成ddl，然后使用rest调用执行它。我在BigQuery docs中找不到对创建外部表的支持，所以我转而使用java库。我设法创建了一个外部表，但在传递给调用的参数中找不到对分区的任何引用。下面是我使用的代码片段： .... ExternalTableDefinition extTableDef = ExternalTab

浏览 0提问于2018-08-17得票数 0

回答已采纳

1回答

使用hive的mysql连接错误

、、、、

当我试图将mysql (从hadoop-2.5.1集群中的datanode )远程连接到hive时，它抛出了errot：由:java.sql.SQLException引起:无法打开到给定数据库的测试连接。JDBC url =jdbc:mysql://192.168.4.43:3306/亚稳态？createDatabaseIfNotExist=true，用户名= root。终止连接池。原始异常：- java.sql.SQLException: null，服务器消息：“主机'ravi‘不允许连接到com.mysql.jdbc.SQLError.createSQLException(SQ

浏览 2提问于2014-11-17得票数 0

1回答

慢速MySql服务器-即使在超级快速服务器上

、

我刚刚把我12岁的服务器升级为一个非常快速的新服务器。它是一个专用服务器，戴尔R620 1 x Intel E5-2620 (2.0GHz，6C) CPU 32 my -4×250 my RAID 1，简而言之，在每一种方式上都比我的旧服务器快得多。然而，每当我查询MySql数据库时，响应仍然相当缓慢。装上任何静电都是闪电般的速度。此外，当我看到我的另一个网站(这个服务器托管两个网站)，利用Mongodb，它是快速照明。目前我只使用+- 2.5Gb或32 of中的ram。是否为MySql设置了一些允许它使用更多资源以加快速度的设置？或者，我还能做什么(只处理设置或MySql查询)来加速这个缓

浏览 0提问于2014-04-04得票数 0

1回答

导入mysql时sqoop会自动创建配置单元表注释吗？

、、、

现在，我知道我可以使用--hive-import选项来告诉hive在hive中自动创建表，但是hive中自动创建的表不包含mysql表中的注释。有没有办法在hive表和mysql表之间同步注释？准确地说，我有以下mysql表： CREATE TABLE `orders` ( `current_day` varchar(11) NOT NULL DEFAULT '' COMMENT 'order day', `total` int(11) unsigned NOT NULL COMMENT 'total order' ); 我使用以下命

浏览 11提问于2015-05-25得票数 0

1回答

执行错误，从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码%2

、、、

在S3存储桶中写入数据时出现奇怪的错误。我不会经常收到这个错误。所以，不能弄清楚问题到底是什么。仅供参考，我每次都会保持EMR的配置不变。此外，s3存储桶中的文件夹是NOT写保护的。 insert overwrite directory 's3://logs/apr' select f.cookie,sum(f.pgvw) as pageview, count(distinct(f.cookie)) as visits from ( SELECT a.cookie,a.session,count(distinct(a.date_time)) as pgvw from (

浏览 0提问于2013-07-15得票数 3

1回答

使用Sqoop从MySql导入配置单元

、、

sqoop import --connect jdbc:mysql://mysql.example.com/i --username root --password root --table Student --hive-home /user/hive/warehouse --hive-import --create-hive-table --hive-table databasename.tablename -m 1 配置单元表名为'tab1‘和数据库为'abc’中未显示任何数据。MySQL数据库名称inst和表名stu。

浏览 1提问于2018-04-08得票数 0

1回答

在命令“显示数据库”后出错；

、、、、

嗨，我是hadoop的初学者，我刚刚安装了hive2.3.7，并根据本教程和这个用mysql安装了亚稳态。这是我的hdfs-site.xml文件 <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true</value> <description>metadata is

浏览 5提问于2020-12-17得票数 1

1回答

在单元配置上应用授权策略时出错:无法创建目录${system:java.io.tmpdir}\${hive.session.id}_resources

、、

我在windows上运行Hadoop 3.0.0-alpha1，并将Hive 2.1.1添加到其中。当我试图使用hive命令打开蜂巢时，我会得到一个错误： Error applying authorization policy on hive configuration: Couldn't create directory ${system:java.io.tmpdir}\${hive.session.id}_resources 出什么事了？我运行mysql作为Hive的亚稳态，并在HDFS中添加了所需的文件： hadoop fs -mkdir /user/hive hadoop

浏览 0提问于2017-03-09得票数 4

1回答

蜂巢地图-连接配置神秘

、、、、

有谁能清楚地解释一下 hive.auto.convert.join 和 hive.auto.convert.join.noconditionaltask 配置参数？另外，这些相应的大小参数： hive.mapjoin.smalltable.filesize 和 hive.auto.convert.join.noconditionaltask.size 我的观察是当在Tez上运行时，Map可以在hive.auto.convert.join.noconditionaltask.size设置为足够高的值时工作，即使设置的hive.mapjoin.smalltable.filesize小于小型表的大

浏览 4提问于2019-02-16得票数 6

回答已采纳

1回答

用吡火花修改蜂箱表后的模式错误

、、、

我在单元格中有一个名为test的表，其中列为id和name 现在，我在单元格中有另一个表，名为mysql，列为id、name和city。现在，我想比较这两个表的模式，并将列差异添加到test表中。 hive_df= sqlContext.table("testing.test") mysql_df= sqlContext.table("testing.mysql") hive_df.dtypes [('id', 'int'), ('name', 'string')] mysql_df.dt

浏览 4提问于2017-03-23得票数 2

回答已采纳

2回答

胞:无法连接到Docker内部的SQL

、、、、

我正在尝试创建一个带有hadoop和hive的码头容器。这是我的Dockerfile FROM ubuntu:latest USER root RUN apt-get update #RUN apt-get -y install default-jre RUN apt-get install -y python-pip python-dev build-essential RUN apt-get install -y libmysqlclient-dev RUN apt-get install -y python-mysqldb RUN apt-get update && \

浏览 0提问于2019-03-27得票数 3

回答已采纳

1回答

在导入mysql数据时，我遇到了一些sqoop问题

、、

我使用sqoop导入mysql数据： sqoop-import-all-tables --connect jdbc:mysql://ip/'database'--username "username" --password **** --hive-import --hive-database 'database '--create-hive-table --as-parquetfile 它显示： Hive import and create hive table is not compatible with importing into Parq

浏览 1提问于2019-10-30得票数 0

2回答

配置单元中的增量更新

、、、

我有一个源MySql表。出于分析目的，我必须将数据导出到Hive。最初，当MySQL中的数据较小时，使用Sqoop将Mysql数据完全导出到Hive不是问题。现在，随着我的数据大小的增长，我如何将MySql数据增量更新到hive？

浏览 0提问于2016-05-03得票数 0

1回答

从HDFS到ES的数据加载需要很长时间

、、、

我已经在hive中创建了一个外部表，并且需要将数据移动到ES (2个节点，每个节点有1TB)。下面的常规查询需要很长时间(超过6个小时)来查询一个包含9GB数据的源表。 INSERT INTO TABLE <ES_DB>.<EXTERNAL_TABLE_FOR_ES> SELECT COL1, COL2, COL3..., COL10 FROM <HIVE_DB>.<HIVE_TABLE>; ES索引具有默认的5个碎片和1个副本。增加碎片的数量是否能加速摄入？有人能提出改进，以加快ES节点的摄入。

浏览 4提问于2019-03-12得票数 2

回答已采纳

2回答

使用spark从远程hive2服务器获取表时出错

、、

我正在尝试使用下面的代码从远程hive2服务器上使用spark访问表： import org.apache.spark.SparkContext, org.apache.spark.SparkConf, org.apache.spark.sql._ import com.typesafe.config._ import java.io._ import org.apache.hadoop.fs._ import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql.Row import org.apache.spar

浏览 2提问于2017-06-15得票数 0

回答已采纳

1回答

在蜂巢中，Orc不比csv快吗？

、、

对于在生产环境中使用Hadoop，我还是个新手。我使用《独家新闻》将数据库中的大表引入到Hive中。《独家新闻》创建了一个逗号分隔的文本文件，并在Hive中创建了相应的表。然后我执行了一个create table new_table_orc stored as orc as select * from old_table_csv 由于与ORC (二进制数据、fat表的列数据存储、压缩等)相比，文本文件的效率很低，我预计会有巨大的数量级改进，但查询执行时间似乎根本没有变化！我在两个版本(text、ORC甚至parquet)上使用了相同的简单查询，并在连接中使用了其中几个表时执行了相同的操作。

浏览 0提问于2017-11-22得票数 4

3回答

使用Sqoop从MySQL导入到Hive

、、、、

我必须通过Sqoop从MySQL表(具有复合主键)导入>4亿行到分区的Hive表单元中。该表有两年的数据，列出发日期为20120605至20140605，一天有数千项记录。我需要根据出发日期来划分数据。版本如下： Apache Hadoop - 1.0.4 Apache Hive - 0.9.0 Apache sqoop-1.4.2.bin__hadoop-1.0.0 据我所知，有三种方法： MySQL ->非分区Hive表->从非分区的Hive表插入到已分区的Hive表中 MySQL ->分区Hive表 MySQL ->非分区Hive表->更

浏览 3提问于2013-06-27得票数 1