PySpark和HIVE/Impala

PySpark是一种基于Python的Apache Spark的编程接口，它提供了Python开发者使用Spark进行大规模数据处理和分析的能力。PySpark结合了Python的简洁性和Spark的高性能，使得开发者可以使用Python编写分布式数据处理应用程序。

HIVE和Impala是两种用于大数据处理的SQL查询引擎。它们都可以在Hadoop生态系统中运行，并且提供了类似于传统关系型数据库的SQL查询语言，用于对存储在Hadoop集群中的大规模数据进行查询和分析。

HIVE是基于Hadoop的数据仓库基础设施，它使用类似于SQL的查询语言HQL（Hive Query Language）来查询和分析数据。HIVE将查询转换为MapReduce任务，并将结果存储在Hadoop分布式文件系统（HDFS）中。HIVE适用于需要进行复杂数据分析和处理的场景，例如数据仓库、数据挖掘和商业智能等。

推荐的腾讯云相关产品：

腾讯云EMR（Elastic MapReduce）：腾讯云的大数据处理平台，支持使用PySpark、HIVE和Impala等工具进行数据处理和分析。链接地址：https://cloud.tencent.com/product/emr
腾讯云COS（Cloud Object Storage）：腾讯云的对象存储服务，可用于存储和管理大规模数据。链接地址：https://cloud.tencent.com/product/cos

需要注意的是，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和项目要求进行评估。

页面内容是否对你有帮助？

有帮助

没帮助

如何在CDH 5.4.4上查询星火蜂巢

hadoop、apache-spark、hive、pyspark

我正在运行CDH5.4.4(它将Spark1.3.0捆绑在一起)，并希望将一个Hive表读入Spark dataframe。看一看文档，它表明我们可以做以下工作：sqlContext = HiveContext(sc)我不确定Cloudera的构建是否设置了这些标志。和hive-thriftserver标志

浏览 2提问于2015-07-10得票数 2

1回答

PySpark和HIVE/Impala

hive、pyspark、logistic-regression、impala

我想在PySpark中构建一个分类模型。我对这个模型的输入是select查询的结果，或者是来自Hive或Impala的视图。是否可以将此查询包含在PySpark代码本身中，而不是将结果存储在文本文件中提供给我们的模型

浏览 4提问于2017-02-22得票数 1

4回答

如何使用JDBC将Impala表直接加载到Spark？

jdbc、apache-spark、pyspark、kerberos、impala

我正在尝试用Python编写一个spark作业，它将打开与Impala的jdbc连接，并将视图直接从Impala加载到Dataframe中。这个问题非常接近，但在scala中：export PYSPARK_PYTHON=/home/anave/anaconda2/bin/python export HADOOP_CONF_DIR=/etc/hive/confexport PYSPA

浏览 7提问于2016-09-09得票数 5

1回答

在PySpark中是否有一种使用黑斑羚而不是蜂巢的方法？

pyspark、hive、impala、hue

我正在创建一个简单的PySpark文件，如：from pyspark.sql import SQLContext当我运行这个脚本时，查询会得到我在Hive编辑器中运行时所遇到的错误(它们在Impala编辑器中工作)。有没有办法解决这个问题，这样我就可以使用Impala在脚本中运行这些查询了吗？

浏览 1提问于2020-03-25得票数 0

回答已采纳

1回答

找不到保存到配置单元表的pyspark数据帧

apache-spark、hive、pyspark、cloudera-cdh

使用pyspark创建一个dataFrame，然后将其保存到hive。已在仓库中正确创建该文件，但无法使用show tables在配置单元或impala中找到该文件。但它只显示了以前由spark代码创建的表，这意味着它不能看到通过hive或impala控制台创建的表。所以我认为可能spark代码没有收集到Hive Metastore服务器。但我不知道如何将其设置到Hive Metastore服务器。

浏览 12提问于2019-05-15得票数 0

1回答

删除字段外的引号使appostaphe保持原样

shell、hiveql

我有一个需要加载到Hive Table中的示例文件我需要这样的输出: data，kumar's，big'data，Hive，impala-shell 我只需要外部引号被删除。

浏览 3提问于2017-09-29得票数 1

2回答

PySpark配置单元SQL -未插入数据

python、sql、apache-spark、hive、insert-into

我想插入一些数据，我的表“测试”通过一个pySpark脚本(火种的python)。我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询：于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)：from pyspark import SparkContext from pyspark.sq

浏览 2提问于2018-01-25得票数 0

1回答

如何将Hive表转换为MLlib LabeledPoint？

hadoop、apache-spark、hive、pyspark、apache-spark-mllib

我使用Impala构建了一个包含目标和数百个功能的表。我想用星火MLlib训练一个模特。我理解，为了通过星火运行分布式监督模型，数据需要以几种格式之一。在我看来，LabeledPoint是最直观的。使用PySpark将Hive表转换为标记点的最有效方法是什么？

浏览 1提问于2016-02-23得票数 0

回答已采纳

5回答

与hive相比，impala如何提供更快的查询响应

hadoop、hive、impala

我最近开始研究使用Hive和Impala查询HDFS上的大量CSV数据。正如我所期望的那样，与Hive相比，我使用Impala获得了更好的响应时间，对于我到目前为止使用的查询。我想知道是否有一些类型的查询/用例仍然需要Hive，而Impala不太适合。与Hive相比，Impala如何为HDFS上的相同数据提供更快的查询响应？

浏览 2提问于2013-05-26得票数 57

回答已采纳

2回答

Impala是一个列状群集数据库吗？

hdfs、impala、bigdata、database

我是大数据和相关工具/技术的新手。我在查黑斑羚的资料。说Impala是一个集群柱状数据库是真的吗？而Impala需要大量内存来计算/转换数据？

浏览 4提问于2017-04-28得票数 1

回答已采纳

1回答

Impala分区查询运行缓慢

database、hadoop、hive、cloudera、impala

因此，我试图用列“file”来划分Impala表，该列有1500个不同的记录。这意味着1500个分区。

浏览 1提问于2017-02-07得票数 2

回答已采纳

1回答

在airflow运算符中多次使用jdbc_hook时未找到获取java.lang.RuntimeException:driver类

jdbc、hook、airflow

用例是运行配置单元中的sql列表并更新impala元数据。如下所示，hive和impala的两个方法使用jdbc_hook。按照我调用这些方法的顺序，只有第一个方法运行，第二个方法抛出错误- java.lang.RuntimeException: Class <driver name of hive/impala> notimpala_jdbc_conn: reference to a predefined impala data

浏览 0提问于2020-07-30得票数 0

1回答

使用加载路径加载数据时出错: AccessControlException:由粘滞位拒绝的权限: user=impala

hadoop、impala

-文件在上的位置:hdfs://xxx/user/hive//-中的加载语法:在路径中加载数据‘hdfs://xxx/user/ hive //impala_test’到表im

浏览 0提问于2017-03-17得票数 1

1回答

为LDAP用户调用Impala* shell时挂起*

hadoop、openldap、impala、apache-sentry

我已经使用命令行在TLS6.5上安装了一个带有impala和sentry (CDH5.2)的集群，还设置了openLDAP (不带TLS域)。两者都独立运行，没有任何问题。要为openLDAP配置Hadoop集群，我已经为所有hadoop服务创建了所需的LDAP组，并在core-site.xml和impala配置文件中创建了所需的条目，这些配置文件列出了文档中提到的LDAPimpala-shell完全没有响应，impala日志和LDAP日志都没有响应任何活动。i

浏览 5提问于2015-07-08得票数 0

1回答

Impala创建外部表，由Hive存储

twitter、hbase、flume、impala、flume-ng

因为我不能将我的Impala链接到我的Hbase，所以我不能在我的twitter流上进行查询:/由&#x

浏览 1提问于2014-06-24得票数 1

回答已采纳

1回答

Cloudera Impala是一个内存消耗框架吗？

hadoop、hive、apache-pig、bigdata、impala

我想理解的是CloudEra Impala框架内存密集型，因为它返回结果非常快，而且比hive和Pig快得多。我有一个有2000-3000万条记录的数据集，我执行一个impala查询操作，比如group by和join谢谢！

浏览 4提问于2015-01-13得票数 0

1回答

色调服务错误:无法连接到quickstart.cloudera:21050

cloudera、impala、cloudera-cdh、hue、cloudera-quickstart-vm

我已经在虚拟盒中安装了cloudera-quickstart-VM-5.13.0-VirtualBox。CPU: 3&内存:9000 CPUsudo /home/cloudera/cloudera-manager --force --express在启动色调服务后，当我打开这个url 时，启动hue服务无法连接到quickstart.cloudera:21050 (代码THRIFTTRANSPORT)：TTransportException(“无法连接到Q

浏览 3提问于2019-11-21得票数 0

1回答

为什么顺化中的星火笔记本会报告“网关超时错误504"？

apache-spark、hue、spark-notebook

我使用Hadoop2.2.6迷你集群(1主和3个奴隶)和Ambari 2.1.0和Hue 3.8.1，Ubuntu12.04。List of available types of snippets languages='[{"name": "Scala Shell", "type": "spark"},{"name": "PySparkShell", "type": "py

浏览 3提问于2015-09-16得票数 0

回答已采纳

1回答

如何从hive或impala读取Hbase当前和以前版本的数据？

hadoop、hbase、impala

我想从Hive或Impala.In读取Hbase当前和以前版本的数据。我最初的研究发现，只有当前版本可以从hive访问。那么，目前有没有办法从hive或Impala中检索较旧的版本？

浏览 1提问于2016-05-12得票数 1

1回答

使用Hive和Impala时表文件夹权限问题

hadoop、hive、hdfs、impala

我们正在从Impala创建表，而/user/hive/仓库通过"hive“组拥有组级所有权，因此文件夹权限为impala:hive。drwxrwx--T - impala hive 0 2015-08-24 21:16 /user/hive/warehouse/test1.db drwxrwx--T - impalahiv

浏览 4提问于2015-08-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark和HIVE/Impala

相关·内容

如何在CDH 5.4.4上查询星火蜂巢

PySpark和HIVE/Impala

如何使用JDBC将Impala表直接加载到Spark？

在PySpark中是否有一种使用黑斑羚而不是蜂巢的方法？

找不到保存到配置单元表的pyspark数据帧

删除字段外的引号使appostaphe保持原样

PySpark配置单元SQL -未插入数据

如何将Hive表转换为MLlib LabeledPoint？

与hive相比，impala如何提供更快的查询响应

Impala是一个列状群集数据库吗？

Impala分区查询运行缓慢

在airflow运算符中多次使用jdbc_hook时未找到获取java.lang.RuntimeException:driver类

使用加载路径加载数据时出错: AccessControlException:由粘滞位拒绝的权限: user=impala

为LDAP用户调用Impala* shell时挂起*

Impala创建外部表，由Hive存储

Cloudera Impala是一个内存消耗框架吗？

色调服务错误:无法连接到quickstart.cloudera:21050

为什么顺化中的星火笔记本会报告“网关超时错误504"？

如何从hive或impala读取Hbase当前和以前版本的数据？

使用Hive和Impala时表文件夹权限问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐