开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在Hive中防止无限制的sql？

在Hive中防止无限制的SQL可以通过以下几种方式实现：

访问控制列表（ACL）：Hive提供了基于用户和组的访问控制列表，可以限制用户对数据库、表和列的访问权限。通过配置ACL，可以限制用户只能执行特定的SQL操作，从而防止无限制的SQL。
查询限制：Hive支持配置查询限制，可以限制查询的资源消耗，如查询的最大执行时间、最大返回行数、最大扫描数据量等。通过设置合理的查询限制，可以防止无限制的SQL对系统资源的滥用。
数据权限控制：Hive可以通过列级别的数据权限控制，限制用户对特定列的访问权限。这样可以确保敏感数据只能被授权的用户访问，从而防止无限制的SQL对敏感数据的泄露。
审计日志：Hive可以配置审计日志，记录用户执行的SQL操作。通过监控审计日志，可以及时发现并阻止异常或恶意的SQL操作，保护系统安全。
数据验证：在Hive中，可以使用数据验证工具，如HiveQL或HiveQL UDF，对输入的SQL进行验证。通过验证SQL的语法和语义，可以防止无效或恶意的SQL执行。

腾讯云相关产品推荐：

腾讯云访问管理（CAM）：用于管理和控制用户对云资源的访问权限，可以通过配置访问策略实现对Hive的访问控制。详细信息请参考：腾讯云访问管理（CAM）
腾讯云数据安全产品：提供数据加密、数据脱敏、数据备份等功能，可以保护Hive中的数据安全。详细信息请参考：腾讯云数据安全产品
腾讯云日志服务（CLS）：用于收集、存储和分析日志数据，可以配置Hive的审计日志，并通过日志分析实现对SQL操作的监控和预警。详细信息请参考：腾讯云日志服务（CLS）

相关搜索:Hive SQL中条件概率的窗口函数乘法 Hive SQL查询中Regexp_replace的奇怪行为如何使用Spark SQL识别hive表中的分区列如何在cosmos DB中实现复杂的SQL语句，如JOIN和GROUP BY 如何在Google BigQuery SQL中检查多个模式？(如+ IN)如何在Hive SQL中列出每个类别的前10行如何在Hive SQL中按日期范围独占连接？如何在hive sql中获取每个组的最大row_number()如何在hive中获取字段中的号码？如何在python中编写SQL - WHERE列，如'something%‘？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

微软数据湖架构

一个无限制的数据湖为智能行动提供动力: 存储和分析PB级大小的文件和数以万亿计的对象开发大规模并行程序简单调试和优化您的大数据程序轻松企业级安全，审计和支持在几秒钟内开始，即刻扩展，按工作付费基于YARN，专为云计算而设计 Azure Data Lake包含了使开发人员，数据科学家和分析人员能够轻松存储任何大小，形状和速度的数据，并跨平台和语言进行所有类型的处理和分析所需的所有功能。它消除了摄取和存储所有数据的复杂性，同时使得批处理，流式处理和交互式分析更快速地启动和运行。 Azure Dat

03

Hive 如何快速拉取大批量数据

用hive来做数仓类操作，或者大数据的运算，是没有疑问的，至少在你没有更多选择之前。

06

impala内存超限

Memory limit exceeded: Could not allocate memory while trying to increase reservation.

03

hive动态分区

hive分区可以方便快速定位，查找( 设置分区，可以直接定位到hdfs上相应的文件目录下，避免全表扫描)。 hive分区可以分为静态分区、动态分区，另外静动态分区又都可以分为复合分区和单分区表。下面我们以动态复合分区为例，来记述一下分区的建立。

05

窗口函数为什么更容易出现性能问题？——一个优化案例

我们现在的数据动不动就上百亿，字段动不动就是巨大的json 串，到处是疑难杂症，所以，每天就是拼命的研究这些原理，寻找优化的方法。

02

Mysql大表优化方案

除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：

07

MySQL大表优化方案

当MySQL单表记录数过大时，增删改查性能都会急剧下降，可以参考以下步骤来优化：　　单表优化　　除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：　　字段尽量使用TINYINT、SMALLINT、MEDIUM_INT作为整数类型而非INT，如果非负则加上UNSIGNED VARCHA

06

0840-6.3.4-Aqua Data Studio工具安装及访问安全环境的Hive和Impala

Aqua Data Studio是一款完整IDE的数据库开发工具，它提供3种主要功能：数据查询与管理工具。比对数据工具与源控制和文件系统的整合工具。帮助你创建，编辑和执行 SQL 的管理工具脚本编写，以及浏览和修改数据库组织。对所有主要关系的数据库提供一个一致的界面。这准许数据库主管或者开发者从一个应用程序同时地处理多个的任务。本篇文章主要介绍如何安装 Aqua Data Studio及访问安全环境下的Hive和Impala。

01

0841-7.1.6-Aqua Data Studio工具安装及访问安全环境的Hive和Impala

Aqua Data Studio是一款完整IDE的数据库开发工具，它提供3种主要功能：数据查询与管理工具。比对数据工具与源控制和文件系统的整合工具。帮助你创建，编辑和执行 SQL 的管理工具脚本编写，以及浏览和修改数据库组织。对所有主要关系的数据库提供一个一致的界面。这准许数据库主管或者开发者从一个应用程序同时地处理多个的任务。本篇文章主要介绍如何安装 Aqua Data Studio及访问安全环境下的Hive和Impala。

03

Simple TPU的设计和性能评估

在TPU中的脉动阵列及其实现中介绍了矩阵/卷积计算中的主要计算单元——乘加阵列（上图4），完成了该部分的硬件代码并进行了简单的验证；在神经网络中的归一化和池化的硬件实现中介绍了卷积神经网络中的归一化和池化的实现方式（上图6），同时论述了浮点网络定点化的过程，并给出了Simple TPU中重量化的实现方式，完成了该部分的硬件代码并进行了验证。

02

原生数据湖体系

随着数据量的爆发式增长，数字化转型称为了整个IT行业的热点，数据也开始需要更深度的价值挖掘，因此需要确保数据中保留的原始信息不丢失，从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求情况，于是业界也开始进行不断的产生的计算引擎，以便应对数据时代的到来。在此背景下，数据湖的概念被越来越多的人提起，希望能有一套系统在保留数据的原始信息情况下，又能够快速对接多种不同的计算平台，从而在数据时代占比的先机。

03

大数据架构模式

大数据架构的目的是处理传统数据库系统无法处理的过大或复杂的数据的摄取、处理和分析。

02

如何对CDP中的Hive元数据表进行调优

在日常使用中，我们可以发现在hive元数据库中的TBL_COL_PRIVS，TBL_PRIVS 、PART_COL_STATS表相当大，部分特殊情况下NOTIFICATION_LOG也可能存在问题，如果集群中有关联的操作时会导致元数据库响应慢，从而影响整个Hive的性能，本文的主要目的通过对Hive 的元数据库部分表进行优化，来保障整个Hive 元数据库性能的稳定性。

01

0885-7.1.6-如何对CDP中的Hive元数据表进行调优

作者：唐辉 1.文档编写目的在日常使用中，我们可以发现在hive元数据库中的TBL_COL_PRIVS，TBL_PRIVS 、PART_COL_STATS表相当大，部分特殊情况下NOTIFICATION_LOG也可能存在问题，如果集群中有关联的操作时会导致元数据库响应慢，从而影响整个Hive的性能，本文的主要目的通过对Hive 的元数据库部分表进行优化，来保障整个Hive 元数据库性能的稳定性。测试环境 1.CDP7.1.6 、启用Kerberos 2.元数据版本 MariaDB-5.5.60 2.问题

03

Iceberg 实践 | B 站通过数据组织加速大规模数据分析

交互式分析是大数据分析的一个重要方向，基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验，能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制，对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应，但是在大数据分析的典型场景中，多维分析一般都会带有过滤条件，对于这种类型的查询，尤其是在高基数字段上的过滤查询，理论上可以在读取数据的时候跳过所有不相关的数据，只读取极少部分需要的数据，这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集，而Data Skipping则根据过滤条件在读取时跳过不相干的数据，Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果，从而影响查询的响应时间，对于TB甚至PB级别的数据，如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据，是能否实现交互式分析的体验的关键因素之一。

03

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》。本文主要介绍当集群启用Kerberos和Sentry后，如何实现Spark SQL的权限管理。因为社区版Spark SQL并未做任何权限控制。

02

0643-Spark SQL Thrift简介

这是一个复杂的历史，基本上是一个“忒修斯船”(Ship of Theseus)的故事。最开始的时候，Spark SQL的代码几乎全部都是Hive的照搬，随着时间的推移，Hive的代码被逐渐替换，直到几乎没有原始的Hive代码保留。

03

0828-7.1.4-如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持，参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》，在CDP中，Cloudera给出了新的解决方案Livy Thrift Server，它是对Spark Thrift Server的增强，支持JDBC/Thrift Server，安全与容错。通过Hive Warehouse Connector(HWC)，支持Spark SQL访问Hive3的内表，同时然Spark SQL支持基于Ranger的细粒度授权。本文主要介绍如何在CDP中通过Livy Thrift Server来提交Spark SQL作业。

04

大数据快速入门（09）：永久弄清楚 Hive 分区表和分桶表的区别

蛋蛋和小智今天又在“打情骂俏”，他们今天在谈论分区表和分桶表，走，我们去听听。

09

linux退出hive命令

在使用Hive进行数据查询和操作时，有时候我们需要退出Hive命令行界面。本文将介绍如何在Linux系统中退出Hive命令行。

01

Oracle密码过期如何取消密码180天限制及密码180天过期，账号锁住的问题

3、将密码有效期由默认的180天修改成“无限制”，修改之后不需要重启动数据库，会立即生效

08

Flink SQL 知其所以然（二十五）：基础 DML SQL 执行语义！

以下面的 SQL 为例，我们来介绍下其在离线中和在实时中执行的区别，对比学习一下，大家就比较清楚了

02

如何使用java代码通过JDBC访问Sentry环境下的Hive

在前面的文章Fayson介绍了《如何使用java代码通过JDBC连接Hive(附github源码)》、《如何使用java代码通过JDBC连接Impala(附Github源码)》和《如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive》，关于Hive和Impala如何启用Sentry可以参考Fayson前面的文章《如何在CDH启用Kerberos的情况下安装及使用Sentry(一)》，《如何在CDH启用Kerberos的情况下安装及使用Sentry(二)》和《如何在CDH未启用认证的情况下安装及使用Sentry》，在集群只启用了Sentry的情况下如何访问？本篇文章主要介绍在集群只启用了Sentry后使用Java通过JDBC访问的区别以及在beeline命令行如何访问。

06

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》,《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，《如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql

05

Oracle重置过期的密码

一、由于Oracle 11g在默认的default概要文件中设置了“PASSWORD_LIFE_TIME=180”天导致；

03

0874-7.1.7-如何在CDP集群为Spark3集成Iceberg

1.文档编写目的 Iceberg是一种开放的数据湖表格式，您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用，Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API，在不同的Spark版本中支持的程度也不

04

自助性BI工具：Qlik Sense Enterprise Server

译者：严小鳙，iCDO翻译志愿者。前言：今天我们将为大家介绍一款适合中小企业的自助BI工具。它简单易学，当然同时也存在着局限性。接下来就让我们来详细解读。自助性商业智能（BI）工具Qlik Sense Enterprise Server（文中简写为QSES），其基础版本的使用权限是1,500美元开始（具体的价格分析在这篇文章的末尾）。Qlik是自助性BI工具领域的新手，但增速很快。它有一套丰富的产品和相关联的使用案例，虽然这些案例可能会让你刚开始使用时颇感困惑。 QSES 可以通过网页浏览器在本地PC

07

如何在Hive & Impala中使用UDF

本文档讲述如何开发Hive自定义函数（UDF），以及如何在Impala中使用Hive的自定义函数，通过本文档，您将学习到以下知识：

SparkStreaming如何解决小文件问题

使用sparkstreaming时，如果实时计算结果要写入到HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的，sparkstreaming为每个partition启动一个独立的线程来处理数据，一旦文件输出到HDFS，那么这个文件流就关闭了，再来一个batch的parttition任务，就再使用一个新的文件流，那么假设，一个batch为10s，每个输出的DStream有32个partition，那么一个小时产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，NameNode会因此鸭梨山大。不管是什么格式的文件，parquet、text,、JSON或者 Avro，都会遇到这种小文件问题，这里讨论几种处理Sparkstreaming小文件的典型方法。

03

如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》，本篇文章Fayson主要介绍如何在Kerberos环境下的CDH集群中部署Spark1.6的Thrift Server服务和Spark SQL客户端。内容概述 1.部署Spark Thrift 2.启

04

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何在非Kerberos环境下的CDH集群中部署Spark2.1的T

03

大型仓库进销存管理系统php源代码,多仓版进销存管理系统PHP源码ERP仓库管理系统php网络版进销存源码…

该系统为PHP语言开发开源无限制独家优化版，购货，销货，仓库管理，商品管理，供应商管理，职员管理等非常多的功能。该ERP部署安装非常简单，只要要空间支持PHP上传到根目录就可简单安装就可。运行速度和数据解决效率都非常高，非常适合中小企业仓库管理使用！本系统运行环境 php5.4以下最好是5.2.17或者者5.3.3支持IIS、apache 不支持nginx

01

0506-如何将Hue4.0版本中默认执行引擎设置为Hive而非Impala

在登录Hue后默认加载的为Impala执行引擎，对于那些不使用Impala或者喜欢在Hue中使用Hive进行查询的人，还需要进行切换比较麻烦。本篇文章Fayson主要介绍如何在Hue4.0版中设置默认的SQL执行引擎。

01

php之php.ini配置文件讲解案例

[PHP] ; PHP还是一个不断发展的工具，其功能还在不断地删减 ; 而php.ini的设置更改可以反映出相当的变化， ; 在使用新的PHP版本前，研究一下php.ini会有好处的

00

PHP配置文件详解php.ini

[PHP] ; PHP还是一个不断发展的工具，其功能还在不断地删减 ; 而php.ini的设置更改可以反映出相当的变化， ; 在使用新的PHP版本前，研究一下php.ini会有好处的 ;;;;;;;;;;;;;;;;;;; ; 关于这个文件 ; ;;;;;;;;;;;;;;;;;;; ; 这个文件控制了PHP许多方面的观点。为了让PHP读取这个文件，它必须被命名为 ; 'php.ini'。PHP 将在这些地方依次查找该文件：当前工作目录；环境变量PHPRC ; 指明的路径；编译时指定的路径。 ; 在windows下，编译时的路径是Windows安装目录。 ; 在命令行模式下，php.ini的查找路径可以用 -c 参数替代。 ; 该文件的语法非常简单。空白字符和用分号';'开始的行被简单地忽略（就象你可能 ; 猜到的一样）。章节标题（例如 : [Foo]）也被简单地忽略，即使将来它们可能 ; 有某种的意义。 ; ; 指示被指定使用如下语法： ; 指示标识符 = 值 ; directive = value ; 指示标识符是 *大小写敏感的* - foo=bar 不同于 FOO = bar。 ; ; 值可以是一个字符串，一个数字，一个 PHP 常量 (如： E_ALL or M_PI), INI 常量中的 ; 一个 (On, Off, True, False, Yes, No and None) ，或是一个表达式 ; (如: E_ALL & ~E_NOTICE), 或是用引号括起来的字符串(" foo" ). ; ; INI 文件的表达式被限制于位运算符和括号。 ; | bitwise OR ; & bitwise AND ; ~ bitwise NOT ; ! boolean NOT ; ; 布尔标志可用 1, On, True or Yes 这些值置于开的状态。 ; 它们可用 0, Off, False or No 这些值置于关的状态。 ; ; 一个空字符串可以用在等号后不写任何东西表示，或者用 None 关键字: ; ; foo = ; 将foo置为空字符串 ; foo = none ; 将foo置为空字符串 ; foo = " none" ; 将foo置为字符串'none' ; ; 如果你值设置中使用常量，而这些常量属于动态调入的扩展库（不是 PHP 的扩展，就是 ; Zend 的扩展），你仅可以调入这些扩展的行*之后*使用这些常量。 ; ; 所有在 php.ini-dist 文件里设定的值与内建的默认值相同（这是说，如果 php.ini ; 没被使用或者你删掉了这些行，默认值与之相同）。 ;;;;;;;;;;;;;;;;;;;; ; 语言选项 ; ;;;;;;;;;;;;;;;;;;;; engine = On ; 使 PHP scripting language engine（PHP 脚本语言引擎）在 Apache下有效。 short_open_tag = On ; 允许 tags 将被识别。 asp_tags = Off ; 允许ASP-style tags precision = 14 ; 浮点类型数显示时的有效位数 y2k_compliance = Off ; 是否打开 2000年适应 (可能在非Y2K适应的浏览器中导致问题) output_buffering = Off ; 输出缓存允许你甚至在输出正文内容之后发送 header（标头，包括cookies）行 ; 其代价是输出层减慢一点点速度。你可以使用输出缓存在运行时打开输出缓存， ; 或者在这里将指示设为 On 而使得所有文件的输出缓存打开。 output_handler = ; 你可以重定向你的脚本的所有输出到一个函数， ; 那样做可能对处理或以日志记录它有用。 ; 例如若你将这个output_handler 设为" ob_gzhandler" , ; 则输出会被透明地为支持gzip或deflate编码的浏览器压缩。 ; 设一个输出处理器自动地打开输出缓冲。 implicit_flush = Off ; 强制flush（刷新）让PHP 告诉输出层在每个输出块之后自动刷新自身数据。 ; 这等效于在每个 print() 或 echo() 调用和每个 HTML 块后调用flush()函数。 ; 打开这项设置会导致严重的运行时冲突，建议仅在debug过程中打开。 allow_call_time_pass_reference = On ; 是否让强迫函数调用时按引用传递参数。这一方法遭到抗议， ; 并可能在将来版本的PHP/Zend里不再支持。 ; 受到鼓励的指定哪些参数按引用传递的方法是在函数声明里。 ; 你被鼓励尝试关闭这一选项并确认你的脚本仍能正常工作，以保证在将来版本的语言里 ; 它们仍能工作。（你将在每次使用

01

如何使用java连接Kerberos和非kerberos和kerberos的Spark1.6 ThriftServer

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何使用Java JDBC连接非Kerberos和Kerberos环境下Sp

02

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》，同时Flink也提供了SQL Client的能力，可以通过一种简单的方式来编写、调试和提交程序到Flink集群，而无需编写一行Java或Scala代码。本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。Flink与Hive的集成，主要有如下两个目的：

01

基于Oracle LogMiner的实时采集一、Logminer简介及使用

Oracle LogMiner 是 Oracle 公司从产品 8i 以后提供的一个实际非常有用的分析工具，使用该工具可以轻松获得 Oracle 在线/归档日志文件中的具体内容，特别是该工具可以分析出所有对于数据库操作的 DML 和 DDL 语句。该工具特别适用于调试、审计或者回退某个特定的事务。LogMiner 分析工具实际上是由一组 PL/SQL 包和一些动态视图（ Oracle8i 内置包的一部分）组成，它作为 Oracle 数据库的一部分来发布是 8i 产品提供的一个完全免费的工具。但该工具和其他 Oracle 内建工具相比使用起来显得有些复杂，主要原因是该工具没有提供任何的图形用户界面（ GUI）。

03

PHP 配置文件详解（php.ini 详解 )

这个文件控制了PHP许多方面的观点。为了让PHP读取这个文件，它必须被命名为 'php.ini'。PHP 将在这些地方依次查找该文件：当前工作目录；环境变量PHPRC

03

《Spring实战》摘录 - 19

A: Java命名和目录接口（Java Naming and Directory Interface，缩写JNDI），是Java的一个目录服务应用程序界面（API），它提供一个目录系统，并将服务名称与对象关联起来，从而使得开发人员在开发过程中可以使用名称来访问对象。

02

湖仓一体：基于Iceberg的湖仓一体架构在B站的实践

在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。

01

SparkStreaming如何解决小文件问题

使用sparkstreaming时，如果实时计算结果要写入到HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的，sparkstreaming为每个partition启动一个独立的线程来处理数据，一旦文件输出到HDFS，那么这个文件流就关闭了，再来一个batch的parttition任务，就再使用一个新的文件流，那么假设，一个batch为10s，每个输出的DStrea

03

Oracle11g 账号锁定及密码有效期问题

SQL> alter user test identified by [new password];

03

05-如何为Hive集成AD认证

Fayson在前面的文章《01-如何在Window Server 2012 R2搭建Acitve Directory域服务》、《02-Active Directory安装证书服务并配置》、《03-Active Directory的使用与验证》和《04-如何在RedHat7上配置OpenLDAP客户端及集成SSSD服务和集成SSH登录》，前面完成了AD服务的基本集成接下来就来实现与CDH各个服务的集成。本篇文章Fayson主要介绍Hive与AD集成。

06

【云+社区年度征文】大数据常用技术梳理

从上图我们可以看到, 从事大数据方向可以有很多具体方向的职位. 相较于Java开发, 选择面更加广泛

09

对比Pig、Hive和SQL，浅看大数据工具之间的差异

【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作为数据存储，而以SQL构建前端查询，这说明Hadoop确实需要一种高级的查询语言。为了简化Hadoop的

08

如何在启用Sentry的CDH集群中使用UDF

在前面的文章Fayson介绍过UDF的开发及使用《如何在Hive&Impala中使用UDF》，大多数企业在使用CDH集群时，考虑数据的安全性会在集群中启用Sentry服务，这样就会导致之前正常使用的UDF函数无法正常使用。本篇文章主要讲述如何在Sentry环境下使用自定义UDF函数。

09

如何在Hue中集成配置Hive2.3.3服务

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》，本篇文章主要介绍如何在Hue中集成Hive2.3.3服务。内容概述 1.环境准备 2.配置Hue集成Hive2 3.Hue验证测试环境 1.CM和CDH版本为5.14.3 2.Hive的版本为2.3

06

Java代码连接带kerberos的Impala集群

目前impala的认证方式支持两种：用户名密码和kerberos，由于impala的表数据一般是存在HDFS上的，所以很多时候，impala集群也会开启kerberos的认证，初次新接入Impala的小伙伴，可能会对kerberos比较头疼，这里将通过一个简单的例子来告诉大家，如何在代码中访问带kerberos的impala集群。废话不多说，直接上代码：

03

如何在Hive中生成Parquet表

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 前面Fayson介绍了《如何在Impala中使用Parquet表》，本篇文章主要介绍如何使用Hive来生成Parquet格式的表，并介绍如何限制生成的Parquet文件的大小。内容概述 1.测试数据准备 2.Hive创建Parquet表及验证 3.Paruqet文件跨Block说

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭