首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2015 Bossie评选:最佳开源大数据工具

Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。...在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。...Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。 11. Hive 随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。...CDAP CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。...应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。

1.5K90

2015 Bossie评选:最佳的10款开源大数据工具

Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。...Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。...在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。...Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。...第11—20名分别是: 引用 Hive、Kylin、CDAP、Ranger、Mesos、NiFi、Kafka、OpenTSDB、Jupyter、Zeppelin。

1.3K100
您找到你想要的搜索结果了吗?
是的
没有找到

大数据技术人员必备工具包,为工作提质增效

Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。...在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。...Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。 11. Hive 随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。...CDAP CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。...应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。

1.3K50

经典收藏丨数据科学家&大数据技术人员工具包

Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。...在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。...Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。 11. Hive 随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。...CDAP CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。...应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。

83020

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。...在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。...Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。 11. Hive 随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。...CDAP CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。...应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。

908110

CDP运营数据库 (COD) 中的事务支持

什么是 CDP 运营数据库 (COD) CDP 运营数据库使开发人员能够快速构建面向未来的应用程序,这些应用程序的架构旨在处理数据演变。...COD 使用事务处理服务 OMID 以及 HBase 和 Phoenix 来归档此事务管理。 COD 还管理支持事务所需的相关配置,以便您无需任何额外工作即可在应用程序中使用事务。...如何在不同的应用程序中使用事务 您可以在流式应用程序或 OLTP(在线事务处理)应用程序以及面向批处理的 Spark 应用程序中使用 COD 事务。...spark 应用程序 如果与其他作业或流应用程序有任何冲突,您可以使用 Phoenix-Spark 连接器事务来重试 Spark 任务。...示例代码的 Git 链接:https://github.com/cloudera/cod-examples/tree/main/phoenix-spark-transactions val tableName

1.3K10

细谈Hadoop生态圈

Spark用于管理文本数据、图形数据等多种数据集的大数据处理,以及数据来源(批量/实时流数据)。Spark允许Hadoop中的应用程序在内存中运行,这比在磁盘上运行快得多。...除了Map和Reduce操作之外,Spark还支持流数据、SQL查询、机器学习和图形数据处理。除此之外,它还减少了维护单独工具的管理问题。...Zookeeper 09 由于主机之间可能发生部分故障,所以很难编写分布式应用程序。Apache Zookeeper就是为了缓解这个问题而开发的。...在任何部分故障时,客户端可以连接到任何节点以接收正确的最新信息。没有管理员,HBase无法运行。ZooKeeper是Apache Phoenix中协调服务的关键组件。...Phoenix与诸如Spark、Flume、Hive、Pig和MapReduce等etl的大数据技术的集成使其成为Hadoop生态系统中受欢迎的一部分。

1.4K30

Hortonworks正式发布HDP3.0

3.Spark的Hive仓库连接器 Hive WarehouseConnector允许你将Spark应用程序与Hive数据仓库连接连接器自动处理ACID表。...5.透明写入Hive仓库 6.Ranger支持Spark-LLAP连接器 深度学习: 1.TensorFlow 1.8(仅供技术预览) 6.流式处理引擎 主要包括Kafka和Storm 1.支持Kafka1.0.1...6.更好的依赖管理 HBase现在内部隐藏了通常不兼容的依赖,以防止出现问题。 你也可以使用隐藏的客户端jars,这将减轻现有应用程序的负担。...Apache Phoenix的新特性 1.HBase2.0支持 2.Phoenix Query服务的Python驱动 这是引入到Apache Phoenix项目的社区驱动程序。...6.Spark 2.3支持Phoenix 对于新的Spark版本提供新的phoenix-spark驱动 7.支持GRANT和REVOKE命令 如果数据表或视图更改了访问权限,它会自动更改索引ACL。

3.4K30

数据湖应用解析:Spark on Elasticsearch一致性问题

Java 堆内存的 OOM 异常是实际应用中最常见的内存溢出异常。...如果是内存泄漏,需要找到持有的对象,修改代码设计,比如关闭没有释放的连接 面试官:说说内存泄露和内存溢出 加送个知识点,三连的终将成为大神~~ 内存泄露和内存溢出 内存溢出(out of memory...简单地说,就是应用程序已经基本耗尽了所有可用内存, GC 也无法回收。...这类场景除了上边的 GCLib 字节码增强和动态语言外,常见的还有,大量 JSP 或动态产生 JSP 文件的应用(远古时代的传统软件行业可能会有)、基于 OSGi 的应用(即使同一个类文件,被不同的加载器加载也会视为不同的类...此类问题比较罕见,通常需要检查代码,确认业务是否需要创建如此大的数组,是否可以拆分为多个块,分批执行。 八、Out of swap space 启动 Java 应用程序会分配有限的内存。

97420

基于HBase和Spark构建企业级数据处理平台

逻辑回归场景比Hadoop快100倍 一站式:Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型,且一个应用中可组合上面多个模型解决场景问题 开发者友好:同时友好支持SQL、Python...数据入库:借助于Spark Streaming,能够做流式ETL以及增量入库到HBase/Phoenix。...在线查询:HBase/Phoenix能够对外提供高并发的在线查询 离线分析及算法:如果HBase/Phoenix的数据需要做复杂分析及算法分析,可以使用Spark的SQL、机器学习、图计算等 典型业务场景...SQL读取 HBase SQL(Phoenix)数据能力 聚焦业务:全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本 原理及最佳实践 Spark API...代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix

89830

基于HBase和Spark构建企业级数据处理平台

逻辑回归场景比Hadoop快100倍 一站式:Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型,且一个应用中可组合上面多个模型解决场景问题 开发者友好:同时友好支持SQL、Python...数据入库:借助于Spark Streaming,能够做流式ETL以及增量入库到HBase/Phoenix。...在线查询:HBase/Phoenix能够对外提供高并发的在线查询 离线分析及算法:如果HBase/Phoenix的数据需要做复杂分析及算法分析,可以使用Spark的SQL、机器学习、图计算等 典型业务场景...SQL读取 HBase SQL(Phoenix)数据能力 聚焦业务:全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本 原理及最佳实践 Spark API...代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix

1.1K20

HBaseSQL及分析-Phoenix&Spark

但无论在NATIVE和SQL上做小数据量分析或者大数据量分析均需解决HBASE的一些根本问题,比如HBASE表数据热点问题,易用性以及适用更多场景。...Key格式不同Global index Row Key格式是另一种形式,因为Global index是存在另一张表中的,并且它可以继承主表的一些属性,比如说主表加的盐,放在格式的最前面可以解决数据的热点问题...,另一方面放在最前面可以解决加盐数据的加码和解码问题。...其中主要应用到了Phoenix的二级索引的功能,通过二级索引做一些多维度的查询和分析。图中显示单表的压缩后最大为80T+,单次查询结果集大。...此外,由于HBase的API和Phoenix的API是不一样的,于是Phoinix社区也做了Spark SQL分析Phoenix表数据的一套插件,其做法和Spark分析HBase的插件是一样的,均是通过实现一套

72010

HadoopSpark生态圈里的新气象

HBase/Phoenix HBase是一种完全可以接受的列式数据存储系统。它还内置到你常用的Hadoop发行版中,它得到Ambari的支持,与Hive可以顺畅地连接。...Impala和Hive之间的最大区别在于,你连接常用的商业智能工具时,“平常事务”会在几秒钟内运行,而不是几分钟内运行。Impala在许多应用场合可以取代Teradata和Netezza。...它还有成熟的代码库;就许多数据科学、机器学习和统计应用而言,它将是首选语言。Scala是Spark的第一选择,也越来越多是其他工具集的第一选择。...值得关注的新技术 我还不会将这些技术应用到生产环境,但是一定要了解它们。...它写得很差劲;要是哪里出了问题,连基本的任务都会变成需要一周才搞得定。由于Nifi及其他工具取而代之,我没指望会大量使用Oozie。 MapReduce:Hadoop的这个处理核心在渐行渐远。

1K50

基于HBase和Spark构建企业级数据处理平台

逻辑回归场景比Hadoop快100倍 一站式:Spark同时支持复杂SQL分析、流式处理、机器学习、图计算等模型,且一个应用中可组合上面多个模型解决场景问题 开发者友好:同时友好支持SQL、Python...数据入库:借助于Spark Streaming,能够做流式ETL以及增量入库到HBase/Phoenix。...在线查询:HBase/Phoenix能够对外提供高并发的在线查询 离线分析及算法:如果HBase/Phoenix的数据需要做复杂分析及算法分析,可以使用Spark的SQL、机器学习、图计算等 典型业务场景...SQL读取 HBase SQL(Phoenix)数据能力 聚焦业务:全托管的Spark服务保证了作业运行的稳定性,释放运维人力,同时数据工作台降低了spark作业管理成本 原理及最佳实践 Spark API...代码托管在:https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix

1.2K20

记一次大数据爬坑

爬坑日记 Scala版本导致的冲突问题 由于Vertx提供的Jar只支持Scala:2.12版本,而本地环境使用的是Scala:2.11,出现下方错误信息之后,猜想是由于Scala版本问题导致,摆在我们面前的有两条路...,在通过GitHub和官网文档中找到了蛛丝马迹,该包是由Scala编写的,就迅速想到了版本号的问题,果不其然,选用的是2.12,马上将Maven文件进行修改,解决了这个问题。...包问题 项目中需要通过使用JDBC的方式连接Phoenix,在Spark项目中使用了如下的依赖实现 org.apache.phoenix</groupId...Phoenix Driver问题 程序启动成功,但在测试Vertx-JDBC连接Phoenix时,出现找不到Driver问题,原来phoenix-client中无法引用到org.apache.phoenix.jdbc.PhoenixDriver.../artifactId> ${phoenix.version} 问题就解决了。

67630

【新书连载】应用无法连接数据库问题分析

既然是应用程序无法访问,那么数据库监听日志应该会有一些相关记录。我继续检查数据库监听日志发现,4日凌晨确实出现了大量的TNS相关错误,如下所示。...带着这样的疑问,我继续检查分析监听日志,发现实际上8月3日也出现了无法连接数据库的情况。 对于Oracle 的错误分析,我给大家的建议都是应该从下往上看,比如下面所列的错误。...这里我简单解释一下上述文档内容的描述,简单地讲就是:Oracle 监听程序尝试去处理客户端到服务器端进程或者调度器(dispatcherprocesses)进程之前的连接时,将客户端进程通信强行中断了。...那么监听程序为什么要终止连接呢?文档解释说有如下几种可能性原因。 1....有没有可能是操作系统本身有问题呢?这里需要注意的是,操作系统本身有问题,并不代表是指的操作系统资源使用有问题,也有可能是Solaris 相关内核参数设置问题

1.4K50
领券