首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘点13种流行的数据处理工具

Apache Spark是一个大规模并行处理系统,它有不同的执行器,可以将Spark作业拆分,并行执行任务。为了提高作业的并行度,可以在集群中增加节点。Spark支持批处理、交互式和流式数据源。...它支持ANSI SQL标准,该标准很容易学习,也是最流行的技能集。Presto支持复杂的查询、连接和聚合功能。...与Hive或MapReduce不同,Presto在内存中执行查询,减少了延迟,提高了查询性能。在选择Presto的服务器容量时需要小心,因为它需要有足够的内存。...11 Amazon Athena Amazon Athena是一个交互式查询服务,它使用标准ANSI SQL语法在Amazon S3对象存储上运行查询。...Amazon Athena建立在Presto之上,并扩展了作为托管服务的临时查询功能。

2.6K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    即席查询引擎对比:我为什么选择Presto

    它们之间的差别在于,固化查询在系统设计和实施时是已知的我们可以在系统中通过分区、预计算等技术来优化这些查询使这些查询的效率很高,而即席查询是用户在使用时临时生产的,查询的内容无法提前运算和预测。...引擎介绍和对比 这里我根据不同的实现方式把支持即席查询的系统分成了3个类别: 预计算 Kylin:通过建立cube模型,将事实表、维度、度量之间进行各种的排列组合和预计算,用户查询的结果直接从cube中获取...Presto开源社区和生态更加广泛,例如亚马逊的Athena就是使用Presto作为引擎来进行构建的。...Presto注意事项 时间类型 Presto的日期格式化函数与Hive有点不同,比如在Hive中,我们要格式化一个日期 date_format('2016-08-16','yyyyMMdd') Presto...Presto是时间大的放后面,而Hive是时间大的放前面。

    3.9K22

    关于数据湖架构、战略和分析的8大错误认知

    审视现实-数据仓库和数据湖之间的区别 这种必须在数据湖和数据仓库之间二选一的认知错误地限制了讨论的框架。当人们通过询问数据仓库是否过时来开启讨论时,似乎在告知是时候抛弃你的企业级数据仓库。...Spectrum、Presto和Athena解决方案存在的原因。...https://blog.openbridge.com/what-is-facebook-presto-presto-database-or-prestodb-a-powerful-sql-query-engine...▲数仓或SQL查询引擎的典型工作流 正如之前所说的,这和数仓旨在反映既定事务数据的基本前提相矛盾。一个更好的历史数据比较不是在数仓和数据湖之间进行,而是在ODS和数据湖之间进行。...领域性的“Project”: 这种类型的数据湖和“Ephemeral”一样往往集中在特定的知识领域中。然后,和临时“Ephemeral”不同的是,这种数据湖可以持续一段时间。

    1.8K20

    Cube.js 试试这个新的数据分析开源工具

    Cube 旨在与所有支持 SQL 的数据源一起工作,包括像 Snowflake 或 Google BigQuery 这样的云数据仓库、像 Presto 或 Amazon Athena 这样的查询引擎,以及像...2 为什么选择cube.JS SQL。使用纯 SQL 查询对十几个维度的十几个指标进行建模会成为维护的噩梦,这会导致构建建模框架。 性能。...现代分析软件开发中的大部分时间和精力都花在提供足够的时间来洞察力上。在每个公司的数据都是大数据的世界里,仅仅编写 SQL 查询来获得洞察力已经不够了。 访问控制。...Cube.js 构建生产就绪应用程序的两部分系列:第 1 部分:收集和显示事件, 第 2 部分:转换漏斗 4.2 特征 特征 故事 案例 向下钻取 引入向下钻取表 API 演示 比较日期范围 比较不同时间段的数据...目前很多的低代码的兴起和各种BI的开源项目,也为分析提供了很多的便利,但是很多公司为了能够满足自己的个性化的需求,也在寻求在开源的基础上进行二次开发,那么Cube.js也是个不错的选择。

    3.3K20

    【微服务架构】让我们谈谈“拥有”他们的数据的微服务

    前几天我和一位同事讨论了我的微服务将用来公开特定数据集的接口的设计。数据由我的微服务保存在 Elastic Search 中,并根据最终用户将选择的过滤器以不同的形式由 UI 使用和呈现。...将您的数据保存在 S3 中并让消费者使用 Athena/Presto/BigQuery 在其上运行查询怎么样?在这个用例中封装数据发生了什么?...Amazon Athena 就是一个很好的例子,因为它通过多台服务器并行运行您的查询,因此您的数据消费者可以利用 Athena 的强大功能进行快速的大数据查询。有什么选择?...您会在自己的服务中构建类似的功能并通过 Web API 公开它们吗?您将如何通过 Web API 公开丰富的 SQL 语言?GraphQL 能否涵盖 SQL 提供的所有选项?...如果一切都严格通过您的服务进行,则意味着您的开发人员将需要在他们自己的服务中重写这些技术的功能,或者只是在逻辑上降级数据存储的真正底层功能。 总结 您需要在内部和共享之间逻辑划分数据。

    55930

    提升数据分析效率:Amazon S3 Express One Zone数据湖实战教程

    实现概述 技术架构组件 实现步骤概览 第一步:构建数据湖的基础 第二步:选择并查看数据集 第三步:在 Athena 中搭建架构 第四步:数据转换与优化 第五步:查询和验证数据 第六步:将更多数据添加到表...• Amazon Athena:用于查询存储在 S3 Express One Zone 中的数据。 • Amazon Glue:数据目录和 ETL 作业。...:选择并查看数据集 本示例使用 NOAA 全球历史气候网络日报 (GHCN-D)数据,数据存储在 amazon s3 对象存储中,我们只需要拉取即可: aws s3 ls s3://aws-bigdata-blog.../artifacts/athena-ctas-insert-into-blog/ 第三步:在 Athena 中搭建架构 在 Athena 控制台中执行查询。...刚才创建的表有一个日期字段,日期格式为 YYYYMMDD(例如 20100104),新表按年份分区,使用 Presto 函数 substr(“date”,1,4) 从日期字段中提取年份值。

    27810

    关于数据湖架构、战略和分析的8大错误认知(附链接)

    审视现实-数据仓库和数据湖之间的区别 这种必须在数据湖和数据仓库之间二选一的认知错误地限制了讨论的框架。当人们通过询问数据仓库是否过时来开启讨论时,似乎在告知是时候抛弃你的企业级数据仓库。...Spectrum、Presto和Athena解决方案存在的原因。...以Amazon的Athena为例,Athena不是一个数据仓库软件,而是一个基于开源FaceBook Presto开发的按需查询引擎,它将按需提供“计算”资源查询数据作为一项服务来提供。...数仓或SQL查询引擎的典型工作流 正如之前所说的,这和数仓旨在反映既定事务数据的基本前提相矛盾。一个更好的历史数据比较不是在数仓和数据湖之间进行,而是在ODS和数据湖之间进行。...领域性的“Project”:这种类型的数据湖和“Ephemeral”一样往往集中在特定的知识领域中。然后,和临时“Ephemeral”不同的是,这种数据湖可以持续一段时间。

    1.3K20

    下一个风口-基于数据湖架构下的数据治理

    它能提供完全托管的提取、转换和加载 (ETL)服务,可以用来登记、清理和丰富数据,并可以在数据存储之间可靠地移动数据,显著降低创建ETL任务所花费的费用和时间以及其复杂性。...而Amazon Athena是一种交互式查询服务,让您能够轻松使用标准 SQL 直接分析Amazon S3中的数据。...Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准SQL分析Amazon S3中的数据。只需指向存储在 Amazon S3中的数据,定义架构并使用标准SQL开始查询。...同时在中国上线的还有Amazon Athena,它是一种交互式查询服务,让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据。...使用Athena分析Amazon S3中的数据就像编写SQL查询一样简单。Athena使用完整支持标准SQL的Presto,可以处理各种标准数据格式,包括CSV、JSON、ORC和Parquet。

    2.3K50

    各类SQL日期时间处理方法

    使用的SQL多了不知道大家有没这样的困惑,SQL的语法大的方面是一致的,如SELECT,JOIN,GROUP BY等,但是在一些函数或某些特定功能处理上还是有很大差异的,而这些差异经常给大家带来困惑,尤其是一个新手从一种...今天就把大家常用的SQL语言做一个总结,来看看他们在日期时间处理方面的差异。...:'1522128932' 三、计算两个时间相差的天数 hive:selecct datediff(date1,date2) from table1; --计算两个日期之间的天数差值,是拿date1的日期...hive保持一致 mysql:selecct datediff(date1,date2) from table1; --基本与hive的用法一致 说明:有了以上两步日期和时间戳之间的互转,这里求两个日期的时间差值就相对来说比较简单了...备注:以上列出了大家工作中常用的一些SQL在日期处理上的一些差别,可能存在部分不严谨的地方,欢迎大家指出。另外在一些功能上也不限于以上提供的方式,大家如果有更好更简洁的方式也欢迎提出。

    4.6K32

    云上OLAP引擎查询性能评估框架:设计与实现

    为了能够根据自己的业务需求选择合适的 OLAP 引擎,并通过合适的配置使引擎在最佳状态运行,用户需要对当前使用的查询引擎性能进行评估。...举个例子,可以使用如下的 .yaml 配置文件,在 AWS 上启动一主四从的 EC2 集群,并部署 Presto 引擎,指定数据集为 SSB(SF=100)且工作负载满足泊松分布(λ=3.0),工作负载持续时间为...图 3:不同引擎在不同评分模型下,运行均匀查询 10 分钟的性能评分 图 4:在 Presto 和 Kylin 上运行突发高并发分布的性能评分 从图 3 中可以看出,运行均匀查询时,Athena 和...但是,使用不同模型会得到不同的评估结论。当综合考虑查询速度的云上成本时,由于 Athena 直接通过调用服务执行查询,因此云上成本较低,评分也更低。...2、优化工作负载的表达形式,使用户可以根据自己的业务需求,更容易地开发出多样化、具代表性的工作负载。 3、形成更多标准化的评分模型,供不同工作负载之间的横向对比。

    79020

    Hive SQL 常用零碎知识

    日期函数获取当前时间戳unix_timestamp()时间戳转成日期from_unixtime(CAST(timestamp AS INT),'yyyyMMdd')from_unixtime(CAST(...以下是这两个函数的主要区别:CONCAT_WS(With Separator):用于在连接字符串时添加分隔符。您需要提供一个分隔符,并将分隔符应用在一组要连接的字符串之间。...根据所需的输出格式,选择合适的函数以方便地连接字符串。 6. NVL()函数NVL()函数是空值判断函数,空值为NULL的空值。其表达式的值可以是数字型、字符型和日期型。...需要注意的是,DISTRIBUTE BY和SORT BY是Hive中特定的子句,不适用于Presto或Spark SQL。...为了在Presto或Spark SQL中实现类似的局部排序需求,请使用窗口函数(如使用OVER和PARTITION BY子句)。

    89960

    Presto?还是 Hive? 你们知道大数据查询性能谁更强吗?

    由于 Presto 的数据源具有完全解耦、高性能,以及对 ANSI SQL 的支持等特性,使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用...由此可见,即席查询和普通应用查询的最大不同是:普通的应用查询是定制开发的,其查询语句是固定或者限制在一定的变动范围之内的;而即席查询允许用户随意指定或者改变查询语句或者查询条件。...三、实时数据流分析 实时数据流分析主要是指通过 presto-kafka 使用 SQL 语句对 Kafka 中的数据流进行清洗、分析和计算。其在实际使用过程中有以下两种使用场景。..., 若在 Kafka中保留了大量的历史数据, 那么通过 presto-kafka 使用 SQL 语句对 Kafka 中的数据进行分析就会在数据传输上花费大量的时间,从而导致查询效率的降低。...然后在 azkaban 中建立周期性调度任务,在每天凌晨 0 点 0 分准时使用 presto-kafka 将 Kafka 前一天的数据写入到 Hive 的分区表前一天日期对应的分区中,在 Kafka

    2.2K10

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎

    引擎之间、数据源之间所使用的SQL语法存在一定的差异,SuperSQL作为计算平台的入口能够有效屏蔽语法差异做到语法自适应,从而为整合不同的大数据系统组件提供基石。...它能提供一套通用SQL语法,并通过SQL兼容转换功能来实现不同SQL语法之间的转换;做到在用户无需更改SQL语法的前提下实现底层执行引擎的切换,通过一套SQL语法,自动适配不同计算引擎和数据源语法。...03 引擎选择自适应: 智能选择引擎,加速SQL计算 智能引擎选择是自适应智能计算的核心功能之一,作为决策中心,SuperSQL通过组合算法,自动为每条用户SQL,挑选合适的不同类型的计算引擎(如Presto...SuperSQL通过不同的API入参,指定返回记录集的最大行数、起止日期、超时时间等属性,确保检索的实时性能(平均 的SQL类别大都是超大资源占用、海量分区读写、大规模Join等高计算开销类,日均可减少Presto引擎 34TB 的无效内存占用以及 33小时 的无效CPU时间。

    5.1K20

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎 | 文末送书

    引擎之间、数据源之间所使用的 SQL 语法存在一定的差异,SuperSQL 作为计算平台的入口能够有效屏蔽语法差异做到语法自适应,从而为整合不同的大数据系统组件提供基石。...提供一套通用 SQL 语法,并通过 SQL 兼容转换功能来实现不同 SQL 语法之间的转换;做到在用户无需更改 SQL 语法的前提下实现底层执行引擎的切换,通过一套 SQL 语法,自动适配不同计算引擎和数据源语法...SuperSQL 通过不同的 API 入参,指定返回记录集的最大行数、起止日期、超时时间等属性,确保检索的实时性能(平均 < 100ms)。 4....提效判定:分析统计获取的历史记录集,综合执行时间、失败率、引擎分布等数据,对比系统阈值参数,决定是否对当前 SQL 选择使用的某类计算引擎来执行。...HBO 规避的 SQL 类别大都是超大资源占用、海量分区读写、大规模 Join 等高计算开销类,日均可减少 Presto 引擎 34TB 的无效内存占用以及 33 小时 的无效 CPU 时间。

    1.2K10

    我们为什么在 Databricks 和 Snowflake 间选型前者?

    的需求 支持不同类型用户的数据访问需求:包括执行复杂数据转换的高级用户,以及仅是使用 SQL 的基础用户。...除非这两个条件得到满足,否则数据湖就会变成一片沼泽,并在一段时间后开始散发臭味。不符合分析标准的数据湖,就是浪费时间和金钱。”...此外,正如前面提及的 Presto/Trino、AWS Athena 等数据湖查询工具,Snowflake 的单一用途工具并不能解决数据整体上的问题。...图 3 DeNexus 数据平台结构图 Databricks 如何满足需求 支持不同类型用户的数据访问:要使用 SQL 访问数据,必须有人去处理原始数据,并做结构化处理。...Databricks 产品支持执行 Spark、Python、Scala、Java 和 R 等语言,甚至支持 SQL,适用于不同类型的用户。完美!

    1.6K10

    关于Presto避坑的小小指南

    Presto的是什么?优势是什么呢?从官方文档中我们了解到 Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。...千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。 Presto被设计为数据仓库和数据分析产品:数据分析、大规模数据聚集和生成报表。...可考虑将数据按时间段归档到HDFS中,以提高统计效率。 如果需要对业务数据库进行较为实时的统计,而且不需要跨库操作的时候,建议还是直连数据库。...遇到过的问题 如何加快在Presto上的数据统计 很多的时候,在Presto上对数据库跨库查询,例如Mysql数据库。...所以定时归档是一个很好的选择,这里还要注意,在归档的时候我们要选择一个归档字段,如果是按日归档,我们可以用日期作为这个字段的值,采用yyyyMMdd的形式,例如20180123.

    2.2K10

    《F1 Query:大规模数据的声明式查询》读后感

    传统的设计方法都是把计算跟存储尽量绑定在一起的,这种架构在数据量不大的时候是很好的选择,但是当发展到如今这种超大数据规模的时代,这种架构已经不是最优的了;而且 Google 机房内带宽很高,要访问的数据到底在计算节点本地还是在远端几乎没有太大的区别...(我们 Data Lake Analytics 和 AWS的 Athena Glue都有类似的服务)。...不同的数据源之间可以进行关联的JOIN查询,同时借助前面提到的 Catalog Service 来统一管理这些异构数据源的元数据。整个就是一个企业级的大数据库啊,可以看到整个企业里面的所有数据。...比较值得一提的是,F1 Query 的SQL方言跟 Big Query 、Dremel 以及 Spanner SQL 是一样的,这样用户可以在这些系统之间很容易进行迁移 -- 统一是主旋律啊。...在实际过程中,执行时间在一个小时内的查询还是比较可靠的,超过一个小时的查询往往会不停的失败,这种情况下使用 Batch Execution 更好。

    90130

    惊闻Facebook开源大数据引擎Presto团队正在分裂

    对于不熟悉Presto的童鞋来说,下面是Presto的一点背景介绍。Presto是Facebook2012年宣布并且在2013年开源的新一代大数据处理和分析引擎。...云厂商也把Presto包装成云服务,比如说AWS的Athena就是基于Presto的,阿里巴巴的Analytic DB据说也使用了一部分Presto的代码。...而且在开发过程中,优先级总是倾向于Facebook自己需要的东西,而不是社区其他公司需要的东西。如上就是Presto的简介了。...manager Vaughn Washington之间不和,导致的辞职。...这里唯一能够肯定的是,三巨头和领导之间发生了一些什么事情,而整个Presto的社区显然并没有看到多少实质性的内幕。至于StarBurst的站队,显然是利益相关方了。

    1.4K20
    领券