首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

大数据:Trino简介及ETL场景的解决方案

Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询,也就是我们常说的 Ad-Hoc Query,很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越来越复杂,除了交互式查询场景,很多公司也需要批处理;但是 Presto 作为一个 MPP 计算引擎,将一个 MPP 体系结构的数据库来处理海量数据集的批处理是一个非常困难的问题,所以一种比较常见的做法是前端写一个适配器,对 SQL 进行预先处理,如果是一个即时查询就走 Presto,否则走 Spark。这么处理可以在一定程度解决我们的问题,但是两个计算引擎以及加上前面的一些 SQL 预处理大大加大我们系统的复杂度。

01

用 await/async 正确链接 Javascript 中的多个函数[每日前端夜话0xAF]

在我完成 electrade【https://www.electrade.app/】 的工作之余,还帮助一个朋友的团队完成了他们的项目。最近,我们希望为这个项目构建一个 Craiglist 风格的匿名电子邮件中继,其中包含 “serverless” Google Firebase Function(与 AWS Lambda,Azure Function 等相同)。到目前为止,我发现用 .then() 回调处理异步操作更容易思考,但是我想在这里用 async/await,因为它读起来更清晰。我发现大多数关于链接多个函数的文章都没有用,因为他们倾向于发布从MSDN 复制粘贴的不完整的演示代码。在 async/await 上有一些难以调试的陷阱,因为我遇到了所有这些陷阱,所以我将在这里发布自己的完整代码并解释我的学习过程。

03

Phoenix index 二级索引

一、索引的创建 通过二级索引,索引的列或表达式形成一个备用行键,以允许沿着这个新轴进行点查找和范 围扫描。 (1)覆盖索引 覆盖索引,一旦找到索引的条目,不需要返回主表,会把我们关心的数据绑定到索引行,节 省读取的开销。 例如:以下内容将在v1和v2列上创建一个索引,并在索引中包含v3列,以防止从原始数据 表中获取该列: CREATE INDEX my_index ON my_table(v1,v2)INCLUDE(v3) (2)功能索引 功能索引,允许您不仅在列上而且在任意表达式上创建索引。然后,当一个查询使用该表达 式时,索引可以用来检索结果而不是数据表。 例如:在EMP上创建索引UPPER_NAME_IDX(UPPER(FIRST_NAME ||''|| LAST_NAME)) 有了这个索引,发出下面的查询时,将使用索引而不是数据表来检索结果: SELECT EMP_ID FROM EMP WHERE UPPER(FIRST_NAME ||''|| LAST_NAME) ='JOHN DOE' (3)全局索引 全局索引适合读操作任务重的用例。使用全局索引,索引的所有性能损失都是在写入时发生 的。我们拦截数据表更新写(DELETE,UPSERT VALUES和UPSERT SELECT),建立索引 更新,然后发送任何必要的更新到所有感兴趣的索引表。在读的时候,phoenix会选择索引 表,然后使用它,这使得查询加快并且直接可想其它表一样scan索引表。默认情况下,除 非暗示,否则索引不会用于引用不属于索引的列的查询。 在用使用全局索引之前需要在每个RegionServer上的hbase­site.xml添加如下属性: 注意:如果使用的是ambari或者cloudera搭建的集群,可直接创建全局或本地索引,这些配置文件已经配置好了 <property> <name>hbase.regionserver.wal.codec</name> <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value> </property> CREATE INDEX USERIDINDEX ON CSVTABLES(USERID); 以下查询会用到索引 SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'; (4)本地索引 本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选 择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表 数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定 region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。 在使用本地索引需要在Master的hbase-site.xml添加以下属性 注意:注意本地索引与全局索引的区别,全局只有在,select和where中都为索引才会使用索引 复制代码 <property> <name>hbase.master.loadbalancer.class</name> <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value> </property> <property> <name>hbase.coprocessor.master.classes</name> <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value> </property> 复制代码 Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个 region servers中添加以下属性 <property> <name>hbase.coprocessor.regionserver.classes</name> <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value> </property> 创建本地索引 CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID); 删除索引 CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD); 如果表中的一个索引列被

01
领券