首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

Spark操作Kudu dataFrame操作kudu 一、DataFrameApi读取kudu表中的数据 虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读...org.apache.kudu.spark.kudu._ //加载表的数据,导包调用kudu方法,转换为dataFrame,最后在使用show方法显示结果 sparkSession.read.options...(kuduOptions).kudu.show() } 三、​​​​​​​使用sparksql操作kudu表 可以选择使用Spark SQL直接使用INSERT语句写入Kudu表;与'append'类似...,INSERT语句实际上将默认使用 UPSERT语义处理; 代码示例 /** * 使用sparksql操作kudu表 * @param sparkSession * @param sc * @param...操作插入数据 sparkSession.sql("insert into table temp2 select * from temp1") sparkSession.sql("select *

57942
您找到你想要的搜索结果了吗?
是的
没有找到

大数据Kudu(六):Kudu Java Api操作

Kudu Java Api操作Kudu没有提供标准SQL操作,支持Nosql样式的API,这里使用Java 操作Kudu ,包括创建表、插入数据、修改删除数据、删除表等操作,值得注意的是,Java...api直接操作Kudu在开发中不是常用的方式,常用方式是Spark操作KuduKudu与Impala整合写SQL操作Kudu。...一、​​​​​​​添加Maven依赖Java操作Kudu需要在创建好的Maven项目中导入kudu-client依赖,此外我们这里使用的是CDH版本的kudu依赖包,maven默认不支持CHD相关依赖,...开启session会话,应用插入操作,插入数据。关闭KuduClient对象。代码如下:/** * 1.创建KuduClient对象,连接Kudu集群。...开启session会话,应用更新操作,更新数据。关闭KuduClient对象。代码如下:/** * 1.创建KuduClient对象,连接Kudu集群。

1.1K102

kudu介绍与操作方式

3)与imapla集成或spark集成后(dataframe)可通过标准的sql操作,使用起来很方便 4)可与spark系统集成 kudu使用时的劣势: 1)只有主键可以设置range分区,且只能由一个主键...2)如果是pyspark连接kudu,则不能对kudu进行额外的操作;而scala的spark可以调用kudu本身的库,支持kudu的各种语法。...) # 通过kuduContext可以操作kudu的所有功能 kuduContext.upsertRows(df, kudu_table_name) } } 3、有用的文章: kudu...操作kudu的各种形式:https://kudu.apache.org/docs/developing.html#_viewing_the_api_documentation kudu python客户端源代码...:https://github.com/apache/kudu/blob/master/python/kudu/client.pyx kudu scala spark操作详细例子:https://blog.cloudera.com

7.5K50

0538-5.15.0-Spark2 KuduContext访问Kudu

在做Spark开发时也有访问Kudu的需求,Kudu API访问是一种方式,这里Fayson使用KuduContext实现对Kudu的读写操作。...环境下安装了Spark2后默认是添加kudu-spark2的依赖包,我们可以在Kudu的安装目录下找到相应版本的kudu-spark2_2.11-{cdh.version}.jar。...这里在Spark2的环境变量中将kudu-spark2的依赖包,确保Spark2作业能够正常的调用kudu-spark2提供的API。...SPARK_DIST_CLASSPATH=$SPARK_DIST_CLASSPATH:/opt/cloudera/parcels/CDH/lib/kudu/kudu-spark2_2.11.jar ?...4 总结 1.访问Kudu可以通过Kudu API接口实现参考Fayson文章开头部分提到的Java示例文章,但在使用Spark访问Kudu时建议使用kudu-spark,使用该方式访问对于安全集群访问不需要考虑

1.8K41

客快物流大数据项目(四十四):Spark操作Kudu创建表

Spark操作Kudu创建表 SparkKUDU集成支持: DDL操作(创建/删除) 本地Kudu RDD Native Kudu数据源,用于DataFrame集成 从kudu读取数据 从Kudu...执行插入/更新/ upsert /删除 谓词下推 KuduSpark SQL之间的模式映射 到目前为止,我们已经听说过几个上下文,例如SparkContext,SQLContext,HiveContext...这是可以在Spark应用程序中广播的主要可序列化对象。此类代表在Spark执行程序中与Kudu Java客户端进行交互。...KuduContext提供执行DDL操作所需的方法,与本机Kudu RDD的接口,对数据执行更新/插入/删除,将数据类型从Kudu转换为Spark等。...import org.apache.kudu.spark.kudu.KuduContext import org.apache.spark.

52541

如何在CDH中安装Kudu&Spark2&Kafka

1.概述 在CDH的默认安装包中,是不包含Kafka,KuduSpark2的,需要单独下载特定的Parcel包才能安装相应服务。...本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用Cloudera Manager通过Parcel包方式安装KuduSpark2和Kafka的过程。...内容概括 Kudu安装 Spark2安装 Kafka安装 服务验证 测试环境 操作系统版本:CentOS6.5 CM和CDH版本5.12.1 使用CM管理员admin用户 操作系统采用root用户操作...不再需要安装Kudu的csd文件,安装完Kudu,Impala即可直接操作Kudu。...Impala即可直接操作Kudu进行SQL操作,但为了省去每次建表都需要在TBLPROPERTIES中添加kudu_master_addresses属性,建议在Impala的高级配置项中设置KuduMaster

5.7K91

大数据Kudu(七):Kudu分区策略

Kudu分区策略Kudu表分为多个tablet,理想情况下,tablets应该相对平等地拆分表的数据,Kudu目前没有自动拆分预先存在的 tablets 的机制。所以在创建Kudu表时必须指定分区。...Kudu表的分区分为范围分区、hash分区、高级分区三种,分区字段必须来自于主键字段。使用Impala创建表时,可以使用 PARTITION BY 子句指定分区。...kuduClient.createTable("t_range_partition", schema, options);//关闭kuduClient对象kuduClient.close();以上代码执行完成后,可以通过Kudu...Arrays.asList("id"),10 );//创建表kuduClient.createTable("t_hash_partition", schema, options);以上代码创建完成后,可以通过Kudu...lower,upper );}//创建表kuduClient.createTable("t_hash_range_partition", schema, options);以上代码创建完成后,可以通过Kudu

1K91

大数据Kudu(一):什么是Kudu

例如我们有一个业务系统,有如下要求:数据实时产生,需要对数据逐行进行插入保存、低延迟数据读取、更新的随机读写操作。需要批量扫描历史数据,进行快速、实时的OLAP数据分析。...以上业务系统,既要求对数据进行随机读写,又要求对数据进行批量分析操作,针对以上业务场景我们就可以选择Kudu。...一、​​​​​​​Kudu概念Kudu是Cloudera在2015年9月开源的分布式数据存储引擎,其结合了HDFS和HBase的优势,可以同时提供高效的随机访问以及数据扫描能力。...Kudu的随机读写速度和HBase相似,但是达不到HBase随机读写性能,Kudu批量查询数据性能媲美HDFS parquet,但是比HDFS批量查询慢,所以kudu更像是HDFS与HBase的一个折中选择...二、Kudu 适用场景Kudu适用于以下场景:对数据既支持扫描(scan)又支持随机访问(random access)同时具有高性能,简化用户复杂的混合架构场景。数据需要更新,避免额外的数据迁移。​

1.6K121
领券