在Spark中读取CSV文件，并使用创建的RDD将其插入到HBase

scala、apache-spark、hbase、classpath、urlclassloader

我可以使用Put方法在HBase表中插入数据。但是，现在我想从CSV文件中读取数据并将其写入HBase表。(HadoopRDD.scala:356) at

浏览 18提问于2020-04-23得票数 0

回答已采纳

1回答

Spark:使用Scala的HBase批量加载

scala、hadoop、apache-spark、hbase

我们有一个文本文件，每个文件有100K条记录，我们需要逐行读取文件并将其值插入到hbase中。文件以'|‘分隔。我们正在尝试使用HBase批量加载在Spark-Scala中实现这一点。我们遇到了这个建议批量加载的链接：使用以下语法插入到单列族<e

浏览 11提问于2018-01-17得票数 0

1回答

什么是与Hbase交互的最佳方式？

apache-spark、hadoop、pyspark、apache-spark-sql、hbase

我使用的是火花火花2.3.1和Hbase 1.2.1，我想知道怎样才能最好地使用pyspark访问Hbase？我进行了一些初始级别的搜索，发现很少有可用的选项，比如使用shc:1.1.1-2.1-s2.11.jar，这可以实现，但是无论我想找什么例子，大多数地方的代码都是用Scala编写的，或者示例也是基于scala我尝试在pyspark中实现基本代码： from pyspark import Sp

浏览 1提问于2019-02-22得票数 1

回答已采纳

3回答

星火数据加入问题

scala、apache-spark、hbase

(读取CSV、读取Parquet和相互连接) df1=spark.read.format(阅读Hbase，阅读Parquet并相互连接)(差异是从Hbase读取) //Reading from Hbase (It read from hb

浏览 1提问于2019-03-10得票数 3

1回答

如何从hbase列中读取日期、时间和时间戳

java、scala、hbase

我使用Phoenix在Hbase中创建了以下表格。CREATE TABLE test_TableCONSTRAINT PK_test PRIMARY KEY (test_date)然后使用下面的命令将一条记录插入到同一记录中upsert into test_Table(test_date) values('2013-11-30'); 我可以从H

浏览 29提问于2017-05-10得票数 0

1回答

Spark支持gzip格式吗？

java、scala、mapreduce、gzip、apache-spark

对于大数据项目，我计划使用，它有一些很好的功能，比如重复工作负载的内存计算。它可以在本地文件上运行，也可以在HDFS上运行。有没有办法手动实现gzipped文件的读取</e

浏览 1提问于2013-04-30得票数 46

回答已采纳

2回答

Spark to Hbase使用Oozie

scala、hadoop、apache-spark、hbase、oozie

我试图在Hbase中从Spark创建一个表，并插入数据，从中读取数据。 val sc = new SparkContext("local", "Hba

浏览 0提问于2016-06-16得票数 1

1回答

无法从HBase访问运行在安全集群上的数据库？

scala、hbase、apache-spark-sql、kerberos、hbase-client

尝试从Windows中的Eclipse程序连接到Windows。如何在类路径中设置hbase-site.xml？我下载了*site.xml文件，尝试将hbase-site.xml, core-site.xml and hdfs-site.xml作为so

浏览 4提问于2016-11-18得票数 0

1回答

从列表行键创建Spark* DataFrame*

scala、apache-spark、apache-spark-sql、hbase、rdd

我在表单或Array[Row]中有一个HBase行键的列表，并希望从使用这些RowKeys从HBase获取的行中创建一个Spark DataFrame。我在想像这样的东西： def getDataFrameFromList(spark: SparkSession, rList : Array[Row]): DataFrame = { val conf= HBaseConfig

浏览 15提问于2019-10-02得票数 1

回答已采纳

2回答

按顺序执行火花流操作

apache-spark、hbase、apache-kafka、spark-streaming

我在火花流应用程序中读取kafka的数据，并执行两个操作。将dstreams插入hbase表A 我希望确保dstream中的每个rdd在对hbase表B的更新操作之前插入到hbase表A(对每个rdd依次执行上述两个操作)如何在火花流应用程序中</

浏览 5提问于2017-05-30得票数 2

回答已采纳

1回答

pyspark streaming如何设置ConnectionPool

apache-spark、pyspark、spark-streaming

我有一个任务，我想从kafka读取数据，并使用火花流来处理它，我想发送数据到Hbase。在spark官方文档中，我发现： # ConnectionPool is a static, lazily initialized pool of: rdd.foreachPartition(sendPartition)) 但是我找不到任何用火种设置ConnectionPool到</

浏览 11提问于2019-07-22得票数 1

2回答

在哪个版本的HBase中集成了spark* API？*

apache-spark、hbase

我阅读了spark和hbase的文档：我很困惑，为什么apidocs和HBase版本不匹配？我的目标是使用Spark和HBase (bulkGet，bulkPut..etc)。我如何知道这些函数是在哪个HBase版本中实现的？如果有人

浏览 5提问于2015-12-03得票数 5

2回答

用python将火花2与HBase集成连接起来的jars

python、pyspark、hbase、apache-spark-2.0

我在Spark2中使用pyspark，是否有任何jars将HBase与可用的pyspark连接。请帮我拿一下样本代码。

浏览 2提问于2018-01-12得票数 1

回答已采纳

1回答

通过saveAsObject保存RDD，异常“有一个不可序列化的结果: org.apache.hadoop.hbase.io.ImmutableBytesWritable”

apache-spark、serialization、hbase、deserialization、alluxio

我需要将从HBASE读取的RDD序列化到alluxio内存文件系统中，作为缓存和定期更新它的方式，以便在增量SPARK计算中使用。代码如下所示，但遇到标题为exception的代码val namedeRDDName= sc.newAPIHadoopRDD(conf, classOf[

浏览 1提问于2017-02-23得票数 1

1回答

在map调用中获取Spark上的行

java、hadoop、apache-spark、hbase

我尝试从HDFS中的文件中聚合数据。我需要添加一些细节，从这些数据的价值在hbase中的一个特定表。:158) at org.apache.spark.rdd.RDD.map我的问题是:如何使用<

浏览 11提问于2017-02-02得票数 2

回答已采纳

1回答

在pyspark中读取CSV并转换为float

apache-spark、pyspark

我是Spark新手。我正在尝试读取CSV文件，并使用PySpark将其转换为RowMatrix。以下是我的数据格式：rows = sc.textFile('testmatrix.txt').m

浏览 0提问于2017-09-15得票数 0

3回答

创建数据架构的有效方法是什么？

apache-spark

我是个新手，我发现有两种方法可以创建数据框架的模式。我有一个RDD: empRDD和数据(除以"，")| 1| Mark| 1000| HR|val empData = empFile.map(e => e.split(",")) 创建</e

浏览 9提问于2017-06-22得票数 0

回答已采纳

2回答

将csv文件加载到RDD和Dataframe中的区别

csv、apache-spark-sql、rdd

可能是一个可能的复制，但我无法找到坚持这样做的用例。如我们所知，我们可以直接将csv文件加载到dataframe，并可以将其加载到RDD中，然后稍后将该RDD转换为dataframe。此外，我们还可以创建直接读取csv文件的dataframe。Dataframe = spark.read.format("csv&qu

浏览 0提问于2018-11-29得票数 0

回答已采纳

2回答

如何实现RDD的并行化？

scala、apache-spark

要将文件读入内存，我使用以下命令：它的类型是：阅读Scala文档：“并行集合是通过在现有的Scala集合(序列对象)上调用SparkContext的parallelize方法创建</e

浏览 0提问于2014-04-26得票数 6

回答已采纳

1回答

如何将写入HBase？

scala、apache-spark-sql、hbase

我正在尝试将Spark Dataframe写到HBase中，并跟踪了其他几个博客，其中一个是，但它不起作用。但是，我可以成功地将HBase中的数据读取为Dataframe。还有一些帖子使用了org.apache.hadoop.hbase.spark格式，还有一些文章使用了org.apache.spark.sql.execution.datasources.<em

浏览 0提问于2018-09-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:使用Scala的HBase批量加载

什么是与Hbase交互的最佳方式？

星火数据加入问题

如何从hbase列中读取日期、时间和时间戳

Spark支持gzip格式吗？

Spark to Hbase使用Oozie

无法从HBase访问运行在安全集群上的数据库？

从列表行键创建Spark* DataFrame*

按顺序执行火花流操作

pyspark streaming如何设置ConnectionPool

在哪个版本的HBase中集成了spark* API？*

用python将火花2与HBase集成连接起来的jars

通过saveAsObject保存RDD，异常“有一个不可序列化的结果: org.apache.hadoop.hbase.io.ImmutableBytesWritable”

在map调用中获取Spark上的行

在pyspark中读取CSV并转换为float

创建数据架构的有效方法是什么？

将csv文件加载到RDD和Dataframe中的区别

如何实现RDD的并行化？

如何将写入HBase？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐