我是Spark和Scala的新手。我们有广告事件日志文件格式为CSV的,然后使用pkzip压缩。我见过很多关于如何使用Java解压压缩文件的例子,但是我该如何使用Scala for Spark来解压呢?最终,我们希望从每个传入文件中获取、提取数据并将其加载到Hbase目标表中。也许这可以用HadoopRDD来完成?在此之后,我们将引入Spark streaming来查看这些文件。
谢谢,本
我正在尝试确定一种解决方案,使用火花流从HBASE表中读取数据,并将数据写入另一个HBASE表。
我在互联网上找到了许多示例,它们要求创建一个DSTREAM来从HDFS文件和all.But中获取数据。我找不到任何示例来从HBASE表中获取数据。
例如,如果我有一个HBASE表'SAMPLE‘,它的列是'name’和'activeStatus‘。如何使用spark streaming从基于activeStatus列的表SAMPLE中检索数据(新数据?
欢迎使用spark streaming从HBASE表检索数据的任何示例。
致敬,Adarsh K S
我需要让存储在hbase中的数据在R中进行分析,但我需要通过Spark来完成,因为数据不适合内存。有人知道如何通过Spark in R访问hbase中的数据吗?
我在网上都找过了,但是没有什么乐趣。我找到了一些页面,解释了如何从R访问hbase中的数据,但它们不是通过Spark来实现的。我看到的所有解释如何在R和Spark中访问数据的页面(使用sparklyr)都提供了iris数据集的示例:(
任何帮助都是非常感谢的!
代码片段下面的工作得很好。(读取CSV、读取Parquet和相互连接)
//Reading csv file -- getting three columns: Number of records: 1
df1=spark.read.format("csv").load(filePath)
df2=spark.read.parquet(inputFilePath)
//Join with Another table : Number of records: 30 Million, total
columns: 15
df2.join(broadcast(df1), c
我尝试从HDFS中的文件中聚合数据。我需要添加一些细节,从这些数据的价值在hbase中的一个特定表。
但我有个例外:
org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:166)
at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:158)
at org.apache.s
我正在尝试使用Spark流将数据从HDFS加载到Hbase表。我将数据放在HDFS目录运行时,并使用textFileStream函数读取数据。由于spark在类路径中没有hbase jars,所以即使在火花外壳中导入Hbase jars时也会给我一个错误。
scala> import org.apache.hadoop.hbase.mapred.TableOutputFormat
<console>:10: error: object hbase is not a member of package org.apache.hadoop
import org.ap
我有一个简单的spark任务,从Hive读取数据,从db2读取一些数据,进行一些计算并将结果放入db2中。在我尝试从db2读取数据的代码行中,我看到以下错误:
Exception in thread "main" java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.hive.orc.DefaultSource could not be instantiated
at java.util.Service
我正在使用Spark连接到Hbase。我已经添加了所有的依赖项,但是我仍然得到了这个异常。请帮助我,我需要添加哪个JAR来解决这个问题。
SPARK_MAJOR_VERSION is set to 2, using Spark2
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/hdp/2.6.5.0-292/spark2/jars/slf4j-log4j12
我想处理星火上的数据并将它们插入到HBase中。我正在使用HBase (Apache HBase)库()。
我得到了以下例外,
Caused by: java.lang.NoClassDefFoundError: org/apache/spark/Logging
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
at java.security.SecureClassLoader.defineCla
我想使用Spark SQL从HBase表中获取数据。但我在创建DataFrame时获得了classNotFoundException。以下是我的例外。
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/types/NativeType
at org.apache.hadoop.hbase.spark.DefaultSource$$anonfun$generateSchemaMappingMap$1.apply(DefaultSource.scala:127)
我试图在Hbase中从Spark创建一个表,并插入数据,从中读取数据。
当我从命令行运行spark作业时,它工作得很好。但是,每次我尝试使用oozie运行它时,它都会抛出不同类型的异常。
下面是我的spark hbase代码
val sc = new SparkContext("local", "Hbase spark")
val tableName = "Morbidity_Dummy2"
val conf = HBaseConfiguration.create()
// Add local HBase co