如何读取结构化数据流并写入Hive表

、、

需要从Kafka流中读取结构化数据流，并将其写入已经存在的Hive表。我这里的问题是-是否可以直接写入Hive表？或者，对于这种用例，是否有可以遵循的变通方法？batchDs.write.mode(SaveMode.Append).insertInto("default.6columns");}).option("quote", "\u0000").start()

浏览 43提问于2019-05-22得票数 1

回答已采纳

4回答

Hive是如何存储数据的，SerDe是什么？

、

当查询一个表时，SerDe会将一行数据从文件中的字节反序列化到Hive内部用于对该行数据进行操作的对象。当执行INSERT或CTAS (请参阅第441页上的“导入数据”)时，表的SerDe将序列化Hive对一行数据的内部表示形式，这些字节被写入输出文件。请有人把这些粗体句子解释清楚吗？我是新来的！！

浏览 9提问于2013-01-30得票数 12

回答已采纳

1回答

spark.sql()和spark.read.format("jdbc").option("query“、"")之间有什么区别？

、、、

我假设spark.sql(查询)是在使用spark.sql时使用的，而spark.read.format("jdbc").option("query“、"")则是在使用oracle语法时使用的。我这样假设是对的吗？

浏览 3提问于2021-08-16得票数 3

回答已采纳

1回答

我正在尝试序列化一个混合了数据类型的Python对象--原生Python、numpy、内置Python的子类。Pickle和cPickle足够健壮，可以处理所有数据类型，但我达到了大小限制(>300MB)；我之所以知道这一点，是因为在加载Pickle对象时，我看不到整个对象被序列化了。为了寻找比cPickle更有效的替代品，我尝试了以下方法，但对数据类型都不起作用: json，simplejson，用于将numpy类型转换为原生Python的json的自定义子类，marshal (不处理内置类型的子类，如defaultdict)，MessagePack。你有什么意见建议？提前感谢！

浏览 2提问于2016-04-07得票数 0

2回答

如何将数据从蜂箱导出到卡夫卡

、、

我需要将数据从Hive导出到Kafka主题，基于另一个Kafka主题中的一些事件。我知道我可以用HQL从火星之工中读取蜂巢的数据，并将它从星火中写入卡夫卡，但是有更好的方法吗？

浏览 0提问于2019-01-15得票数 0

回答已采纳

1回答

hadoop中时序数据库与结构化RDBMS数据的交互机制

、、、

我也有一些RDBMS数据库，可以存储在分布式系统中，并使用hive。我们计划使用timeseries数据库和结构化RDBMS数据(通过HIVE读取和写入)，然后将时间序列数据与这些结构化数据连接起来。以这样的方式存储输出，这样它就可以通过HIVE像SQL一样读写。

浏览 6提问于2018-12-06得票数 0

1回答

要在C#中使用的C++类，有哪些选项？

、、、、

我还使用提供的头文件创建了几个prototype C++库，以便通过C#进行访问，但我不能完全理解如何在C#本身中实际创建和使用类的实际实例(每次查看时，我看到的都是外部函数调用，而不是外部类型的使用)

浏览 14提问于2017-09-05得票数 0

1回答

如何将流数据集写入蜂巢？

、、、

使用ApacheSpark2.2:结构化流，我正在创建一个程序，它从Kafka读取数据并将其写入Hive。我正在寻找写大量数据进入卡夫卡主题@ 100记录/秒。创建的蜂巢表：通过手动蜂巢查询插入： INSERT INTO TABLE demo_user (15141331

浏览 2提问于2018-01-15得票数 8

2回答

实时的蜂窝数据转换？

、、、、

我有以下数据管道： A进程将消息写入 Spark结构化流应用程序正在侦听新的消息，并将它们写入HDFS ，批处理Hive作业每小时运行一次，并通过某些中介复杂插入语句读取来自HDFS的最新消息，填充一些表编辑：本质上，在我的Hive工作之后，Table1存储了原始数据，然后是另一个表Table2 = fun1(Table1)，然后是Table3 = fun2(Table2)，然后是Table4 = join

浏览 1提问于2020-02-13得票数 1

回答已采纳

1回答

Spark与Hive的区别

、、

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-04得票数 1

3回答

在Java中生成和解析文本文件

、

我正在寻找一个能够从Java对象中生成TXT文件或将其解析为Java对象的库/框架。我认为在Castor或JAXB中，文件和对象之间的映射可以通过编程方式定义，也可以使用XML/注解定义。TXT文件不是同构的，并且没有分隔符(固定位置)。文件的大小不大，因此允许类似DOM的处理，不需要流。TextWriter.write(Collection objects) -> FileOutputStream

浏览 2提问于2012-06-18得票数 1

回答已采纳

1回答

在Azure Synapse中向delta表添加列

、、

我使用映射数据流在Azure Synapse中创建了一个delta表。数据流从Dataverse读取仅附加的更改，查找最新值，并将其向上插入表。我尝试创建一个记事本并执行以下SQL，但是我得到了一个错误。 ALTER TABLE delta.`https://xxxx.dfs.core.window

浏览 11提问于2022-08-17得票数 0

3回答

将数据帧存储到spark中的配置单元分区表

、、

我正在尝试将来自kafka主题的数据流存储到一个hive分区表中。我能够将数据流转换为数据帧，并创建了一个配置单元上下文。我的代码如下所示hiveContext.setConf("hive.exec.dynamic.partition", "true") hiveContext.setConf("hive.exec.dynamic.partit

浏览 0提问于2016-10-19得票数 2

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。 writeDataToHBa

浏览 7提问于2020-07-08得票数 3

2回答

无模式的Apache波束数据流大查询IO

、、

是否有任何方法使用apache数据流大查询io将非结构化数据写入大型查询表(即不预先提供模式)

浏览 8提问于2022-05-06得票数 1

1回答

读取Hive表并写入Cassandra表

、、、、

我在Cloudera集群中的Hive中有一些按daily_date列分区的外部表。我还有DataStax Enterprise Cassandra集群，我在其中创建了与Hive表结构相同的表。问:我想将表格数据从Hive表格导出/写入相应的Cassandra表格。有没有Hive到Cassandra的连接器？或者我需要在Spark中做这件事，如果是的话，怎么做？

浏览 35提问于2020-06-17得票数 0

回答已采纳

1回答

我可以将我的共享首选项存储到Android应用程序的缓存目录中吗？

、

我如何才能在最佳实践中做到这一点？谢谢。

浏览 0提问于2020-09-04得票数 0

2回答

大数据存储和查询与传统的关系/非关系数据库相比

、

我很难理解这些数据是如何构造和查询的。我确信Hadoop中的所有数据都来自运行其平台的Oracle Relational产品。--我想我的核心问题是，为什么需要Hadoop和分布式处理从已经采用结构化格式的数据库中收集分析？存储在Hadoop中的数据是什么样子的？有没有像MySQL这样的表，或者像MongoDB这样的JSON文档？--我将通过Druid查询Hadoop，但是我不知道这个数据库中有什么。

浏览 0提问于2019-06-01得票数 1

1回答

设计

、

我们需要您对以下场景的数据流设计提供指导。需求:我们需要构建一个数据流作业来读取数据流MS数据库并写入Bigquery。我们需要数据流作业作为输入“表名列表”(源表和目标表名称)来读取和写入数据。问题:在每天的日程安排中，数据流是否可以将表列表(即50个表名)作为输入，并将数据从源复制到目标，还是将其设计为50个独立的数据流作

浏览 4提问于2021-12-13得票数 -1

1回答

如何将Spark结构化流数据写入Hive？

、、

如何将Spark结构化流数据写入Hive？有df.write().saveAsTable(tablename)，但是我不确定这是否写入流数据我通常使用df.writeStream().trigger(new ProcessingTime(1000)).foreach(new KafkaSink()).start()将流数据写入Kafka，但我没有看到任何类似于将流数据写入Hive数据仓库的操作。

浏览 4提问于2017-08-21得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Hive是如何存储数据的，SerDe是什么？

spark.sql()和spark.read.format("jdbc").option("query“、"")之间有什么区别？

我需要一个健壮、高效的Python序列化程序

如何将数据从蜂箱导出到卡夫卡

hadoop中时序数据库与结构化RDBMS数据的交互机制

要在C#中使用的C++类，有哪些选项？

如何将流数据集写入蜂巢？

实时的蜂窝数据转换？

Spark与Hive的区别

在Java中生成和解析文本文件

在Azure Synapse中向delta表添加列

将数据帧存储到spark中的配置单元分区表

火花结构化流检查点在生产中的使用

无模式的Apache波束数据流大查询IO

读取Hive表并写入Cassandra表

我可以将我的共享首选项存储到Android应用程序的缓存目录中吗？

大数据存储和查询与传统的关系/非关系数据库相比

设计

如何将Spark结构化流数据写入Hive？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐