我们希望使用数据流从Pub-Sub流式传输PubSubmessage(json字符串),然后写入云存储。我想知道在将数据写入云存储时,什么是最好的数据格式?我进一步的用例可能还涉及使用Dataflow再次从云存储读取数据,以便根据需要继续操作到数据湖。我在想的几个选项如下:
a)使用Dataflow将自身作为json字符串直接写入云存储?我假设云存储中的文件中的每一行都被视为一条消息,如果从云存储读取,然后处理到Datalake的进一步操作,对吗?
b)使用Dataflow将json转换为文本文件格式,并保存在云存储中
c)还有其他选择吗?
发布于 2018-08-11 01:36:18
如果以后需要分析数据,可以使用JSON格式存储数据,以便在BigQuery中进一步使用。您在a)选项中提到的数据流解决方案将是处理您的场景的好方法。此外,您可以通过Pub/Sub trigger使用Cloud functions,然后将内容写入云存储。您可以使用此tutorial中显示的代码作为此场景的基础,因为这会将信息放在一个主题中,然后从该主题收集消息并创建一个以该消息为其内容的云存储对象。
https://stackoverflow.com/questions/51656655
复制相似问题