腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Apache
光束
和
数据流
构建
LSH
表
的
最佳
方法
apache-beam
、
embedding
、
lsh
我有一个
LSH
table builder工具类,它
的
运行方式如下(参考here): class BuildLSHTable:
lsh
_builder = BuildLSHTable()
浏览 20
提问于2021-07-07
得票数 0
2
回答
我可以在原生python中
使用
google DataFlow吗?
python
、
google-cloud-dataflow
、
apache-beam
、
serverless
我正试图在google中
构建
python管道,而google云
数据流
似乎是一个不错
的
选择。当我研究文档
和
开发人员指南时,我发现
apache
梁总是附在
数据流
上,因为它是基于它
的
。我可能会在
apache
beam中找到处理我
的
数据文件
的
问题。 如果我想用DataFlow在原生python中
构建
我
的
ETL脚本,这可能吗?还是有必要用阿帕奇
光束<
浏览 4
提问于2021-08-23
得票数 1
2
回答
Flink将
Apache
光束
捆绑在一起,不显示单独
的
任务块
apache-flink
、
apache-beam
我有一个运行在Flink runner上
的
光束
管道,如下所示: ?
光束
中
的
整个管道都被捆绑到这个区块中。为什么Flink用这种方式来说明它? ? 当然,管道步骤中
的
不同pardo应该由不同
的
块
和
工作者来表示(就像在Google
的
数据流
中一样)。是否需要在Flink运行器中设置某些内容以显示更细粒度
的
任务,或者Flink UI是否仅为原生Flink代码
构建
,而这正是该UI处理
A
浏览 24
提问于2021-07-05
得票数 1
2
回答
Google Cloud Platform Data ETL批量处理:云函数
数据流
python
、
google-cloud-platform
、
google-bigquery
、
apache-beam
我在我
的
新公司担任数据工程师,致力于
构建
google cloud platform (GCP)批处理ETL管道。我
的
团队
的
数据科学家最近向我传递了一个数据模型(用Python3.6编写
的
.py文件)。 数据模型有一个主函数,我可以调用它并获得一个数据帧作为输出,我打算将这个数据帧附加到一个bigquery
表
中。有没有什么办法,我可以只导入这个主函数,并
使用
apache
(
数据流
)将其集成到管道中,而不必将数据模型重新编码为PTrans
浏览 0
提问于2019-08-21
得票数 0
1
回答
Apache
光束
/ Google Cloud Dataflow大查询阅读器在第二次运行时失败
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
我们有一个
使用
Apache
光束
的
数据流
构建
,并部署在GCP
数据流
基础设施中。
数据流
实例第一次完全运行,并按预期创建分区
表
,但当它第二次运行时,它将清除数据集中
的
结果,而不是替换为特定分区中
的
新数据集。当
使用
本地设置中
的
Direct runner运行作业时,它工作得很好。
浏览 10
提问于2021-01-28
得票数 0
回答已采纳
1
回答
带有
Apache
横梁
的
弹簧
spring
、
google-cloud-dataflow
、
apache-beam
我想
使用
Spring与
Apache
光束
,这将运行在谷歌云
数据流
运行。
数据流
作业应该能够在执行管道步骤时
使用
Spring Runtime应用程序上下文。我想在我
的
Apache
光束
管道中
使用
Spring特性来实现DI
和
其他东西。在google上浏览了几个小时后,我找不到任何关于在
Apache
Beam中集成Spring
的
帖子或文档。所以,如果有人尝试过spring<e
浏览 9
提问于2019-10-05
得票数 2
2
回答
更改谷歌云
数据流
BigQuery优先级
google-bigquery
、
google-cloud-dataflow
、
apache-beam
我有一个运行在从BigQuery读取数据
的
谷歌云DataFlow上
的
Beam作业。当我运行作业时,作业需要几分钟时间才能开始从(微型)
表
中读取数据。结果是
数据流
作业发送
的
是以批处理模式运行而不是以交互模式运行
的
BigQuery作业。如何将其切换为在
Apache
光束
中立即运行?我在API中找不到更改优先级
的
方法
。
浏览 2
提问于2017-05-26
得票数 1
1
回答
Apache
/ PubSub处理文件前
的
时间延迟
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
我在找最好
的
选择。1)延迟发布消息,以便立即处理它,但要在好
的
/预期
的
时刻进行处理就像上面提到
的
,我正在寻找最
浏览 0
提问于2018-12-21
得票数 0
1
回答
通过
数据流
SQL实现云发布/订阅到BigQuery
google-bigquery
、
google-cloud-dataflow
、
gcloud
、
google-cloud-pubsub
我想了解
数据流
管道
的
工作原理。 在我
的
例子中,我有一些定期发布到云发布/订阅
的
内容,然后Dataflow将其写入BigQuery。通过
的
消息量数以千计,所以我
的
发布者客户端有1000条消息
的
批处理设置,1mb
和
10秒
的
延迟。问题是,在批处理中发布时,Dataflow SQL是接收批处理中
的
所有消息并将其一次性写入BigQuery,还是一次写入一条消息? 有没有一个比另一个更好
的
好处呢? 如
浏览 35
提问于2021-11-23
得票数 0
回答已采纳
1
回答
用于读取
Apache
Beam中
的
数据
的
ByteStringCoder
apache-beam
、
dataflow
我正在尝试
使用
标准
的
TextIO.read()来读取2.4.0版本
的
Apache
Beam
的
数据。数据必须作为ByteString读取。不幸
的
是,它看起来并不像
Apache
那样支持.withCoder()。我似乎找不到另一种
方法
来引入编码器。此外,似乎ByteStringCoder不再包含在
Apache
Beam
的
编码器中。什么是最好
的
方法
,以获得相同
的
结果<em
浏览 5
提问于2018-06-23
得票数 0
1
回答
为什么在Scio中你更喜欢聚合而不是groupByKey?
scala
、
apache-beam
、
dataflow
、
spotify-scio
记住,减少操作必须是关联
的
和
可交换
的
。” 尤其是为什么人们更喜欢聚合而不是groupByKey呢?
浏览 1
提问于2018-05-11
得票数 1
回答已采纳
1
回答
收到PubSub通知时触发
数据流
作业
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
我已经用
Apache
光束
写了一个
数据流
管道,让你对代码有一个基本
的
了解: Job= ( |"cretae">>beam.Create(["message"]) |"job 2" >> beam.ParDo(dofn2()) ) 目前,我通过创建一个随机消息来
浏览 24
提问于2021-09-03
得票数 0
回答已采纳
1
回答
从
数据流
作业创建云sql
表
java
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-sql
有一个将
表
数据从BigQuery复制到CloudSql
的
管道。 云SQL
表
的
创建发生在
数据流
之外。 现在我们需要在
数据流
中创建
表
。 我有表格要创建在GCS存储桶中作为.sql文件。下面是将
表
从BQ复制到sql
的
代码片段。.withPreparedStatementSetter(new StatementSetter(some_map))); p.run(); 有没有一种
方法
可以
使用
浏览 75
提问于2021-09-20
得票数 1
回答已采纳
1
回答
Google
数据流
与Ms SSIS ETL工具
的
比较
bigdata
、
google-cloud-dataflow
各位GCP开发人员好, 我是GCP数据工程产品
的
新手,有微软SSIS ETL工具
的
经验,我想知道谷歌
数据流
中
的
各种转换
和
功能是什么。MS SSIS工具提供了简单
的
界面(拖放)
和
SQL
使用
来执行ETL。
数据流
主要是用Python编写
的
,但是当特定字段值小于所需数量(基于一个字段过滤行)时,如何更改或加载CSV/Text文件中
的
特定行呢?
数据流
名称无处不在(在线),但为什么没
浏览 1
提问于2018-11-21
得票数 0
1
回答
有没有办法在GCP
数据流
使用
apache
beam完成工作后进行处理?
java
、
google-cloud-dataflow
、
apache-beam
在GCP
数据流
状态为done/completed后,是否可以进行后期处理。我有一个进程,dataflow从GCP存储中批量读取一个文件,并执行一些外部api调用进行转换,然后写回另一个文件。在所有批处理完成后,我需要做一些额外
的
处理。有没有办法做到这一点?我正在
使用
Apache
光束
和
模板来运行GCP
数据流
。
浏览 2
提问于2021-07-30
得票数 0
2
回答
如何以编程方式取消运行时间过长
的
数据流
作业?
google-cloud-dataflow
、
apache-beam
我通过Python API在Dataflow上
使用
Apache
光束
从Bigquery读取数据,对其进行处理,然后将其转储到Datastore接收器中。不幸
的
是,作业经常会无限期地挂起,我不得不手动停止它。当数据被写入到Datastore
和
Redis中时,从
数据流
图中,我注意到只有几个条目被卡住,作业被挂起。因此,当具有15台16核计算机
的
作业运行9小时(正常情况下,该作业运行30分钟)时,会导致巨大
的
成本。 也许有一种
方法
可以设置计时
浏览 3
提问于2018-06-25
得票数 0
5
回答
Java中
的
LSH
库
java
、
locality-sensitive-hash
我正在寻找一个轻量级
的
Java库,它通过对位置敏感
的
散列来支持最近邻搜索,以便在具有数十万个数据点
的
高维(在我
的
例子中是32)数据集中几乎均匀分布
的
数据。它完全可以获取一个存储桶中
的
所有条目来进行查询。在考虑到我
的
问题包括
的
一些过滤器参数
的
情况下,我真正需要
的
那些可能会以不同
的
方式进行处理。我已经找到了,但希望有更小
的
东西,并且不需要任何其他工具(就像中
的
浏览 0
提问于2012-03-28
得票数 22
1
回答
在
apache
波束中创建自定义Sink
google-cloud-dataflow
、
apache-beam
我正在
使用
apache
并试图创建一个自定义接收器,不幸
的
是,无法找到任何关于如何创建自定义接收器.Can
的
指南。在以前
的
数据流
中,我用来覆盖com.google.cloud.dataflow.sdk.io.Sink中可用
的
Sink 我似乎找不到类似的呼叫在Beam.Is,它仍然可以飞行在
光束
某处?我正在
使用
beam 2.3SDK
和
Java
浏览 0
提问于2018-03-18
得票数 2
回答已采纳
1
回答
Apache
火花中
的
高效字符串匹配
python
、
apache-spark
、
pyspark
、
string-matching
、
fuzzy-search
使用
OCR工具,我从截图中提取文本(每个截图大约有1-5个句子)。但是,在手动验证提取
的
文本时,我注意到不时发生几个错误。( 1)像"I“、"!”
和
"l“这样
的
字母被”x“取代。( 3)空白空间不时被移除。 因此,我可能会以这样
的
字符串结束:“你好,7l!真像火花!”由于我试图将这些字符串与数据集(包括正确
的
文本)进行匹配(在这种情况下,“
浏览 2
提问于2017-05-12
得票数 33
1
回答
使用
python处理来自bigquery
的
大型数据集,将其加载回bigquery
表
python
、
google-cloud-platform
、
google-bigquery
、
bigdata
我在bigquery中有一个巨大
的
数据集,有5000万行
和
57列。我想做很多过滤/转换/清理,而不是
使用
sql。我尝试
使用
dask/panda/python将数据加载到本地mac
的
dask数据帧中,进行转换,然后将数据推送回bigquery,以便其他总线可以
使用
它。将数据推送回bigquery需要超过3个小时。
浏览 2
提问于2019-03-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
五大最佳数据框架的快速比较
官宣:Apache Flink 1.14.0 发布
Apache Doris在思必驰的应用优化实践:海量语音通话数据下,实时、离线一体的数仓架构设计实践
教程:Apache Spark SQL入门及实践指南!
赋能直播行业精细化运营,斗鱼基于 Apache Doris 的应用实践
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券