首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用AWS Glue使用书签处理未分区数据

使用AWS Glue使用书签处理未分区数据
EN

Stack Overflow用户
提问于 2019-05-23 20:44:24
回答 2查看 144关注 0票数 1

我将数据从Kafka写入到s3中的一个目录,其结构如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s3://bucket/topics/topic1/files1...N
s3://bucket/topics/topic2/files1...N
.
.
s3://bucket/topics/topicN/files1...N

这个存储桶中已经有很多数据,我想使用AWS Glue将其转换为拼图并对其进行分区,但有太多的数据无法一下子完成。我正在研究书签,似乎你不能使用它来只读取最新的数据或处理块中的数据。有没有推荐的方法来处理这样的数据,这样当新数据进来时,书签就可以工作了?

此外,书签是否要求spark或glue在我每次运行作业时都必须扫描整个数据集,以找出哪些文件大于上次运行的max_last_modified时间戳?这似乎非常低效,尤其是在源存储桶中的数据持续增长的情况下。

EN

回答 2

Stack Overflow用户

发布于 2019-07-23 18:20:36

我了解到,Glue希望所有类似的文件(具有相同结构和用途的文件)都在一个文件夹下,带有可选子文件夹。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s3://my-bucket/report-type-a/yyyy/mm/dd/file1.txt
s3://my-bucket/report-type-a/yyyy/mm/dd/file2.txt
...
s3://my-bucket/report-type-b/yyyy/mm/dd/file23.txt

report-type-a文件夹下的所有文件必须具有相同的格式。将像report-type-b这样的不同报表放入不同的文件夹。

您可能会尝试将几个输入文件放在适当的位置,运行ETL作业,在存储桶中放置更多文件,再次运行,等等。

我尝试过让当前文件工作(每天一个文件),然后回填历史文件。然而,请注意,这并不完全有效。我已经让文件在胶水处理正常,但当我试图添加过去的文件到's3://my-bucket/report-type/2019/05/report_20190510.gzip`,胶水没有“看到”或处理旧文件夹中的文件。

但是,如果我将旧报告移动到当前分区,它就可以工作:s3://my-bucket/report-type/2019/07/report_20190510.gzip

票数 0
EN

Stack Overflow用户

发布于 2021-09-27 13:17:55

AWS Glue书签仅适用于选择的几种格式(更多here),并且在使用glueContext.create_dynamic_frame.from_options函数阅读时有效。此外,glue脚本中还应该包含job.init()job.commit()。您可以签出相关的answer

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56282666

复制
相关文章
大数据Hadoop的数据库审计【数据库审计】
——大数据渗透到各个行业领域,逐渐成为一种生产要素发挥着重要作用,成为未来竞争的制高点。
新知号
2019/03/22
2.8K0
接口定义规范
{ "userId"... "userName"... "userPhoto"... "orderId"... "orderType"... "addressId"... "addressName"... "addressDetail"... }
只喝牛奶的杀手
2019/08/26
9480
数据库审计
中安威士数据库审计系统(简称VS-AD),是由中安威士(北京)科技有限公司开发的具有完全自主知识产权的数据库审计产品。该系统通过监控数据库的多重状态和通信内容,不仅能准确评估数据库所面临的风险,而且可以通过日志记录提供事后追查机制。主要功能包括:敏感数据发现、性能监控、风险扫描、数据活动监控等。支持旁路、直连、软件探针等多种部署方式。
数据库保护
2019/07/17
2.7K0
数据库审计
如何定义和统计用户的登录次数?
大家好,我是姬小光,欢迎来到我的专栏!本期我们来聊聊互联网产品的登录是怎么回事儿,以及如何合理地定义用户的登录次数。
姬小光
2020/03/09
4.4K0
如何定义和统计用户的登录次数?
linux 中的用户名如何定义
linux 用户名建议符合[a-z_][a-z0-9_-]*[$]正则表达式,并且长度不超过 32 位
zero000
2022/02/08
5.8K0
linux 中的用户名如何定义
种子用户概念定义,如何界定种子用户画像
种子用户,正如这个名字,它是一颗种子,种子意味着可以成长,生命力旺盛,充满挑战精神热情。种子用户,首先要有一定的经济基础或者是一些产品和行业的经验的基础,因为只有在这种基础之上,我们推动的创新事物时,种子用户具备这些基础的能力来支撑。如果他非常贫穷或者说对于特定行业的新事物的知识匮乏,那么这样的话就很难成为新产品种子用户群体。而对于日常生活中的一些比如说吃住穿行,这样的一些行业,对于专业知识要求相对会少一点,、更多的可能说需要具备一定的购买力的基础。从之前接触的种子用户经验来看,在同行业或者整个用户群中的他们的经济水平和专业水平都高于平均水平。
阿北8
2019/09/27
1.9K0
种子用户概念定义,如何界定种子用户画像
后台查找CDSW中用户的审计日志
在前面的文章Fayson介绍了很多关于CDSW安装以及使用的文章,对于CDSW平台服务的架构Fayson的理解是有多个Docker提供服务(类似于现在的微服务),这些服务组合起来形成了一个完整的CDSW平台。CDSW的界面管理员可以看到用户访问的审计日志,CDSW未提供审计日志导出的功能,那么如何获取CDSW的审计日志?本篇文章Fayson主要介绍如何通过后台获取审计日志,在CDSW界面上看到的信息如下:
Fayson
2018/08/17
7120
后台查找CDSW中用户的审计日志
MySQL数据库如何实现AX规范
MySQL 为我们提供了分布式事务解决方案,在前面的内容中 聊一聊分布式事务的解决方案 提到过 binlog 的同步,其实是 MySQL XA 规范的一个应用,那么 XA 规范是如何定义的,具体又是如何应用的呢?
小熊学Java
2023/09/06
2530
MySQL数据库如何实现AX规范
如何使用GOLDENGATE构建数据库的审计表之一
GOLDENGATE版本是11.2.1.0.5和12.2.0.1.1,使用2个版本主要说明12c与11g变化.
徐靖
2020/08/05
1.9K0
如何使用GOLDENGATE构建数据库的审计表之一
真实案例:数据库审计在入侵行为审计中的作用
做为企业IT应用系统的基础,数据库系统的安全至关重要,它承载了企业运营的关键数据,是企业最核心的IT资产。在数据库安全的日常管理中,内部人员的违规操作和外部黑客对系统的入侵是其所面临的主要安全风险。而数据库审计在数据库安全管理中的重要性不言而喻,下面让我们通过陕西省某大学一则真实的案例来体会数据库审计在入侵行为审计中的作用。 1 事件起因 2015年1月15日16:50,安恒信息的技术工程师接到客户电话:发现业务系统可能被“拖库”,需要协助客户对越权拖库行为进行调查! 17:50,技术工程师到达客户现场的时
安恒信息
2018/04/11
3.3K0
真实案例:数据库审计在入侵行为审计中的作用
自定义View二篇,如何自定义一个规范的ViewGroup
在自定义View开篇,必须跨过的一道坎儿 中,我们介绍了自定义View的几种方式,以及如何实现一个规范的自定义View,上文中也说了,实现一个规范的自定义ViewGroup是一件比较困难的事情,因为要考虑的情况包含 本身的padding以及子view的margin 与 本身wrap_content 问题。
黄林晴
2020/02/15
4730
利用rsyslog 对Linux用户进行审计
rsyslog 是标准Linux系统的一部分,能够实时的写日志,并且还可以将日志选择性的发送到远程日志服务器。
星哥玩云
2022/07/03
1.2K0
Oracle 审计失败的用户登陆(Oracle audit)
       对于在线交易系统,且Oracle用户在使用缺省的profile的情形下,多用户共享相同的数据库用户及密码,任意用户输入错误密码累计达到10次以上,其帐户会被自动锁定使得交易被迫临时终止将产生不小的损失。故有必要对那些失败的帐户登陆进行分析以预估是否存在恶意攻击等。Oracle提供了审计功能用于审计那些失败的Oracle用户登陆来进行风险评估。本文即是描述如何开启审计失败的用户登陆。本文不涉及审计的具体的描述信息,仅仅描述如何审计失败的用户登陆。详细完整的审计大家可以参考Oracle Database Security Guide。
Leshami
2018/08/13
1.7K0
神兵利器 - 在没有任何权限的情况下破解任何 Microsoft Windows 用户密码
项目地址:https://github.com/DarkCoderSc/win-brute-logon
Khan安全团队
2022/04/02
1.7K0
神兵利器 - 在没有任何权限的情况下破解任何 Microsoft Windows 用户密码
【数据库报错(未删除任何行,未更新任何行)】
首先查看定义的表格数据类型有无问题,点击表格编辑前100行 如何更改编辑行数:更改编辑行数 这里的允许NULL值为通过输入端输入后,写进数据库是否包含空值 例如,输入端通过注册输入注册名后,若允许NULL值未勾选,则写进表格的为用户名+数据类型除了用户名所占字节剩余用空格进行填充(写入表格中的数据为用户名+若干空格) 若允许NULL值勾选了,则写进表格的即为刚刚进行注册的用户名,其后没有多余空格
magize
2023/07/11
3830
【数据库报错(未删除任何行,未更新任何行)】
如何在CentOS 7上编写自定义系统审计规则
Linux审计系统创建审计跟踪,这是一种跟踪系统上各种信息的方法。它可以记录大量数据,如事件类型,日期和时间,用户ID,系统调用,进程,使用的文件,SELinux上下文和敏感度级别。它可以跟踪文件是否已被访问,编辑或执行。它甚至可以跟踪文件属性的更改。它能够记录系统调用的使用情况,用户执行的命令,登录尝试失败以及许多其他事件。默认情况下,审计系统仅记录日志中的少数事件,例如登录的用户,使用sudo的用户以及与SELinux相关的消息。它使用审计规则来监视特定事件并创建相关的日志条目。可以创建审计规则。
小皇帝James
2018/10/29
4.3K0
简单实现MySQL数据库的日志审计
由于MySQL社区版没有自带的审计功能或插件,对于等级保护当中对数据库管理的要求的就存在一定的不满足情况的,抛开条条框框不说数据库的日志是值得研究的,通过收集数据库的日志到企业SOC平台便于安全事件的溯源与故障分析,配合目前的UEBA技术能够轻松发现很多恶意事件。
FB客服
2018/12/28
1.8K0
linux下用户操作记录审计环境的部署记录
通常,我们运维管理人员需要知道一台服务器上有哪些用户登录过,在服务器上执行了哪些命令,干了哪些事情,这就要求记录服务器上所用登录用户的操作信息,这对于安全维护来说很有必要。废话不多说了,下面直接记录做法: 1)查看及管理当前登录用户 使用w命令查看当前登录用户正在使用的进程信息,w命令用于显示已经登录系统的用户的名称,以及它们正在做的事。该命令所使用的信息来源于/var/run/utmp文件。w命令输出的信息包括: -> 用户名称 -> 用户的机器名称或tty号 -> 远程主机地址 -> 用户登录系统的时间
洗尽了浮华
2018/01/23
2K0
SpringSecurity用户定义
用户定义 基于内存 @Override protected void configure(AuthenticationManagerBuilder auth) throws Exception { InMemoryUserDetailsManager manager = new InMemoryUserDetailsManager(); manager.createUser(User.withUsername("admin").password("{noop}123").roles("adm
周杰伦本人
2022/10/25
2410
【数据库审计】旁路式与植入式数据库审计技术有何差别
在日渐火热的数据库安全领域,数据库审计应该是应用最为广泛,用户接受度最高的产品了,没有之一。
新知号
2019/03/21
2.2K0
【数据库审计】旁路式与植入式数据库审计技术有何差别

相似问题

.htaccess url路由奇怪的行为

10

.htaccess奇怪行为

11

奇怪的.htaccess行为

12

.htaccess奇怪的行为

10

.htaccess的奇怪行为

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文