腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用AWS Glue使用书签处理未分区数据

问使用AWS Glue使用书签处理未分区数据
EN

Stack Overflow用户

提问于 2019-05-23 20:44:24

回答 2查看 144关注 0票数 1

我将数据从Kafka写入到s3中的一个目录，其结构如下：

s3://bucket/topics/topic1/files1...N
s3://bucket/topics/topic2/files1...N
.
.
s3://bucket/topics/topicN/files1...N

这个存储桶中已经有很多数据，我想使用AWS Glue将其转换为拼图并对其进行分区，但有太多的数据无法一下子完成。我正在研究书签，似乎你不能使用它来只读取最新的数据或处理块中的数据。有没有推荐的方法来处理这样的数据，这样当新数据进来时，书签就可以工作了？

此外，书签是否要求spark或glue在我每次运行作业时都必须扫描整个数据集，以找出哪些文件大于上次运行的max_last_modified时间戳？这似乎非常低效，尤其是在源存储桶中的数据持续增长的情况下。

amazon-web-services

aws-glue

人脸识别特惠活动

精准实时的人脸检测、分析、识别等服务，在线、离线满足多样需求，可应用于智慧零售、智慧社区、在线娱乐等多种应用场景

回答 2

Stack Overflow用户

发布于 2019-07-23 18:20:36

我了解到，Glue希望所有类似的文件(具有相同结构和用途的文件)都在一个文件夹下，带有可选子文件夹。

s3://my-bucket/report-type-a/yyyy/mm/dd/file1.txt
s3://my-bucket/report-type-a/yyyy/mm/dd/file2.txt
...
s3://my-bucket/report-type-b/yyyy/mm/dd/file23.txt

report-type-a文件夹下的所有文件必须具有相同的格式。将像report-type-b这样的不同报表放入不同的文件夹。

您可能会尝试将几个输入文件放在适当的位置，运行ETL作业，在存储桶中放置更多文件，再次运行，等等。

我尝试过让当前文件工作(每天一个文件)，然后回填历史文件。然而，请注意，这并不完全有效。我已经让文件在胶水处理正常，但当我试图添加过去的文件到's3://my-bucket/report-type/2019/05/report_20190510.gzip`，胶水没有“看到”或处理旧文件夹中的文件。

但是，如果我将旧报告移动到当前分区，它就可以工作：s3://my-bucket/report-type/2019/07/report_20190510.gzip。

票数 0

Stack Overflow用户

发布于 2021-09-27 13:17:55

AWS Glue书签仅适用于选择的几种格式(更多here)，并且在使用glueContext.create_dynamic_frame.from_options函数阅读时有效。此外，glue脚本中还应该包含job.init()和job.commit()。您可以签出相关的answer。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56282666

复制

大数据Hadoop的数据库审计【数据库审计】

hadoop hive 大数据数据库 sql

——大数据渗透到各个行业领域，逐渐成为一种生产要素发挥着重要作用，成为未来竞争的制高点。

新知号

2019/03/22

2.8K0

接口定义规范

缓存

{ "userId"... "userName"... "userPhoto"... "orderId"... "orderType"... "addressId"... "addressName"... "addressDetail"... }

只喝牛奶的杀手

2019/08/26

9480

数据库审计

数据库 sql 数据安全运维

中安威士数据库审计系统（简称VS-AD），是由中安威士（北京）科技有限公司开发的具有完全自主知识产权的数据库审计产品。该系统通过监控数据库的多重状态和通信内容，不仅能准确评估数据库所面临的风险，而且可以通过日志记录提供事后追查机制。主要功能包括：敏感数据发现、性能监控、风险扫描、数据活动监控等。支持旁路、直连、软件探针等多种部署方式。

数据库保护

2019/07/17

2.7K0

如何定义和统计用户的登录次数？

网络安全

大家好，我是姬小光，欢迎来到我的专栏！本期我们来聊聊互联网产品的登录是怎么回事儿，以及如何合理地定义用户的登录次数。

姬小光

2020/03/09

4.4K0

linux 中的用户名如何定义

linux bash

linux 用户名建议符合[a-z_][a-z0-9_-]*[$]正则表达式，并且长度不超过 32 位

zero000

2022/02/08

5.8K0

种子用户概念定义，如何界定种子用户画像

mvp 产品

种子用户，正如这个名字，它是一颗种子，种子意味着可以成长，生命力旺盛，充满挑战精神热情。种子用户，首先要有一定的经济基础或者是一些产品和行业的经验的基础，因为只有在这种基础之上，我们推动的创新事物时，种子用户具备这些基础的能力来支撑。如果他非常贫穷或者说对于特定行业的新事物的知识匮乏，那么这样的话就很难成为新产品种子用户群体。而对于日常生活中的一些比如说吃住穿行，这样的一些行业，对于专业知识要求相对会少一点，、更多的可能说需要具备一定的购买力的基础。从之前接触的种子用户经验来看，在同行业或者整个用户群中的他们的经济水平和专业水平都高于平均水平。

阿北8

2019/09/27

1.9K0

后台查找CDSW中用户的审计日志

github https 容器镜像服务微服务

在前面的文章Fayson介绍了很多关于CDSW安装以及使用的文章，对于CDSW平台服务的架构Fayson的理解是有多个Docker提供服务（类似于现在的微服务），这些服务组合起来形成了一个完整的CDSW平台。CDSW的界面管理员可以看到用户访问的审计日志，CDSW未提供审计日志导出的功能，那么如何获取CDSW的审计日志？本篇文章Fayson主要介绍如何通过后台获取审计日志，在CDSW界面上看到的信息如下：

Fayson

2018/08/17

7120

MySQL数据库如何实现AX规范

数据库 mysql 日志事务数据

MySQL 为我们提供了分布式事务解决方案，在前面的内容中聊一聊分布式事务的解决方案提到过 binlog 的同步，其实是 MySQL XA 规范的一个应用，那么 XA 规范是如何定义的，具体又是如何应用的呢？

小熊学Java

2023/09/06

2530

如何使用GOLDENGATE构建数据库的审计表之一

企业

GOLDENGATE版本是11.2.1.0.5和12.2.0.1.1，使用2个版本主要说明12c与11g变化.

徐靖

2020/08/05

1.9K0

真实案例：数据库审计在入侵行为审计中的作用

数据库安全

做为企业IT应用系统的基础，数据库系统的安全至关重要，它承载了企业运营的关键数据，是企业最核心的IT资产。在数据库安全的日常管理中，内部人员的违规操作和外部黑客对系统的入侵是其所面临的主要安全风险。而数据库审计在数据库安全管理中的重要性不言而喻，下面让我们通过陕西省某大学一则真实的案例来体会数据库审计在入侵行为审计中的作用。 1 事件起因 2015年1月15日16：50，安恒信息的技术工程师接到客户电话：发现业务系统可能被“拖库”，需要协助客户对越权拖库行为进行调查！ 17：50，技术工程师到达客户现场的时

安恒信息

2018/04/11

3.3K0

自定义View二篇，如何自定义一个规范的ViewGroup

textview dp layout padding view

在自定义View开篇，必须跨过的一道坎儿中，我们介绍了自定义View的几种方式，以及如何实现一个规范的自定义View，上文中也说了，实现一个规范的自定义ViewGroup是一件比较困难的事情，因为要考虑的情况包含本身的padding以及子view的margin 与本身wrap_content 问题。

黄林晴

2020/02/15

4730

利用rsyslog 对Linux用户进行审计

bash bash 指令日志服务

rsyslog 是标准Linux系统的一部分，能够实时的写日志，并且还可以将日志选择性的发送到远程日志服务器。

星哥玩云

2022/07/03

1.2K0

Oracle 审计失败的用户登陆(Oracle audit)

oracle 数据库 gui 人工智能

对于在线交易系统，且Oracle用户在使用缺省的profile的情形下，多用户共享相同的数据库用户及密码，任意用户输入错误密码累计达到10次以上，其帐户会被自动锁定使得交易被迫临时终止将产生不小的损失。故有必要对那些失败的帐户登陆进行分析以预估是否存在恶意攻击等。Oracle提供了审计功能用于审计那些失败的Oracle用户登陆来进行风险评估。本文即是描述如何开启审计失败的用户登陆。本文不涉及审计的具体的描述信息，仅仅描述如何审计失败的用户登陆。详细完整的审计大家可以参考Oracle Database Security Guide。

Leshami

2018/08/13

1.7K0

神兵利器 - 在没有任何权限的情况下破解任何 Microsoft Windows 用户密码

windows

项目地址：https://github.com/DarkCoderSc/win-brute-logon

Khan安全团队

2022/04/02

1.7K0

神兵利器 - 在没有任何权限的情况下破解任何 Microsoft Windows 用户密码

【数据库报错（未删除任何行，未更新任何行）】

数据库 null 表格数据数据类型

首先查看定义的表格数据类型有无问题，点击表格编辑前100行如何更改编辑行数：更改编辑行数这里的允许NULL值为通过输入端输入后，写进数据库是否包含空值例如，输入端通过注册输入注册名后，若允许NULL值未勾选，则写进表格的为用户名+数据类型除了用户名所占字节剩余用空格进行填充（写入表格中的数据为用户名+若干空格）若允许NULL值勾选了，则写进表格的即为刚刚进行注册的用户名，其后没有多余空格

magize

2023/07/11

3830

如何在CentOS 7上编写自定义系统审计规则

其他

Linux审计系统创建审计跟踪，这是一种跟踪系统上各种信息的方法。它可以记录大量数据，如事件类型，日期和时间，用户ID，系统调用，进程，使用的文件，SELinux上下文和敏感度级别。它可以跟踪文件是否已被访问，编辑或执行。它甚至可以跟踪文件属性的更改。它能够记录系统调用的使用情况，用户执行的命令，登录尝试失败以及许多其他事件。默认情况下，审计系统仅记录日志中的少数事件，例如登录的用户，使用sudo的用户以及与SELinux相关的消息。它使用审计规则来监视特定事件并创建相关的日志条目。可以创建审计规则。

小皇帝James

2018/10/29

4.3K0

简单实现MySQL数据库的日志审计

云数据库 SQL Server

由于MySQL社区版没有自带的审计功能或插件，对于等级保护当中对数据库管理的要求的就存在一定的不满足情况的，抛开条条框框不说数据库的日志是值得研究的，通过收集数据库的日志到企业SOC平台便于安全事件的溯源与故障分析，配合目前的UEBA技术能够轻松发现很多恶意事件。

FB客服

2018/12/28

1.8K0

linux下用户操作记录审计环境的部署记录

其他

通常，我们运维管理人员需要知道一台服务器上有哪些用户登录过，在服务器上执行了哪些命令，干了哪些事情，这就要求记录服务器上所用登录用户的操作信息，这对于安全维护来说很有必要。废话不多说了，下面直接记录做法： 1）查看及管理当前登录用户使用w命令查看当前登录用户正在使用的进程信息，w命令用于显示已经登录系统的用户的名称，以及它们正在做的事。该命令所使用的信息来源于/var/run/utmp文件。w命令输出的信息包括： -> 用户名称 -> 用户的机器名称或tty号 -> 远程主机地址 -> 用户登录系统的时间

洗尽了浮华

2018/01/23

2K0

SpringSecurity用户定义

mybatis 内存

用户定义基于内存 @Override protected void configure(AuthenticationManagerBuilder auth) throws Exception { InMemoryUserDetailsManager manager = new InMemoryUserDetailsManager(); manager.createUser(User.withUsername("admin").password("{noop}123").roles("adm

周杰伦本人

2022/10/25

2410

【数据库审计】旁路式与植入式数据库审计技术有何差别

数据库 sql

在日渐火热的数据库安全领域，数据库审计应该是应用最为广泛，用户接受度最高的产品了，没有之一。

新知号

2019/03/21

2.2K0

相似问题

.htaccess url路由奇怪的行为

.htaccess奇怪行为

奇怪的.htaccess行为

.htaccess奇怪的行为

.htaccess的奇怪行为

活动推荐

国内短信福利大放送，不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例