首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >AWS Glue不会对我的数据进行分类

AWS Glue不会对我的数据进行分类
EN

Stack Overflow用户
提问于 2018-04-24 15:35:04
回答 1查看 1.5K关注 0票数 1

我有一个html文件,它的结构如下:

代码语言:javascript
复制
<!doctype html public "-//w3c//dtd html 4.0transitional//en">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Author" content="ERA">
<LINK REL=STYLESHEET TYPE="text/css" HREF="Style_Sheets/ERA_Internet_Printer.css">
</head>
<body>
<pre>
<font face="courier new" size=-4>                                                                                          14V-IG-TEST-DATA - SERVC - EXEC# 4515 
                                                                                          [11| Blubb,abcons, Port: 18 For: abcons

                                                                           For period : GE 08/04/18 AND LE 11/04/18 OR GE 11/04/18 AND LE 11/05/18 
                                                                                             01:45:40  11-04-18  -  Page #    1 


Serial#........................ 564561215
Make Desc...................... VW
Carline........................ MUX
Year...........................  2015
Cust#  ........................     512
License#....................... 78365HH
Open RO........................ R25625
EOR............................ EOR

Serial#........................ 2151512315
Make Desc...................... VOLKSWAGEN
Carline........................ VOLKSWAGEN
Year...........................  2017
Cust#  ........................     552
License#....................... DPA2151
Open RO........................ T52165
EOR............................ EOR
2 records listed.
</pre>
</body>
</html>

我想从文件中获取信息,比如“Key..........value”。因此,我使用Grok在AWS Glue中创建了一个自定义分类器来获取信息。分类器配置如下:Custom Classifier

因此,Grok模式的配置如下:

代码语言:javascript
复制
%{KEY:mykey}%{GREEDYDATA:myvalue}

使用自定义模式:

代码语言:javascript
复制
KEY ([a-zA-Z# 1-9]+\.+ )

每个Grok在线调试器(比如https://grokdebug.herokuapp.com/)都使用这种配置从数据结构中获取信息。但是当我使用自定义分类器启动Glue中的爬虫时,它将找不到任何表或结构。

我做错了什么?

EN

回答 1

Stack Overflow用户

发布于 2018-09-05 08:26:56

我认为你遇到了我在这里回答的问题:https://github.com/aws-samples/aws-glue-samples/issues/4

在AWS文档中有这样一句话:“要对数据进行重新分类以纠正不正确的分类器,请使用更新后的分类器创建一个新的爬虫”。

简单地更新分类器并重新运行爬虫将不会使用更新的分类器。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49995877

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档