首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >AI在无效数据中学习模式?

AI在无效数据中学习模式?
EN

Stack Overflow用户
提问于 2012-01-21 10:05:11
回答 4查看 234关注 0票数 4

我在一家公共卫生部门工作,该部门每天接收和存储大量医疗数据。我已经编写了一个程序,它使用正则表达式来确定传入数据中的特定字段是有效还是无效。例如:DOB作为YYYYmmDD传入,因此它们应该与regex^0-9{8}$匹配

我想分析“无效”数据,以帮助识别系统中的问题(我们获得的数据太多,无法逐行检查每个“坏”记录)。有没有人可以建议AI技术/机器学习技术来“监控”坏数据,并在错误中找到模式?我认为提出一系列的正则表达式的可能方式的数据可能是无效的(例如。没有足够或太多的字符),然后跟踪这些结果可能会起作用。但我并没有想出所有可能导致数据无效的方法,而是好奇如何使用人工智能从坏数据中“学习”模式。

有没有什么已知的技术可以做到这一点?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-01-21 13:07:48

我认为想出一堆可能的正则表达式,数据可能是无效的(例如,没有足够或太多的字符),然后跟踪这些结果可能会起作用。但我并没有想出所有可能导致数据无效的方法,而是好奇如何使用人工智能从坏数据中“学习”模式。

有趣的是,我想起了杰米·扎温斯基的一句名言:

有些人在遇到问题时会想:“我知道,我会使用正则表达式。”现在他们有两个问题。

除了,在这种情况下,我认为手工创建的regex路由实际上是您最好的选择!

讽刺的讽刺。

不管怎么说。

这句话的要点是,人们倾向于将他们的解决方案过于复杂。在这里,正则表达式实际上是一个相当简单的问题解决方案,而创建一个学习者需要花费的时间比我想象的要多得多。

正确地表达这种非常受限的数据表示(日期)的方法比不正确地表达它的方法要少。因为有无数种方法来定义坏数据。你想训练一个学习者来检测所有这些错误吗?这是个兔子洞。把这个AI学习者想象成一个同事或朋友:你会如何向他们描述日期无法正确表示的所有方式?

虽然你的意图是从长远来看减少你自己的工作--这是一个很好的品质--弄清楚如何培养一个学习者,更不用说训练和验证它了,更不用说仔细观察它了,这比学习者在如此狭小的用例中能给你带来的任何好处更重要。

票数 3
EN

Stack Overflow用户

发布于 2012-01-21 10:19:09

Bayesian filtering可能就是你要找的东西。

票数 2
EN

Stack Overflow用户

发布于 2012-01-21 12:54:49

听起来您想要将监督学习应用于正则表达式。These fellows似乎正在做这样的事情。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8950095

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档