首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在NLP预处理过程中,如何处理嵌入在文本中的数字?

在NLP预处理过程中,如何处理嵌入在文本中的数字?
EN

Stack Overflow用户
提问于 2022-07-14 15:06:41
回答 1查看 176关注 0票数 0

我试图在一组新闻文章上运行LDA算法。我理解在预处理阶段必须删除数字,我编写了一个简单的regex代码来用空格替换数字。

代码语言:javascript
运行
复制
df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)

但是,我想保留一些数字,因为删除它们可能会改变上下文/主题。例如,

“第四次工业革命也被称为工业40开始改变商品的生产方式”

错误的“第四次工业革命,也就是工业开始改变商品的生产方式”

注意:作为预处理的一部分,示例中删除了标点符号。

所以,我在想:

  1. 可以在运行LDA?
  2. 之前保留必要的数字,如何有选择地删除数字或处理上述情况?
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-07-14 15:28:25

在类似的情况下,有时所做的是用一个虚拟标记(如<NUMBER> )替换数字,这样原始文本中有一个数字的事实就会被保留下来,但不会干扰语法上下文。实际值通常对泛化没有那么重要。

如果您想保留具体的数字(如“行业40"),那么我想您需要调整正则表达式以保持这些模式。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72982751

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档