我试图在一组新闻文章上运行LDA算法。我理解在预处理阶段必须删除数字,我编写了一个简单的regex代码来用空格替换数字。
df['number_removed'] = df['text'].str.replace('\d+', '',regex=True)
但是,我想保留一些数字,因为删除它们可能会改变上下文/主题。例如,
“第四次工业革命也被称为工业40开始改变商品的生产方式”
错误的“第四次工业革命,也就是工业开始改变商品的生产方式”
注意:作为预处理的一部分,示例中删除了标点符号。
所以,我在想:
发布于 2022-07-14 15:28:25
在类似的情况下,有时所做的是用一个虚拟标记(如<NUMBER>
)替换数字,这样原始文本中有一个数字的事实就会被保留下来,但不会干扰语法上下文。实际值通常对泛化没有那么重要。
如果您想保留具体的数字(如“行业40"),那么我想您需要调整正则表达式以保持这些模式。
https://stackoverflow.com/questions/72982751
复制相似问题