首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >从具有特定长度的文件中提取字词

从具有特定长度的文件中提取字词
EN

Stack Overflow用户
提问于 2018-06-01 04:56:38
回答 1查看 79关注 0票数 1

我有一个包含句子的文件。我想将这些句子提取到一个列表中,并删除长度为<=3的单词

这就是我现在所拥有的:

with open("./data/pos/train-pos.txt", "r", encoding="utf8") as f:
    train_pos = [line.strip().lower() for line in f]
    newDoc = [word for word in train_pos if len(word) >= 3]
    print(newDoc)

-pos=‘我喜欢苹果’,‘苹果是我最喜欢的水果’

我想要获取:['like apples', 'apples favorite fruits'],但我获得了相同的列表。哪一个是问题所在?我想以一种非常优化的方式来做这件事,因为train-pos.txt包含数以千计的句子,所以如果你的解决方案与我的错误解决方案不同,也没有问题。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-01 05:01:58

你可以这样做:

>>> newDoc = [' '.join(word for word in sentence.split() if len(word) >= 3) for sentence in train_pos]
>>> newDoc
['like apples', 'apples are favorite fruits']
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50632664

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档