腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >过滤文本文件中的外来停用词

问过滤文本文件中的外来停用词
EN

Stack Overflow用户

提问于 2014-08-26 22:02:20

回答 3查看 576关注 0票数 0

我有一个英文和几种外语的电影名称列表，编译成一个文本文件，每个名称打印在一个新的行中：

Kein Pardon
Kein Platz f¸r Gerold
Kein Sex ist auch keine Lˆsung
Keine Angst Liebling, ich pass schon auf
Keiner hat das Pferd gek¸sst
Keiner liebt mich
Keinohrhasen
Keiro's Cat
La Prima Donna
La Primeriza
La Prison De Saint-Clothaire
La Puppe
La P·jara
La PÈrgola de las Flores

我已经编辑了一个简短的非英语停用词列表，我想从文本文件中过滤掉。拉，德，拉斯，达斯。我可以做些什么来读取我的文本，过滤单词，然后将过滤后的列表以原始格式打印到新的文本文件中？所需的输出应大致如下所示：

Kein Pardon
Kein Platz f¸r Gerold
Kein Sex keine Lˆsung
Keine Angst Liebling, pass schon
Keiner hat Pferd gek¸sst
Keiner liebt mich
Keinohrhasen
Keiro's Cat
Prima Donna
Primeriza
Prison Saint-Clothaire
Puppe
P·jara
Èrgola Flores

python

stop-words

媒体处理1元起

智能、强大、全面的多媒体数据处理服务，助您提升媒体质量、降低成本，媒体处理套餐低至1元

回答 3

Stack Overflow用户

发布于 2014-08-26 22:24:14

您可以使用re模块(https://docs.python.org/2/library/re.html#re.sub )将不需要的字符串替换为空格。像这样的东西应该是有效的：

    import re
    #save your undesired text here. You can use a different data structure
    #  if the list is big and later build your match string like below
    unDesiredText = 'abc|bcd|vas'

    #set your inputFile and outputFile appropriately
    fhIn = open(inputFile, 'r')
    fhOut = open(outputFile, 'w')

    for line in fhIn:
        line = re.sub(unDesiredText, '', line)
        fhOut.write(line)

    fhIn.close()
    fhOut.close

票数 1

Stack Overflow用户

发布于 2014-08-26 22:53:06

另一种方法，如果您对异常处理和其他相关细节感兴趣：

import re

stop_words = ['de', 'la', 'el']
pattern = '|'.join(stop_words)
prog = re.compile(pattern, re.IGNORECASE)  # re.IGNORECASE to catch both 'La' and 'la' 

input_file_location = 'in.txt'
output_file_location = 'out.txt'

with open(input_file_location, 'r') as fin:
    with open(output_file_location, 'w') as fout:
        for l in fin:
            m = prog.sub('', l.strip())  # l.strip() to remove leading/trailing whitespace
            m = re.sub(' +', ' ', m)  # suppress multiple white spaces
            fout.write('%s\n' % m.strip())

票数 1

Stack Overflow用户

发布于 2014-08-26 22:38:57

读入文件：

with open('file', 'r') as f:
    inText = f.read()

我有一个函数，你可以在文本中提供一个你不想要的字符串，但是你可以一次对整个文本执行这个操作，而不仅仅是逐行操作。此外，您希望全局使用文本，所以我建议您创建一个类：

class changeText( object ):
    def __init__(self, text):
        self.text = text
    def erase(self, badText):
        self.text.replace(badText, '')

但是，当您用空格替换单词时，会出现两个空格，以及\n后跟空格，因此请创建一个方法来清理生成的文本。

    def cleanup(self):
        self.text.replace('  ', ' ')
        self.text.replace('\n ', '\n')

初始化对象：

textObj = changeText( inText )

然后遍历不好的单词列表并清理：

for bw in badWords:
    textObj.erase(bw)
textObj.cleanup()

最后，写下它：

with open('newfile', 'r') as f:
    f.write(textObj.text)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25515881

复制

Rails里实现Filter功能

其他

Scenario <pre> As a reader When I click on category 'rails' Then I should see articles of that category </pre> If you want some practice, go for saas book's RottenPotatoes demo. You will get a better understanding of filter and session stuff in rails!

用户2183996

2018/06/28

3540

Rails 构建评论功能（2）

rails 模型

添加删除模型 rails 命令可以方便的添加删除模型 [root@h202 blog]# rails --help Usage: rails COMMAND [ARGS] The most common rails commands are: generate Generate new code (short-cut alias: "g") console Start the Rails console (short-cut alias: "c") server Start

franket

2021/10/20

3700

Rails 构建评论功能（5）

修改视图和控制器 [root@h202 blog]# vim app/views/articles/show.html.erb [root@h202 blog]# cat app/views/articles/show.html.erb Title: <%= @article.title %> Text: <%= @article.text %> <h2>Add a commen

franket

2021/10/20

3420

Rails 构建评论功能（3）

ruby 数据库 sql 腾讯云测试服务

评论在创表的过程中已经构建了与article 的关联，但是article并没与评论关联

franket

2021/10/20

8280

Rails 构建评论功能（4）

ruby

生成控制器 [root@h202 blog]# rails generate controller Comments Running via Spring preloader in process 3855 create app/controllers/comments_controller.rb invoke erb create app/views/comments invoke test_unit create test/c

franket

2021/10/20

3460

Rails 构建评论功能（1）

ruby on rails ruby

franket

2021/10/20

5770

Rails 构建评论功能（9）

如果一篇文章删除了，其中的评论也应该一并删除，可以使用 dependent 来实现需求

franket

2021/10/20

4420

Rails 构建评论功能（7）

表单

再次访问，显示效果不变再将评论的表单也抽出 [root@h202 blog]# vim app/views/comments/_form.html.erb [root@h202 blog]# cat app/views/comments/_form.html.erb <%= form_for([@article, @article.comments.build]) do |f| %> <%= f.label :commenter %> <%= f.text_fiel

franket

2021/10/20

4340

Rails 构建评论功能（6）

程序重构

如果程序中重复代码达到一定量级，会影响可读性和可维护性，这时我们可以将其中重复部分抽出来，单独成块

franket

2021/10/20

4750

Rails 构建评论功能（10）

安全基础

安全对文章的修改加入基础认证 [root@h202 blog]# vim app/controllers/articles_controller.rb [root@h202 blog]# cat app/controllers/articles_controller.rb class ArticlesController < ApplicationController ###basic auth http_basic_authenticate_with name: "soft", password

franket

2021/10/20

3930

Rails 构建评论功能（8）

模型

再次刷新访问，显示效果不变 ---- 删除评论在comment视图中添加一个删除链接然后触发Comment 模型进行删除操作 [root@h202 blog]# vim app/views/comments/_comment.html.erb [root@h202 blog]# cat app/views/comments/_comment.html.erb Commenter: <%= comment.commenter %>

franket

2021/10/20

4510

Rails 构建评论功能（11）

ruby on rails html ruby grep 编程算法

虽然这只是一个小小的demo，但不得不说，ruby on rails 的开发效率是很高效的，原因是大部分本来需要手动完成的事情，这个框架已经帮忙自动完成了，我们需要做的只剩下去填补最基本的对象定义，逻辑关系，展示方式

franket

2021/10/21

4920

GitLab 通过安全更新修复了帐户接管高危漏洞

黑客 gitlab 产品漏洞配置

据Bleeping Computer网站6月3日消息，GitLab 为其社区版和企业版产品的多个版本发布了关键安全更新，以解决8个漏洞问题，其中一个为账户接管的高危漏洞。这个帐户接管漏洞被追踪为 CVE-2022-1680，评分高达 9.9，影响 GitLab 11.10 至 14.9.4、14.10 至 14.10.3 和 15.0版本。控制 GitLab 帐户会带来严重后果，黑客可以访问开发人员的项目并窃取源代码。根据公司公告，在具有特定配置的实例上可以利用该漏洞，当组SAML SSO被配置时，S

FB客服

2023/03/30

4540

本地帐户和活动目录帐户

登录服务工具脚本权限

本地帐户Local Accounts存储在本地的服务器上。这些帐户可以在本地服务器上分配权限，但只能在该服务器上分配。默认的本地帐户是内置帐户(如administrator、guest等)，在安装Windows时自动创建。Windows安装后，无法删除默认的本地帐户。此外，默认的本地帐户不提供对网络资源的访问。默认的本地帐户用于根据分配给该帐户的权限来管理对本地服务器资源的访问。默认的本地帐户和后期创建的本地帐户都位于“用户”文件夹中。

谢公子

2023/09/01

1.7K0

rails -help

ruby on rails

rails new APP_PATH [选项] //APP_PATH项目名称

不知雨

2018/11/13

2.6K0

C - Rails

C - Rails C - Rails #include<cstdio> #include<stack> #include<cstring> using namespace std; int a[1010]; int main() { int n; while (~scanf("%d",&n) && n) { while (1) { stack<int> s; scanf("%d",&a[0]); if (!a[0]) { puts(""); brea

杨鹏伟

2020/09/11

6820

Rails资源

ruby on rails jquery ruby api

Rails Resources Here I list some rails resources I found very helpful. Quick Start Ruby on Rails Guides Rails Bridge Tutorials Point Book The Rails 4 Way, Best rails book. Ruby on Rails Tutorial API Ruby on Rails API Screencast Rails Casts, excellent rai

用户2183996

2018/06/28

8520

Ruby On Rails 4 hello world,Ruby On Rails上手

ruby on rails ruby java django

有机会再试一试Rails了，仅仅是原来接触的是2，如今已然变成了4，似乎如今的安装比原来会快些。。

全栈程序员站长

2022/07/12

2.5K0

Ruby On Rails 4 hello world,Ruby On Rails上手

4399AT功能更新

api uml jquery

由slide和orientation，click,origin 组成多场景测试要求；

厦门-安仔

2019/07/30

4380

Rails路由

编程算法 php ruby on rails 网站

在创建资源路由时，会同时创建多个可以在控制器中使用的辅助方法，如上面的资源路由会创建以下方法：

用户1515472

2019/07/24

4.5K0

相似问题

更改RMarkdown PDF代码块的背景色

如何在vscode中更改折叠块的背景色？

在RMarkdown中更改块背景颜色

在RMarkdown中更改块的表示(背景色和框架)(带光束-演示文稿)

如何在RMarkdown文档中更改整个背景色？

活动推荐

国内短信福利大放送，不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问过滤文本文件中的外来停用词
EN

媒体处理1元起

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

更改RMarkdown PDF代码块的背景色

如何在vscode中更改折叠块的背景色？

在RMarkdown中更改块背景颜色

在RMarkdown中更改块的表示(背景色和框架)(带光束-演示文稿)

如何在RMarkdown文档中更改整个背景色？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤文本文件中的外来停用词EN

媒体处理1元起

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

更改RMarkdown PDF代码块的背景色

如何在vscode中更改折叠块的背景色？

在RMarkdown中更改块背景颜色

在RMarkdown中更改块的表示(背景色和框架)(带光束-演示文稿)

如何在RMarkdown文档中更改整个背景色？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问过滤文本文件中的外来停用词
EN