文章/答案/技术大牛

发布

社区首页 >问答首页 >从数字、符号和其他语言中清除句子

问从数字、符号和其他语言中清除句子
EN

Stack Overflow用户

提问于 2021-11-25 16:15:23

回答 3查看 43关注 0票数 0

我有一个包含日语句子的txt文件。我想删除所有的非日语单词。如数字、英文字母或任何其他非日文、符号、符号等。有什么快捷的方法吗？谢谢

Hi !こんにちは、私の給料は月額10000ドルです。 XO XO
私はあなたの料理が大好きです
私のフライトはAPX1999です。
私はサッカーの試合を見るのが大好きです。

字句移除:嗨！XO 10000 APX1999

string

nlp

data-cleaning

python

回答 3

Stack Overflow用户

回答已采纳

发布于 2021-11-25 16:35:36

import re
import string
s = '''Hi !こんにちは、私の給料は月額10000ドルです。 XO XO
私はあなたの料理が大好きです
私のフライトはAPX1999です。
私はサッカーの試合を見るのが大好きです。
'''
# replace all ascii chars 0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
replaced = re.sub(f'[{string.printable}]', '', s)
print(replaced)

输出

こんにちは、私の給料は月額ドルです。私はあなたの料理が大好きです私のフライトはです。私はサッカーの試合を見るのが大好きです。

票数 1

Stack Overflow用户

发布于 2021-11-25 16:29:50

最简单的方法是：

s = "Hi !こんにちは、私の給料は月額10000ドルです。 XO XO 私はあなたの料理が大好きです私のフライトはAPX1999です。私はサッカーの試合を見るのが大好きです"

no_ascii = ''
for c in s:
    ascii_code = ord(c)
    if ascii_code > 127 or ascii_code == 0:
        no_ascii += c

print(no_ascii)
こんにちは、私の給料は月額ドルです。私はあなたの料理が大好きです私のフライトはです。私はサッカーの試合を見るのが大好きです

票数 1

Stack Overflow用户

发布于 2021-11-25 16:42:08

Python类型具有isascii()函数。这段代码将删除ascii字符(不一定要求什么)，但可能有助于提出策略。

with open('japanese.txt') as infile:
    print(''.join([c for c in infile.read() if c == '\n' or not c.isascii()]))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70114281

复制

相似问题

问从数字、符号和其他语言中清除句子
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数字、符号和其他语言中清除句子EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从数字、符号和其他语言中清除句子
EN