问使用空格或标点符号作为分隔符，将unicode字符串拆分为列表的最快方法是什么？
EN

Stack Overflow用户

提问于 2011-03-09 14:34:06

回答 4查看 6.3K关注 0票数 3

 # -*- coding: utf-8 -*-
 import string
 s = u"Dobre uczynki są jak dobre poematy. Można łatwo uchwycić, ku czemu zmierzają, lecz nie zawsze da się je racjonalnie wytłumaczyć."
 exclude = set(string.punctuation)
 s = ''.join(ch for ch in s if ch not in exclude)
 s = s.split()
 print s

指纹。

 [u'Dobre', u'uczynki', u's\u0105', u'jak', u'dobre', u'poematy', u'Mo\u017cna', u'\u0142atwo', u'uchwyci\u0107', u'ku', u'czemu', u'zmierzaj\u0105', u'lecz', u'nie', u'zawsze', u'da', u'si\u0119', u'je', u'racjonalnie', u'wyt\u0142umaczy\u0107']

它看起来不仅不优雅，而且速度很慢。

你能找到更好的解决方案吗？也许使用正则表达式？

regex

python

Stack Overflow用户

发布于 2013-06-16 00:25:50

我会使用nltk，原因如下：

# coding: utf-8
from time import time
import nltk
import string
import re


def bench(n,s):
    start_1 = time()
    regex = regex = re.compile(r'[%s\s]+' % re.escape(string.punctuation))
    for i in xrange(n):
        regex.split(s)
    stop_1 = time()
    start_2 = time()
    for i in xrange(n):
        nltk.wordpunct_tokenize(s)
    stop_2=time()
    print "Regex: {} nltk:{}".format((stop_1-start_1),(stop_2-start_2))


bench(1000000, u"Dobre uczynki są jak dobre poematy. Można łatwo uchwycić, ku czemu zmierzają, lecz nie zawsze da się je racjonalnie wytłumaczyć.")

正则表达式: 22.7673070431 nltk:16.1646370888

票数 0

查看全部 4 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5242213

复制

相似问题

问使用空格或标点符号作为分隔符，将unicode字符串拆分为列表的最快方法是什么？
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用空格或标点符号作为分隔符，将unicode字符串拆分为列表的最快方法是什么？EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用空格或标点符号作为分隔符，将unicode字符串拆分为列表的最快方法是什么？
EN