我有一个很大的文件(europarl语料库),每一行都有一个英文和德文句子。
Es gab Tote. They killed people.
Ich stimme Herrn Mayer in allem zu. I agree with everything Mr Mayer has said.
以上是两个示例行。我只需要,对每一行,分开每一种语言句子。
正如你所看到的,句子之间有一个小的空格(我想是一个选项卡?)由多个空格组成,问题是文件中的空格数不一致。
另外,有时英文版完全缺失了。
是否有一种在不丢失单词或字符的情况下使用拆分函数的方法?
例如:
import re
x = '''\
1.
abcde.
2.
fgh 2.5 ijk.
3.
lmnop
'''
print(x)
listByNum = re.split(r'\d\.\D', x)
print(listByNum)
我想把数字保存在列表中
另一个例子是:
import re
x = '''\
I love stackoverflow. I love food.\nblah blah blah.
此函数接受一个字符串文本,并返回一个包含字符串列表的列表,该列表为字符串文本中的每个句子提供一个列表。
句子由一个字符串“、"?”或“!”分隔。我们忽略了其他标点符号分隔句子的可能性。所以“X先生”将变成两个句子,而‘不要’将是两个单词。
例如,文本是
Hello, Jack. How is it going? Not bad; pretty good, actually... Very very
good, in fact.
该函数返回:
“你好”、“杰克”、“如何”、“是”、“它”、“去”、“不”、“坏”、“漂亮”、“好”、“实际上”、“非常”、“非常”、“很好”、“在”中
我在解析String2时遇到了问题,一个空格。有什么想法?
String1 = "THIS IS STRING1 18-23-80-18"
String2 = "THIS IS STRING2 7-A-4, 4-93-P"
Split1 = String1.rsplit(" ",2)
Output1 = "18-23-80-18" #This Works fine
Split2 = String2.????? # Not sure what to do here
Output2 = "7-A-4, 4-93-P
我有一个字符串,我想用某些特殊的字符来分割。但我不想在方括号内分割任何东西。如何设置regex以忽略方括号内的情况?
formula = '[var1]+[v/ar/2]^var3/var4' #assume no spaces in the formula
re.split('[-+*/&,^%]',formula) #produces ['[var1]', '[v', 'ar', '2]', 'var3', 'var4']
期望产出:
['[var
使用re库应该是一项非常简单的任务。但是,我似乎不能在分隔符]和[处拆分字符串。
我已经读过、和了。
我的字符串:
data = "This is a string spanning over multiple lines.
At somepoint there will be square brackets.
[like this]
And then maybe some more text.
[And another text in square brackets]"
它应该返回:
['This
我有一个用utf-8编码数据的文件。我希望读取数据,删除空白空间,用换行符分隔单词,压缩整个内容并将其写入文件。这就是我想要做的:
with codecs.open('1020104_4.utf8', encoding='utf8', mode='r') as fr :
data = re.split(r'\s+',fr.read().encode('utf8'))
#with codecs.open('out2', encoding='utf8', mode=
下面是我正在读入的.txt文件中的一行代码,我将它赋值给x
x = "Wild_lions live mostly in “Africa”"
result = re.split('[^a-zA-Z0-9]+', x)
我最终得到的是:
['Wild', 'lions', 'live', 'mostly', 'in', 'Africa', ''] # (there's an empty space character as the last el
我有一个名为university_towns.txt的列表,其列表如下:
['Alabama[edit]\n',
'Auburn (Auburn University)[1]\n',
'Florence (University of North Alabama)\n',
'Jacksonville (Jacksonville State University)[2]\n',
'Livingston (University of West Alabam
我正在尝试从一个字符串创建一个列表,其中的项目在单词和解析字符之间交替使用,比如['Hello', ' ', 'World']
是否有一个内置的功能,现有的模块,或更简单的方式来实现以下目标?我对用于解析的变量字符感兴趣。
sample.txt
def parse_chars(string, chars):
parse_set = {c for c in chars}
string_list = []
start = 0
for index, char in enumerate(string):
i
伙计们,我有一个字符串,我想把它写成ngram,但我有一个问题,当我执行ngram = ngrams(raw_text.split(" "), n=1时,输出是
[('come',), ('here,',), ('girl\noh,',), ('you',)....]
问题是,在我的字符串中,单词的排列方式如下:
come here, girl\noh, you want...
这意味着我的ngram比它需要的要大得多,那么我该怎么做才能得到像这样的字符串呢
come here , girl \n oh , you
我有下面的字符串。
words = "this is a book and i like it"
我想要的是,当我把它除以一个空格时,我得到以下信息。wordList = words.split(" ") print wordList << ['this','is','a',' book','and','i',' like','it']
简单的words.split(" ")函数拆分字符串,但在双空格的
我尝试使用import re包中的re.split()拆分任何特殊字符。这就是我到目前为止所做的,但似乎还没有真正起作用。有什么想法吗?
word = [b for b in re.split(r'\`\-\=\~\!\@\#\$\%\^\&\*\(\)\_\+\[\]\{\}\;\'\\\:\"\|\<\,\.\/\>\<\>\?', a)]
我有文本,其中分隔符可以是列表中的任何内容;
txt1 = "Kids of today have started selling drugs or taken drugs at this age, then we are finished as parent,what generation are we going to have when our generation is no more,am sick to my stomach, it means we do not have tomorrow leaders or future leader, drugs at this s
假设我有一个这样的文档:
document = ["This is a document\nwhich has to be splitted\nOK/Right?"]
我想在遇到'\n‘或'/’的地方拆分此文档(开始时)。
因此,上面的文档应该转换为以下文档:
document = ["This is a document", "which has to be splitted", "OK", "Right?"]
我该怎么做呢?
请记住,文本中可能还有其他特殊字符等,我暂时不想删除它们。
我有一段接受JSON字符串作为POST参数的代码。我遇到的挑战是字符串是如何解码的。考虑一个meta字段为的mygateway.php的post:
{"test" : "One \"quote\" is as good as an escaped \"quote\"..."}
如果我运行:
$meta_json_string = $this->CI->post('meta', true);
$meta_json_string的值为:
{
"test": "One "