我想用可选的结尾'other (\\w+)'来匹配一个句子。例如,正则表达式应该匹配两个句子,如下所示,并提取单词“things”:
苹果和其他东西。
苹果很大。
我编写了一个正则表达式如下所示。然而,我得到了一个结果(None,)。如果我删除最后一个?。我会得到正确的答案。为什么?
>>> re.search('\w+(?: other (\\w+))?', 'A and other things').groups()
(None,)
>>> re.search('\w+(?: oth
我希望匹配所有标点符号,但不是像"I'm“中那样的"'”。例如,在下面的句子中:
I'm a student, but I'm also working.
^not match ^match ^not ^match
我可以使用"[[:punct:]]+“来匹配所有标点符号,但是我很难从匹配模式中排除"'”。
当然,我可以使用下面这样的东西来表示枚举,但它非常繁琐,特别是考虑到中文的标点符号也是如此。"[,.?!]“
请推荐一个更优雅的解决方案。
提前谢谢你,
于
我正在评估一长串句子,看看它们是否包含州名,并用一个小块来映射它们,这就是我想出的代码--它非常慢。应该如何正确地做到这一点?
for sent in sentences: #set of sentences.upper()
for state in stateset: #set of state abbrev's and names in .upper()
boundst = re.compile(r'\b%s\b' % state, re.I)
if re.sear
我有一个关于c++中文件输入的问题。我希望能够创建一个字符串变量并从文件中读入一句话。我该怎么做呢?这就是我到目前为止所拥有的代码。
#include <iostream>
#include <fstream>
#include <string>
using namespace std;
int main()
{
string word;
ifstream fin;
// Open the file
fin.open("file.txt");
// Read in the sentence from the file
fin >
我的程序是检查输入句子是否包含not和bad,然后用good替换它。例如,如果句子中包含not bad,而在not和bad之间没有任何其他字符串,那么我可以将它们替换为good,如下代码所示:
s = 'The day is not bad'
s = s.replace('not bad', 'good')
print(s)
产出如下:
>>> The day is good
如果在not bad**.**和之间还有其他单词(或单词),那么就会出现问题--看看我尝试过的代码:
l = ['not', 'b
我想用这样的方式来匹配句子:单词和句子可以是任意的顺序,但是句子应该是相同的顺序。
例如:
我叫萨姆。我喜欢regex。
可接受的投入:
My Sam is name. regex I love.
name is My Sam. I regex love.
无效输入:
I love regex. My name is Sam.
regex I love. is My name Sam.
到目前为止,我已经提出了解决上述问题的示例正则表达式。
^((?=.*\bMy\b)(?=.*\bSam\b)(?=.*\bis\b)(?=.*\bname\b))((?=.*\bregex\b)(?=
我有一个单词短语列表和一个字符串,如下所示。
mylist = ['and rock, 'shake well', 'the']
mystring = "the sand rock need to be mixed and shake well"
我想用""替换mylist中的单词。
我目前在python中使用replace方法,如下所示。
for item in mylist:
mystring = mystring.replace(item, "")
然而,我注意到它并不适用于我所有的句
我有一个如下所示的字符串:
"This Is A TestSentence For The Purpose of Asking a Question"
我想用正则表达式检索以“句子”开头的所有内容,这意味着:
"Sentence For The Purpose of Asking a Question"
我试过了,但它也包含了前面句子的小写字母:
\w[A-Z].*
文本不是特定的,这意味着正则表达式模式应该匹配具有此结构的任何句子,而不是特定的文本(只有一个实例具有连接的大小写单词)
我似乎想不出该怎么做。感谢各位专家的帮助!
我有这行代码:
bitext = [[sentence.strip().split()
for sentence in pair if len(sentence) < 100]
for pair in zip(open(c_data), open(e_data))[:opts.num_sents]]
c_data是一个带有中文句子的文件
e_data是一个带有英语句子的文件。
bitext应该是一个包含一对英汉句子的列表,它们是相互翻译的。
因为这两个数据文件都很大,
我只想减少代码的复杂性,只考虑长度低于一定长度的句子。长度以字符来衡量。
句子:“过程中遇到标准域警告”
我想找出所有的句子,其中有标准和警告在它使用REGEXP_LIKE。此外,搜索必须不区分大小写。
我想用REGEXP_LIKE替换以下代码:
Select * from table where upper(sentence) like 'STANDARD%WARNING%'
我有个剧本:
<input type="text" name="lastnamename" pattern="[^\s]*" title="Delete space before or after sentence!" style="text-transform:uppercase" required>
这个模式"[^\s]*"显示了句子_Adam_Sandler_中的每一个空格。我需要的模式,只显示_Adam Sandler_这些空格前的句子,和后面的句子。
我试图比较div中文本的值(这是一个句子)。和js变量中定义的文本:
function isSame(){
s="This is a sentence."
var text1 = $('#right').text();
var t1 = text1.replace(/ /g,'').replace(/ /g, '').replace(/\<br\s*[\/]?>/gi, '').replace('\t','');
var s1
我试图从R中的句子中提取准确的短语,这也是从R中的句子中提取部分匹配的句子。示例:
phrase <- c("r is not working","roster is not working")
sentence <- c("ABC is not working and roster is not working","CDE is working but printer is not working")
extract <- sapply(phrase, grepl, x = sentence)
我想用我的字符串做以下几件事:
line1= "You have a house\nnext to the corner."
如果句子没有在圆点、问号或大写字母后面的新行中结束,则删除\n,因此在本例中需要输出:
"You have a house next to the corner.\n"
因此,另一个例子,这一次用问号:
"You like baggy trousers,\ndon't you?
应成为:
"You like baggy trousers, don't you?\n".
我试过:
line1.gsub
我想知道如何对以下句子(字符串)进行单词标记化: "I am good. I e.g. wash the dishes." 以下几句话: ["I", "am", "good", ".", "I", "e.g.", "wash", "the", "dishes"] 现在的问题是,当涉及到像"e.g."这样的缩写时,它被NLTK word_tokenizer标记为如下["e.g", "."]
我正在尝试将字符串“hello world”与句子进行匹配。我认为这意味着它在句子中搜索该字符串,并返回一个表示成功的值。
但是当我尝试这段代码时,所有的输出都是“None”。
import re
sentence = "why do we write hello world so often?"
match1 = re.match('hello world', sentence)
print match1
我使用PDFMiner读取了一个pdf文件,并为NLP analysis提取了其中的文本。由于我将处理研究文章,我通过将文本的段落转换为句子标记列表对文本进行了轻度清理。我的目标是选择包含文本引用的句子,以便进行进一步的分析。 例如,数据格式如下: ['this is my new project' , 'I am very excited about this (Abbasi, 2015)'] 预期输出: 1.This is my new project
2.I am very excited about this (Abbasi, 2015) 是否可以