我知道这个问题已经在堆栈溢出上问过很多次了,但是regex太难理解了。
我试过的是:
String sentence = "The #{adjective} brown fox jumps over the lazy dog";
String requierd_sentence = sentence.replaceAll("[{*.*}]", "quick");
System.out.println(requierd_sentence);
在这个句子中,形容词不是固定的--它们随每一个新的字符串/句
我开始阅读Regex,在文章中我发现:
The asterisk or star tells the engine to attempt to match the preceding token zero or more times.
和
The plus tells the engine to attempt to match the preceding token once or more
我在谷歌上搜索了上述句子的含义,但我真的不明白preceding token once or more和preceding token zero or more times这两个词是什么意思,有人可以
假设我有以下两句话:"Onions are being cut. However, a great big cut to the onions have been observed",我希望匹配短语“切洋葱”。这只是一个最小的例子。 我的要求是,算法遍历所有句子,并返回一个bool,即句子是否包含该短语。另外,我只希望匹配词汇化的版本,在短语之间有0个或更多的单词是可以的。因此,在上面的示例中,我希望它返回[False, True]。我该怎么做呢? 我的半个尝试如下(我需要帮助的地方被标记为TODO): import spacy
from spacy.matcher imp
我在python中的NLTK包中使用WordNetLemmatizer()函数来对电影评论数据集的整个句子进行修饰。
这是我的代码:
from nltk.stem import LancasterStemmer, WordNetLemmatizer
lemmer = WordNetLemmatizer()
def preprocess(x):
#Lemmatization
x = ' '.join([lemmer.lemmatize(w) for w in x.rstrip().split()])
# Lower case
x = x.lo
下面的代码应该从数据库中取出一个句子,然后用word标记它,然后相应地删除停止词。由于某些原因,当我在For循环中调用远程脚本函数时,它无法工作。有什么建议吗?当我用插入的句子调用移除词函数时,它工作得很好。
import nltk
import random
import csv
from nltk.corpus import stopwords
def tokenize(sentence):
""" This function does the task of converting a sentence into a set of words"
假设我想在一个句子中匹配两个连续的单词,但不显式地匹配其他句子,这些句子可能仍然包含这两个单词,但不是一个紧接着另一个。
mydata <- data.frame(text=c("I like pizza, and a read a novel.", "I like novels."))
所以如果我这么做了..。
grepl("lik.*? novel.*?", mydata$text, perl=T, ignore.case=T)
...I得到“1true TRUE",而我需要的是"FALSE TRUE”,因为第一句话中的
我在调试一些遗留代码,发现我们没有正确使用re.findall。
所以我有一组关键字(也可以是一个短语),我需要返回一个句子中出现的所有关键字。
keyWords = [keyword1, keyword2,...] # size around ~500
prog = re.compile(r'\b(%s)\b'%"|".join(keyWords)) # has to match the entire word, hence the word boundary \b
prog.findall(sentence)
但它在以下情况下不起作用:
myKeywords
我想知道如何在标签中引用句子中的一个词。例如,我有:
label1.text = "books pencil pen ruler";
我想说:“如果标签1.文本包含”钢笔“一词,那就做点什么吧。”
if (label1.text CONTAINS THE WORD "pen")
{
// do something
}
我该怎么做?
我试着把句子中的所有单词匹配起来:
"That's the password: 'PASSWORD 123'!", cried the Special Agent.\nSo I fled.
我试过:
([A-Za-z\d(^\n$)]+('[A-Za-z]+)?)
但我不想把\nSo和一个词相匹配。只有So。事实上,我想排除所有形式的空白,如\n或\t。
我的Julia代码是:
sentence = """"That's the password: 'PASSWORD 123'!",
使用Python,我试图在一个返回中捕获一个短语,加上前面的单词和一个接一个单词。
也就是说,从句子中..。
We want to see this phrase here and then again!
返回
see this phrase here
我最近得到的是..。
>>> s = 'We want to see this phrase here and then again!'
>>> re.search("\w*\sthis phrase\w*\s",s)
<_sre.SRE_Match object; sp
我正在寻找一个PHP正则表达式来匹配一个句子中的一个单词,它也允许句子中的一些其他单词,但是如果句子中有任何其他单词不在允许的列表中,那么匹配就会失败。例如:
The quick fox
我在找狐狸。‘'The’和'quick‘如果出现的话也是可以的。因为这些词是可选的,所以
fox
也会没事的。然而,
The quick brown fox
是不好的。我不想要棕色狐狸。
你也可以建议另一种方法来做这件事,但它需要快速发火。
编辑:单词会出现在狐狸前面,但它们可以按任何顺序出现。
quick The fox
也应该匹配。
我使用的是Lucene.net 3.0.3,我不明白停止词在查询中是如何工作的。
我把这段文字作为输入:Stop the word
我使用StandardAnalyzer(Version.LUCENE_30)进行索引和查询。索引只有一个字段Title
该字段被设置为存储和分析。我也玩过不同的TermVector。对于查询解析,我使用简单的QueryParser.Parse和
这就是问题所在:
查询Title:stop the word返回文档-这很好
对Title:stop word的查询不返回文档-我期待它,因为停止词被从索引中删除。
然后我切换到LUCENE_24,第二个查
我相信这个问题最有效的解决方案是使用Regex,但是我不确定语法。当查看一个句子时,你如何识别一个单词后面是否有一个非字母字符(除了a,b,c,d,e.)出现在一个字符串中。例子如下:
String word = "eat"
String sentence = "I like to eat!"
This satisfies the condition because the exclamation point is not a letter
String sentence = "I like to beat!"
This does not s
我有一个regex来查找以今天开头,以结尾的句子。或·,但在第一个单词(今天)和最后一个单词(.\·)之间--,,必须在句子中。
description = 'Today is a beautiful day in one of the last days of April. Other sentence ...'
pattern = re.finditer("(Today).*?[\.•]", description, re.IGNORECASE)
for i in pattern:
print(i.group(0))
# desired output
我不知道怎么用regex做这个。我想匹配一个句号后,一定数量的字符在句子中。
this is a long sentence. it contains a few full stops in it. I want to match the full stop after the halfway point.
this sentence is shorter. it also contains full stops but not many.
它也不应该匹配最后一个句号。它应该匹配第一句中的第二个句号,而在第二个句子中没有匹配。所以比赛应该是这样的:
this is a long senten
我正在使用依赖解析器来查看一个句子是否与规则匹配(除了异常)。例如,我试图找出名词主语没有补语的所有句子(形容词、复合词等)。
一个积极的例子是。
The school is built in 1978.
一个否定的例子是。
The Blue Sky Airline is 70 years old.
我目前的Spacy模式符合这两种情况。
[
{"RIGHT_ID": "copula", "RIGHT_ATTRS": {"LEMMA": "be"}},
# subject of the verb
我正试图在我的应用程序中创建一个正则表达式,并且很难理解它。我已经创建了一个正则表达式,但我仍然希望修改它,使其不匹配特定的内容。我需要为iOS和Android创建regex。
这是我的领地
(?:rahul[\s"'?.!:s()\{\}])
这是我的测试字符串
rahul hello rahul! vyas and rahul? and rahul. and rahul: and rahul and rahul( and rahul) and rahul{ rahul.shiv rahuls vyas rips rahul!!
这是我用来创建regex 的站点
我真正想要