我想用正则表达式取中文句子的中间模式 - 腾讯云开发者社区

、、、

我有一个中文句子，我想用中文标点符号把它分开。但它失败了。我在文件中使用了utf-8编码。 std::string src = "使用boost split失败了，不知道什么原因。有人可以告诉我吗？谢谢！"; boost::split(results, src, boost::is_any_of(",.，。")); 拆分结果为： ["使用boost split失败了", "", "", "不知道�", "么原因", "", "", "有人可以

浏览 1提问于2017-04-05得票数 1

2回答

如何使用Tensorflow将中文字符串拆分成字符

、

我想用tf.data.TextLineDataset()来读中文句子，然后用map()函数把它拆分成一个单词，但是tf.split对中文不起作用。

浏览 5提问于2017-12-27得票数 0

3回答

中文文档的句子拆分

、、、

我必须将中文文本分成多个句子。我试过斯坦福大学的DocumentPreProcessor。它在英语上运行得很好，但在中文上就不行。请你能让我知道有什么好的中文分句最好是在Java或Python。

浏览 3提问于2014-12-12得票数 5

1回答

使用php中的preg替换数组中的字符串

、、

我有一些句子，我想用一个词来代替每个句子，这个词(或它的一个变体)包含在句子中。我将正则表达式模式放在索引数组中，这些数组是要在每个字符串中找到的单个单词。我有第二个数组，它有替换词(这些单词只是简单的例子)： $pattern = array('/one/','/two/','/three/'); $replacements = array('ones','twos','threes'); 比如说，我有句话： "There is one tree" 然后我想用 "ones&

浏览 3提问于2014-02-09得票数 0

回答已采纳

1回答

斯坦福OpenIE是否可用于中文文本？

全, 我的理解是，基于的Open IE分析还不适用于中文文本。然而，在这个结果中，我使用了一个简单的中文句子，“”(LuXun住在上海)，它返回鲁迅住在上海IE结果：有人能告诉我Open IE现在是否支持中文文本吗？非常感谢！

浏览 0提问于2018-06-28得票数 0

3回答

Python正则表达式:检测包含特定单词的模式？

、

句子："[cnn news, Chris] Stackoverflow is awesome"。我想用正则表达式检测的是[cnn news, Chris]部件。我尝试的是：re.search(r"[cnn news, \w+]", sentence)，但它只检测到c(第一个字母)... 我的表情怎么了？

浏览 0提问于2018-05-25得票数 0

4回答

如何将中文txt文件中的每两行相邻行与Python合并成一行

我有一个中文的txt文件，里面有成千上万的句子，如下所示，第1行第2行第3行第4行 ………… 我想把每两条相邻的线合并成一行，它应该转换为：第1行+空间+第2行第3行+空格+第4行第5行+空间+第6行………… 如何使用Python完成组合？

浏览 5提问于2016-06-06得票数 0

4回答

java中句子前三个字母的正则表达式

、

如何在java中为下面类似的句子编写正则表达式，并且应该只匹配句子的前三个字符 ins(clear(icl>remove>do,plf>thing,obj>thing,ins>thing).@entry.@past,evidence(icl>indication>thing)) 我试过这个代码，但它也符合句子中明确的证据…… String pattern2="[-a-z0-9R:._-`&=*'`~\"\\+[\\s]]+[\\(]"; Pattern r2 = Pattern.compile(patter

浏览 0提问于2013-10-10得票数 0

2回答

为什么我不能匹配我在python中正则表达式的最后一部分？

、

我想用可选的结尾'other (\\w+)'来匹配一个句子。例如，正则表达式应该匹配两个句子，如下所示，并提取单词“things”：苹果和其他东西。苹果很大。我编写了一个正则表达式如下所示。然而，我得到了一个结果(None,)。如果我删除最后一个?。我会得到正确的答案。为什么？ >>> re.search('\w+(?: other (\\w+))?', 'A and other things').groups() (None,) >>> re.search('\w+(?: oth

浏览 5提问于2015-11-15得票数 3

回答已采纳

2回答

正则表达式是否将特定单词与美元符号匹配？

我有这样的句子： $COIN has a new price target increase to $400 我只想用正则表达式匹配$COIN，我想知道怎么做？如果我执行类似.*\\$.*的操作，它也会匹配$400。我只想匹配$SOMEWORDNOSPACE。这有可能吗？谢谢

浏览 0提问于2021-04-19得票数 0

1回答

逗号前的和服>文本

我试着用Kimonolabs从网站上抓取一段文字。使用高级设置成功地对文本进行了刮除： div > div > ul > li.location > span.value 使用此CSS选择器刮取的文本是： Cityname, streetname 1 不过，我希望删除逗号前的所有字句，以便只保留： Cityname 我想用regex来做这件事，但我完全不知道。我所做的是，当使用Kimonolabs：时，它必须包含3个街区。有人能帮我建立正确的准则吗？到目前为止，我所得到的只是以下内容，但它不是Kimonolabs的正确标记(它不允许在仪表板中使用)： ^(.+?),

浏览 1提问于2016-02-12得票数 1

回答已采纳

2回答

优雅的正则表达式匹配所有标点符号，而不是"'“在emacs Lisp？

、

我希望匹配所有标点符号，但不是像"I'm“中那样的"'”。例如，在下面的句子中： I'm a student, but I'm also working. ^not match ^match ^not ^match 我可以使用"[[:punct:]]+“来匹配所有标点符号，但是我很难从匹配模式中排除"'”。当然，我可以使用下面这样的东西来表示枚举，但它非常繁琐，特别是考虑到中文的标点符号也是如此。"[,.?!]“ 请推荐一个更优雅的解决方案。提前谢谢你，于

浏览 1提问于2009-12-13得票数 2

回答已采纳

1回答

如何使用Python使用stanford解析器处理中文句子

、、

我想用python的接口来处理一些中文句子，因为我对Java一点也不熟悉。这里的problem.It官方网站给出的接口似乎只能用于英文句子。我尝试修改parser.py的代码，但我遇到了许多困难。所以，我想知道你们中是否有人像我一样遇到过这样的问题，并能给我一些如何解决它的想法？非常感谢。

浏览 4提问于2014-11-29得票数 1

3回答

如何有效地循环set python中的regex搜索

、、、

我正在评估一长串句子，看看它们是否包含州名，并用一个小块来映射它们，这就是我想出的代码--它非常慢。应该如何正确地做到这一点？ for sent in sentences: #set of sentences.upper() for state in stateset: #set of state abbrev's and names in .upper() boundst = re.compile(r'\b%s\b' % state, re.I) if re.sear

浏览 7提问于2015-09-12得票数 1

回答已采纳

1回答

从服务器数据库的视频表格中获取字幕行(英文和中文)

、、、、

首先，我对数据库的了解是有限的。我有一个视频表(在服务器数据库中)，其中有一个subtitle_content列，它是中、英文文本类型。这是视频表中列的一个示例文本，实际上是srt副标题(注:中文句子是前面英语的翻译。视频表的行数大约为10至15 000行，每一行的列将包含大约100行文本，如下所示： 1 00:00:02,000 -> 00:00:04,330 13米你应该看看。 13米您应该看到它。 2 00:00:17,682 -> 00:00:19,392 好吧，把她抬起来越过船头栏杆。好吧，将她抬起并越过弓杆。 3. 00:00:21,853 -> 00:00:

浏览 1提问于2020-05-24得票数 0

5回答

如何从文本文件中读入多个单词？

我有一个关于c++中文件输入的问题。我希望能够创建一个字符串变量并从文件中读入一句话。我该怎么做呢？这就是我到目前为止所拥有的代码。 #include <iostream> #include <fstream> #include <string> using namespace std; int main() { string word; ifstream fin; // Open the file fin.open("file.txt"); // Read in the sentence from the file fin >

浏览 0提问于2016-05-26得票数 1

1回答

如何在NLTK中通过标签将一个段落拆分成句子

、、

现在，我在标记后有一个段落，我想在NLTK中将其分成单独的句子。我想到的第一个想法就是用<PU>标签来实现，就像, .标点符号那样。所以正则表达式如下所示： grammer = r""" NP: {<.*>+} }<PU>{ """ 然而，我发现我遗漏了其他标点符号，如(，)，{，}…… 因为标点符号( )是用来拆分句子的，所以上面的方法不能很好地适用于下面的句子。客户#NN 表示#VV 销售人员#NN 挺#AD 热情#VA 的#SP ，#PU 而且#

浏览 1提问于2015-09-09得票数 2

1回答

就像一种不同的比较

、、

背景我正在开发一个游戏分析软件，在该软件中，我必须将句子转换为我所说的“句子模板”，并将这些句子模板与标准模板匹配，这些模板存储在Excel表格中。根据是否找到匹配项，需要执行一些操作。整个程序都在Excel中. 例如，如果句子是：传球左平T.Harry最近的后卫相应的句子模板是：传递抛出的$DIR$平面$NAME$最近的后卫因此，句子模板将句子中的“可变”词替换为我所说的“掩码”。因此，$DIR$可以表示“左”、“右”或“中心”，并且仍然表示相同的句子模板。类似地，G.Jones可以取代T.Harry，而且它仍然是相同的模板。除了$DIR$和$NAME$之外，大约有六种不同类型的

浏览 0提问于2014-09-01得票数 0

回答已采纳

2回答

检查句子中是否存在某些字符串，并使用Python3.6替换为另一个字符串

、、

我的程序是检查输入句子是否包含not和bad，然后用good替换它。例如，如果句子中包含not bad，而在not和bad之间没有任何其他字符串，那么我可以将它们替换为good，如下代码所示： s = 'The day is not bad' s = s.replace('not bad', 'good') print(s) 产出如下： >>> The day is good 如果在not bad**.**和之间还有其他单词(或单词)，那么就会出现问题--看看我尝试过的代码： l = ['not', 'b

浏览 4提问于2017-10-14得票数 1

回答已采纳

1回答

用regex解析包含特定字符串模式的单个完整句子

我有一串中文文本： ×××。xxxx.某某。某某。×××。xxxCxxxx。如何使用regex解析包含字母"C“的句子？ xxxCxxxx。裁判官： /。.+?C.+?。/ 给出了这个结果： "。xxxx。xxx。xxx。xxxxx。xxxCxxxx。" 更新：找到答案：[^。]*C[^。]* 有人能解释为什么/[^。]*C[^。]*。/工作而/。.+?C.+?。/不工作吗？

浏览 2提问于2017-10-05得票数 1

回答已采纳

1回答

使句子与错乱的单词匹配，但保持句子的顺序。

我想用这样的方式来匹配句子:单词和句子可以是任意的顺序，但是句子应该是相同的顺序。例如：我叫萨姆。我喜欢regex。可接受的投入： My Sam is name. regex I love. name is My Sam. I regex love. 无效输入： I love regex. My name is Sam. regex I love. is My name Sam. 到目前为止，我已经提出了解决上述问题的示例正则表达式。 ^((?=.*\bMy\b)(?=.*\bSam\b)(?=.*\bis\b)(?=.*\bname\b))((?=.*\bregex\b)(?=

浏览 0提问于2015-09-04得票数 2

回答已采纳

3回答

在python中识别字符串中的某些单词短语

我有一个单词短语列表和一个字符串，如下所示。 mylist = ['and rock, 'shake well', 'the'] mystring = "the sand rock need to be mixed and shake well" 我想用""替换mylist中的单词。我目前在python中使用replace方法，如下所示。 for item in mylist: mystring = mystring.replace(item, "") 然而，我注意到它并不适用于我所有的句

浏览 19提问于2017-12-11得票数 1

回答已采纳

1回答

包括中文句子中的特殊字符

、、、

我不想从给定的字符串中删除特殊字符。请告诉我如何修改我的regex变量，使它不会从我的中文句子中删除特殊字符。例如, 这项治疗费用很高. 我不想删除这个“。字符从sentence>我如何使这工作？很抱歉问了这么多问题，因为我刚开始编程。 def spliteKeyWord(str): regex = r"[\u4e00-\ufaff]|[0-9]+|[a-zA-Z]+\'*[a-z]*" matches = re.findall(regex, str, re.UNICODE) return matches

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

Javascript RegEx --仅当以特定短语结尾时，才选择字符之前的所有内容

、

尝试在JavaScript中使用RegEx删除逗号后的句子(字符串)的结尾，但仅当某个关键短语正在结束句子时。例如，对于关键短语'StackExchange'和句子RegEx is confusing me, John told StackExchange. 我只想选择RegEx is confusing me. 对于句子/字符串：他们不知道用RegEx怎么做。他们在网上搜索了几个小时，然后在StackExchange上提问。我只想选择：他们不知道用RegEx怎么做。他们在网上找了好几个小时。谢谢你的帮助。

浏览 14提问于2018-07-02得票数 1

回答已采纳

3回答

如何使用Unix命令打印包含汉字的行或包含###的行？

、

我有一个文本文件，我想使用Unix命令(我不在乎哪些)来打印包含中文字符或包含字符串###的行。这个答案有一个grep命令，用于打印包含汉字的行。 grep -P '[\p{Han}]' filename.txt 据我所知，这是一个Perl正则表达式。这将打印出包含###的行： grep '###' filename.txt 但我想不出怎么把它们结合起来。如果我像我所期望的那样做grep -e '###' -P '[\p{Han}]'，这个答案就会泛化，它不会打印出包含汉字的行。问:如何使用Unix命令打印包含汉字的行或包含#

浏览 0提问于2022-04-01得票数 4

回答已采纳

1回答

使用Regex拆分并选择以大写字母开头的字符串

、、、

我有一个如下所示的字符串： "This Is A TestSentence For The Purpose of Asking a Question" 我想用正则表达式检索以“句子”开头的所有内容，这意味着： "Sentence For The Purpose of Asking a Question" 我试过了，但它也包含了前面句子的小写字母： \w[A-Z].* 文本不是特定的，这意味着正则表达式模式应该匹配具有此结构的任何句子，而不是特定的文本(只有一个实例具有连接的大小写单词) 我似乎想不出该怎么做。感谢各位专家的帮助！

浏览 8提问于2017-02-07得票数 1

3回答

清单理解中的Python if-语句

、、

我有这行代码： bitext = [[sentence.strip().split() for sentence in pair if len(sentence) < 100] for pair in zip(open(c_data), open(e_data))[:opts.num_sents]] c_data是一个带有中文句子的文件 e_data是一个带有英语句子的文件。 bitext应该是一个包含一对英汉句子的列表，它们是相互翻译的。因为这两个数据文件都很大，我只想减少代码的复杂性，只考虑长度低于一定长度的句子。长度以字符来衡量。

浏览 2提问于2013-03-04得票数 1

回答已采纳

2回答

在Oracle11g中匹配句子中两个单词的REGEXP_LIKE

、、

句子：“过程中遇到标准域警告” 我想找出所有的句子，其中有标准和警告在它使用REGEXP_LIKE。此外，搜索必须不区分大小写。我想用REGEXP_LIKE替换以下代码： Select * from table where upper(sentence) like 'STANDARD%WARNING%'

浏览 2提问于2015-07-17得票数 1

1回答

url部件的htaccess重写规则

、

我的url看起来很像： http://example/en/account/register 我想用regexp这个url来捕捉 RewriteRule ^(\w{2}+)/(^account)$ 在这个规则中，我希望拥有包含http://example/en/account/的所有url 我找不到我的regexp中的问题所在，因为这个regexp对那个url不正确.

浏览 2提问于2015-12-07得票数 1

回答已采纳

1回答

句子前和句后的空格？

、

我有个剧本： <input type="text" name="lastnamename" pattern="[^\s]*" title="Delete space before or after sentence!" style="text-transform:uppercase" required> 这个模式"[^\s]*"显示了句子_Adam_Sandler_中的每一个空格。我需要的模式，只显示_Adam Sandler_这些空格前的句子，和后面的句子。

浏览 3提问于2015-04-23得票数 0

回答已采纳

10回答

把句子分成几个单独的词

、、、

我需要把一个中文句子分成几个单独的单词。中文的问题是没有空格。例如，这个句子看起来可能是：主楼怎么走 (空格是：主楼怎么走)。现在我可以想出一个解决方案。我有一本有中文单词的词典(在数据库里)。剧本将：尝试在数据库(主楼)中找到句子的前两个字符，如果主楼实际上是一个单词，并且它在数据库中，脚本将尝试查找前三个字符(主楼怎)。主楼怎不是一个单词，所以它不在数据库=>中，我的应用程序现在知道主楼是一个单独的单词。试着和其他角色一起做。我真的不喜欢这种方法，因为即使分析一个小文本，它也会查询数据库太多次。对此还有其他解决办法吗？

浏览 15提问于2010-01-26得票数 14

回答已采纳

3回答

变量与div文本的js比较

、、、

我试图比较div中文本的值(这是一个句子)。和js变量中定义的文本： function isSame(){ s="This is a sentence." var text1 = $('#right').text(); var t1 = text1.replace(/ /g,'').replace(/ /g, '').replace(/\<br\s*[\/]?>/gi, '').replace('\t',''); var s1

浏览 5提问于2016-04-05得票数 0

回答已采纳

2回答

检查句子是否包含短语

、、

句子：嘿，结帐Hello <-应该包括在内你好，世界真好！--应该包括在内。哈罗世界不应该工作<-不应该包括在内这个也不应该包括在这个世界里 var phraseToSearch = "Hello World"; 确实注意到： sentence.ToLower().IndexOf(phraseToSearch.ToLower())将不工作，因为它将包括所有上述句子，而结果应该只包括句子1和2。

浏览 4提问于2016-12-03得票数 0

1回答

斯坦福POS标签不标注中文文本

、、、

我第一次使用Stanford标签(这是第一次)，虽然它正确地标记了英语，但即使在更改模型参数时，它似乎也不识别(简体)中文。我忽略了什么吗？我已经从这里下载并解压了最新的完整版本：然后，我将示例文本输入到“sam-input.txt”中。这是一个测试的句子。这是另一个句子。然后我就跑 /斯坦福-postagger.sh模型/中文-dissim.tagger样本-input.txt 预期的输出是将每个单词标记为词性的一部分，但它将整个文本字符串识别为一个单词：从标签模型/中文-dissim.tagger加载默认属性从模型/中文阅读POS标签模型.完成3.5秒。這是

浏览 0提问于2013-04-18得票数 5

回答已采纳

1回答

使用正则表达式来匹配内容或分隔符更好吗？

、

作为一个具体的例子，我想把一个文本文档分解成句子。我正在考虑使用以下正则表达式(仍然需要调整)： [!?][\s]*|[.\n][!?\s]+[.!?\s]*，它与标点符号/空格(句子之间的分隔符之间的内容)匹配。 (.|\n)*?([!?.]\s+|[\n]{2,}|$)：捕捉任何字符串，后面跟着标点符号或换行符(完整的句子--我想要的内容) 一般来说，这些方法中哪一种是首选的？在我的特定上下文中，我希望跟踪每个句子的开始和结束索引，这样我就不能做像这样简单的事情。谢谢。

浏览 3提问于2015-07-20得票数 0

3回答

Regex在()

、

我正试图使用regex在Python中的括号之间找到正确的名称和日期，但出于某种原因，似乎没有什么适合我的。虽然我希望这是一个简单的答案，但它却把我吊起来了。有人能提供解决方案吗？我正在使用Python3.7。该数据集由从学术文章中提取的文本组成。我想提取作者的姓名和出版日期，总是在引用的句子结尾。我想把它写成一个清单，然后储存在熊猫的数据仓库里。一个典型的句子是， “青年暴力的相关因素仍然是粗略理解的，而且往往默认SES变量(Sheffield，1998年)。” 我试图提取的是(谢菲尔德，1998年)类型的数据。它总是以这种模式出现。我的预期产出是 (谢菲尔德，1998年) 我目前的代码

浏览 8提问于2020-03-04得票数 2

回答已采纳

3回答

我想知道VB 0.6文本框中出现一个单词的次数。

想知道Visual版本0.6中文本框中出现一个单词的次数吗？我试着用清单上的计数器，但效果不好。例如:在下面的句子中：“去玩，回家去”.动词"go“出现2次..then。我想要计算动词"go“出现次数的代码，例如通过标签对我说:2次例如:在下面的句子中：“去玩，回家去”.动词"go“出现2次..then。我想要计算动词"go“出现次数的代码，例如通过标签对我说:2次

浏览 1提问于2014-04-16得票数 0

回答已采纳

1回答

如果要替换的句子带有"+“号，则C++替换字符串函数不起作用

我使用这个函数替换文件中的单词和短语，效果很好只有一个问题，如果我想要替换的句子有'+‘符号作为句子的一部分，那么该函数不会替换该句子中的任何内容，并且由于这个加号，它保持不变。 int Replace(std::string Rfrom, std::string Rto) { auto from = "Replace+txt", to = "sentence"; for (auto filename : { "A.txt", "B.txt" }) { ifstream infile{ filename };

浏览 11提问于2019-01-19得票数 1

1回答

无法从R中的句子中提取准确的短语

、

我试图从R中的句子中提取准确的短语，这也是从R中的句子中提取部分匹配的句子。示例： phrase <- c("r is not working","roster is not working") sentence <- c("ABC is not working and roster is not working","CDE is working but printer is not working") extract <- sapply(phrase, grepl, x = sentence)

浏览 1提问于2016-12-01得票数 0

回答已采纳

1回答

如何在vs代码中使用正则表达式搜索/替换来识别段落中的句子并从新行开始

、、

我正在用vscode编写latex，为了git git跟踪，我需要从新行开始每句话。如何在vs代码中使用regex正则表达式搜索/替换来识别段落中的句子，每个句子以新行开头

浏览 19提问于2021-06-22得票数 0

1回答

如何在Python3中使用漂亮汤查找对内容

、

我正在用漂亮的汤刮一个网页：，我想得到英语句子和一对中文翻译演示句。现在我可以用这个命令找到所有的英文句子和中文句子： from urllib.request import Request, urlopen from bs4 import BeautifulSoup def parseDictWeb(): print("parse....") url = "http://www.jukuu.com/search.php?q=apple" req = Request(url, headers={'User-Agent':

浏览 0提问于2021-10-21得票数 0

回答已采纳

2回答

是否将字符串中的特定字符替换为字符串？

、、

我有一个字符串，这是一个句子，我想用字符串"foo"替换字符't'的所有实例，用"bar"替换'h'。 String sentence = "The tea is hot."; 我想要达到的最终结果是： "The fooea is fooobar." 这个是可能的吗？

浏览 0提问于2012-12-08得票数 1

回答已采纳

3回答

在以特定Regex结尾的句子中匹配数字

我有无法预测的形式的句子： Parameters: 123? ,345 abc#8678Alfa 666 我需要正则表达式匹配所有数字，除了thoose，以Alfa结尾。看起来很简单但是..。以下是我的尝试： ([0-9]+)(?!Alfa) 这是正则表达式的结果： 123 345 867 666 867是我不想要的结果。你能给我个提示吗？

浏览 1提问于2017-07-27得票数 1

3回答

Ruby regex消除了新行，直到。或者？或大写字母

、、

我想用我的字符串做以下几件事： line1= "You have a house\nnext to the corner." 如果句子没有在圆点、问号或大写字母后面的新行中结束，则删除\n，因此在本例中需要输出： "You have a house next to the corner.\n" 因此，另一个例子，这一次用问号： "You like baggy trousers,\ndon't you? 应成为： "You like baggy trousers, don't you?\n". 我试过： line1.gsub

浏览 13提问于2016-10-06得票数 1

回答已采纳

2回答

如果以a开头，以a结尾，preg_replace保留空格。

、

我想用下划线替换$string中的任何空格但如果空间被a-z包围的话就不会了。 $string = '@@ @@ English something else'; 我试过了，但它将“@”替换为"@_@“ $string = preg_replace('/[^a-z]\s[^a-z]/ui', '_' , $string); 我希望输出结果像这样 @@_@@_English something else 对不起，我不知道如何在注释中使用代码，所以只需添加一个回复测试第二和第三模式也有效。我明白第二个，但第三个对我来说有点困难。我要

浏览 3提问于2017-12-03得票数 2

回答已采纳

1回答

单词标记化NLTK缩写问题

、

我想知道如何对以下句子(字符串)进行单词标记化： "I am good. I e.g. wash the dishes." 以下几句话： ["I", "am", "good", ".", "I", "e.g.", "wash", "the", "dishes"] 现在的问题是，当涉及到像"e.g."这样的缩写时，它被NLTK word_tokenizer标记为如下["e.g", "."]

浏览 20提问于2019-03-17得票数 0

回答已采纳

1回答

如何在quanteda中将(句子)单位定义为行？

、

我想知道你是否能改变句子的结构。我不想用标点符号来组成句子，而是想用一个新的行/新行来组成句子。

浏览 6提问于2020-03-05得票数 0

3回答

在空格中找到一个字符串，或者用grep从开头或结尾处来。

、

如何匹配空格内的字符串或从开头或结尾来的字符串？我需要在以下句子中匹配-someword：word1 -someword word2，-someword word1，word1 -someword，-someword。在句子中不需要匹配：s-someword，-somewordd 我尝试了grep上面的regex grep -r [^ ]-someword[$ ] (即在-someword之前必须是空格，或者-someword必须开始句子，在-someword必须是空格或-someword必须结束句子之后)，但是没有发现任何结果。

浏览 0提问于2023-03-26得票数 0

1回答

尽管字符串出现在句子中，re.match仍返回null

、、

我正在尝试将字符串“hello world”与句子进行匹配。我认为这意味着它在句子中搜索该字符串，并返回一个表示成功的值。但是当我尝试这段代码时，所有的输出都是“None”。 import re sentence = "why do we write hello world so often?" match1 = re.match('hello world', sentence) print match1

浏览 2提问于2015-06-30得票数 0

1回答

如何将段落格式的标记列表(句子标记化后)转换为句子的编号列表或将其转换为数据帧？

、、

我使用PDFMiner读取了一个pdf文件，并为NLP analysis提取了其中的文本。由于我将处理研究文章，我通过将文本的段落转换为句子标记列表对文本进行了轻度清理。我的目标是选择包含文本引用的句子，以便进行进一步的分析。例如，数据格式如下： ['this is my new project' , 'I am very excited about this (Abbasi, 2015)'] 预期输出： 1.This is my new project 2.I am very excited about this (Abbasi, 2015) 是否可以

浏览 18提问于2020-06-19得票数 0

回答已采纳