使用R，regex在语料库中查找押韵的单词

使用R和正则表达式（regex）在语料库中查找押韵的单词可以通过以下步骤实现：

导入语料库：首先，需要将语料库导入到R中进行处理。可以使用R中的相关包（如tm包）来读取和处理文本数据。
正则表达式匹配：使用正则表达式来匹配押韵的单词。正则表达式是一种用于匹配文本模式的工具，可以通过定义特定的规则来查找满足条件的单词。
提取押韵的单词：根据正则表达式的规则，提取满足押韵条件的单词。可以使用R中的字符串处理函数（如str_extract_all）来提取匹配的单词。
分析和处理结果：对提取的押韵单词进行进一步的分析和处理。可以使用R中的各种数据处理和分析函数来统计、可视化或进行其他操作。

在这个过程中，可以使用以下R中的相关包和函数：

tm包：用于文本挖掘和处理的包，提供了读取和处理文本数据的功能。
stringr包：用于字符串处理的包，提供了各种字符串处理函数，如正则表达式匹配和提取。
str_extract_all函数：用于从字符串中提取满足正则表达式条件的所有匹配项。

以下是一个示例代码，演示如何使用R和正则表达式在语料库中查找押韵的单词：

# 导入相关包
library(tm)
library(stringr)

# 读取语料库
corpus <- Corpus(DirSource("path_to_corpus_directory"))

# 定义正则表达式规则
regex_pattern <- "([a-zA-Z]+)\\b\\s+\\1\\b"

# 提取押韵的单词
rhyme_words <- lapply(corpus, function(doc) {
  text <- content(doc)
  str_extract_all(text, regex_pattern)
})

# 打印结果
print(rhyme_words)

在上述代码中，需要将"path_to_corpus_directory"替换为实际的语料库目录路径。正则表达式规则"([a-zA-Z]+)\b\s+\1\b"用于匹配重复的单词，其中\b表示单词边界，\s+表示一个或多个空格，\1表示对前面匹配的单词的引用。

请注意，以上代码仅为示例，实际使用时可能需要根据具体情况进行调整和优化。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云文本处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云数据分析（DAA）：https://cloud.tencent.com/product/daa
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云音视频处理（MPS）：https://cloud.tencent.com/product/mps
腾讯云数据库（CDB）：https://cloud.tencent.com/product/cdb
腾讯云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云存储（COS）：https://cloud.tencent.com/product/cos
腾讯云区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云移动开发（MPS）：https://cloud.tencent.com/product/mps

请注意，以上链接仅为示例，实际使用时可能需要根据具体需求和腾讯云的产品更新情况进行选择。

使用R，regex在语料库中查找押韵的单词

、、、、

"day-to-day", "second-hand", "chock-a-block") 在所有这些单词中，我只需要像"helter-skelter“、"lovey-dovey”和"chock-a-block“这样的单词，它们是带有辅音变化的押韵重叠式。它们通常用连字符拼写，并且可能在元素之间有一个中间成分，例如"chock-a-block“中的&qu

浏览 47提问于2021-01-14得票数 0

1回答

是否有方法查找和显示JAVA程序的押韵单词？

我已经做了一个JAVA程序，试图找到与单词“发光”押韵的单词。该节目通过诗歌“在佛兰德斯田野”，并应输出任何词押韵与发光。为此，我试图让它寻找以"ow“结尾的单词，但它只显示"ow”，而不是显示押韵词。总之，我希望程序能够查看这首诗，并使用查找、匹配或捕获方法显示所有与“发光”押韵的单词。import java.util.<e

浏览 0提问于2020-05-28得票数 0

2回答

在最后一个元音之后寻找单词

、

目前，我正试图根据CMU发音字典生成一个与输入单词押韵的单词列表，我已经设法将所有单词排列到字典中，它们的键是一个字符串列表，表示它们的值。然而，由于基于最后一个元音的押韵，在包含多个元音的单词的情况下，我有点想找出如何做到这一点。]) comparer = rhymes[word.upper()].r

浏览 1提问于2019-02-17得票数 2

回答已采纳

1回答

层次化数据库结构

、

我正在开发一个本地语言的数据库，允许用户搜索押韵的单词。我正在尝试开发的系统不仅可以搜索押韵词，还可以搜索每个搜索项目的押韵词。这可以达到n级。为了简化起见，下面是示例：我知道我可

浏览 1提问于2018-04-27得票数 0

4回答

CMU语音数据库中的押韵词典

、

我在找一个免费或开源的押韵数据库。一个简单的文本文件的单词和它的音素是所有我需要的。这里有没有人知道我在哪里可以找到这样的列表，或者我从哪里开始从CMU文件中获得这样的列表？

浏览 6提问于2013-04-05得票数 7

回答已采纳

1回答

如何快速获取语料库中的单词集合(使用nltk)？

、、、、

我想用nltk快速地为语料库建立一个单词查找表。以下是我正在做的事情：使用a=nltk.word_tokenize(文件)获取所有令牌；使用set(a)获取唯一的标记，并将其隐藏到列表中。这是完成这项任务的正确方式吗？

浏览 1提问于2015-03-26得票数 2

回答已采纳

1回答

MySQL -我应该使用哪个Hash Algo来解决这个问题？

、

我有一个有360000个单词(词条)的大型押韵数据库。每个单词都有一个类别(例如：'sheet‘和'meet’都有类别'eet')。在我的网络空间中，查找合适押韵的查询有点慢，所以我想通过将类别加密成只有数字的散列来加快速度。(我听说这样更快，是吗？:) 我应该使用哪个散列算法来加密单个单词字符串？它应该只包含数字。

浏览 2提问于2012-05-30得票数 0

回答已采纳

2回答

如何在python中接收SMS并使用twilio加载到变量中

、、

我是一个新的python，正在学习API以及如何使用它们。我使用Datamuse API查找押韵的单词，还使用Twilio API将SMS发送到我的手机。我想，如果能通过短信向Twilio number发送一个单词，让python程序接收这个单词，然后给我发回3个与其押韵的单词，那将是一件很有趣的事情。我的问题

浏览 7提问于2019-08-25得票数 0

2回答

找到以某个字母开头的所有单词

、、

我的R和正则表达式都太生疏了。我试过阅读R的regex帮助文件，但它根本没有帮助！我需要为所有以同一个字母开头的</em

浏览 6提问于2013-02-04得票数 4

回答已采纳

1回答

python regex模块不使用utf-8 (Devnagari)

、、、

我在Bodo语言中使用python2.7作为NLP (使用脚本)。 break stopWords.append(line) 现在，我编译

浏览 1提问于2013-05-26得票数 4

4回答

使用Python中的NLTK查找押韵

、

我有一首诗，我希望Python代码只打印那些彼此押韵的单词。我被困在下一步了。我该如何与这些发音相匹配呢？总之，我的主要任务是找出两个给定的

浏览 0提问于2014-09-07得票数 21

回答已采纳

1回答

如何使用R在语料库中搜索特定的n-gram

、、

我在语料库中寻找特定的n-gram。假设我想在一组文档中找到“资产管理”和“历史收益率”。= list(reader = readPDF)ngrams <- c('asset management', 'historical

浏览 0提问于2018-08-02得票数 0

回答已采纳

3回答

我可以在包含元字符的情况下创建一个RegEx集吗？

、

我的语料库是由成千上万的字符串组成的。我希望对每个字符串运行一个正则表达式，以查找特定单词的开头和结尾，包括任何标点符号。我试着写了一个RegEx，其中包括一个包含一些可能的单词开头/结尾的集合，包括规则字符，如空格、逗号、句号等等。它还需要包括元字符，比如新行和字符串结束。下面是一个字符串的示例，以及我一直试图使用的正则表达式

浏览 6提问于2019-10-17得票数 2

回答已采纳

1回答

处理word2vec实现的语料库

、、、

作为一个类项目的一部分，我正在尝试用Python语言编写一个word2vec实现，并在一个大约6 6GB的语料库上对其进行训练。我正在尝试编写一个合理优化的解决方案，这样我就不必让我的PC闲置几天。浏览一下C word2vec源代码，我注意到，每个线程从文件中读取单词，并花时间查找每个单词的索引。最后，它存储了一个单词索引的“句子”。将整个语料库转换为包含适当单词</e

浏览 20提问于2019-12-25得票数 0

回答已采纳

1回答

在tm::content_transformer()的上下文中，我该如何使用mgsub？

、、

qdap::采用以下参数：在library( tm )语料库转换中，您可以在content_transformer()中包装非tm函数，例如= 1:2,)spldoc <- data.frame(incor

浏览 4提问于2017-07-14得票数 1

3回答

PYTHON:访问字典中列表列表的元素

、、、

我必须检查一个单词的每个发音，我将其存储为这样:每个单词都在一个字典中(下面称为wordAndPron)，而该词典中的每个单词都有几个读音作为列表存储。{ 'RECORD' : ['R&

浏览 0提问于2018-09-09得票数 3

回答已采纳

5回答

实现一个押韵查找器

、、

我想知道是否有人有什么建议，或者可以给我指出正确的方向，找到/创建某种算法来查找押韵的单词。谢谢

浏览 2提问于2012-12-20得票数 10

1回答

从列表中删除项目的文本序列

、、

我正在做代码转换的研究。我收集了一些带有英语代码开关的双语波兰语文本消息(例如，语料库A)以及一本英语词典(也是一个列表，语料库B)。我想从语料库A中提取语料库B中的所有单词实例-这样我就可以看到哪些英语单词出现在双语语料库中。，因为它包含了与我的研究无关的单词。我认为我应该做的是找到并删除任何文本消息，例如，

浏览 33提问于2021-06-29得票数 0

2回答

在Java中搜索与非常大的集合或列表中的regex匹配的字符串

、、、、

我的包含所有单词的文件大约有60MB，现在搜索押韵大约需要几分钟。是否将文本文件拆分为示例a.txt、b.txt、c.txt (每个文件的单词以a/b/c开头...)？我想把它放在MySQL中，然后用FROM table 会变得更慢。如果它会在大约10秒或更短的时间内搜索押韵，我将很高兴，因为我想<em

浏览 0提问于2020-09-09得票数 1

1回答

如何使用regex将单词列表与另一个单词列表进行比较并打印匹配项？

、、

如何使用regex将单词列表与另一个单词列表进行比较并打印匹配项？regex模块在i_transactional中查找test_keywords中的单词。在一个构造中，我手动在re.compile中输入来自re.compile的关键字，我就是这样做的： # create a regex

浏览 1提问于2021-03-15得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用R，regex在语料库中查找押韵的单词

相关·内容

使用R，regex在语料库中查找押韵的单词

是否有方法查找和显示JAVA程序的押韵单词？

在最后一个元音之后寻找单词

层次化数据库结构

CMU语音数据库中的押韵词典

如何快速获取语料库中的单词集合(使用nltk)？

MySQL -我应该使用哪个Hash Algo来解决这个问题？

如何在python中接收SMS并使用twilio加载到变量中

找到以某个字母开头的所有单词

python regex模块不使用utf-8 (Devnagari)

使用Python中的NLTK查找押韵

如何使用R在语料库中搜索特定的n-gram

我可以在包含元字符的情况下创建一个RegEx集吗？

处理word2vec实现的语料库

在tm::content_transformer()的上下文中，我该如何使用mgsub？

PYTHON:访问字典中列表列表的元素

实现一个押韵查找器

从列表中删除项目的文本序列

在Java中搜索与非常大的集合或列表中的regex匹配的字符串

如何使用regex将单词列表与另一个单词列表进行比较并打印匹配项？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐