使用模式阈值识别单词列表中的模式

是一种文本挖掘技术，用于发现和提取单词列表中的重复模式或规律。通过设置一个阈值，可以筛选出在单词列表中出现频率高于该阈值的模式。

这种技术可以应用于多个领域，例如自然语言处理、数据分析和信息检索等。它可以帮助我们发现文本中的重要关键词、短语或主题，从而提供更好的文本理解和信息提取。

在云计算领域，使用模式阈值识别单词列表中的模式可以帮助我们分析和理解大量的文本数据。例如，在用户评论数据中，我们可以使用该技术来发现用户对某个产品或服务的评价模式，从而了解用户的需求和偏好。在社交媒体数据中，我们可以使用该技术来发现热门话题或关键词，从而进行舆情分析和市场调研。

腾讯云提供了一系列与文本挖掘相关的产品和服务，可以帮助用户进行模式识别和文本分析。其中，腾讯云自然语言处理（NLP）服务可以实现文本分类、关键词提取、情感分析等功能。用户可以通过调用API接口，将文本数据传入腾讯云的NLP服务，获取相应的分析结果。

腾讯云自然语言处理（NLP）服务的产品介绍和文档链接如下：

产品介绍：腾讯云自然语言处理（NLP）
API文档：自然语言处理 API 文档

通过使用腾讯云的NLP服务，用户可以方便地实现模式阈值识别单词列表中的模式，并应用于各种实际场景，如舆情监测、智能客服、智能推荐等。

假设参数pocketsphinx

、

我在我的Android应用程序中使用Pocketsphinx。我使用addGrammarSearch (字符串名，文件文件)识别语音。当周围有噪音时，Pocketsphinx会捕捉到噪音，并将其识别为语法中的单词或短语。但是这个词并没有被说出来。假设中是否有任何参数来显示识别的声音与语法中的单词有多相似？获取此参数的方法是什么？我想过滤掉识别出的声音，它的值很低，也就是说，它在语法中看起来不像一个单词。

浏览 42提问于2018-03-05得票数 1

1回答

PocketSphinx将任何声音识别为字典中的单词

、、、

我给我的朋友做礼物，用声音识别的魔杖。在字典中，我有一些像Lumos和Nox这样的拼写，但问题是PocketSphinx识别任何单词和声音都是Lumos或Nox。我怎么才能修好它？我可以检查置信度%和过滤，或类似的东西，以停止识别每一个声音像单词。例如。我绕着麦克风走来走去，和一个人说话，展出的是一些类似LUMOS NOX LUMOS NOX I在覆盆子Pi 2上做的事情。

浏览 1提问于2018-06-26得票数 0

回答已采纳

1回答

如何用java检测wav文件中是否存在word /audio静音？

、、

我正在做一个语音识别器项目，作为它的一部分，想要从wav文件中找到静音的存在或检测单词.and的存在，如果找到一个单词，则从头到尾将该单词复制到一个新的wav文件中，这样原始wav文件就有10个单词，然后输出10 file..problem就是检测静音或单词的建议如何在java中实现这一点。请建议..

浏览 0提问于2010-08-29得票数 4

回答已采纳

1回答

为什么使用pytesseract从图像中读取文本不起作用？

、、

下面是我的代码： import pytesseract pytesseract.pytesseract.tesseract_cmd = r'F:\Installations\tesseract' print(pytesseract.image_to_string('images/meme1.png', lang='eng')) 下面是图片：输出结果如下： GP. ed <a = va ay Roce Thee . ‘ , Pe ship RCAC Tm alesy-3 Pein Reg a years — ? >

浏览 7提问于2020-09-19得票数 0

1回答

pocketsphinx android -为每个不同的口语单词返回相同的单词

、、、

我已经从下载了pocketsphinx演示，并为我自己的目的做了一些修改。我为我的应用程序特定的单词创建了一个新的my-en-us.dict (字典)文件，并添加了以下单词 hey HH EY smarty S M AA R T IY login L AA G IH N 然后，我用下面的代码创建了一个login.gram (语法)文件 #JSGF V1.0; grammar login; public <item> = login; 然后，我在我的活动中初始化了识别器，如下所示 public static final String KWS_SEARCH = "wak

浏览 5提问于2018-04-27得票数 0

回答已采纳

2回答

在regex中基于字母-数字连接的变体

、

我有一个单词列表，其中一些是单个单词，一些是多个单词，这些单词可能有也可能没有数字字符。举个例子- word_list=['word', 'kap1','another word', 'another-1 word', 'another word 1'] 我想在表格中识别单字词条- alphabets*Junction*digit(s) 其中连接既可以是空格，也可以是连字符，也可以是零。例如，在上面的列表中，kap1有资格(没有其他条目)。现在，在找到这个条目之后，我想创建这个条目的变体(基于连接)，并将它们添加

浏览 6提问于2017-07-28得票数 0

回答已采纳

1回答

pocketsphinx避免未列出的识别

、

我正在使用pocketsphinx实现一个android应用程序。到目前为止，我能够识别我自己的语法，这几乎是完美的。 #JSGF V1.0; grammar commands; public <command> = change colour | display time; 在我的代码中，我有 recognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(new File(assetsDir, "en-us-ptm"))

浏览 19提问于2019-08-18得票数 0

1回答

识别文本中的空行？

我正在从一个单独的文件中获取输入，该文件目前只有一个段落。我将段落中的每个单词都存储到一个列表中，然后使用以下命令对每个单词进行迭代： for (String word: words) 但是，这个迭代器会遍历每个单词。如果我的输入文件中有两个由空行分隔的段落，我如何识别这个for循环迭代器下的空行呢？我的想法是，遍历单词显然不同于遍历行，所以我不确定。

浏览 3提问于2013-10-10得票数 0

2回答

大型数据集中常见关键词频率的识别

、

我有一个配置文件数据集，其中包含描述许多个人工作历史的自由格式文本。我想尝试在配置文件集合中识别经常使用的单词或词组，以便我能够构建一个与概要相关的分类(技能)。例如，如果“转化率优化”这个词在所有配置文件中一起出现了300次，我会把它作为一个高频关键字出现在我的列表中。我希望能够根据单关键字、2字和3字串过滤列表。然后，我将能够手动挑选与技能相关的常用关键短语，这些短语可以添加到主分类法列表中。我还需要一些过滤无效单词的方法，比如(“i”、“和”等) 做这样的事情最好的方法是什么？

浏览 0提问于2019-08-05得票数 2

3回答

C:按静音间隔拆分wav文件

、、、

我有一堆人读简单的句子(hello world)作为一个wav文件，我如何通过自动识别单词之间的间隙来将wav文件分解为2个包含单词(hello和world)的wav文件？不幸的是，我找不到工具来帮我做这件事，所以我会写C代码来做这件事，至于我的理解，wav文件中的间隙应该是低数值，对吗？我知道如何破解这些文件，我很高兴能找到解决差距识别问题的方法。谢谢!

浏览 1提问于2011-10-21得票数 2

回答已采纳

1回答

如何拆分包括标点符号在内的句子

、、、

如果我有一个句子sentence = 'There is light!'，并且我要将这个句子与mysentence = sentence.split()分开，我将如何将输出作为'There, is, light, !' of print(mysentence)？我特别想要做的是拆分这个句子，包括所有标点符号，或者仅仅是一个选定标点符号的列表。我得到了一些代码，但程序是识别单词中的字符，而不是单词。 out = "".join(c for c in punct1 if c not in ('!','.',':

浏览 3提问于2016-09-05得票数 3

回答已采纳

1回答

Android:语音识别

、

可能是重复的，但我没有找到以下问题的答案。在过去的两天里，我一直在做一些关于语音识别的研究，但是我的问题没有得到答案：作为一项服务，可以运行语音识别吗？我想实现这样的东西:我需要打一个号码，虽然我的电话通过语音识别是在睡眠模式。当我在火车、公共汽车等的时候，语音识别能正确地检测出单词吗？除了语音识别之外，是否有任何传感器来检测声音？要使语音识别正常工作，用户是否需要靠近电话说话？

浏览 4提问于2012-12-24得票数 6

回答已采纳

1回答

按特定顺序过滤包含某些字母的单词

、、

在Python中，我想通过字典(如拼字游戏官方列表)搜索，并以特定的顺序识别所有字符数x的单词。例如，我有"mmt“，并希望输出生成一个单词列表，如您在下面看到的。 "mmt"： AMALGAMATED AMMONIATED CIRCUMAMBULATED COMMENTATED 谢谢你！！

浏览 4提问于2016-07-05得票数 2

回答已采纳

1回答

有没有办法用resharper来改变我的规范中的一个或多个单词的颜色？

、

有没有办法用resharper来改变我的规范中的一个或多个单词的颜色？在研究的过程中，我找到了推荐"Viasfora“的答案，但我不能让这些建议起作用。(使用' Visibility‘列表指定我的单词)当我在Viasfora中将我自己的单词添加到Viasfora的可见性中时，它们似乎无法识别。我不确定这是不是因为其他插件，或者是什么，但是这个解决方案不起作用。我无法验证在resharper中是否有任何方法可以指定我自己的单词列表。有没有办法做到这一点？

浏览 12提问于2021-10-07得票数 0

回答已采纳

2回答

基于编辑距离和lcs的提示性拼写检查？

如何实现一个简单的拼写检查器，它接受拼写错误的单词和编辑距离阈值，然后生成建议的正确单词列表。这是希望通过以下算法来实现的:1-同时使用编辑距离和最长公共子序列2-不计算字典中每个单词的编辑距离？

浏览 1提问于2010-01-07得票数 0

1回答

确定文学作品中的名字和地点

我一直在使用马尔可夫链文本生成和朴素贝叶斯分类器。我想知道是否有一种方法可以将这两个概念中的任何一个应用于识别小说中的某些类型的单词。例如，姓氏或地名我可以查看我的马尔可夫链，我发现某些单词倾向于以相同的方式与其他类型的单词相关联。例如，先生经常在姓之前，“去”往往在地名之前，而姓往往在名之后。有没有一种好方法可以让我写一个程序，它可以获取示例名称的列表，然后遍历大量的书籍，并准确地识别所有像这些名称这样的单词？英语是否足够规范，这样才能起作用？以前有没有人这样做过？这个方法会有名字吗？谢谢，安德鲁

浏览 0提问于2011-09-25得票数 1

1回答

单字对白

、

我想要创建一个自动语音识别系统，它将从数据库中的单词列表中识别一个正确的单词。我已经看到CMUSphinx可以用来解决这个问题。我已经尝试过演示应用程序，但它并没有给出预期的结果。我不知道如何选择正确的声学模型，字典文件，语言模型。对于一个词来说，语言模型是必要的吗？印度英语有现成的声学模型吗？

浏览 0提问于2014-09-03得票数 2

回答已采纳

3回答

使用PocketSphinx识别多个关键字

、、

我已经安装了PocketSphinx演示，它在Ubuntu和Eclipse下运行得很好，但尽管我试了试，我还是想不出如何添加对多个单词的识别。我想要的是让代码识别单个单词，然后我可以在代码中向下，例如"up"，“switch()”，"left"，"right“。我不想识别句子，只想识别单个单词。在这方面的任何帮助都将不胜感激。我发现其他用户也有类似的问题，但到目前为止还没有人知道答案。有一件事让我很困惑，那就是为什么我们需要使用“唤醒”常量呢？ private static final String KWS_SEARCH = "wakeu

浏览 71提问于2014-09-09得票数 20

回答已采纳

2回答

用Python实现Raspberry Pi异步/连续语音识别

、、、

我想为Python中的Raspberry Pi创建一个语音识别脚本，并且需要一个异步/连续的语音识别库。异步意味着我需要无休止地运行识别，直到语音匹配到一组单词，而不需要从键盘输入，然后将语音显示到终端并重新启动识别。我已经看过PocketSphinx了，但在谷歌搜索了几个小时之后，我没有发现任何关于异步识别的信息。你知道有谁能做到这一点吗？

浏览 5提问于2015-03-07得票数 2

回答已采纳

1回答

如何使用NLTK检查不可读的OCRed文本

、

我正在使用NLTK来分析一个已经是OCRed的语料库。我是NLTK的新手。大部分的OCR都是好的--但有时我会遇到明显的垃圾。例如：oomfi ow Ba wmnondmam BE wBwHo<oBoBm. Bowman as: Ham: 8 ooww om $5 我想从我的分析中找出(并过滤掉)这些线条。 NLP从业者如何处理这种情况？比如:如果句子中70 %的单词不在wordnet中，那就放弃吧。或者，如果NLTK不能识别80%的单词的词性，那么就放弃？什么算法能解决这个问题？有“金本位”的方法吗？

浏览 2提问于2014-04-24得票数 4

回答已采纳

3回答

如何识别文本中的一组关键词

、

我有一大堆关键词。给定一个文本，我希望能够只识别出现在关键单词列表中的那些单词，而忽略所有其他单词。实现这一目标的最好方法是什么？

浏览 4提问于2011-05-21得票数 4

3回答

Google Web Speech API中的语法

、、、

我能否通过给他一个单词列表(在我的例子中，用户的请求是非常可预测的)来提高Google speech API的识别率，从而使识别更加准确？

浏览 1提问于2011-09-15得票数 13

回答已采纳

1回答

如何在android中对本地数据库进行语音识别检查？

、

你还记得在旧手机里，你可以通过语音快捷方式给一个人打电话吗？我正在尝试在android中制作一个具有该功能的应用程序。用户录制它想要用来控制应用程序的单词或声音，并且语音识别器将只检查它听到的声音是否等于先前录制的声音。有没有人知道怎么做或者知道导游？我已经寻找了几个月，没有找到一个令人满意的解决方案。谢谢

浏览 2提问于2013-04-02得票数 3

回答已采纳

1回答

Pocketsphinx在沉默中识别随机短语

、、、

我在Raspberry Pi上安装了一个口袋狮身人面像，还有一个麦克风连接到它上。当我使用命令运行pocketsphinx_continuous时 pocketsphinx_continuous -inmic yes -dict dict.dict -hmm /home/pi/zero_ru.cd_cont_4000 -jsgf mygrammar.gram 当我不说话时，它开始识别随机短语(但在大多数情况下是相同的短语)。当我这么做的时候，结果是一样的。我用声学模型来表达俄语。拜托，需要你的帮助。

浏览 2提问于2016-02-05得票数 1

回答已采纳

1回答

对于带有字母间距的图像，Tesseract OCR是不准确的。

、、、、

我试图使用Tesseract OCR从图像中提取字符串(不是有效单词)。问题是图像中的字符是分开的，如下图所示。对于默认属性，此图像被识别为5 O M E T E—E X fT。我试着修改页面分段属性，但我得到的最接近的是"SOME TEXT.和--psm 8。我想知道是否有一种设置可以让Tesseract更好地处理字母之间的间隔，或者我是否需要训练一个定制的模型。

浏览 5提问于2022-07-05得票数 1

2回答

聚类一长串单词

、、、、

我手头有以下问题:我有一个很长的单词列表，可能是名字、姓氏等等。我需要对这个单词列表进行聚类，以便类似的单词，例如具有相似编辑(Levenshtein)距离的单词出现在同一组中。例如，“算法”和"alogrithm“应该有很高的机会出现在同一个集群中。在模式识别的文献中，我对经典的无监督聚类方法如k均值聚类、EM聚类等都有很好的认识。这里的问题是，这些方法适用于存在于向量空间中的点。我的手边有串字。根据我的调查结果，关于如何在数字向量空间中表示字符串和计算字符串簇的“意思”的问题似乎还没有得到充分的回答。解决这个问题的天真方法是将k均值聚类与Levenshtein距离结合起来，但问题

浏览 3提问于2014-11-07得票数 2

回答已采纳

3回答

从PDF中提取/识别标题

、、、、

我有大量不同格式的pdfs。除其他外，我需要提取它们的标题(不是文档名称，而是文本中的标题)。由于格式的范围，标题不在pdfs中相同的位置。此外，一些pdfs实际上是扫描图像(我需要在它们上使用OCR/光学字符识别)。标题有时是一行，有时是2。它们往往没有相同的词集。在标题通常出现的物理位置范围内，通常还有其他单词(即，如果doc 1在x1有标题1，y1，doc 2在x2可能有标题2，而在x1 y1有其他非标题文本)。此外，在一些非常罕见的情况下，pdfs没有标题。到目前为止，我可以使用pdftotext提取给定边界框中的文本，并将其转换为文本文件。如果有一个标题，这可以让我捕获标题，但经常

浏览 4提问于2019-03-22得票数 3

回答已采纳

1回答

如何在默认的VoiceDialer应用中添加语法？

、

我正在尝试添加一些命令到android默认的声控拨号程序。它有像打开，拨号，呼叫，重拨等命令，我想包括让我们说‘查找’到它。我已经从下载了源代码，并在Eclipse中进行了编译。应用程序为这些命令的参数设置语法，比如它存储联系人列表中的人员的姓名和电话号码，以便在CALL JOHN语音命令识别他们的姓名时生成意图。对于此命令中的CALL，它只是将得到的识别字符串的第一个单词与"CALL“进行比较。我在onRecognitionSuccess()函数中添加了"FIND“作为额外的else if条件，如下所示： public class CommandRecognizerEngi

浏览 0提问于2011-07-15得票数 0

回答已采纳

1回答

如何在袖珍狮身人面像机器人的列表中设置识别关键字的设置？

、、、、

我希望我的Android应用程序可以连续地查找关键字。我正在修改pocketsphinx android演示程序，以测试我如何做到这一点。我在一个名为en-keywords.txt的文件中写了这个列表，从cmudict-en-us.dict中挑选单词。 rainbow /1e-50/ about /1e-50/ blood /1e-50/ energies /1e-50/ 在setupRecognizer方法中，我删除了每个搜索，只将这个关键字搜索添加到识别器中： File keywords= new File(assetsDir, "en-keywords.txt");

浏览 4提问于2017-01-07得票数 1

回答已采纳

4回答

连续语音识别Android

、

我正在考虑在android上做语音识别。该程序需要有连续的语音识别。这个库只需要10个单词左右。我考虑过使用Googles api，但我认为它不会起作用。(我不能让任何东西覆盖屏幕)。我一直在寻找其他方法，但似乎没有什么能行得通。有没有可能使用java的语音识别库，或者有没有其他方法呢？总而言之需要连续语音输入最多10个单词可以训练如果程序显示屏幕，等待语音输入或触摸输入，更新屏幕重复无法覆盖屏幕上显示的内容任何帮助都将不胜感激。提前感谢

浏览 1提问于2010-06-30得票数 18

2回答

在c++中使用通配符识别相关单词

、

好吧，我一直在想办法解决我的问题。问题是:给定一个由3个字母组成的单词列表(我认为列表的大小无关紧要)，我如何识别列表中与列表中第一个单词最多相差一个字母的单词。假设我有单词pat，那么我想识别列表中的所有单词：诸如pay p_t之类pa_，诸如rot之类的pot _ot 有没有办法在c++中实现通配符？

浏览 1提问于2013-03-02得票数 0

2回答

如何从候选列表中识别包含最少不同单词的行？

、、

我有一个单词列表和一个数据集。我想识别数据集中中至少有两个单词的行。我能够识别至少包含两个列表单词的行，但我的代码也有问题地标识了重复单个列表单词的行。这是我的密码： import pandas as pd data={'Name':['Redred','redblue','redgreen','blue']} df=pd.DataFrame(data) df['Good colours'] = (df['Name'].str.contains("(red.

浏览 14提问于2022-01-02得票数 -2

回答已采纳

2回答

在一组小文本中查找关键字

、、

我有一套将近2000条短信。我的目标是在这些文本中找到关键词，以理解它们的主题，或者简单地理解最常见的单词和表达方式。我希望一些算法的思想，，得分，单词和识别时，他们经常聚集在一起，。我在这里读过一些其他相关的问题，但是我正在试图获得更多关于这个主题的信息。所以任何想法都是非常受欢迎的。非常感谢! -- 我已经提取了断句。删除后，我有7000多个单词，我的问题是如何评分这些词，从哪一点，我可以考虑从我的关键字列表中删除一些。此外，如何得到关键的表达，找到的词，走到一起。

浏览 1提问于2014-06-24得票数 0

3回答

识别列表中没有匹配单词的句子

我有一个句子列表，我想要识别其中至少没有一个单词与另一个列表中包含的单词相匹配的所有句子。我尝试使用列表理解来实现这一点，如下所示 [sentence for sentence in sentences if word_list is not in sentence] 这是不起作用的，因为我正在询问单词列表中的单词是否不在句子中。我需要的关键功能是能够识别所有在单词列表中没有与单词匹配的单词的句子。我正在寻找ASR错误，我有一个单词列表，其中至少有一个必须在每个句子中或该句子有ASR错误。我可以弄清楚如何使用grep -v并通过管道将它们连接在一起，但我想用Python语言来实现。

浏览 31提问于2019-09-15得票数 0

回答已采纳

1回答

基于样本数据集的机器学习

、

我有一个关于机器学习的问题。考虑以下情况：给定一段文字，我们想要一个程序来知道该文本是否是“滥用”的。为此，我们可以给程序1000个文本样本，并手动标记哪些是正的，哪些是负的。该方案研究这些，并记录哪些词/模式是常见的虐待文本。然后我们再给它1000个没有标记的文本，它设法用它从原来的1000中学到的模式来正确地识别其中的95%。这一切都很好，但在那之后，一旦软件“投入使用”，又会怎样呢？也就是说，我们让它每天再提取1000条短信，然后由它来决定它们是否是虐待性的，是否是自己的。人们可能会认为继续识别单词/模式是个好主意，这样每天都会有越来越多的“学习”？但这里的问题是，我们不知道程序是

浏览 0提问于2013-03-18得票数 3

回答已采纳

2回答

含噪文本的字符串匹配算法

、、

我使用OCR (光学字符识别)从图像中获取文本。这些图片里有书的封面。由于图像太吵，一些字符被错误识别，或者一些噪声被识别为字符。示例： "w COMPUTER Nnwonxs I“(计算机网络) S.ll神经网络C(神经网络) “1llll INFRODUCIION ro PROBABILITY ti iitiiili My”(概率论) 我用单词制作了一本字典，但我想用某种方式使已识别的文本与字典相匹配。我试过LCS (最长公共子序列)，但效果不太好。对于这类问题，最好的字符串匹配算法是什么？(因此，字符串的一部分只是噪音，但字符串的重要部分也可能有一些错误识

浏览 3提问于2014-11-02得票数 0

回答已采纳

1回答

使用Python 3.7在文本中找到类似的模式

、

我有一个文本模式(关键字)的集合，我的目标是在HTML文本中找到相似和合适的单词，并使用python3.7将它们收集到列表中。例如，如果我给定的一组模式是：{“香蕉”、“我的苹果”、“(橙色)”、“大葡萄”}，我想在HTML文本中找到诸如“香蕉”、“我的苹果”、“我的苹果”、“(橙色)”、“大葡萄”、“大葡萄”、“>香蕉”等词。做这件事的最好方法是什么？我想要使用regex库，但无法找到我想要的单词。我目前的代码是： import re def find_patterns_in_text(keywords, html_text): output_list = []

浏览 1提问于2020-10-15得票数 1

回答已采纳

2回答

Python:将语音与空音频记录区分开来

、、、

我正在尝试编写一个Python-3.6脚本，它将空的.aif音频记录(即仅包含环境噪声)与那些包含语音的音频记录分开。我的目标是而不是来识别语音内容--首先，它不是英语，其次，它不是我的目的所需要的。尽管如此，我还是没有发明出比用SpeechRecognition和pocketsphinx来解决这个问题更好的方法。我的想法很原始： import speech_recognition as sr r = sr.Recognizer() emptyRecords = [] for fname in os.listdir(TESTD

浏览 1提问于2018-09-01得票数 0

回答已采纳

1回答

手动将搭配添加到gensim词组

、

我正在对语言学论文进行主题建模，并使用Gensim短语来识别频繁的搭配。我希望能够将术语标记为“do-support”和“it-cleft”作为一个单词，因为它们是特定的语言术语。然而，如果我在删除停用词之后创建Gensim模型，将找不到这些搭配(因为它们包含停用词)，如果我在删除停用词(或者不包括' it‘或’do‘的停用词)之后创建模型，它会识别出一大堆不相关的搭配。有没有办法手动添加应该被Gensim短语识别为搭配的短语？谢谢!

浏览 0提问于2017-08-22得票数 2

1回答

如何使用'point-lambda‘函数对PIL图像进行反转和标准化

、

我试图使用point函数将PIL image反转并归一化为1；但是，我没有得到预期的结果！我试过的是这样(不知道哪里出了问题？) data = data.point(lambda p: 1 if p < 127 else 0 ) # threshold, invert and normalize to 1 例如，当尝试 print(np.array(data).max()) 打印True。但是，将PIL Image转换为numpy数组然后将其反转是可行的，如下所示： data = np.array(data.getdata(), np.uint8).r

浏览 3提问于2018-09-19得票数 1

1回答

通过求和将排序结果进行星火生成列表，直到达到阈值为止。

、

我有一个文本文件，在该文件中，我需要按降序打印最频繁出现的单词(及其出现的次数)，直到我打印出的单词占文档总数的n%。到目前为止，我已经编写了以下代码： // Break the file into words val lines = sc.textFile("somefile.txt") val words = lines.flatMap(line => line.split(" ")) words.persist() val wordCount = words.count() val wordCounts = words.map(word =>

浏览 0提问于2018-04-21得票数 1

回答已采纳

1回答

如何向语音识别器提供要查找的单词列表

、

有没有办法让android的语音识别器只从联系人列表或任何预定义的列表中捕捉单词？例如:我希望用户说出一个名字，而不是查看无用的单词，语音识别器会尝试从联系人列表中找到匹配的单词。

浏览 1提问于2013-08-22得票数 1

2回答

元素不在Python 3的列表中。

我正在使用Python 3，我想要的是识别一个单词是否在文本文件中。文本文件的内容： test test test 我的代码： wordsUsedFilename = "usedwords.txt" f = open(wordsUsedFilename, 'r') usedWords = [line.strip() for line in f] words = [] words.append("test") check = True while check: for word in words: if word

浏览 2提问于2014-01-27得票数 0

回答已采纳

2回答

“较少存储占用”数字的算法/数字格式

、、、、

我有非常严重的问题要解决。我有一个75000字的单子。为便于识别，每个单词都分配了一个数字。第一个单词分配为0，最后一个单词分配为75000。现在，我有一个句子清单。让我们以一句为例。 I have big dog 当您用指定的数字表示这个值时，它就变成了20 123 2332 3434。这仅仅意味着单词I出现在我们的列表中作为第20个单词出现，单词 on 出现在我们的列表中的123个单词中，单词大出现在2332个单词上等等。就像这样，我有超过20亿的句子，我需要保存/写出它们的数字表示。我们认为，为20亿张唱片节省像20 123 2332 3434这样的长数据将占用很大的空间。相反，如果我

浏览 1提问于2014-01-26得票数 0

1回答

如何利用gensim和word2vec在python中寻找语义相似性

、、、、

在我的python程序中，我有一个单词列表。现在我需要迭代这个列表，找出语义上相似的单词，并将它们放到另一个列表中。我一直在尝试使用gensim和word2vec来实现这一点，但是到目前为止，我已经实现了一个合适的solution.This。我需要一个帮助，如何迭代在可变句子中的单词列表，并找到语义相似的单词并保存在另一个列表中。 import gensim, logging import textPreprocessing, frequentWords , summarizer from gensim.models import Word2Vec, word2vec import num

浏览 1提问于2018-02-26得票数 3

回答已采纳

3回答

删除常用英语单词策略

、、、

我想从html页面中提取相关的关键字。我已经缝合了所有的html内容，将文本分割成单词，使用了词干分析器，并从lucene中删除了停用词列表中出现的所有单词。但是现在我仍然有很多基本的动词和代词作为最常见的单词。在lucene或snowball或其他任何地方有什么方法或一组单词可以过滤掉所有这些东西，比如"I，Is，go，go，am，it，we，we，you，us，....“

浏览 4提问于2011-09-24得票数 0

回答已采纳

1回答

基于Opencv的人脸识别

、、、、

我需要做一个使用opencv 的人脸识别系统。在这段代码中，必须为多个用户生成CSV文件，并且代码将识别输入面孔是否在CSV列表中。我的意图是针对单个用户进行人脸验证。也就是说，用户将第一次注册他的面部(我将它写在csv中)，每当同一用户试图进行身份验证时，我将收集该用户的一些图像，并与之前的CSV文件进行比较。如何使用上面的代码做到这一点？

浏览 2提问于2014-01-03得票数 4

2回答

说出单词时的自动语音识别

、、

我正在尝试创建一个模拟的Alexa或谷歌主页(非常基本)。我使用谷歌作为识别器的SpeechRecognition模块。我设法让它工作，但我不知道如何运行整个脚本，当我说一个单词(我希望它总是听到(就像Alexa一样))。例句：‘嗨，机器人’AI =嗨，我能为你做些什么？(运行整个脚本) 我曾想过每隔5秒循环一段代码，然后连接到Google API，但这是不可能的，因为API每天只能有50个请求。感谢您的帮助，谢谢您的帮助

浏览 3提问于2018-08-17得票数 1

回答已采纳

1回答

Mysql查询没有用一些不好的话显示结果？

我正在为一个成人网站工作，为这个网站我创建了一个内部研究。对于搜索，我使用以下查询： SELECT SQL_CALC_FOUND_ROWS id_photo, title, description, model, data_ins, MATCH(title, description, model) AGAINST('".trim(strtolower(addslashes($_GET['q'])))."') as score FROM ".$prefix."photo WHERE MATCH(title, descrip

浏览 3提问于2022-01-26得票数 0

2回答