从单词中识别和提取(显示)错误_从文本中提取正面和负面单词？_从词干中获取单词(词干提取) - 腾讯云开发者社区

、、、

我有几个病人的病历文本文件，我从互联网上获得，我想识别/找到质量差的文件(拼写错误的单词/单词之间的特殊字符/错误的单词)和质量好的文件(干净的文本).i想要建立错误检测模型使用文本挖掘/自然语言处理。 1)谁能帮我介绍一下特征提取和模型选择的方法和解决方案？2)是否有用于医疗记录的医学语料库来识别拼写错误的单词。

浏览 2提问于2019-12-10得票数 0

3回答

是否使用sed匹配不区分大小写的搜索？

、、

我正在尝试使用SED从两个单词中提取文本，比如“帐户”和“已识别”，并且我希望搜索不区分大小写。因此，我尝试使用i参数，但收到以下错误消息： cat Security.txt | sed -n "/Account/,/Recognized/pI" | sed -e '1d' -e '$d' sed: -e expression #1, char 24: extra characters after command

浏览 2提问于2016-08-27得票数 0

1回答

一种区分单词和非单词的方法

、

我正在使用Stack exchange数据转储，并尝试在语料库中识别独特和新奇的单词。我引用了一个非常大的词表，并提取了我的参考词表中没有的单词。我遇到的问题是，许多唯一令牌是非单词的，比如目录名、错误代码和其他字符串。有没有一种好的方法来区分类似单词的字符串和非类似单词的字符串？我正在使用NLTK，但并不局限于该工具包。

浏览 0提问于2014-04-07得票数 1

4回答

巨蟒。切分以特定字符开头、以字符结尾的字符串的一部分

、

我希望在所选字符之后提取信息，并在所选字符之前停止；例如，从*中提取并以空格结束，然后将识别出的单词放入一个新列表中。 >>> extract_star('*we are *engineers *happy very *much') ['we', 'engineers', 'happy', 'much'] 我尝试使用split和find函数，或者使用startswith和endswith函数检查布尔类型...但它并没有真正起作用..

浏览 2提问于2018-11-30得票数 0

1回答

从pdf中提取文本时不包括超级脚本

、、、、

我用pdfbox逐行从pdf中提取文本，用我的算法逐句处理。我用句号(.)识别句子。后面跟着第一个字母是大写的单词。这里的问题是，当一个句子以一个有上标的单词结尾时，提取器将其视为一个正常字符，并将其放在句号(.)旁边。例如，当"2 power 22“作为句子中的最后一个词出现在句子中时，它被提取为2.22，这使得识别句子的结尾很困难。请提出一个解决方案，以摆脱超级脚本或一个不同的逻辑，以确定句子的结尾。谢谢。

浏览 2提问于2014-03-28得票数 1

回答已采纳

3回答

从pdf文件中读取注释

、、

我有一个PDF文件，其中包含批注和建议的批注出现在鼠标上的批注的单词。例如，考虑上面的图片，其中你要花费的单词是删除线(表示错误的单词)，将鼠标悬停在它上面会显示弹出窗口，其中显示正确的单词is。类似地，还有另一个插入符号，它也做同样的事情。我想提取两个单词的列表，这将显示正确和不正确的单词从文件。

浏览 3提问于2019-07-29得票数 8

1回答

NLP从句子中提取字典词

、、、

我用Standford来识别给定句子的POS。我只需要从一个句子中提取适当的单词(字典中定义的单词)。如果句子是“我乘6AWDR航班去了纽约” 当我使用standford时，PartOfSpeechAnnotation.class会将“航班”和"6AWDR“标记为"NNP”。我如何在一个句子中单独提取恰当的英语单词？

浏览 4提问于2016-09-19得票数 0

1回答

Gerrit代码审查错误-您不是提交者

、、

我有一个带有提交的本地克隆，显示作者和电子邮件id为UserA，因为我已经用git config配置了我的克隆。我从同事的克隆(UserB)中获取并合并了一些提交，而不是从父项目中获取和合并。我的Git日志显示了我的提交和我同事的提交。我这里的问题是 1)Gerrit代码审查识别父项目中的提交。因此，当我从我的本地克隆推送时，我从我的同事那里拉出的未被识别的提交，我得到了这个错误好了！remote rejected HEAD -> refs/for/project1 (您不是提交者UserB@xyz.com) 有没有人能帮我纠正这个Gerrit错误？ 2)如何识别带有同事名字的提

浏览 1提问于2011-02-10得票数 3

1回答

显示语法中存在的几近猜测？

、、、

众所周知，Microsoft并不是最精确的语音识别引擎。如果程序没有正确识别语音，用户是否有方法通知应用程序该应用程序识别该语音不正确？或者，我怎样才能显示语言语法中存在的与所表达的演讲相似的近距离猜测呢？例如：说：“读整本书” 引擎识别为： “读丰富的书” 用户应该能够点击一个按钮，上面可能写着：“猜错了”。然后应用程序会显示一个类似的单词列表，这样用户就可以选择他/她说了什么，也许程序可以从错误中吸取教训？程序显示：“语法中类似的单词:丰富、增强、完整、封装。我知道这类似于机器学习和神经网络训练，但如果我们能做到这一点，我们实际上可以使SAPI更好地工作。

浏览 1提问于2014-10-04得票数 1

回答已采纳

2回答

识别单词中的模式

、、、

我有一个问题，我认为很简单，但我不知道正确的方法。基本上，我希望我的程序能够识别其中具有特定模式的单词，如果是这样，则提取该模式之前的内容。模式将是，在本例中是/F，特别是在单词的末尾，它将提取之前的内容。例如，如果程序找到21/F，它会将其识别为良好匹配，并提取21。但是如果这个词是21/Fudge，它什么也做不了。你知道在单词的特定位置查找匹配项的方法吗？

浏览 0提问于2013-07-23得票数 2

回答已采纳

1回答

识别文本串中人名和姓氏的最佳方法

我正在尝试从文本文件中提取人名，我正在逐行阅读这些文件。按照文件的结构方式，名字和姓氏应该几乎总是在同一行上，并且应该在文件的前几行内。目前，我在大约2300个名字的数组中搜索第一个名字，然后假设下面的单词是姓氏。我目前的方法的问题是它不能正确地匹配名称，因此可能会错误地识别文件中的另一个单词作为名称。例如，我的名字是Daniel，但该函数跳过我的名字，并将弗吉尼亚(文件中后面的一个单词)识别为我的名字。我做错了什么吗?有没有更好的方法呢？我是PHP的新手，所以我很可能犯了一个愚蠢的错误。说明:该文件是一个原始文本文件，其中包含通过OCR从简历图片中提取的数据。为了我的项目的目的，我假设总是

浏览 1提问于2018-03-14得票数 4

1回答

如何在NLP中创建词缀(前缀+后缀)嵌入

、、、

我正在处理一个命名实体识别任务。传统的方法是首先连接单词嵌入和字符级嵌入以创建单词表示。我还想使用词缀嵌入来更好地理解标签和单词之间的关系。例如，“阿富汗”和“巴基斯坦”这两个词就是位置的明显例子。在这里，后缀"istan“或"tan”将有助于识别未来的“位置”标签。因此，我希望提取所有单词的后缀和前缀，并为它们创建嵌入，然后连接初始单词表示。如何做到这一点？

浏览 0提问于2019-09-04得票数 1

3回答

从PDF中提取/识别标题

、、、、

我有大量不同格式的pdfs。除其他外，我需要提取它们的标题(不是文档名称，而是文本中的标题)。由于格式的范围，标题不在pdfs中相同的位置。此外，一些pdfs实际上是扫描图像(我需要在它们上使用OCR/光学字符识别)。标题有时是一行，有时是2。它们往往没有相同的词集。在标题通常出现的物理位置范围内，通常还有其他单词(即，如果doc 1在x1有标题1，y1，doc 2在x2可能有标题2，而在x1 y1有其他非标题文本)。此外，在一些非常罕见的情况下，pdfs没有标题。到目前为止，我可以使用pdftotext提取给定边界框中的文本，并将其转换为文本文件。如果有一个标题，这可以让我捕获标题，但经常

浏览 4提问于2019-03-22得票数 3

回答已采纳

1回答

从语音识别模块中获取音频样本

、、

我使用python中的语音识别模块将语音转换为文本，使用spacy从文本中提取一些单词。我能得到音频样本或持续时间，在此期间，一个特定的词被说？例如，我有一个音频文件。我收到短信中的‘橙色’字。我希望获得在音频文件中说出这个特定单词的持续时间，例如3:10到3:12，说出了橙色单词。谢谢您抽时间见我

浏览 1提问于2022-10-17得票数 0

1回答

语音识别中的MFCC

、、、、

我花了整整一个星期的时间来搜索MFCC和相关的问题。现在，我可以从二维向量.wav文件中获得MFCC特性，比方说，coff56。12是我想要提取的系数数，56是帧数。根据我读过的几份文件，我们可以用以上12个系数来识别言语(特别是，我想识别单词“一”，“二”……改为“十”)。但是现在我得到了12种咖啡中的56种，所以我应该使用哪一种呢？如果我出了什么问题，请帮帮我！

浏览 6提问于2013-11-17得票数 0

回答已采纳

1回答

块解析树的NLTK提取条件

、、

约翰爱德华格雷开始运行，现在他知道他是胖，她，，，，，，，我想从一个句子中提取有趣的词汇。目前，我使用POS标记来识别每个实体的语法类型。然后我将每个标记更新到一个计数器(名词、动词和形容词有不同的权重)。我现在想用一个木块来做这件事。我认为解析树的叶节点包含所有有趣的单词和短语，。如何从分块输出中提取术语？

浏览 4提问于2012-09-06得票数 4

1回答

使用NLTK从OCR中标记未拆分的单词

、、、、

我正在使用NLTK来处理从PDF文件中提取的一些文本。我可以完整地恢复文本，但是在很多情况下，单词之间的空格没有被捕获，所以我得到了一些单词，比如ifI而不是if I，thatposition代替that position，或者andhe's代替and he's。我的问题是:如何使用NLTK查找它不认识/尚未学习的单词，并查看是否有“附近”的单词组合更有可能发生？有没有一种更优雅的方式来实现这种检查，而不是简单地通过一个不被识别的单词，一次一个字符，分裂它，看看它是否使两个可识别的单词？

浏览 17提问于2014-04-26得票数 5

回答已采纳

3回答

快速高效的短语词典查找算法？

、、、

假设我有一本字典，里面有几百万个单词和短语。对于每个输入句子，我要识别(精确匹配)字典中包含的所有单词/短语。应优先使用最长的字典名称，并且不要重叠。例如： Sentence: "Los Angeles Lakers visited Washington State last week" Dictionary: {Los Angeles, Lakers, Los Angeles Lakers, Washington, State, Washington State University} Then the sentence would be tagged as follows

浏览 2提问于2011-09-10得票数 2

回答已采纳

3回答

在R中的字符串中找到匹配的一个、两个或三个单词短语

、、

我试图识别、匹配和提取R中数据帧中字符串的字符列中的两个单词短语。我有一份术语的样本清单，如： phrases <- as.list(c("Business","Business Process", "Processes", "Business Processes")) 还有一根绳子，像： string <- "brings seamless integration among the business processes and financials." 我使用的是str_extract_all和s

浏览 1提问于2018-01-31得票数 0

2回答

在一组小文本中查找关键字

、、

我有一套将近2000条短信。我的目标是在这些文本中找到关键词，以理解它们的主题，或者简单地理解最常见的单词和表达方式。我希望一些算法的思想，，得分，单词和识别时，他们经常聚集在一起，。我在这里读过一些其他相关的问题，但是我正在试图获得更多关于这个主题的信息。所以任何想法都是非常受欢迎的。非常感谢! -- 我已经提取了断句。删除后，我有7000多个单词，我的问题是如何评分这些词，从哪一点，我可以考虑从我的关键字列表中删除一些。此外，如何得到关键的表达，找到的词，走到一起。

浏览 1提问于2014-06-24得票数 0

3回答

如何使用非单词标记识别文本中的单词？

、、

我目前正在解析一堆邮件，希望从邮件中提取单词和其他有趣的标记(即使有拼写错误或字符和字母的组合，如"zebra21“或"customer242")。但是我怎么知道"0013lCnUieIquYjSuIA“和"anr5Brru2lLngOiEAVk1BTjN”是不相关的单词呢？如何提取单词并丢弃编码错误或部分pgp签名或任何我们在邮件中获得的令牌，并且知道我们永远不会对这些感兴趣？

浏览 5提问于2010-01-03得票数 7

回答已采纳

2回答

相同字符显示不同的十六进制代码

、、、

unichar c1 = 12098; unichar c2 = 25991; 当我打印这个字符时会显示以下值， (unichar) $2 = U+2f42 u'⽂' (unichar) $3 = U+6587 u'文' 相同的字符，但不同的十六进制编码，我想在这种不同的编码中识别相似的字符。像吼叫 if(c1 == c2){ } 实际情况比这更复杂。一组文本是使用字形从pdf文件中提取的文本，另一组是搜索文本单词。提前谢谢。

浏览 1提问于2014-04-07得票数 0

回答已采纳

2回答

删除文本中的相关连字符

、

让我们说，我有一个文本，看起来像： A=“我愿意问一些简单的问题” 我想先提取连字符，即首先识别是否有连字符在文本中，这很容易。例如，我使用re.match("\s*-\s*"，a)来检查句子中是否有连字符。 ( 1)接下来，我想摘取前面和后面的部分单词(本例中，我想提取“倾斜”和"ed")。 2)接下来，我想把它们合并成“倾向”，并打印出所有这些单词。我被困在第一步了，请帮帮忙。

浏览 2提问于2014-04-09得票数 1

回答已采纳

5回答

高亮显示和编辑长字符串文本

、、、

在HTML/JavaScript/React/Redux web应用程序中，我有一个长字符串(约300 of )的自然语言。这是正在播放的一段录音的记录。我需要为了突出显示当前发表的词，为了识别一个被点击的单词，提取选定的范围以及替换部分字符串(当用户提交对记录的更正时)。当我将每个单词包装在自己的<span>中时，一切都很简单。但是，这使得浏览器无法忍受元素的数量，页面变得非常慢。我可以想出两种方法来解决这个问题：我可以在一个<span>中包装每个句子，并且只包装当前回放句子中的每个单词。我可以在没有HTML标签的情况

浏览 6提问于2017-03-27得票数 1

回答已采纳

2回答

如何在android中解析PDF文件？

、、、

我正在开发android应用程序。此应用程序允许用户突出显示PDF文件中的单词。然后必须提取这些单词，那么我如何解析PDF文件才能在没有任何库的情况下从文件中获取提取的单词？有人能帮我吗？

浏览 5提问于2014-03-09得票数 0

回答已采纳

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

、、、、

我一直在尝试从扫描的pdf文档中提取数据。我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCR中提取文件中的数据。但我无法提取准确的数据。tesseract-ocr的文本识别准确率很低。有没有人能提出一个提高准确率的方法？

浏览 21提问于2020-08-31得票数 1

1回答

俄语自然语言处理

、

我正在寻找能处理自然俄语的图书馆(Es)或服务(S)：将单词转换为初始形式：“Онистроили”Онистроили“они”，“строить” 识别和提取单词的组合：“=>”Онистроилижелезнуюдорогу“они”，“строить”，“железнаядорога” 不知道该如何描述：“=>”Онинестроилижелезнуюдорогу“они”“нестроить”，“железнаядорога” 翻译成语或修辞格：“=>нуипогодка”плохаяпогода 有什么建议吗？图书馆，服务，信息来源-任何东西。

浏览 0提问于2018-09-01得票数 1

1回答

在KNIME中获取标记关联

、

KNIME附带了几个本地节点，用于执行不同的标记任务，例如POS标记或命名实体识别。为了使用已识别的标记或术语，可以使用“单词袋”节点，该节点生成术语(而不是单词)和相关的标记。但是，这种方法没有详细说明与每个单词相关联的标记，也没有详细说明标记(或单词)的顺序。因此，如果您想要提取诸如'POS标签+/- N字相对于实际单词‘的功能(例如。一个字窗)，你怎么能？例如，对于“那个城市就是纽约”，我希望KNIME生成一个排序列表，如：(其中最后一个NN将是一个命名实体)。

浏览 2提问于2017-04-02得票数 1

回答已采纳

2回答

用Python提取PDF文件的文本和表

、、、、

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。一种解决方案是使用Azure表单识别器布局模型，但是当我们有文本和表的混合时，它就失败了，特别是当表是某种文本格式并且它们将表和文本的内容混合在一起时(请参见Azure Form Recognizer代码)。我也尝试过pypdf2和pdfplumber；下面是pypdf2的代码：导入PyPDF2 data_path =“os.listdir/to/pdf/files”text = [] for fp in os.listdir(data_path)：pdfFileObj =

浏览 8提问于2021-09-21得票数 1

4回答

在R中的字符串之后提取一定数量的单词或特殊字符

、、

我试图在特定字符串之后提取一定数量的单词。 library(stringr) x <- data.frame(end = c("source: from animal origin as Vitamin A / all-trans-Retinol: Fish in general, liver and dairy products;", "source: Eggs, liver, certain fish species such as sardines, certain mushroom species such as shiitake", "

浏览 2提问于2020-09-16得票数 3

回答已采纳

2回答

检查AlphaNumeric单词的字符串并使用VB转换为大写

、

我的建议是如何识别字符串中的字母数字单词，提取单词，转换为大写，然后将单词替换回字符串。示例：Free Standing Oven or90sdbgfx2 Brushed Stainless Steel 将转换为：Free Standing Oven OR90SDBGFX2 Brushed Stainless Steel 单词位置可以在字符串中的任何位置，也可以在字符串中有多个字母数字单词。

浏览 1提问于2015-06-27得票数 0

回答已采纳

1回答

对于带有字母间距的图像，Tesseract OCR是不准确的。

、、、、

我试图使用Tesseract OCR从图像中提取字符串(不是有效单词)。问题是图像中的字符是分开的，如下图所示。对于默认属性，此图像被识别为5 O M E T E—E X fT。我试着修改页面分段属性，但我得到的最接近的是"SOME TEXT.和--psm 8。我想知道是否有一种设置可以让Tesseract更好地处理字母之间的间隔，或者我是否需要训练一个定制的模型。

浏览 5提问于2022-07-05得票数 1

1回答

spacy如何使用单词嵌入来识别命名实体(NER)？

、、、

我正在尝试使用spaCy来训练一个NER模型，以识别位置、(人)名称和组织。我试图理解spaCy是如何在文本中识别实体的，但我一直未能找到答案。从 on Github和上可以看出，spaCy使用文本中的许多特性，如POS标记、前缀、后缀以及文本中的其他字符和基于单词的特性来训练平均感知器。但是，代码中没有任何地方显示spaCy使用GLoVe嵌入(尽管句子/文档中的每个单词似乎都有它们，如果它们存在于GLoVe语料库中)。我的问题是- 这些现在已经被应用到网络系统中了吗？如果我要将单词向量切换到不同的集合，我是否应该期望性能发生有意义的变化？在代码中，我可以找到(如果全部)

浏览 3提问于2017-06-12得票数 20

1回答

识别上下文的命名实体识别

、、

我使用一个NER模型来提取文本中显示的治疗(冰、热或OTC)，但是治疗有多个上下文。建议HomecarePatient患者在家庭治疗时使用冰袋治疗膝盖--在临床治疗中给冰袋治疗--在诊所。在以上所有句子中，NER模型都提取冰包作为治疗实体，但如何使它学习上下文并进一步识别治疗是家庭建议还是临床治疗。应该根据周围的单词来学习上下文(继续和遵循这两个词)。对于这个用例，我应该使用什么技术？我不想在NER之上使用基于规则的技术，我已经使用了这些技术，但我希望以一种更复杂的方式这样做。对于实体识别，我使用了一个经过预先训练的生物医学人员(来自Scispacy libaray)，并使用实体规则将

浏览 2提问于2021-07-14得票数 2

2回答

熊猫Python元组

、、

我有如下所示的数据集。我如何从“情感”栏中提取“积极”和“消极”情绪计数，并将它们存储在一个元组中？这里有0个积极的单词和4个负面的单词，所以我需要一个元组显示(0，4)。请让我知道。

浏览 4提问于2022-07-07得票数 -1

1回答

使用c#识别从pdf文档中提取的文本的段落和页面边界

我正在开发应用程序，我需要从pdf中识别段落。我需要提取文本并识别段落。是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#？

浏览 2提问于2015-03-25得票数 3

回答已采纳

1回答

如何提高Tesseract的效果

、、、、

我希望在使用OpenCV和tesseract时检测图像中的文本。我的步骤是：为了检测文本，我使用了cv::text的场景文本检测算法。这实际上很好，在困难的情况下也是如此。分别从主图像中提取包含文本的图像区域。我把每个子图像传递给Tesseract 然而，tesseract几乎没有找到文本，如果它找到文本，则它是错误的。示例：(从获取的图像) Green:通过OpenCV检测到文本(很好)。黄色：：基于绿色矩形的tesseract识别的文本(坏) 提取的文本为"DOUBLEI“。“I”是右边黑色边框的结果。正如您所看到的，其他单词，如“禁止”，也

浏览 3提问于2017-03-02得票数 3

3回答

替代纳塔格长，异质短语？

、、、、

我正在寻找关于以下问题的想法和想法：我正在处理食品配料数据，如:牛奶，糖，鸡蛋，面粉，可能含有坚果。从这段文字中，我希望能够识别和提取可能包含坚果的短语，并分别对它们进行预处理。这些短语在长度和内容上都会发生很大的变化。我曾想过使用NER，但我不知道他们是否会正确地完成这项工作，因为他们主要用于识别单个单词的实体. 关于什么作为短语-实体-识别系统，有什么想法吗？另外，你会用哪一个包裹？干杯

浏览 10提问于2021-02-03得票数 2

2回答

如何从excel中的单元格中分别提取单词

、

我在excel中使用公式是非常新的，我有一些问题。我在一个单元格里有四个逗号分隔的单词。当我在单元格中键入单词时，我想要将每个单词分别提取到另一个没有逗号的单元格中。见下面的截图。提取第一个单词的公式是有效的，但是其他三个单词的公式是无效的，并且正在返回一个值错误。如果单元格C7中没有任何错误，我也不希望在其他单元格中出现任何错误。我将提供代码，我有提取每一个单词，任何帮助感谢。提取第一个单词的代码： =IF(LEN(C7)=0,"",IF(ISERROR(LEFT($C$7,FIND(",",$C$7)-1)),C7,LEFT($C$7,FIND(

浏览 10提问于2022-09-20得票数 1

3回答

如何在运行命名实体识别后从句子中提取语义？

、、

首先:关于如何修改标题有什么建议吗？我正在使用自己的命名实体识别算法从纯文本中解析数据。具体地说，我正在尝试提取律师实践领域。我看到的一个常见的句子结构是： 1) Neil专注于就业、税收和版权诉讼。或 2) Neil专注于一般公司事务，包括证券、商业组织、合同准备和知识产权保护。我的实体提取在查找关键字方面做得很好，例如，我从第一句话得到的输出可能如下所示： Neil专注于(就业)、(税务)和(版权诉讼)。然而，这对我并没有真正的帮助。更有帮助的是，如果我得到的输出看起来更像这样： Neil专注于(雇佣诉讼)、(税务诉讼)和(版权诉讼)。有没有办法使用现有的python框架来实现这

浏览 1提问于2014-05-22得票数 0

1回答

解析Podcast文件

、、

我正在做一个可以从播客中提取信息的项目。我想下载所有可用的.mp3或.wav格式的播客，这样我就可以分析它们，并通过语音识别，这样我就可以从每一集中提取我需要的内容。我一直在寻找从播客下载文件的选项，但似乎所有可能的方法都是不合法的，或者不确定是否有一种方法可以在不破坏任何规则的情况下下载每个可用的文件。在python中有没有一种简单的方法可以做到这一点？我正在寻找的Podcast可以在Spotify，Apple Podcast和Google Podcast上找到。此外，如果你有一个很好的库用于语音识别或将音频转换为单词将是非常感谢的。谢谢!

浏览 10提问于2020-02-29得票数 0

回答已采纳

1回答

在excel中复制不正确的单词

、、、、

我需要在字符串中找到并复制一个单词。条件是这个词是不正确的。本质上，它类似于复制所有在浏览器中具有红色下划线的单词，MS单词等等。我这样做是为了提取成千上万个免费文本单元格中的品牌名称。由于商标名称通常不是字典中的单词(可搜索性和可识别性)，这种方法将有助于查找其中的大多数。它不必是excel功能，我对任何有用的工具都是开放的。

浏览 2提问于2016-09-24得票数 1

回答已采纳

3回答

提高Tesseract检测质量

、、、、

我正在尝试提取字母数字字符(a-z0-9)，这些字符不会从消费者相机(包括手机)拍摄的图像中形成感应性完整的单词。这些字符具有相同的大小和字体类型，并且没有格式化。实际处理是在Windows下完成的。以下图像显示原始输入：透视图处理之后，我使用OpenCV应用以下内容：从RGB转换为灰色应用cv::medianBlur去除噪声利用自适应阈值化cv::adaptiveThreshold将图像转换为二值化我知道网格的行数和列数。因此，我只需使用这些信息提取每个网格单元格。在完成所有这些步骤之后，我得到了类似于以下内容的图像：

浏览 4提问于2014-12-21得票数 9

2回答

我把单词和我想要提取的单词混在一起。如何提取单词或删除我不需要的单词？

、

你好，我正在寻找一个解决方案，在潘达斯或excel。我有一个用分号分隔单词的列的扩展表。 apple - slice123; banana; apple - slice321; orange; citron; apple - slice345; 我想把“香蕉”、“橙色”和“柠檬”提取到一个新的专栏中。我寻找标记和熊猫提取的单词列表，但我没有找到解决办法。我原来的csv包含1058行，该列有一个正确的单词(橙色等)和一个错误(苹果- sliceXYZ)，但也有5个正确的单词和多达100个错误。我希望有人知道怎么解决这个问题。编辑以求澄清。我在表中有1027行，但只有包含“果树”数据的列

浏览 2提问于2022-04-25得票数 0

回答已采纳

1回答

狮身人面像返回除pocketsphinx以外的其他结果。

、、、

我终于成功了。我的单词错误率( WER )训练后为0%。我只有一个用于简单语音识别的小数据集(仅用于另一种语言中的“是”和“否”两个词)。我接受了斯芬克斯火车的训练(126个火车文件，12个测试文件)。音频文件的长度为5s，包含8个单词(混合是/否)。经过训练，我决定带着我的测试文件，通过口袋狮身人面像。几乎我测试的每一个文件都有至少一个单词错误。有时它能识别出比预期多出1-2个单词。有时，它承认“是”为“否”。我想知道为什么我从狮身人面像和口袋狮身人面像得到不同的结果。我还想知道如何使用pocketsphinx来提高我的成绩。(尤其是口袋狮身人面像把一个“不”识别为两个“不”。

浏览 2提问于2018-09-05得票数 1

回答已采纳

1回答

OpenEars动态字典

、

我正在设计一款新的iPhone/iPad应用程序，我会使用OpenEars和OpenEars的一些语音识别功能。应用程序应该从自定义动态字典中识别一些单词(命令)，我的意思是，根据用户的动作，它应该能够识别一些新单词而忽略其他单词。粗略地说，我需要在字典中添加和删除单词。是那个电话 languageModelGenerator generateLanguageModelFromArray：用一组新的词--正确的方法？由于generateLanguageModelFromArray创建了一些文件，我认为它会影响应用程序的性能，对此有什么经验吗？

浏览 0提问于2012-11-22得票数 0

1回答

商品描述关键词提取

、、、

我正在玩一个推荐系统，它获取关键的描述性单词和短语，并将它们与其他单词和短语进行匹配。具体地说，我专注于啤酒的口味，用一个算法搜索malty或medium bitterness之类的东西，把它们找出来，然后与其他啤酒进行比较，得出口味推荐。目前，我正在努力解决提取问题。识别单词并将其标准化以供以后处理的一些技术有哪些？如何提取hoppy和hops并将其视为同一个词，但还要记住，very hoppy和not enough hops具有由前面的词修饰的不同含义？我相信我可以对复数和带后缀/前缀的单词使用词干分析，但是成对或更复杂的模式呢？有什么技术可以做到这一点？

浏览 0提问于2014-11-10得票数 2

3回答

从python脚本中生成的文本中剥离重复的单词

、、、

我编写了一个python脚本，从输入文件中提取文本，并随机重新排列单词，以用于基于裁剪技术( cut-up technique，)的创造性写作项目。这是当前的脚本。注意:我把它作为服务器端的include来运行。 #!/usr/bin/python from random import shuffle src = open("input.txt", "r") srcText = src.read() src.close() srcList = srcText.split() shuffle(srcList) cutUpText = " "

浏览 0提问于2012-12-15得票数 4

回答已采纳

1回答

python中区分胡言乱语/错误和外来语/名称的算法或工具？

、

我正在对有时出现错误的PDF文本做一些机器提取，结果往往是单词被空格不正确地分开，或者部分单词排列不正确，导致纯粹的胡言乱语。我想要一个工具，可以扫描和识别这些纯粹的胡言乱语，同时跳过非字典词，很可能是正确的名字或简单的词在一种外语。不确定这是否可能，但如果是的话，我想这样的事情可以用NLTK完成。我只是想知道，这是否已经做过，以节省我的麻烦，重新发明车轮。

浏览 1提问于2013-04-08得票数 1