使用自然语言处理对文本的上下文理解_理解自然语言处理中的torch.nn.LayerNorm_不支持的文本语言:自然语言理解API - 腾讯云开发者社区

php、jquery、datetime

我正在尝试让用户在输入字段中输入日期和时间值。一些示例可能包括： Tomorrow at 3pm Now Today at 1pm Next tuesday 4pm 我该如何将这些可读文本解析为日期/时间字符串呢？ E.g. dd/mm/yyyy hh:mm 可以在客户端使用jquery完成，还是必须通过php通过ajax完成？提前感谢您的任何建议或见解:)

浏览 0提问于2010-03-02得票数 6

回答已采纳

1回答

检测低质量、用户创建的文本内容。

text-classification

我运行一个网站，允许访问者发布文本内容。它在功能上非常类似于一个论坛。我想自动排除或标记，提交的文本内容是“垃圾邮件”或“低质量”(主观的，我知道)。显然，我想检测的内容是攻击性或经典的垃圾邮件。我还想检测那些毫无意义或毫无意义的内容。我知道，对于那些运行允许用户提交内容的web应用程序的人来说，这肯定是一个常见的问题，但我还没有找到一个明显的解决方案。理想情况下，我希望使用可以在Linux上运行的开源软件，适合我在我的AWS服务器或AWS服务上安装。我尝试过AWS理解，没有任何定制的培训，可以准确地检测文本的情感，它似乎没有检测到低质量或垃圾邮件出框。它支持自定义分类器的培训，您只需提供

浏览 0提问于2020-04-13得票数 2

2回答

变量绑定

ruby、scope

我不确定我是否理解了变量绑定的含义。这可能是一个并非特定于Ruby的编程概念。这似乎是一个基本的概念，有些书希望你已经知道这是什么意思。到目前为止，我的理解是:每当Ruby对象被实例化时，这实际上意味着Ruby在内存中分配一个空间来指定这个对象。如果您将一个对象赋给一个变量，那么实际上您并没有将该对象存储在变量中，而是将对该对象的引用存储在了变量中。我认为绑定是指将变量“绑定”到与其关联的对象的概念，但我不能完全确定这是否代表绑定和绑定的含义。有没有人能帮我解释一下，如果可能的话，最好是用一个简单的例子？

浏览 0提问于2013-02-16得票数 2

回答已采纳

9回答

函数式编程是迈向自然语言编程的下一步吗？

functional-programming、nlp

这是我的第一个问题，所以我有点紧张，因为我不确定我是否能很好地理解它的意思。不管怎样，我们开始了. 每当在编程中达到新的里程碑时，他们似乎总是有一个共同的目标:让程序员更容易编程。机器语言、操作码/助记符、过程/函数、结构、类(OOP)等在它们的时代总是有助于以更自然、更容易理解和更好维护的方式规划、组织和编写程序。当然，函数式编程并不是什么新鲜事，但最近几年它似乎经历了一种复兴。我还相信，当微软将F#添加到他们的主流编程语言中时，FP将得到巨大的推动。回到我最初的问题，我相信最终编程将用一种自然语言(英语)完成，几乎没有限制或规则。编译器将是AI/NLP系统的一部分，该系统从代码中提取

浏览 0提问于2008-11-12得票数 4

回答已采纳

1回答

演讲对文字..。.VOX文件到文本，这有可能吗？

speech-to-text、ivr

一个小小的背景:我面临着为一个新的PBX & IVR转换3000个IVR脚本。目前，语音脚本以.VOX格式存在--而且.它们不是“写出来的”/文档。我谦卑地问是否有人知道一个程序，这样，我就可以将.vox文件转储到程序中，让它生成一个文本文档。如果.vox格式是一个问题，我可能可以将它们全部转换为.wav或其他什么的。是的，有大量的应用程序/程序可以实时地对文本进行语音处理，但我希望能够将录音“上传/转储”到程序中，并获取文本。有人能给我指明正确的方向吗？预先感谢您的任何评论/帮助。SF

浏览 1提问于2014-05-19得票数 1

回答已采纳

2回答

文本中单词分类的可用选项？

text-processing、natural-language-processing

我正在研究如何在文本中对单词进行分类，我想知道有哪些选择，哪些最适合这项工作。我最感兴趣的是关键字，这些关键字通常是名词。到目前为止，我知道我可以使用Bayes分类器、黑名单或白名单。然而，到目前为止，我还没有得到这些方面的好运气。我从一个白名单开始，使用字网和莫比提供的单词来尝试识别每个名词。然而，许多词被忽略了，因为数据库中不存在，或者不是名词。接下来，我试着建立一个黑名单来匹配所有的东西，除了已知的停止词，动词等等。然而，要建立一个足够大的清单来处理已知的20万个英语单词(更不用说其他语言)，需要花费很长的时间。此外，将这么多单词保存在内存中进行比较对于商品硬件的性能来说是不切实际

浏览 0提问于2012-02-13得票数 3

回答已采纳

1回答

将文本拆分成句子的问题

stanford-nlp、text-processing

我正在努力寻找将文本拆分成句子的最佳方法。我尝试过斯坦福NLP，但实际上我对它的糟糕表现感到失望。例如 "Who are you?" asked another man. 它被识别为两个句子："Who are you?"和asked another man。 He said, "Nothing. Nothing at all." 它被认为是两句话： He said, "Nothing.和Nothing at all."。我也尝试过普通的vanilla Java BreakIterator.getSentenceInstanc

浏览 0提问于2019-04-06得票数 2

1回答

矢量化时保留文本数据的排序

python、python-3.x、scikit-learn、nltk

我试图用scikit-learn编写一种机器学习算法，该算法分析文本并根据训练数据对其进行分类。使用文本数据的示例直接取自scikit-learn文档，该示例使用一个CountVectorizer为每个单词出现多少次生成一个稀疏数组。 >>> from sklearn.feature_extraction.text import CountVectorizer >>> count_vect = CountVectorizer() >>> X_train_counts = count_vect.fit_transform(twenty_tr

浏览 1提问于2016-07-30得票数 5

回答已采纳

2回答

日语的自动换行算法

algorithm、unicode、internationalization、cjk、word-wrap

在我最近构建的一个web应用程序中，当我们的一个用户决定使用它来创建完全用日语创建的东西时，我感到非常惊讶。然而，文本包装得既奇怪又笨拙。显然，浏览器不能很好地处理日语文本的换行，可能是因为它包含的空格很少，因为每个字符组成一个完整的单词。然而，这并不是一个真正安全的假设，因为有些单词是由几个字符组成的，而且将一些字符组分成不同的行也不安全。到处搜索并没有真正帮助我更好地理解这个问题。在我看来，一个人似乎需要一本牢不可破的模式字典，并假设其他任何地方都可以安全地打破。但我担心我对日语的了解还不够多，无法真正了解所有的单词，这些单词是我在搜索过程中理解的，非常复杂。你将如何处理这个问题？据你

浏览 2提问于2010-01-19得票数 7

回答已采纳

1回答

学生对文本编程任务的回答数据集

machine-learning、nlp、dataset

我正在开发一个用于编程的智能辅导系统，在该系统中，导师用自然语言(英语)询问有关代码的问题和学生的答案。作为分析答案的一部分，我使用文本相似度。然而，这并没有告诉我答案有什么问题，也就是误解了一个概念。因此，我正在考虑使用ML来对响应进行分类，并识别任何误解。我的问题是，在哪里可以找到包含编程任务(JAVA)的文本答案的数据集？

浏览 0提问于2020-02-03得票数 0

1回答

一个文本词的可能特征是什么？

machine-learning、classification、data-cleaning、svm、anomaly-detection

我希望在文档中构造单词的特征向量，然后计算它们的链接距离以检测异常。我的问题是，我如何建模这些功能？如果可能的话，请举一个例子，这样我就能更好地理解。此外，计算出的距离与异常文本和正常文本之间的差异如何？(请参阅D. Guthrie，PhD。需要更多的澄清)。

浏览 0提问于2016-11-30得票数 0

1回答

“分类引擎”？

search-engine、code-search-engine、search-engine-bots

谁能解释一下搜索引擎领域的“分类引擎”？我已经用谷歌搜索过了，但是找不到任何令人满意的explanations.Even参考链接！附言:提前谢谢！

浏览 8提问于2012-04-12得票数 0

回答已采纳

1回答

如何从输入中确定意图？

azure-language-understanding

我最近做了一个基本的聊天机器人，让我的朋友测试它。她说了许多胡言乱语，路易斯的结果使我感到困惑。例如，她将输入)(*)($*#)(!*#&$*#&$*#&)$(*)(!*)(!@*09837$)(@*#||||，LUIS将此标识为我检查数据库状态的意图之一。我唯一能想到的就是它包含了09837，一个数字，并从那里触发了特定的意图。但是，用于检查数据库状态的数字实体是复合实体( part )的一部分。这对我来说毫无意义。为了消除number实体，我缩短了查询到)(*)($*#)(!*#&$*#&$*#&)$(*)(!*)(!@*，但它仍然触发相

浏览 0提问于2018-03-07得票数 0

回答已采纳

1回答

什么是几枪外推法？

machine-learning

我正在阅读秦艾斯纳的论文"学会如何提问“，他们在摘要中提到，使用提示，语言模型可以执行文本生成以外的其他任务。例子包括填充空白(BERT)和很少投篮外推(GPT-3). 我不确定我是否正确地理解了作者的几个镜头外推是什么意思。它们是否意味着通过几个例子提取事实知识和其他类型的知识？谢谢。

浏览 0提问于2021-07-24得票数 0

回答已采纳

1回答

如何在RASA核中使用RASA NLU

python、rasa-nlu、rasa-core

我是新的聊天机器人应用程序和RASA以及，请帮助我理解如何使用RASA核心的RASA NLU。

浏览 2提问于2018-02-09得票数 2

回答已采纳

1回答

使用C#或任何开源文本挖掘API将有意义的单词从文本文件中分离出来

c#、text、text-mining

我正在做一个视频处理项目，在这个项目中，我从视频中提取文本作为输入，并将该文本保存在文本文件中。我有包含垃圾文本和单词的文本，现在我需要从生成的文本中分离出有意义的单词，并将其转换为标签。有没有人能推荐可以用来做这个的API/算法？

浏览 2提问于2013-03-30得票数 2

1回答

Microsoft Azure -如何定位ML模型

python、azure、azure-cognitive-services、azure-sdk-python

多年来，我一直在编写Python，而且我的水平相当不错。我从未正式学习过计算机科学。我一直在为我的应用程序阅读和使用Azure认知服务，该应用程序使用Microsoft认知服务的文本分析服务，用于基于文本输入的语言检测。据我所知，微软(MS)已经培训了一些强大的ML模型，用于他们的认知服务包。我知道所有的代码都是开源的：并且我能够通过SDK文档和回购完成一些基本的导航来解决我的目的。但是，我想要理解的是，如果Microsoft确实将ML模型用于文本分析服务或任何其他认知服务，那么保存在存储库中的实际模型在哪里。在导航存储库时，我希望找到对某种序列化文件(如.pkl、.yaml)的调用

浏览 1提问于2022-03-08得票数 0

2回答

Grakn:我如何从文本集合中构建知识图谱？

vaticle-typedb

我的笔记本里有几个文档(pdf和txt)，我想用Grakn构建一个知识图谱。我通过谷歌找到了blog，但没有文档或自述文件教我如何做到这一点。也写在博客“可以在我们的GitHub repo here上找到挖掘文本的脚本”，但我不能理解我必须做的事情。这里有人能建议我如何使用Grakn从文本构建知识图谱吗？

浏览 25提问于2020-03-26得票数 6

1回答

python中的边缘案例和文本格式

python、python-3.x

作为一个更大的小组项目的一部分，作为我个人的挑战，我正在尝试创建一个函数，将一段文本格式化为两个句子块。该职能目前的形式如下： def format_text(text): sentences = text.split('.') # Split up all sentences using fullstops formatted_text = [] # In the actual code, this for loop is actually a list comprehension which looks like: # formatted_text =

浏览 5提问于2021-02-08得票数 0

回答已采纳

1回答

文本挖掘/分析用户命令/问题算法或库

algorithm、libraries、text-mining

我得到了一个金融应用程序，我希望添加到它的能力，以获取用户命令或文本框中的输入，然后采取正确的行动。比方说，希望用户写“显示过去10天的收入”，它将向他/她显示收入--重点是我希望它真正理解问题的含义，所以前面的语句将带来与“我是否在过去10天获得任何收入”或类似的结果- BI (类似Wolfram|Alpha引擎)。我想知道是否有任何开源库或算法书籍或任何我可以用来学习这门学科的东西。关于开源库--我不介意它是用哪种语言写的。我读过关于这个主题的文章，看到很多引擎和服务(OpenNLP、Apache UIMA、CoreNLP等)。但不知道它们是否适合我的需求。欢迎任何答案或建议。非常感

浏览 2提问于2012-07-13得票数 1

回答已采纳

7回答

自然语言处理中专有名词的识别策略

nlp、named-entity-recognition、part-of-speech

我有兴趣了解更多关于自然语言处理( )的知识，并好奇目前是否有任何策略可以识别文本中的专有名词，而不是基于字典识别？另外，有没有人可以解释或链接到解释当前基于字典的方法的资源？谁是自然语言处理方面的权威专家，或者在这个主题上的权威资源是什么？

浏览 11提问于2009-03-03得票数 14

回答已采纳

1回答

SVM (假信息检测)中反意义文本的识别

machine-learning、svm、supervised-learning、text-classification、tfidf

目前，我正在使用支持向量机( Support )开发一个二进制文本分类模型(假信息检测)，并在Python中使用TF作为文本向量器。我已经试过训练这个模型，但在测试时，我遇到了一个问题：例如，我有一个模型预测“新冠肺炎今天正在发生”为“真”，但在将文本改为“今天没有发生”之后，它仍然被预测为“真”，在其中应该被预测为“假”。在这种情况下，问题在哪里？如何使算法能够像上面提到的那样，对意义相反的文本进行分类？注意：我在建模中使用的数据集中的文本是“新冠肺炎今天正在发生”。我还使用predict_proba来知道文本为0(False)或1(True)的概率。它表明，我创建的两个条目在p

浏览 0提问于2022-03-02得票数 1

1回答

从文本中提取事件

machine-learning

我正在尝试建立一个应用程序，将提取事件的细节，如日期，时间，地点从图像文件。我将图像转换为文本使用Tesseract OCR.Now从文本，我可以使用什么来获得事件的细节?我计划使用机器学习，但不知道如何开始。

浏览 3提问于2014-11-18得票数 0

2回答

信息抽取和文本挖掘有什么不同？

nlp、information-retrieval、text-mining、information-extraction

这看起来可能很容易。但我很困惑。文本挖掘和信息抽取的区别是什么？

浏览 7提问于2013-06-22得票数 11

回答已采纳

1回答

能探测到一部分言语(名词、动词、形容词.)吗？使用Azure的文本分析？

c#、azure、nlp、natural-language-processing

我正在从事微软Azure的文本分析服务。它可以很好地从给定的非结构化文本中找到情感和关键词提取，但我更感兴趣的是从给定的文本中找出词性的一部分。有什么解决办法或实现这一目标的方法吗？

浏览 1提问于2015-07-15得票数 0

5回答

掌握NLP:阅读列表

nlp、reference-request、books

我在网上搜索过，有数百条关于该读什么的建议。随着时间的推移，新的更高质量的技术被发布，所以我想知道2018年什么是相关的？我的背景是4年的BSc在数学和统计(顶级大学)+1年的作用在数据科学(建立预测模型，无NLP)。如有可能，请将其分为章节/阅读部分。背景(历史，例如哲学) 理论(数学) 实用(使用Tensorflow和其他NLP库来构建算法) 我有几个我想做的附带项目：建立一个回答多项选择题的算法例如，给出一个问题：哪种不是水果? 1)苹果2)黄瓜我希望NLP理解否定，并发现问题的主题是水果。那我可能会加入谷歌搜索API之类的东西。将“关键字”搜索的列表分类为类别。让我们

浏览 0提问于2018-08-04得票数 7

1回答

Python中的多字表达式标注

python、algorithm、python-2.x、machine-learning、natural-language-processing

我正在尝试编写一个小的python代码，其中我正在读取一个文本文件-它包含多个单词(MWEs)和单数单词(NMWE)。我试图标记每一个，如下所示。我有一个条目字典，包含MWE和标记MWE。我把它们标记为替换，如果我不能标记为MWE -the NMWE，我就是这样标记它们的。我写了以下代码 def rule_disc(): corp=open("/python27/MWETagtext1.txt","r").read().lower() print "The Text file given Is:",corp mwed

浏览 0提问于2017-02-01得票数 2

1回答

如何分析用户输入并确定它(某种程度)是否与答案相匹配

design-patterns、php、artificial-intelligence、comparison、text-processing

我正在开发一个测试系统，允许用户输入文本作为答案。问题可以是一些简单的开始，寻找一个简短的短语，或选择几个词作为“正确”的答案。然而，有一个正确的短语可能是有限的。可能是用户遗漏了几个单词，用短文写就，提供了部分答案，或者类似的内容。我可以让这件事变得简单，或者像我喜欢的那样复杂。如果我决定保持轻松，那么强制用户更加明确是一个可行的选择。然而，如果我有时间，我也想考虑允许一些模糊或拼写错误，甚至做一些分析的答案，以使我更聪明地处理它。我们从中间的某个地方开始。我想分析一个(短)的文本块输入的用户拼写错误和关键字，将使答案匹配。为了实现这一点，我应该考虑什么理论？如果有任何帮助的话，我将

浏览 0提问于2016-11-28得票数 1

回答已采纳

4回答

用于对英文文本进行标记化的Regexp

regex、text、nlp

对英文文本进行标记化最好的正则表达式是什么？所谓英语令牌，我指的是由最多字符组成的原子，这些字符可以有意义地用于NLP目的。类比是任何编程语言中的“标记”(例如，在C中，“{”、“[”、“hello”、“&”等都可以是标记)。有一个限制:虽然英文标点符号可以是“有意义的”，但为了简单起见，当它们不出现在\w+中间时，我们忽略它们。所以，“你好，世界。”产生“hello”和“world”；类似地，“你长得很好看”。你要么长得好看，要么长得好看。

浏览 2提问于2010-09-14得票数 8

1回答

Keras:文本预处理(Stopword删除等)

python、keras

我正在使用Keras做一个多标签分类任务(Kaggle上的有毒评论文本分类)。我使用Tokenizer类进行一些预处理，如下所示： tokenizer = Tokenizer(num_words=10000) tokenizer.fit_on_texts(train_sentences) train_sentences_tokenized = tokenizer.texts_to_sequences(train_sentences) max_len = 250 X_train = pad_sequences(train_sentences_tokenized, maxlen=max_len)

浏览 1提问于2018-06-12得票数 4

1回答

BOW(词袋)和TextBlob的区别

python、machine-learning、data-science、textblob

我是那个领域的新手。最近在twitter数据上做了一个情绪分析。并且遇到了两种方法:1)用于处理文本数据的TextBlob- python库2) BOW (词袋) 它们之间的区别是什么？这两种方法是不同的，还是有相似之处？

浏览 15提问于2020-03-25得票数 0

1回答

Java编码审查词

java、bukkit

我正在对一个插口插件，这是在Java编码，想审查球员聊天消息。我试图使用#replaceAll()对其进行审查，但它审查的内容超出了应有的范围我的代码是(使用了示例单词) public static String filter(String message) { return message.replaceAll("(?i)on", "**"); } 输出是“打开它”->“打开它**” 但它也取代了"I it once“I it ->”I it **ce“ 有没有更好的方法来做这件事，把它替换成正确的星星，但如果它在单词中，就不会得

浏览 2提问于2018-07-07得票数 1

1回答

机器学习-从文本中派生信息

machine-learning、heuristics、data-extraction

我是机器学习和监督学习领域的新手。我的任务如下:从磁盘上的一个电影文件的名称中，我想检索有关该文件的一些元数据。我无法控制文件的命名方式，但是它有一个标题和一个或多个附加信息，比如发布年份、决议、演员名称等等。目前，我已经开发了一个基于规则的启发式系统，在这个系统中，我将名称拆分成标记，并试图理解每个单词可以单独表示什么，也可以用相邻的标记来表示。例如，为了检测人的名字，我使用了一个英文名称数据集，如果我在数据集中找到了这个词，就会将它打分为一个潜在的人名。如果它旁边是我作为一个潜在的姓氏得分的一个词，我把这两个词打成了一个演员。诸若此类。它具有相当高的准确性，但是手动改变启发式分数来“教

浏览 1提问于2018-02-25得票数 0

回答已采纳

1回答

ABAC政策制定与RBAC问题

access-control、authorization、corporate-policy、rbac、abac

我被要求回答一个问题：一家网上书店想要大面积访问客户的订阅。订阅有三种类型:A、B和C。客户可以在他们选择的订阅类型中访问。另外，如果一本书没有被列在订阅列表中，那么它对所有人都是免费的，而且，每个月的每15本书都是免费的。 1)用形式化表示描述上述关于ABAC. 2的策略) RBAC模型需要多少个角色，哪些角色？我研究过Al-Kahtani & Sandhu论文，它只涉及RBAC，而不涉及ABAC。据我理解，我必须为ABAC设定2条规则。第一条规则将允许3种类型的订户免费拥有所有未列出的书籍。第二条规则将包含第15条的日期，所有的书都是免费的。还是完全不同的东西？至于R

浏览 0提问于2016-01-21得票数 2

回答已采纳

1回答

如何使用查询执行语义搜索

php、sql、database

我在下面有一个基本查询，当用户在文本框中键入问题时，它会从数据库中搜索问题： $questionquery = "SELECT QuestionContent FROM Question WHERE(QuestionContent = '".mysql_real_escape_string($questioncontent)."'); 现在，上面的查询并不实用，因为要找到一个问题，用户必须正确地键入整个问题才能找到问题。现在，我不想通过使用LIKE从数据库中查找问题中的单词来进行关键字搜索。相反，我想要做的是能够使用查询执行语义搜索，以便能够找到在

浏览 2提问于2012-05-23得票数 0

回答已采纳

2回答

Yelp是如何创建“评论要点”部分的？

web-services、algorithm、search、text、yelp

以下面的链接为例：。在“评论要闻”一节中，有三个短语(辛辣的鸡肉丁，欢乐时光，午餐特色菜)是根据用户提交的评论突出显示的。很明显，这些是最常出现的短语，或者是经常出现的最长的短语，或者是其他一些逻辑。他们的官方解释是：在的评论中，叶利浦经常提到下面的链接短语。这不是什么老生常谈，它们也是我们Yelp所确定的独特而快速的描述这一业务的方法。单击任何短语，查看提到它的所有评论。我的问题是，他们用什么来挖掘文本输入来获取这些数据点？是基于Lempel Ziv的算法，还是某种映射约简算法？我不是个电脑专业的学生，所以我可能错过了一些基本的东西。希望得到一些帮助、理论等。谢谢!

浏览 2提问于2011-12-30得票数 1

1回答

将Google情感分析响应拆分为单独的列，并为没有值的单元格生成“no”

python、pandas、sentiment-analysis、google-natural-language

目标我想把回应从谷歌情绪分析分成四列，然后合并到原始内容数据。 Situation 我在python dataframe中的一列文本上运行Google情感分析。这里有一个返回行的示例。这一栏是“感情”： magnitude: 0.6000000238418579\nscore: -0.6000000238418579 然后，我需要将该单元格分成四个新列，一个表示大小，一个表示返回值，一个表示分数，另一个表示返回值。我试过什么目前，我正在使用此方法来完成以下操作： df02 = df01['sentiment'].astype(str).str.split(expand=

浏览 2提问于2022-06-02得票数 0

回答已采纳

5回答

Rasa核与Rasa nlu的区别

nlp、artificial-intelligence、chatbot、rasa-nlu、rasa-core

我试图从官方文档中理解和之间的区别，但我不太理解。我理解的是，Rasa核心用于指导会话流程，而Rasa NLU用于处理文本以提取信息(实体)。在和中都有构建聊天机器人的例子。我不明白这两种方法的区别是什么，以及何时采用一种而不是另一种方法。你能帮我更好地理解这件事吗？

浏览 10提问于2017-12-14得票数 30

回答已采纳

1回答

SOLR -当将字段值添加到SOLR中时，如何从文档中提取字段值？

solr

在SOLR 1.4.1中使用SolrJ。因此，我定义了一组要索引的字段。假设我有数百个文档(假设它们是文本文件)，我想将这些文档添加到SOLR中以创建索引。是否有一种方法可以为SOLR提供文档，并让它在每个文档中找到字段的值？例如，假设我在SOLR模式中有一个名为“制造商”的字段。我还有一份附有案文的文件：我也是一样的，神圣的，神圣的，不受诱惑的，不受劳动的诱惑。Ut enim ad minim veniam，quis nostrud习服ullamco laboris aliquip ex ea commodo .制造商，在容量上的谴责中的，在无名氏的逃避中。不正常的，被遗弃的动物。

浏览 2提问于2011-03-31得票数 1

1回答

文本预处理的最佳工具，包括标记化、柠檬化、停止字删除、特征向量提取？

nlp、tools

对于文本处理，有很多工具，比如CoreNLP、SpaCy、NLTK、textblob等等，每个工具都提供不同的预处理功能，人们推荐不同的工具来执行不同的任务，比如NLTK，用于令牌化等等。您推荐哪种工具来执行所有这些任务？

浏览 0提问于2016-11-25得票数 2

3回答

NLP和文本挖掘有什么区别？

nlp、text-mining

正如在这个Meta职位中与肖恩讨论的那样，我认为有一个问题可以帮助像我这样困惑的人了解文本挖掘和NLP之间的区别是很好的！那么，nlp和文本挖掘有什么区别呢？我已经把我的理解作为一个答案。如果可能的话，请用一个简单的例子来解释你的答案！

浏览 0提问于2016-01-20得票数 13

回答已采纳

1回答

修复不带空格的英文文本

text、scripting

我有很多英文文本行，单词之间几乎没有空格。这篇文章是来自19世纪历史记录的普通英语。我可以查看文本并添加空格，但这非常耗时，更不用说无聊了。有没有一个“简单”的脚本或程序可以计算出空格的位置？关于“简单”的一些定义？显然，它需要一本字典。我更喜欢一种脚本语言，我可以稍微调整一下，希望它能在linux/BSD/MacOS上运行。

浏览 19提问于2020-06-22得票数 0

4回答

计算机AI算法写句子？

parsing、artificial-intelligence、nlp

我正在搜索有关处理文本句子的算法的信息，或者在创建在普通人类语言(如英语)中有效的句子时遵循结构。我想知道在这个领域是否有我可以学习或开始使用的项目。例如，如果我给一个程序一个名词，为它提供一个同义词词典(对于相关的单词)和词性(这样它就能理解每个单词在句子中的位置)--它能创建一个随机的有效句子吗？我相信这类研究有很多子部分，所以任何关于这方面的线索都会很好。

浏览 2提问于2011-04-09得票数 14

1回答

sys.dm_fts_parser在C#中的实现

c#、.net、sql、sql-server-2008

有没有办法将这个SQL2008函数的功能实现到一个C#库中？我需要一个解析器，它能够接受一个字符串，解析它，并向我显示干扰词，精确匹配和词尾变化形式-基于此，我试图为文本建立一种排名(用于对搜索结果进行排序)

浏览 1提问于2012-02-01得票数 0

2回答

将文本解析为有效句子

string、algorithm、dynamic-programming

我对如何将任何文本解析成有效的句子有疑问。假设一个文本被赋予iamjhamb并解析成i am jhamb My approach: I solved this using Dynamic programmnig, Make an array T[], where T[i] shows string from 0 to i made any valid setence or not formula is T[i] = 1 iff T[j] = 1 and substring(j+1, i) is a word in dictionary f

浏览 0提问于2012-08-29得票数 0

5回答

HTML中“”实体的使用

html、xhtml、escaping、linq-to-xml、html-entities

我正在修改由另一方编写的一些XHTML文件。作为这项工作的一部分，我正在通过Linq到XML进行一些批量编辑。我刚刚注意到，一些原始的XHTML文件在这些文件中的文本节点中包含了。例如： <p>Greeting: "Hello, World!"</p> 当通过"恢复XHTML文本时，实体将被纯文本双引号替换。 <p>Greeting: "Hello, World!"</p> 问题：能告诉我最初作者使用"实体而不是普通双引号的动机是什么吗？这些实体是否起到了我

浏览 4提问于2014-09-18得票数 59

回答已采纳

1回答

ideavim x-mode插入模式完成

vim、intellij-idea、phpstorm、jetbrains-ide、ideavim

我最近看了一段视频，视频中一个人展示了如何根据上下文使用Vim的X模式(插入模式完成)来完成单词甚至整行。它在Vim中工作得很好，但我试图用PhpStorm/PyCharm等来完成同样的工作，但没有成功。有没有可能用IdeaVim来实现呢？

浏览 2提问于2017-03-21得票数 0

1回答

如何在(web) OpenNLP应用程序中使用/集成Apache php？

java、php、opennlp、named-entity-recognition

我正在用php构建一个web应用程序，我想使用自然语言处理工具。我找到了OpenNLP库，但它都是java，而且我真的没有使用java的经验。我想使用OpenNLP作为web服务，在这里我可以传递文本和接收创建的命名实体。我需要学习java吗?还是有什么东西可以让我使用？我找不到，现在已经找了好几个小时了。提前谢谢你，

浏览 8提问于2014-08-06得票数 4

1回答