如何使用R中的特定字典对语料库进行词条分类？“_如何对特定数字中的数字进行分类？_如何对R中的特定列进行排序 - 腾讯云开发者社区

python、machine-learning、nlp、scikit-learn

我有一个NLP任务，基本上是监督文本分类。我给一个语料库加上了POS标签，然后我使用了scikit-learn提供的不同的向量器，以便提供一些scikit-learn提供的分类算法。我也有语料库的标签(类别)，以前我是以一种没有监督的方式获得的。首先对语料库进行词性标注，然后得到一些不同的词条，它们的结构如下： bigram = [[('word','word'),...,('word','word')]] 显然，我似乎有所有的东西要分类(我都准备好用一些小例子来分类，但不是所有的语料库)。我想利用这些特征作为特征，将它们呈现

浏览 4提问于2014-12-07得票数 3

回答已采纳

2回答

R的分类/预测

r、machine-learning、nlp、classification

我有一个分类为垃圾邮件/无垃圾邮件的N文档的语料库。我正在按照标准程序对R()的数据进行预处理.预处理以一个DocumenTermMatrix结束，使用权重作为tfidf。现在我想用我的模型对新文档进行分类。如何为单个新文档计算相应的DocumentVector (使用文档的tf和语料库的idfs )？我想避免重新计算整个语料库的DocumentTermMatrix。

浏览 5提问于2013-04-11得票数 1

回答已采纳

2回答

寻找“现代”词汇语料库

python、nltk、corpus

我正在构建一个文本分类器，它将文本分类为主题。在我的程序的第一阶段，作为清理数据的一部分，我删除了所有的非英语单词。为此，我使用nltk.corpus.words.words()语料库。这个语料库的问题是，它删除了“现代”英语单词，如Facebook、Instagram等。有没有人知道另一个，更现代的语料库，我可以用现在的语料库来替换或合并？我更喜欢nltk语料库，但我愿意听取其他建议。提前感谢

浏览 2提问于2017-06-14得票数 0

2回答

如何从django模板访问此字典的数据？

django、django-templates

我有一个字典，其中的词条如下： d[(1,2,3)] = True d[(4,5,6)] = False 我如何从django模板访问它们？

浏览 1提问于2011-06-24得票数 0

回答已采纳

2回答

涉及作为标签的数字范围的多标签分类

machine-learning、scikit-learn、classification、corpus、multilabel-classification

我有一个分类问题，我的标签是评分，0- 100，增量为1(例如1，2，3，4 )。我有一个数据集，其中每一行都有一个名称、文本语料库和一个评级(0-100)。从文本语料库中，我试图提取可以输入到分类器中的特征，分类器将输出相应的每行评分(0-100)。对于特征选择，我正在考虑从基本的文字包开始。然而，我的问题在于分类算法。在sci学习中是否有支持这类问题的分类算法？我当时正在阅读，但是所描述的算法似乎支持完全离散的标签，而我有一组连续的标签。编辑:那我把我的收视率放进去的情况呢？例如，我可以有10个标签，每一个1-10。

浏览 0提问于2014-11-04得票数 0

回答已采纳

2回答

文本中单词分类的可用选项？

text-processing、natural-language-processing

我正在研究如何在文本中对单词进行分类，我想知道有哪些选择，哪些最适合这项工作。我最感兴趣的是关键字，这些关键字通常是名词。到目前为止，我知道我可以使用Bayes分类器、黑名单或白名单。然而，到目前为止，我还没有得到这些方面的好运气。我从一个白名单开始，使用字网和莫比提供的单词来尝试识别每个名词。然而，许多词被忽略了，因为数据库中不存在，或者不是名词。接下来，我试着建立一个黑名单来匹配所有的东西，除了已知的停止词，动词等等。然而，要建立一个足够大的清单来处理已知的20万个英语单词(更不用说其他语言)，需要花费很长的时间。此外，将这么多单词保存在内存中进行比较对于商品硬件的性能来说是不切实际

浏览 0提问于2012-02-13得票数 3

回答已采纳

1回答

在Python中计算n元语法的点式互信息(PMI)得分

python、n-gram

我有一个庞大的n-gram语料库和几个外部n-gram。我想根据这个语料库(计数)计算每个外部n-gram的PMI分数。有没有什么工具可以做到这一点，或者有人能给我提供一段Python代码来做这件事？问题是我的n-gram是2-gram、3-gram、4-gram和5-gram。因此，计算3-gram或更多的概率真的很耗时。

浏览 0提问于2011-03-08得票数 4

回答已采纳

1回答

有多少单词被大小写了？

python、nlp、lemmatization

在一个有1000个文本的数据框架中，在做了预处理词条分类之后，我如何找出每个文本中有多少个单词被词条分类？

浏览 9提问于2020-09-28得票数 1

1回答

我如何将if-然后语句与一些文本分类器合并，以建立这样一个模型，将一个句子分类为不同的类？

machine-learning、scipy、nlp、classification、text-classification

我要处理下列情况，然后将一种自然语言分类如下：最初，我有一个算法Alg1，它可以根据某些矩阵的分数对某些数据/文本进行分类，我可以构建一些特征矩阵，这些特征矩阵的评分方式如下：特殊动词(如果一个句子有一个特殊的词-> score=1) \\特殊的动词(如果一个句子有一个或多个特殊的动词) 然后根据这些矩阵-分数:我最初可以将一些句子分类为不同的classes{class1，class2，class3}，只需使用if -然后语句，那么现在的问题是如何将这种方法合并(规范化)，以便借助文本分类器算法(如SVM)或其他什么方法，以获得更好的精确-回忆)实现这种混合方法的想法。？

浏览 2提问于2015-09-10得票数 1

1回答

文档分类:预处理和多标签

word2vec、text-classification、tf-idf、doc2vec

我有一个关于单词表示算法的问题: word2Vec，doc2Vec和Tf-IDF算法中哪一个更适合处理文本分类任务？我的监督学习分类中使用的语料库由多个句子的列表组成，其中既有短句子，也有长句子。正如在this thread中所讨论的，doc2vec与word2vec的选择是文档长度的问题。至于Tf-Idf与word嵌入，这更多的是文本表示的问题。我的另一个问题是，如果对于同一个语料库，我有多个标签链接到其中的句子，该怎么办？如果我为同一个句子创建了多个条目/标签，它会影响最终分类算法的决策。我如何告诉模型文档中的每一句话每个标签都是相等的？先谢谢你，

浏览 12提问于2020-03-27得票数 1

回答已采纳

2回答

NLTK自定义分类语料库不读取文件

python、nltk、corpus、nltk-trainer

我创建了自己的语料库，类似于nltk中的movie_reviews语料库(按neg\pos分类)。在neg和pos文件夹中是txt文件。代码： from nltk.corpus import CategorizedPlaintextCorpusReader mr = CategorizedPlaintextCorpusReader('C:\mycorpus', r'(?!\.).*\.txt', cat_pattern=r'(neg|pos)/.*') 当我试图读取或与其中一个文件交互时，我无法。例如，le

浏览 1提问于2018-02-15得票数 0

回答已采纳

1回答

命名实体识别中机器学习模型的训练

machine-learning、nlp、named-entity-recognition

对于NER问题，我找不到任何关于机器学习模型体系结构的解决方法。我模糊地知道这是一个多类分类问题，但是我们如何格式化我们的输入来输入这样的多类分类器呢？我知道输入必须是带注释的语料库，但是我们如何将这组对(词、实体标签)输入到分类器中呢？或者，你是如何将这样的语料库设计成ML模型的呢？或者，一般情况下，你如何通过机器学习从零开始训练一个自定义的人？蒂娅。

浏览 0提问于2022-05-10得票数 1

2回答

如何使用SciKitLearn使用TfIdfVectorizer对文档进行分类？

python、machine-learning、scikit-learn

下面的示例演示如何使用Sklearn 20新闻组数据训练分类器。 >>> from sklearn.feature_extraction.text import TfidfVectorizer >>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space'] >>> newsgroups_train = fetch_20newsgroups(subset='trai

浏览 1提问于2013-10-29得票数 2

回答已采纳

2回答

NLTK影评语料库中的标签

python-2.7、nltk、tagged-corpus

我使用以下代码来打印movie_review语料库中最常见的15个词条。 import nltk import random from nltk.corpus import movie_reviews documents =[] for category in movie_reviews.categories(): for fileid in movie_reviews.fileids(category): documents.append((list(movie_reviews.words(fileid)), category)) random.shuffle(

浏览 5提问于2017-08-28得票数 0

1回答

如何检查帖子是否属于wordpress中分类类别的子类别

wordpress、archive、taxonomy

我的目标是根据post是否属于自定义分类的主类别和某个分类类别的子类别，在Wordpress的归档页面中显示有条件的内容。我知道如何在普通帖子类别和子子类别中实现这一点。 if (is_category('dogs') || cat_is_ancestor_of('dogs', get_query_var( 'cat' )) { echo 'Successs'; 第一部分工作正常。 is_tax('advert_category', 380) ) || 但是如何检查帖子是否属于分类类别380的子类别？

浏览 1提问于2018-06-28得票数 1

1回答

文本挖掘中的特征数

machine-learning、text-mining、text-classification

我试图建立一个基于文本挖掘的预测模型。我很困惑我应该在我的模型中设置多少功能。我有1000份文件在我的分析(所以语料库将需要700左右)。语料库中的术语数约为2万条，超过了文献数(P >> N)。有这么多特征有什么意义吗？ HashingTF方法中的特征数应该高于语料库中的词条总数？或者我应该让它变小(比如512个功能)？我有点糊涂。

浏览 2提问于2017-07-19得票数 0

回答已采纳

3回答

对现有的基本GloVe模型的改进

nlp、text-classification、glove

我正在使用GloVe作为我研究的一部分。我从下载了模型。我一直在使用GloVe进行句子分类。一些STEM主题说，我所分类的句子是特定于特定领域的。然而，由于现有的GloVe模型是针对一个通用的语料库进行训练的，因此对于我的特定任务，它们可能不会产生最佳的结果。所以我的问题是，我应该如何加载经过再训练的模型，然后再在我自己的语料库上重新训练它，以学习我的语料库的语义呢？如果可能的话，这样做是有好处的。

浏览 7提问于2017-04-25得票数 7

回答已采纳

1回答

在文档项目上构建语料库有意义吗？

machine-learning、nlp、corpus

我没有在数据科学或机器学习方面的经验。因此，我无法确定建立语料库是否适用于我试图解决的问题。我正试图为云技术(如AWS、Google )构建一个参考站点。我能够构建结构化数据，并在一个单一的生态系统中使用标准的web抓取和sql.queries识别主要实体。但我希望有能力拥有一种机制，能够自主地识别与该实体和与之有关系的其他实体相关的实体和相关信息。考虑到特定的生态系统文档遵循一定的风格，我可以使用很少的实体作为培训文档，然后让它对我前面提到的信息进行分类。这样做的出发点是建立一个语料库吗？我试过了分类语料库生成器。在多个类别中包含一个特定的文档可以吗？例如，AWS中的实例可以是类

浏览 0提问于2020-02-12得票数 0

回答已采纳

1回答

多个功能集

python、nlp、nltk、feature-extraction、text-classification

我正在学习NLP，并学习如何使用NLTK和scikit-learn进行文本分类。因此，我在NLTK的movie_review语料库中实现了Unigram presence功能。现在，我正在尝试实现一篇研究论文，其中他们使用了多种功能： 1. N-Gram Features : Unigram : Presence and Count, Bigram : Presence and Count 2. Stylistic Features : POS_Noun, POS_Adverb, POS_Adjective : Ratios No. of spelling errors : Real-valu

浏览 0提问于2017-07-11得票数 2

1回答

如何构建StanfordNER分类器

machine-learning、nlp、classification、stanford-nlp、named-entity-recognition

我正在使用StanfordNER分类器。有4个分类器 english.all.3class.distsim.crf.ser.gz english.muc.7class.distsim.crf.ser.gz english.conll.4class.distsim.crf.ser.gz example.serialized.ncc.ncc.ser.gz 这些分类器是如何建立的？因为它们都是基于不同的语料库，所以我猜在语料库上训练一个机器学习分类器，如SVM和OVR (用于多标签案例)，以检测ORGANIZATION、PERSON、LOCATION等实体，这意味着训练数据将是语料库中文档的完

浏览 3提问于2016-01-22得票数 2

回答已采纳

1回答

用压缩库估计英语句子的信息复杂性？

python、scala、compression、information-theory

我试图写一个算法，可以计算出一个句子的‘出乎意料’或‘信息复杂性’。更具体地说，我试图对一组句子进行排序，这样最简单的句子就会排在第一位。我的想法是，我可以使用一个压缩库，比如zlib?，在同一种语言的大型文本语料库上进行“预训练”(称之为“语料库”)，然后将不同的句子附加到文本语料库中。也就是说，我可以定义一个句子的复杂性度量，它需要多少字节才能压缩整个语料库，而整个语料库则需要一个不同的句子。(额外字节越少，该句子就越可预测或“预期”，因此复杂度就越低)。这有意义吗？问题在于如何找到合适的库来让我这样做，最好是从python那里。我可以把句子加到一个大语料库中，并要求压缩库来压缩整

浏览 1提问于2016-10-14得票数 1

回答已采纳

1回答

输入文本在不同类别下的分类

r、text-classification

text=“我的狗是食米者”，“我想买一个新的”，“我的猫更喜欢巧克力牛奶” 我如何从这些文本(或文本语料库)中提取关键词，并将它们分类为不同的类别(即狗、猫被归类为宠物、大米、巧克力牛奶被归类为食物)

浏览 0提问于2017-08-22得票数 0

回答已采纳

2回答

NLTK标题分类器

python、nlp、nltk、text-mining、text-classification

如果这件事已经被质疑/回答了，我会事先道歉，但是我找不到任何接近我的问题的答案。对于处理Python来说，我也有点不太好，对于长时间的帖子我也很抱歉。我正在尝试构建一个Python脚本，它基于用户给定的Pubmed查询(即“癌症”)，检索一个带有N篇文章标题的文件，并评估它们与所讨论主题的相关性。我已经成功地构建了“发布搜索和保存”部分，让它返回一个包含文章标题的.txt文件(每行对应于不同的文章标题)，例如：卵巢癌生活质量心理教育干预的可行性。一项增加乳腺癌幸存者体力活动的随机试验。有了这个文件，我们的想法是将它用于分类器中，并让它回答.txt文件中的标题是否与我所知道的与

浏览 2提问于2017-10-27得票数 2

回答已采纳

2回答

从字典中删除词条

python

假设我有一个有很多词条的字典，但我只需要打印前5-10个词条，我该怎么做呢？我考虑过使用for循环，但我找不到一种方法来处理字典，因为据我所知，在不知道键名的情况下无法访问字典的值。我还尝试将字典转换为元组列表，但这会导致条目的顺序以不必要的方式更改。有什么建议吗？

浏览 18提问于2021-06-29得票数 0

1回答

用向量空间模型表示文档

machine-learning、nlp、classification、svm

我有一个非常基本的问题。我有两套文件，一套用于培训，一套用于测试。我想用训练文件训练一个Logistic回归分类器。我想知道我做得对不对。首先，在培训文档中找到所有独特单词的列表，并称之为词汇表。对于词汇中的每一个单词，请在每一份培训文件中找到其TFIDF。然后，将一份文件表示为TF国防军得分的矢量。我的问题是: 1.我如何代表测试文件？比如说，其中一个测试文档中没有词汇表中的任何单词。在这种情况下，该文件的词汇表中所有单词的TFIDF得分都为零。我尝试使用LIBSVM，它使用稀疏向量格式。对于上述文档，其向量表示中的所有条目都设置为0，我如何表示它？

浏览 7提问于2012-12-21得票数 0

回答已采纳

1回答

不平衡或小数据集的BERT分类

bert-language-model、imbalanced-data

我有一个大语料库，没有标签。我训练这个语料库是为了得到我的BERT记号器。然后，我想构建一个BertModel来对标记的数据集进行二进制分类。然而，这个数据集是高度不平衡的，1: 99。所以我的问题是： BertModel在不平衡数据集上表现良好吗？ BertModel在小数据集上表现良好吗？(小到不到500个数据点，我敢打赌它不是.)

浏览 2提问于2021-07-25得票数 2

回答已采纳

1回答

使用tf-idf时使用R和tm的新数据

r、tm、tf-idf、text-classification

使用R和tm，我已经加载和清理了一堆文本文档，并将它们制成语料库。在那之后，我使用tf-idf构建了他们的DTM，我可以将其用于所有类型的分类聚类算法。到现在为止还好。现在，让我们假设我有一个新文档，并尝试计算它到语料库中文档的距离。当然，我需要将我应用于原始集合的所有变换应用于它。但是我不知道如何计算新文档的tf-idf向量，因为tf-idf依赖于整个集合，而不是单个文档。将新文档添加到语料库并重新计算其tf-idf DTM不能正常工作:不仅效率低下，而且每个新文档都会碰上已经看到的文档的值，这将改变我可能将它们作为训练集运行的任何聚类分类算法的结果。因此，我的问题是，如何使用R和tm计

浏览 15提问于2017-07-03得票数 0

2回答

是修改所有的参数，还是只更新最终的分类层？

nlp、bert、transformer、finetuning、pretraining

目前正在学习和阅读变压器模型，我发现在预培训阶段，BERT模型是通过MLM和NSP在一个大型语料库上进行训练的。但是在整理过程中，例如试图根据另一文本对情感进行分类时，所有的BERT参数(110M+参数+最终分类层)都是更新的，还是仅仅是最终的分类层？在我一直在寻找的资源中找不到具体的答案。提前谢谢你。

浏览 0提问于2020-09-04得票数 1

1回答

如何将英语缩略语替换为词典形式

dictionary、text、nlp、token、word

我正在开发一个用英语分析文本的系统:我使用stanford-core nlp从整个文档中生成句子，并从句子中生成标记。我还使用maxent标记器来获取tokens pos标记。现在，考虑到我使用这个语料库来构建一个有监督的分类器，如果我可以将任何像're，'s，havin，sayin‘等等的单词替换成它的标准形式(are，is，having，說)，那将是很好的。我一直在找一些英文字典文件，但我不知道如何使用它。有这么多不同的案例需要考虑，我不认为这是一项容易实现的任务:是否有一些类似的工作或整个项目可以使用？

浏览 1提问于2016-04-09得票数 1

3回答

分段训练NaiveBayesClassifier ( Piecemeal NLTK)

nltk、bayesian、text-classification

我有很多文本数据，我想进行分类。我以块的方式增量地获取这些数据(例如500个样本)。我想使用这些块在NLTK中执行training NaiveBayesClassifier，但需要零散地进行训练。我是否可以用一个chuck来训练NaiveBayesClassifier，然后用它来训练下一个chuck等等？我在文档中找不到这个问题的答案。

浏览 1提问于2014-03-16得票数 3

4回答

情绪分析-当正面和负面单词列表的长度不同时，我应该对它们进行标准化吗？

nlp、sentiment-analysis

我正在实现一个简单的情感分析算法，其中论文的作者有一个正面和负面单词的单词列表，并简单地计算每个单词在分析的文档中出现的次数，并使用以下内容对文档进行情感评分： sentiment = (#positive_matches - #negative_matches) / (document_word_count) 这是通过文档长度对情感评分进行归一化，但是负面单词的语料库比积极单词语料库(大约300个积极单词和1800个负面单词)大6倍，因此通过上面的测量，情感评分可能会有负面偏差，因为要匹配的负面单词比积极单词更多。我如何纠正正负语料库长度的不平衡？我是否应该调整情绪得分，以通过各自的语料

浏览 0提问于2015-02-19得票数 1

1回答

nltk为语料库中的文件添加类型

nltk

我有一堆纯文本文件，我想将它们分类为A类或B类。为了进行训练，我正在考虑将类型作为A类或B类添加到每个文件中，并尝试识别一些可以预测文件类型的特征。我可以创建一个纯文本语料库，但有没有办法在创建语料库时添加文件的类型？

浏览 2提问于2013-02-25得票数 0

回答已采纳

1回答

信息抽取中F-分数差异的可视化

nlp、information-retrieval、ensemble、f1score

我有几个语料库和NLP系统(包括几个合并的这些系统的输出以联合和交叉的形式结合在一起)，我提取了语料库内所有文档中每个语料库的注释跨度集{(开始，结束)}，并将跨度集与每个语料库各自的金本位进行了比较，从而获得了F-分数、精度和回忆的标准度量。我试图定性地评估为什么某些系统不能像F-得分的特定组合那样表现得那么好，所以我认为最简单的方法是生成精确召回或ROC曲线。任务只是一个简单的二进制分类:一个文本的跨度被注释(标记为1)，或者不是(标记为0)。对于系统预测和金本位，我在语料库中的每个文档都有相同长度的numpy向量，所以我计划在生成我的ROC曲线时将这些向量用于y_true和y_pr

浏览 0提问于2020-01-29得票数 4

1回答

gensim lda模型-在具有未见单词的语料库上调用更新

lda、gensim

我正在尝试使用gensim's lda模型。如果我用给定的语料库创建lda模型，然后我想用一个新语料库更新它，这个语料库包含第一个语料库中看不到的单词，我该怎么做？当我尝试只调用lda_model.update(new_corpus)时，我得到了以下错误： /Library/Python/2.7/site-packages/gensim/models/ldamodel.pyc in inference(self, chunk, collect_sstats) 361 Elogthetad = Elogtheta[d, :] 362

浏览 0提问于2014-03-05得票数 4

1回答

受监督的关键短语提取weka或其他工具

weka、supervised-learning

如何使用WEKA在有监督的方法中查找关键词。我必须学习关键短语提取的模型，所以我有一个语料库用于训练(对于每个文档，一个包含关键短语或关键字的对应文件) 此外，我还有一个语料库用于测试受监督的模型(没有关键短语文件的文档)，因此模型应该为每个文档输出关键短语列表。我的问题是如何将文档输入到weka中，是否应该为每个文档添加 @attribute文档字符串 @data "Docu1............“"Docu2............“.."DocuN............“ 现在，如何输入包含每个文档的关键短语的文件，以便从模型中学习？

浏览 0提问于2015-08-05得票数 0

2回答

禁用NSDictionary排序

objective-c、ios、nsdictionary

我创建了一个NSDictionary，我在那里放置了一些对象和键。但问题是，按我所理解的键的第一个字母，键是排序的。例如，我用"G"，"B"，"C“。所以它将它们排序并显示为，"B"，"C"，"G“。我想禁用排序，我怎么能做到这一点。我正在处理更复杂的例子，但我想在我的问题中保持简单的情况。问题：如何在NSDictionary中禁用排序，或者如何亲自对NSDictionary进行排序？提前感谢！

浏览 3提问于2012-07-10得票数 1

回答已采纳

1回答

如何使用自然语言处理来识别逻辑门应用问题的输入和输出？

python、nlp、nltk

目前，我已经确定了给定场景中的实体，并尝试使用邻域分析技术对输入实体和输出实体进行分类。这种方法不太准确，因为提供场景的方式可能会不时改变。举个例子：有一个门，窗口和安全。如果关上门，打开窗户，保险箱就解锁了。要找到这方面的布尔表达式，我们需要考虑安全，门和窗口是entities.Furthermore，保险箱是一个输出实体，另外两个是输入实体。有人能建议我使用python来识别哪些是输入实体，哪些是输出实体的正确逻辑吗？

浏览 0提问于2019-02-05得票数 0

1回答

如何在语料库变化时保持文本分类器的准确性

document-classification、text-classification

我有一个关于文本分类的概念性问题。我有一个英语文档语料库，我想根据文档的内容对其进行分类。我正在构建一个分类器-我还不确定我将使用什么方法:可能是支持向量机，贝叶斯或神经网络。我将拥有一组训练文档，当然还有一个测试集。这是我的问题:文档语料库将随着时间的推移而添加，因此现在构建的分类器可能会随着语料库的变化而变得不那么准确。如何使分类器保持最新且准确？我是否实施定期的再培训？随着语料库的变化，有没有一种持续训练的方法？这种情况是如何处理的？

浏览 6提问于2014-12-22得票数 1

1回答

在NLTK使用英国国家语料库

python-3.x、nlp、nltk

我是NLTK ()和python的新手。我希望使用NLTK python库，但使用BNC作为语料库。我不相信这个语料库是通过NLTK数据下载发布的。是否有方法导入BNC语料库供NLTK使用。如果是这样的话，是怎么做的？我确实找到了一个名为BNCCorpusReader的函数，但不知道如何使用它。此外，在BNC网站上，我可以下载语料库()。更新我已经尝试过error的建议，但是得到了以下错误： raise IOError('No such file or directory: %r' % _path) OSError: No such file or directory:

浏览 6提问于2017-04-19得票数 5

回答已采纳

2回答

如何使用spacy对python中的列表列表进行列举化？

python、spacy

我有一个列表，其中包含需要词条分类的单词。我得到一个错误，说字符串是必需的，而不是列表，因为我使用的是Spacy。如果我转换为字符串，即nlp(str(list_1))，那么列表分隔符(如：、和"[“)将被标记化并包含在我的输出中。我怎样才能将列表中的项列出，并将其恢复为相同的形式，即列表列表？需要词条分类的单词可以在列表中的任何位置。我想要这样的东西：输入： [["flower", "grows", "garden"], [["boy", "running", "playground&

浏览 25提问于2019-04-14得票数 1

1回答

使用NLTK和Python创建自定义分类语料库

python、regex、nlp、nltk

我遇到了一个与Python语言中的正则表达式和CategorizedPlaintextCorpusReader有关的问题。我想创建一个自定义的分类语料库，并在其上训练一个朴素贝叶斯分类器。我的问题如下:我希望有两个类别，"pos“和"neg”。正文件都在一个目录main_dir/pos/*.txt中，负文件在单独的目录main_dir/neg/*.txt中。如何使用CategorizedPlaintextCorpusReader加载和标记pos目录中的所有正面文件，并对负面文件执行相同的操作？注:设置与Movie_reviews语料库(~nltk_data\corpora

浏览 0提问于2012-05-06得票数 10

回答已采纳

4回答

向量空间模型:余弦相似度与欧氏距离

vector、distance、euclidean-distance、trigonometry

我有机密文本的语料库。通过这些，我创造了向量。每个向量对应于一个文档。向量分量是本文档中的字权值，以TFIDF值计算。接下来，我建立了一个模型，其中每个类都是由一个向量表示的。模型中的向量和语料库中的类一样多。模型向量的分量计算为该类中从向量中提取的所有分量值的平均值。对于非分类向量，我通过计算这些向量之间的余弦来确定与模型向量的相似性。问题： ( 1)非分类向量与模型向量之间的欧氏距离能计算出它们之间的相似性吗？ 2)为什么欧氏距离不能作为相似性度量，而不能代替两个向量间夹角的余弦，反之亦然？谢谢!

浏览 0提问于2013-10-16得票数 40

回答已采纳

1回答

使用机器学习、Python、Apache (后端)、AngularJS (前端)的简历推荐系统

machine-learning、python

我对机器学习非常陌生。这是我的大学项目。我想在Python中开发CV推荐系统的web应用程序。我有很多.txt格式的简历。我的问题如下：我可以申请什么类型的学习？(监督/非监督) 我在一个文件夹里有不同的文件。那么是否需要建立一个语料库呢？如果需要建立一个语料库，那么我可以创建一个语料库吗？我对应用程序的流程非常困惑。请任何人建议我如何开始开发web应用程序的步骤？你的帮助将不胜感激。

浏览 0提问于2019-01-31得票数 0

回答已采纳

4回答

pyLDAvis:尝试可视化主题时出现验证错误

python、nlp、lda、topic-modeling

我尝试使用gensim为300000条记录生成主题。在尝试可视化主题时，我得到了一个验证错误。我可以在模型训练后打印主题，但在使用pyLDAvis时失败 # Running and Training LDA model on the document term matrix. ldamodel1 = Lda(doc_term_matrix1, num_topics=10, id2word = dictionary1, passes=50, workers = 4) (ldamodel1.print_topics(num_topics=10, num_words = 10)) #pyLDAv

浏览 173提问于2017-12-28得票数 8

1回答

如果我在NLTK中使用vader，如何提高情感得分？

python、nlp、nltk、sentiment-analysis、text-analysis

我在处理社交媒体数据。对于肯定句，我得到的分数几乎是中性的，代码不是理解语句，而是使用语料库进行分类。有什么办法可以提高这种情绪得分吗?人们建议使用复合分数，但这并没有多大帮助。任何其他工作，以添加我们自己的语料库，并使用它在维德。我的意思是，我不想手动添加单词，是否有任何有预定义情感的社交媒体语料库？对于没有标签的数据，还有任何其他的模型/方法可以使用吗？

浏览 0提问于2018-07-25得票数 1

1回答

使用weka测量我的分类器的质量

machine-learning、weka

我用python编写了自己的分类器，我使用文本语料库来测试它，使用F1度量，但现在我想在其他数据挖掘任务中测试它，所以我有我的分类器输出文件到给定的语料库，我想使用Weka不同的度量来测量质量，我如何才能通过Weka的输出文件并获得质量？

浏览 3提问于2015-05-13得票数 0

1回答

为什么LDA gensim的实现需要语料库和字典？

python、nlp、gensim、lda、topic-modeling

我正在检查gensim LDA实现，它说它需要一个语料库和一个语料库字典？这是什么原因呢？

浏览 36提问于2020-03-08得票数 0

1回答

在Python NLTK中使用自己的语料库进行类别分类

python、nlp、machine-learning、nltk、corpus

我是一个NTLK/Python初学者，并且设法使用CategorizedPlaintextCorpusReader加载了我自己的语料库，但是我如何实际训练和使用这些数据来进行文本分类呢？ >>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader >>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt&#

浏览 1提问于2012-01-11得票数 7

回答已采纳

1回答

如何在NLTK中保存自定义分类语料库

python、nlp、nltk

如何将新的语料库‘保存’到NLTK语料库数据？在我的例子中，当我在NLTK中创建了一个新的自定义分类语料库后，就像这个页面上说的那样：我想使用它就像一个已经安装在NLTK中的语料库(比如movie_reviews)。我该怎么做呢？换句话说，我读到的新语料库(比如movie_reviews_0)怎么能这样命名呢？ >>> import nltk >>> from nltk.corpus import movie_reviews_0

浏览 1提问于2013-03-25得票数 0

回答已采纳

1回答

有没有一种方法可以加快熊猫的功能，从它的索引位置从列表中提取出来？

python、pandas、list、semantics、pandarallel

我正在使用一些机器学习，从 python模块中计算出最常见的K个字符串，给出输入复制和目标语料库(在本例中是100 K和100 K的大小)。该模块相当健壮，比较完成得非常快，返回给我一个字典列表，其中包含格式中每个输入字符串的最类似的比较： {Corpus ID : Similarity_Score} 然后，我可以用用作索引的查询字符串列表将其封装在一个dataframe中。给我一个格式的数据文件： Query_String | Corpus_ID | Similarity_Score 然而，我的方法的主要时间接收器是将语料库ID与语料库中的字符串匹配，因此我知道输入对应的字符串是什么。我目

浏览 6提问于2022-06-25得票数 1

回答已采纳