在使用CountVectorizer对文本数据集进行词干分析后，向量化文本数据集时获取全零 - 腾讯云开发者社区

pandas、scikit-learn、nlp

我想从文本语料库中删除所有非词典的英语单词。我已经删除了停用词，对数据进行了标记化和计数。我只需要提取英文单词，并将它们附加回数据帧。 data['Clean_addr'] = data['Adj_Addr'].apply(lambda x: ' '.join([item.lower() for item in x.split()])) data['Clean_addr']=data['Clean_addr'].apply(lambda x:"".join([item.lower()

浏览 5提问于2017-12-11得票数 2

2回答

在pandas数据帧中插入sklearn CountVectorizer的结果

python、pandas、machine-learning、scikit-learn

我有一堆14784个文本文档，我正在尝试对它们进行矢量化，这样我就可以运行一些分析。我使用sklearn中的CountVectorizer将文档转换为特征向量。我这样做是通过调用： vectorizer = CountVectorizer features = vectorizer.fit_transform(examples) 其中examples是所有文本文档的数组现在，我正在尝试使用其他功能。为此，我将这些特性存储在一个pandas数据帧中。目前，我的pandas数据帧(不插入文本特征)具有形状(14784, 5)。我的特征向量的形状是(14784, 21343)。将矢量化的特征插入

浏览 0提问于2016-11-02得票数 14

2回答

用于Lucene.NET的独立于文化的词干分析器/分析器

internationalization、lucene、nlp、lucene.net

我们目前正在开发一款支持全文搜索的应用程序，Lucene.NET是我们的首选武器。人们期望的是，一个应用程序将被来自不同国家的人使用，因此Lucene.NET必须能够同样好地搜索俄语、英语和其他文本。有没有通用的、独立于文化的词干分析器来满足我们的需求？我理解最终我们将不得不使用特定于文化的方法，但我们希望使用这种潜在的快速和肮脏的方法。

浏览 2提问于2011-03-28得票数 0

回答已采纳

1回答

用WEKA对标记的tweet进行分类

weka、sentiment-analysis

我正在使用情绪分析和Weka来根据预先标记的数据集将tweet分类为3个类中的一个。数据集在表单中有6个属性： count(num), hate_speech(num), offensive_language(num), neither(num), class(num), tweet(string) 其中，类和推特是有趣的属性。class属性是一个数值(0、1或2)，而tweet是包含tweet原始文本的字符串。有人知道怎么做吗？在Weka中使用资源管理器时，可以进行很多配置，我不知道从哪里开始。作为第一步，我想使用朴素贝叶斯或支持向量机对推文进行分类。

浏览 0提问于2018-03-26得票数 0

1回答

使用sklearn预测文本聚类的新内容

python、scikit-learn、text-classification、tf-idf、tfidfvectorizer

我正在尝试理解如何使用sklearn创建文本聚类。我有800个文本(600个训练数据和200个测试数据)，如下所示： Texts # columns name 1 Donald Trump, Donald Trump news, Trump bleach, Trump injected bleach, bleach coronavirus. 2 Thank you Janey.......laughing so much at this........you have saved my sanity in these mad times. Only bleach Trump is u

浏览 17提问于2020-05-12得票数 0

回答已采纳

2回答

朴素贝叶斯作为NLP任务的基线模型

python、nlp、naive-bayes-classifier

我想使用朴素贝叶斯模型作为基线，在分类任务，我正在工作。我发现这个非常有用的教程：https://www.geeksforgeeks.org/applying-multinomial-naive-bayes-to-nlp-problems/和我想把它应用到我的问题中。我的数据集有一个数据格式，包含行、文本和颜色，标签、原始文本、预处理文本等等。我的代码是这个 # cleaning texts import pandas as pd import re import nltk from nltk.corpus import stopwords from nltk.stem.porter im

浏览 0提问于2022-03-03得票数 1

回答已采纳

2回答

即使在训练后量化之后也“模型未量化”

tensorflow、tensorflow-lite、google-coral

我从Custom Vision下载了一个tensorflow模型，并希望在珊瑚tpu上运行它。因此，我将其转换为tensorflow-lite，并应用混合训练后量化(据我所知，这是唯一的方法，因为我无法访问训练数据)。你可以在这里看到代码：当我尝试为边缘tpu编译它时，我得到了以下结果： Edge TPU Compiler version 2.0.258810407 INFO: Initialized TensorFlow Lite runtime. Invalid model: model.tflite Model not quantized 你知道我的问题是

浏览 3提问于2019-08-11得票数 2

2回答

向量化标记化的法语文本

python-3.x、nlp、spacy

我有使用Spacy的Tokenised法语文本，但不能使用TFidfvectoriser矢量化我尝试了这个代码，但它给出了错误 vectorizer.fit_transform(data.spacyd) from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from spacy.tokenizer import Tokenizer vectorizer=CountVectorizer() “spacy.tokens.doc.Doc”对象没有属性“lower”

浏览 17提问于2019-07-28得票数 1

1回答

使用大量停用词加快文本清理速度

python、nltk

我有一个文本数据的数据库，并创建了一个小计数器来从整个数据库中获取单词计数。最常见的单词是常见的疑点('is'，'and‘等)最不常见的是各种各样的表情符号、美元价值、打字错误等等。我想从文本中删除单词，这样我就可以向量化那些不是最常见或最不常见的值。但是，非常不常见/异常的单词列表大约有60万个条目： stopwords = [] for key, value in ctr.items(): #ctr is a Counter() object of words in the entire corpus of text and their counts

浏览 0提问于2017-07-11得票数 1

1回答

茎器和狐猴似乎都不起作用，我该怎么办呢？

python、wordnet、stemming、lemmatization、countvectorizer

我是新的文本分析，并试图创建一个袋子的词模型(使用sklearn的CountVectorizer方法)。我有一个数据框架，里面有一列文字，上面写着“酸性”、“酸性”、“酸度”、“木头”、“伍德”、“伍迪”等词。我认为“酸”和“木”应该是最后输出中唯一包含的词，但无论是词干还是引申似乎都不能实现这一点。堵塞产生“酸”、“木”和“柠檬”，使“酸”、“木本”产生更差的输出。我认为这是因为词性部分没有被准确地指定，虽然我不确定这个规范应该去哪里。我已经将它包含在X = vectorizer.fit_transform(df['text'],'a')一行中(我认为大多

浏览 4提问于2022-05-16得票数 3

回答已采纳

1回答

如何将额外的训练数据集成到朴素贝叶斯中？

python、text、scikit-learn、classification、naivebayes

我用朴素贝叶斯库(Python)做了一个关于网页分类的例子，效果很好(很好地对网页进行了分类)。实际上我有两个问题。首先，我只使用网页的内容(文章方)。这是没有问题的，但是，我想要具有双重加权效果的综合标题输出。我可以检索变量列表名为titles[]的页面的标题。这是我的classfy代码： x_train = vectorizer.fit_transform(temizdata) classifer.fit(x_train, y_train) 我可以将标题添加到文章文本，但这次文章文本和标题具有相同的权重。在代码中，temizdata是我的列表，它保存网页的文章文本。而y_train

浏览 1提问于2016-01-11得票数 2

1回答

基于监督学习的情感分类

python、machine-learning、scikit-learn、sentiment-analysis、text-classification

我正在使用python的scikit-learn对来自Livejournal的博客进行情感分类。我有大约40000个帖子，我使用其中的4/5作为训练集，其余的作为测试集。有6种情绪：['joy','sadness','anger','surprise','love','fear'] 我体验过几种分类器(包括naive bayes，svm，sgd..)但问题是预测是非常非常不准确的。实际上，这几乎是微不足道的，因为测试集中几乎每个博客都被预测为“快乐”，这是训练集中最常见的情绪(45%)。特征集基

浏览 1提问于2015-10-18得票数 1

1回答

从大型语料库创建DTM

python、pandas、scikit-learn、nltk

我有一组包含在列表中的文本，这些文本是从csv文件中加载的。 texts=['this is text1', 'this would be text2', 'here we have text3'] 我想用词干词来创建一个文档术语矩阵。我还认为它们有： [['text1'], ['would', 'text2'], ['text3']] 我想要做的是创建一个DTM，对所有的词干项进行计数(然后我需要对行执行一些操作)。对于没有词干的文本，我可以通过使用fn_tdm_df repor

浏览 4提问于2016-10-08得票数 2

1回答

查找印尼语词干分析器

apache、lucene、lexical-analysis

我在一个Java应用程序中处理一些印度尼西亚文本，并且我需要阻止它们。目前我使用的是lucene印尼词干分析器。org.apache.lucene.analysis.id.IndonesianAnalyzer；但结果并不令人满意。有人能给我推荐不同的词干吗？

浏览 4提问于2013-07-30得票数 0

2回答

如果培训源是分类文件夹中的txt文件，如何使用文本分类？

machine-learning、python、text-classification

对于每个文件夹，我有200个*.txt唯一文件： 📷 每一个文件都是一个诉讼的初始文本，由法律领域(文件夹)进行公共宣传。我想要建立培训数据，以预测新的法律领域的诉讼。去年，我尝试使用PHP，但是它消耗了太多的内存，所以我想迁移到Python。我启动了代码，将每个文本文件加载到一个json-alike结构中，但我不知道接下来的步骤： import pandas as pd from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from sklearn.base import Transfor

浏览 0提问于2020-02-01得票数 2

2回答

Solr -通配符搜索因词干处理方法而异

solr、wildcard、stemming

我有两个版本的solr在我的机器上工作。比如SolrVer1和SolrVer2 SolrVer1已经在字段类型text_en_splitting上应用了以下词干分析方法 <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt" ignoreCase="true"/> <filter class="solr.PorterStemFilterFactory" ignoreCase="true"/> Sol

浏览 1提问于2012-08-23得票数 0

回答已采纳

1回答

Spring数据+ Mongo案例-非敏感文本搜索

java、mongodb、spring-data、spring-data-mongodb

我正在尝试使用spring数据仓库在mongodb中的几个字段上实现不区分大小写的文本搜索。我找到了两个解决方案，每一个都有一些缺点：使用regex： @Query("{'status'：'ACTIVE'，$or：{‘$regex’‘：{$regex：?0，$options：'i'}}，{'location.text'：{$regex：?0，$options：’i‘}}“)页面findAllActiveBySearchString(字符串搜索，可分页)；这样的查询在字符串"/“、"*”上失败

浏览 0提问于2015-10-26得票数 0

1回答

如何在Java中为Lucene snowball编写代码

java、lucene、snowball

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_29); IndexSearcher indexSearcher; File file = new File("/sdcard/index/"); Directory indexDir = FSDirectory.open(file); indexSearcher = new IndexSearcher(indexDir, true); QueryParser parser = new QueryParser(Version.LUCENE_29, "DIG&#

浏览 4提问于2011-12-15得票数 2

回答已采纳

5回答

在ElasticSearch中使用多词干语言

lucene、elasticsearch、stemming、snowball

我正在为一个网站建立一个搜索引擎，在那里用户可以来自许多不同的国家和张贴文本内容。我会考虑：-一个法国人产生法语和英语的内容-一个德国人产生德语和英语的内容，等等… 我想知道的是，是否有可能在同一时间内使用不同的雪球词干语言进行搜索，以便我们在相同的时间内得到适当的结果。我们必须为每个snowball词干语言创建一个索引吗？这种情况有没有一种已知的模式？谢谢

浏览 5提问于2012-06-15得票数 5

回答已采纳

1回答

ValuError在单簧管imblearn.over_sampling中的计数

python、scikit-learn、naivebayes

由于数据集不平衡，我一直试图对其进行过采样。我正在进行二进制文本分类，并希望在我的两个类之间保持1的比率。我正在尝试用击打装置来解决这个问题。我遵循了本教程：然而，我遇到一个错误，它说： ValueError:无法将字符串转换为浮动这是我的代码： import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from skle

浏览 1提问于2017-11-13得票数 3

回答已采纳

1回答

sklearn输出一个带空行的矩阵

python、numpy、scikit-learn

我使用CountVectorizer为每个文档生成向量。在我的例子中，文档是一个由1-5个单词组成的简短文本. for i, doc in enumerate(documents): if doc: # make sure there is no empty document. corpus.append(doc) countVectorizer = CountVectorizer() weight_arr = countVectorizer.fit_transform(corpus) for doc_index, count_vector in enumerate

浏览 0提问于2015-08-03得票数 2

回答已采纳

2回答

需要帮助提高分类广告张贴的分类准确性

machine-learning、classification、nltk

我必须使用所提供的数据来预测广告发布的类别；对于我的模型，我不能获得超过74%的准确性。我不知道我错过了什么。我到目前为止所做的事：使用re&nltk清理文本。旧茎器 CountVectorizer &Tfidf转换器二手MultinomialNB、LinearSVC和RandomForestClassifier 以下是我的代码： import json import pandas as pd from sklearn.pipeline import Pipeline from sklearn.ensemble import RandomForestClassifier

浏览 0提问于2021-09-30得票数 1

4回答

纯统计，还是自然语言处理引擎？

nlp、text-mining、opennlp、statistics

哪些统计引擎可以产生比OpenNLP工具套件更好的结果？我正在寻找的是一个引擎，从文本中挑选关键字，并提供对这些动词和名词的词干，也许自然语言处理不是这里的方式。引擎还应该与不同的语言一起工作。

浏览 0提问于2011-07-09得票数 2

回答已采纳

2回答

在sklearn中实现从CountVectorizer到TfidfTransformer的过渡

python、scikit-learn、vectorization、tf-idf

我在sklearn中处理大量的文本数据。首先，我需要向量化文本上下文(字数统计)，然后执行TfidfTransformer。我有以下代码，它似乎没有将CountVectorizer的输出转换为TfidfTransformer的输入。 TEXT = [data[i].values()[3] for i in range(len(data))] from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer vecto

浏览 2提问于2016-07-31得票数 5

1回答

文本分类+ NLP +数据挖掘+数据科学:在应用tf-idf之前，我应该停止单词删除和词干提取吗？

nlp、data-mining、data-science、text-classification、tf-idf

我正在研究一个文本分类问题。这个问题的解释如下：我有一个事件数据集，其中包含三列-事件的名称、事件的描述、事件的类别。数据集中大约有32个类别，例如，旅游，体育，教育，商业等。我必须根据每个事件的名称和描述将每个事件分类为一个类别。我所理解的是，这种特殊的分类任务高度依赖于关键字，而不是语义。我给你举两个例子：如果“足球”一词出现在名称或描述中，或者同时出现在两者中，则该事件很可能是关于体育的。如果在名称或描述中或两者中都发现了“徒步旅行”一词，则该事件很可能是关于旅行的。我们没有考虑一个事件的多个类别(然而，这是一个未来的计划！) 我希望在多项式朴素贝叶斯之前应用tf-idf能为这

浏览 0提问于2018-10-04得票数 1

1回答

NLP -字袋分类

python、machine-learning、nlp

问题：我很困惑，为什么我们转换我们的测试数据使用CountVectorizer安装在我们的火车数据，以袋词分类。为什么我们不创建一个新的CountVectorizer，并将测试数据与此相匹配，并让分类器在测试CountVectorizer上进行预测？看这里：撕开了答案： LabeledWords=pd.DataFrame(columns=['word','label']) LabeledWords.append({'word':'Church','label':'Religion'} )

浏览 2提问于2018-05-28得票数 0

回答已采纳

2回答

索引词干以处理C#或拼音格式的文本

c#、ruby、indexing、stemming

给定此文本： “朋友是更友好的朋友，它们是友好的，并将其归类为友好分类。鲜花跟随花朵流动而流动。” 我需要对文本应用词干分析，以实现以下结果： frequency("following") = 1 frequency("flow") = 2 frequency("classification") = 1 frequency("class") = 1 frequency("flower")

浏览 0提问于2010-10-30得票数 0

回答已采纳

1回答

我是否可以同时在测试和训练数据中使用CountVectorizer，还是需要将其拆分？

machine-learning、scikit-learn、text-classification、word-count

我目前有一个支持向量机模型，它将文本分类为两个不同的类。我目前正在使用CountVectorizer和TfidfTransformer来创建我的"word向量“。问题是，当我先对所有的文本进行转换，然后再把它分开的时候，我想我可能会按错误的顺序去做。我的问题是，如果我先做train_test_split，然后只对火车数据做fit_transform，然后对测试数据进行转换，会有什么区别吗？正确的方法是什么？大大感谢提前，快乐的编码！ count_vect = CountVectorizer(stop_words='english') X_counts = cou

浏览 0提问于2019-02-02得票数 2

回答已采纳

1回答

动态范围量化和全整数量化在TensorFlow中是如何优化的？

tensorflow-lite、quantization

我目前正在使用TensorFlow Lite，我试图理解 (DRQ)和 (FIQ)的区别。据我所知，在第一种情况下，只有权重被量化，而在第二种情况下，权重和激活(输出)都被量化。然而，我不确定我完全明白这意味着什么。关于权值的量化，是简单地从float32转换到int8，还是进行另一种操作？同样，为什么需要一个有代表性的数据集来量化FIQ中的激活？另外，我想知道，例如，一层神经网络是否有乙状结肠激活，这意味着在FIQ中，这一层的所有输出都将被“映射”到0或1(而不是在中间取任何其他可能的值)？最后，在中，您可以读到这句话：“在推理时，权重从8位精度转换为浮点，并使用浮点核进行计算”。如果

浏览 2提问于2021-02-08得票数 0

3回答

在使用Spacy，Bert时，是否有必要对文本分类进行停用词删除、词干提取/词汇化？

nlp、spacy、text-classification、bert-language-model

当使用Spacy，Bert或其他高级NLP模型来获得文本的向量嵌入时，文本分类是否有必要进行停用词删除、词干提取和词汇化？ Text=“婚礼上供应的食物非常美味” 1.由于Spacy，Bert是在巨大的原始数据集上训练的，在使用bert/spacy生成用于文本分类任务的嵌入之前，在这些文本上应用停用词删除、词干提取和词汇化是否有任何好处？ 2.我可以理解，当我们使用countvectorizer，tfidf向量器来实现句子的嵌入时，去掉停用词，词干提取和词汇化会很好。

浏览 4提问于2020-08-28得票数 7

1回答

半监督SelfTrainingClassifier分类:调用fit()后不进行训练

machine-learning、classification、multiclass-classification、semi-supervised-learning

我正在实践半监督学习，目前正在用sklearn.semi_supervised.SelfTrainingClassifier进行实验.我发现了一个多类分类数据集(tweet情感分类为5个情感类别)，并随机删除了90%的目标。由于它是文本数据，因此需要进行预处理:我应用了CountVectorizer()并使用向量器和自训练分类器实例创建了一个sklearn.pipeline.Pipeline。对于自训练分类器的基估计器，我使用了RandomForestClassifier。我的问题是，当运行下面的脚本时，不会发生任何培训。参数verbose设置为True，因此如果发生任何迭代，我将看到它

浏览 0提问于2022-01-05得票数 0

回答已采纳

2回答

在sklearn中持久化数据

python、machine-learning、data-mining、scikit-learn

我正在使用scikit-learn对文本文档进行聚类。我使用CountVectorizer、TfidfTransformer和MiniBatchKMeans类来帮助我做到这一点。新的文本文档一直被添加到系统中，这意味着我需要使用上面的类来转换文本并预测聚类。我的问题是:我应该如何在磁盘上存储数据？我是否应该简单地处理向量化器、转换器和kmeans对象？我应该只保存数据吗？如果是这样，我如何将其添加回向量器、transformer和kmeans对象？任何帮助都将不胜感激

浏览 2提问于2012-06-21得票数 5

回答已采纳

1回答

Stemmer在NLP中的单词

python、stemming

谁能告诉我哪个词干是最好的。另外，我有一个文本，我只想将列表中的单词干掉，而让其余的标记保持原样。下面是我的代码。文本: swot del swot analys 2013年优势弱品牌价值7美元。‘，'5亿产品客户环境记录合并和收购直销繁忙模型commod ( comput hardw )产品差客户服务器低投资研发弱pat投资组合太少零售锁定低差异化机会威胁扩展服务器和企业解决方案忙于通过收购增强其在紧急市场平板电脑市场的地位增长对智能手机和平板电脑利润率的需求增长对硬件产品的需求缓慢增长笔记本电脑市场的缓慢增长速度笔记本电脑市场竞争激烈的品牌优势。’，‘“在合并和收购中竞争。”，“

浏览 0提问于2014-07-25得票数 0

2回答

面向大数据集的多标签分类

python、machine-learning、nlp、classification、scikit-learn

我正在解决一个多标签分类问题。我有大约600万行要处理，这些行是巨大的文本块。它们在单独的列中使用多个标记进行标记。任何关于哪些scikit库可以帮助我扩展代码的建议。我在其中使用了One-vs-Rest和SVM。但是它们不能扩展到超过90-100k行。 classifier = Pipeline([ ('vectorizer', CountVectorizer(min_df=1)), ('tfidf', TfidfTransformer()), ('clf', OneVsRestClassifier(LinearSVC()))])

浏览 3提问于2013-11-29得票数 6

1回答

Oracle Text中的西班牙语词干分析

oracle、oracle-text、stem

我正在尝试创建一个Oracle文本索引，以便在数据库中的一些西班牙语文本列上进行FTS查询。根据Oracle文档，我需要创建一个词法分析器和词表来启用词干和模糊查询： exec ctxsys.ctx_ddl.create_preference ('cust_lexer','BASIC_LEXER'); exec ctxsys.ctx_ddl.set_attribute ('cust_lexer','base_letter','YES'); exec ctxsys.ctx_ddl.set_attribute (

浏览 25提问于2017-07-15得票数 1

回答已采纳

3回答

Lucene.NET PorterStemFilter源代码示例，它适合我吗？

c#、lucene.net、stemming

首先，我必须说，我们使用的Lucene.NET版本不是最新的，因为它与Sitecore 6.4.1打包在一起，到目前为止，我们还没有深入研究分析器和词干分析的使用(大错误！)。基本上，我们正在尝试实现某种形式的词干提取，要么是在索引期，要么是在查询期(正在寻找关于哪个是最好的建议？)。我们的主要问题是，所有关于词干分析的文档都是用Java语言编写的，我真的很难把它带到C#上来。我希望有人能提供这方面的资源示例或链接。由于我们的Lucene.NET版本非常旧，我认为使用雪球分析器是不可能的(甚至在我们的版本中都不可用)，因此我们考虑使用PorterStemFilter。有没有人能给我一些帮

浏览 1提问于2012-06-15得票数 1

回答已采纳

1回答

用R包“情感”分析情感的错误

r、sentiment-analysis

我正在用R包“感情”进行情感分析 neg_words =扫描(“C:/Users/kothasan/Desktop/感情分析/否定.words.txt”，what=‘字符’，注释.what=‘；’) pos_words =扫描(“C:/Users/kothasan/Desktop/感情分析/pos.words.txt”，什么=‘字符’，注释.what=‘；’) score.sentiment =函数(句子，pos.words，neg.words，. .progress='none') { require(plyr); require(stringr); scores = lap

浏览 2提问于2017-06-05得票数 1

2回答

我可以从一个量化的Tensoflow模型中期待什么结果？

python、tensorflow、tpu

我有一个非常简单的Tensorflow模型，它根据6个传感器的输入(输入范围从0.0到1.0)输出3个值(左，直，右) inputSensor = Input(shape=(3)) modelSensor = Dense(32, activation="relu")(inputSensor) modelSensor = Dense(32, activation="relu")(modelSensor) modelSensor = Dense(numClasses, activation="softmax")(modelSensor) model

浏览 17提问于2019-08-31得票数 1

1回答

在solr中从有词干字段转换为无词干字段

solr、lucene

我正在使用SOLR (3.x)，需要将字段从有词干的版本转换为无词干的版本。有没有一个词干筛选器，既可以索引精确的文本，也可以索引词干文本(这样我就可以在短期内对两者进行匹配)，或者我是否被强制复制到新字段，然后转换到新字段。

浏览 1提问于2013-10-24得票数 1

1回答

关键词提取:复数/单数/过去式/-ing格式的同一个词

python、nlp、nltk

当从文本中提取关键字时，我意识到我会以不同的格式返回大部分相同的单词。是否有办法使同一个单词只出现一次？示例：更新，研究，研究人员，研究人员，文件归档代码: Summa (TextRank)包在这里使用： k_words = keywords.keywords((str(document)), words=10, ratio=0.2, language='english')

浏览 1提问于2019-08-12得票数 2

回答已采纳

1回答

Liblinear如何使用它

ruby、machine-learning、classification、text-mining

总的来说，我在机器学习和文本挖掘方面还是个新手。这引起了我的注意，一个叫Liblinear 的ruby库出现了。到目前为止，我想要做的是训练软件来识别文本是否提到任何与自行车有关的内容。有人可以强调我应该遵循的步骤(即:预处理文本和如何)，分享资源，并理想地分享一个简单的例子，让我继续下去。任何帮助都可以，谢谢！

浏览 0提问于2011-05-25得票数 4

回答已采纳

1回答

怎样才能让Stardog在搜索中使用词干呢？

lucene、sparql、stardog

我使用Stardog作为语义图数据库。例如，我的数据库包含"apple“，但不包含”apple“，所以如果我查询”apple“，它将找不到任何东西。解决这个问题的一种可能的方法是将所有标签的词干版本添加到数据库中，但效率很低。既然Stardog使用SPARQL查询语言和Lucene，我怎么能要求Stardog在搜索中使用词干呢？

浏览 7提问于2015-05-05得票数 0

1回答

在R中使用dplyr进行情感分析后缺少行

r、dplyr

在使用this post中描述的dplyr在R中执行情感分析时，我的一些行似乎丢失了。我提供了一组6个荷兰语句子。可以看出，行3和6不会出现在包括情感分析的新df中。我尝试将"drop"更改为"keep"、"drop"和"NULL"。我还尝试在df %>%解决方案之后对某些部分进行标签处理，但都没有结果。有没有人能给我解释一下这种行为？我怎么才能修复它呢？ library(tidyverse) library(xml2) library(tidytext) #Example data set text = c(

浏览 11提问于2020-10-06得票数 0

回答已采纳

1回答

Postgresql中的全文搜索

postgresql、full-text-search、fuzzy-search

我正在寻找在postgresql中实现全文搜索方法的教程。我试过几个例子，但没有人表演。我尝试了索引GIN、GIST和几种研究方法，但搜索时间太长。我有一个数据库，里面有超过400万条包含艺术家名字的记录。我需要开发一种包含fuzzystrseach算法的搜索方法。

浏览 3提问于2013-03-20得票数 1

1回答

在文本分析的情况下，当我应用fit()方法时，到底发生了什么？那么transform()对文本数据做了什么呢？

python、machine-learning、nlp、data-science、sentiment-analysis

在文本分析的情况下，当我应用fit()方法时，到底发生了什么？那么transform()对数据做了什么呢？对于numerical数据类型，我可以理解它，但对于文本数据，我无法将其可视化。我有一个文本数组 sents_processed[0:5] ['so there is no way for me plug in here in us unless go by converter', 'good case excellent value', 'great for jawbone', 'tied charger for con

浏览 9提问于2020-07-02得票数 0

回答已采纳

1回答

文本分类-如何将多个字符串特征转换成机器学习模型？

python、machine-learning、text-classification

在我的数据集中有三个输入列(制造商，短文本，供应商)，我希望从其中创建一个矢量化特征列表。然后我希望能把同样的东西融入机器学习模型。最后一列(类别)是标签。数据集中有200万行。我无法同时向量化所有三列。数据样本 train_X, test_X, train_Y, test_Y = model_selection.train_test_split(df[["Manufacturer", "short text", "supplier"], df['category'],test_size=0.15, random_st

浏览 5提问于2020-03-20得票数 2

2回答

我怎样才能自动使我的模型适合于文本分类？

machine-learning、classification、logistic-regression

我想展示一个模型的例子，该模型过度拟合了测试集，并且不能很好地对未来的数据进行泛化。我将新闻数据集分成3组： train set length: 11314 test set length: 5500 future set length: 2031 我正在使用一个文本数据集并构建一个CountVectorizer。我正在创建一个网格搜索(没有交叉验证)，每个循环都会测试向量化器上的一些参数('min_df'，'max_df')和我的模型LogisticRegression上的一些参数('C'，'fit_intercept'，&#

浏览 0提问于2018-03-14得票数 1

1回答

如何从词干词干中排除某些名称和术语(Python (Porter2))

python、nlp、nltk、stemming、lemmatization

我刚开始学习NLP，Python，同时在Stackoverflow上发帖子，所以如果我看起来很无知，请耐心等待我:)。我在Python中使用SnowballStemmer来阻止用于文本分析的单词。虽然狐猴化似乎低于我的令牌，雪球porter2干涉仪，我读过的大多是首选的基本搬运工茎，上我的令牌。我正在分析推文，包括许多名字，可能还有一些地方和其他不应该被阻止的词，比如:希拉里、汉尼蒂、总统，现在他们被降为希拉里、哈尼提和普雷希德(你可能已经猜到了我在分析谁的推特)。是否有一种简单的方法来排除某些术语的产生？反过来说，我也可以只对记号进行符号化，并为-ed、-s、…这样的公共后缀添加一个规则

浏览 0提问于2019-12-10得票数 2

回答已采纳

1回答

solr无法使用精确值进行搜索

apache、configuration、solr、lucene、indexing

我正在使用Solr 4.1.0，我面临着一个奇怪的问题。如果我给出一个值来搜索一个字段，即使它是精确的或涉及到通配符，它也会给出0个搜索结果。另一方面，如果我只给出字段名和一个*来代替值，我就会得到所有的结果。此外，如果我在文本字段中搜索，即我复制了所有字段的值，它会给出正确的输出。默认情况下，text是所有字段的“我的全部”。feature是一个值为Butter的字段。所以现在，这里发生的事情是，如果我试图在实际字段中查找精确的值，或者甚至以字母表和*开头，它不会给我一个值，而如果我在文本字段中搜索，这是一个捕获所有字段，我能够检索到值。尽管如果我尝试使用*在feature字段中查找，它

浏览 0提问于2013-05-21得票数 0

4回答

CountVectorizer不适用于用Python训练数据。

python、scikit-learn

我在用scikit学习文本进行分类。我用过CountVectorizer。我认为CountVectorizer应该只用于训练数据，而不是所有的数据(特性)。我已经在所有数据(特性)上使用了它，并且代码工作正常，但是当我只在培训中使用它时，它显示了以下错误： TypeError:传递稀疏矩阵，但需要密集数据。使用X.toarray()将其转换为密集的numpy数组。这是我的代码(代码非常简单，例如，它只是)： import pandas as pd from sklearn.model_selection import train_test_split from sklearn.f

浏览 1提问于2019-07-22得票数 0