语料分析_语料分析python_基于syuzhet tm语料库的R情感分析 - 腾讯云开发者社区

、、

我正在使用TreeTagger获取西班牙语单词的词条，但我观察到有太多的单词没有像应该的那样进行转换。我想知道这个操作是如何工作的，如果它是通过决策树或机器学习算法等技术完成的，或者它只是包含一个单词列表及其相应的词条。有人知道吗？谢谢！！

浏览 4提问于2018-06-05得票数 1

2回答

统计给定语料库中的引理个数

、、

我是自然语言处理方面的新手。目前，我正在一个语料库上工作，并试图使用add-one平滑来实现二元模型。根据加一平滑方法这里V是语料库的词汇表，即语料库中单词类型的总数。但在统计单词类型时，我将同一词干中的单词视为单个单词。也就是说，猫和猫在计数时是一样的。我想知道是否有任何方法或算法可以帮助我在语料库中找到引理。

浏览 1提问于2015-02-19得票数 0

2回答

用于训练文本分类器的德语数据集

我正在寻找一个德语的带注释的数据集，类似于著名的英语IMDB电影评论数据集()。背景是，我想将德语文本分为多个类别(从积极情绪/负面/中性开始)。我还没有找到用情感分析预先训练过的德语单词嵌入，也没有找到合适的数据集来训练我自己的单词嵌入。如有任何建议，我们将不胜感激！

浏览 0提问于2019-04-03得票数 2

1回答

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

、、

Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行)，它们处理格式奇怪的txt文件:语料库中的每个文档都必须以*开头，然后每个语料库变量都必须编码为*variablename_value (遵守一些格式规则)，并且要分析的文本必须在新行上。例如： **** year_2021 country_france Bonjour, je m appelle Dario **** year_2021 country_germany Guten Tag, ich heisse Dario 如何将文本和语料库变量作为列的数据帧转换为这种格式？

浏览 0提问于2021-11-28得票数 0

1回答

谷歌是如何获得互联网前几年的“随时间使用”数据的？

、

最近我正在读一本书，我发现有很多词我很少看到。当我搜索他们的意思时，我发现对于一个单一的词汇，谷歌有一个use over time for:统计数据--从1800年到2010年。我可以想象谷歌是如何收集互联网上使用的词汇的频率的。但是在互联网之前呢？他们如何知道1800年人们使用词汇的频率？他们是否首先将图表材料转换成数字数据，然后计算结果或其他什么？

浏览 0提问于2018-06-06得票数 0

回答已采纳

2回答

机密情感数据的来源？

、、、、

我希望用一些以前从未使用过的新数据源来训练一个朴素的Bayes。我已经看过IMDB评论的Lee & Pang语料库和MPQA意见语料库了。我正在寻找符合以下标准的新web服务。容易分类-必须有相似的/不喜欢或5星级的评级随时可得涉及新材料(不像前两种材料那么重要) 这是我自己拿出来的一些样品。 Etsy API 烂番茄API Yelp API 如有任何其他建议，我们将不胜感激

浏览 6提问于2012-02-15得票数 1

2回答

如何构建新的标记集

、、

我有一个语料库的语言，以前没有POS注解，也就是说，它没有现有的标签集。除了使用像记事本这样的文字处理器手动标记外，是否有任何自动方法来开始标记像我的语料库这样的新的无标记集？谢谢。

浏览 1提问于2013-08-14得票数 0

回答已采纳

1回答

如何在我自己的语料库上训练ngram模型

、、、、

我有一个字符串列表： corpus = ["Hello I am Sam", "This is a white desk","I ate cereals", ...] 我想在这个语料库上建立一个语言模型(最好是使用nltk)，以得到一个句子中单词的概率。所以，我以后的用法是 P(“Sam”=“我是”) 在这个语料库里。我找不到-最好的方法是什么？如何训练一个ngram模型，然后再得到这样的概率？谢谢!

浏览 1提问于2018-11-28得票数 0

1回答

构建自己的文本语料库

、

这听起来可能很愚蠢，但你知道如何构建文本语料库吗？我到处都找过了，而且已经有了语料库，但是我想知道他们是怎么建立的？例如，如果我想用积极和消极的推文建立语料库，那么我必须只制作两个文件？但是那些文件的内部呢？( ，他在RedisDB中存储pos和neg tweet))

浏览 1提问于2012-07-04得票数 4

1回答

使用NLTK创建一个新的语料库，它忽略输入文件中的某些字符串，并且不将它们输入到语料库中。

、、

我试着用一组文本文件创建我自己的语料库。但是，我想在文本文件被语料库化之前对它们做一些预处理，我想不出如何做到这一点，除非创建一个脚本，先运行每个文本文件，然后进行文本预处理，保存一个新的文本文件，然后在新的、后处理的文件上创建语料库。(这现在看来效率很低，因为我有大约200 mb的文件，我需要读两遍，而且如果我有一个更大的语料库，就不能真正地扩展。) 我想做的预处理是非常基本的文本操作：使语料库中列出的每一个单词小写移除括号内的任何物品，例如咳嗽。删除每行开头的数字(它们是原稿中的行号)，这是每一行的前四个字符关键的是，我想在单词进入语料库之前做这个预处理--我不

浏览 0提问于2018-05-09得票数 0

2回答

如何培训ibm watson personality api？

使用api来分析twitter流，我得到了几乎每个人都非常相似的开放结果。如何训练语料库以生成不同的输出

浏览 0提问于2016-03-05得票数 1

1回答

使用R将复数转换为单数

、

如何使用R从语料库将复数文本转换为单数文本我正在尝试使用"tm“包，但我无法找到任何函数。我已经尝试了这个函数，但我不能应用于语料库。 aggregate.plurals <- function (v) { aggro_fen <- function(v, singular, plural) { if (! is.na(v[plural])) { v[singular] <- v[singular] + v[plural] v <- v[-which(names(v) == plural)] } return

浏览 3提问于2018-05-04得票数 3

1回答

在大型语料库中使用Lucene/Lingpipe中的术语文档频率

、、

我正在尝试分析一个庞大的文档语料库，这些文档位于一个巨大的文件中(3.5 in，300K行，300K文档)，每行一个文档。在这个过程中，我使用Lucene进行索引，使用Lingpipe进行预处理。问题是我想去掉文档中非常少见的单词。例如，如果一个单词在语料库(巨大的文件)中出现的次数少于MinDF次，我希望将其删除。我可以尝试使用Lucene:计算所有不同术语的文档频率，按升序对它们进行排序，获取DF低于MinDF的术语，再次遍历这个巨大的文件，每行删除这些术语。这个过程将会非常缓慢。有没有人知道使用Java可以更快地做到这一点？问候

浏览 1提问于2012-04-27得票数 0

回答已采纳

1回答

R中的文本挖掘搭配包

、

嗨，R中有一个包可以帮助查找与python pakage.Like中的搭配相似的词的同现，给出一个语料库列表中所有的同现词对。

浏览 4提问于2015-04-26得票数 0

1回答

有哪些工具可用于为ML编写语言解析？

、

我想在编程语言源代码(例如Python)的语料库上预先形成一个机器学习任务(例如，监督分类、聚类)，我正在寻找工具，用于从Python (例如)代码文档中解析和构造结构，在概念上类似于NLP标记化和高级语言处理，并根据编程语言进行调整。虽然我能够找到很多与NLP相关的通用材料，但在我看来，一个更好的起点是以前专门针对编程语言的研究。我正在寻找工具，资源，学术文章和关键字来搜索，基本上任何帮助都是值得赞赏的！

浏览 0提问于2017-01-29得票数 3

2回答

用r-tm读取与r-mallet一起使用的文档

、、

我有下面的代码来将主题模型与相匹配 docs <- mallet.import(DF$document, DF$text, stop_words) mallet_model <- MalletLDA(num.topics = 4) mallet_model$loadDocuments(docs) mallet_model$train(100) 我使用包读取我的文档，这些文档是目录中的txt文件： myCorpus <- Corpus(DirSource("data")) # a directory of txt files 语料库不能用作mallet.imp

浏览 6提问于2017-04-22得票数 1

回答已采纳

1回答

如何在使用Mallet进行主题建模时执行词干分析

、、、

我想在InputDirectory中为锤子模型保存为单独文件的语料库上应用使用porter算法的词干分析。有没有人能帮我解决这个问题呢？

浏览 2提问于2016-05-11得票数 1

1回答

试图利用一个库进行一些主题建模，但并不顺利

、、、

我有一个.csv术语文档矩阵，我想在python中使用gensim执行一些潜在的dirichlet分配。但是，我对Python或LDA并不特别熟悉。我在gensim...forum上发帖了？我不知道这叫什么。写包裹的那个人回答说：你的术语文件CSV矩阵有多大？如果它足够小=适合RAM，您可以： 1)使用numpy.loadtxt()将CSV加载到内存中的矩阵中 2)用gensim.matutils.Dense2Corpus()将矩阵转换为语料库。看看它的documents_columns标志，它可以让您轻松地在文档术语和术语文档转换之间切换. 3)利用该语料库对LDA模型进行训练。因

浏览 2提问于2020-03-11得票数 0

回答已采纳

1回答

波兰搜索狮身人面像？

、、、、

我想为一个用Django编写的网站实现一个搜索解决方案。从可用的选项(我已经研究过Solr、Sphinx、Xapian、PostgreSQL/Tsearch3、MySQL)中，Sphinx看起来是最好的。然而，它不支持波兰语的词干，这是我想要使其可搜索的数据语言。在Sphinx中处理不支持的语言的最佳方法是什么？我有一种直觉，我可以从拼写字典中创建一个词干语料库。我怎样才能在Sphinx上工作呢？

浏览 0提问于2011-02-04得票数 5

2回答

我应该在nltk中使用哪个词干分析器？

、

我的目标是分析一些语料库(目前是twitter)，以获取情感内容。就在今天，我意识到搜索词干比有一个详尽的情感词干列表更有意义。因此，我一直在探索nltk.stem，结果发现有4种不同的词干分析器。我想问一下stackoverflow语言学家，LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer或WordNetStemmer哪一个更好？

浏览 0提问于2009-08-12得票数 9

回答已采纳

3回答

潜在语义分析概念

、、、、

我读过用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA)的文章。我知道如何做到这一点，我也理解SVD的数学概念。但我不明白为什么它适用于文本的语料库(我相信--必须有语言解释)。有人能用语言学的观点来解释我吗？谢谢

浏览 0提问于2011-08-14得票数 13

回答已采纳

2回答

用于情感分析的短语语料库

、、

你好，我正试图用python编写一个情感分析应用程序(使用朴素-贝叶斯分类器)，目的是将新闻中的短语归类为积极或消极。我很难找到合适的语料库。我试过使用"General“()，它可以正常工作，但我有一个大问题。由于这是一个单词列表，而不是短语列表，所以我在试图给以下句子贴上标签时注意到了以下问题：他是不会赢的。这句话被归类为肯定句，这是错误的。原因是“赢”是积极的，但“不”没有任何意义，因为“不赢”是一个短语。有人能为这个问题建议一个语料库或工作吗？你的帮助和洞察力是非常有用的。

浏览 0提问于2012-05-28得票数 5

回答已采纳

1回答

在TextBlob中使用Sentiwordnet

、、、、

有没有一种方法可以使用TextBlob进行情感分析？目前，我相信TextBlob正在使用其他语料库数据库从download_corpora.py进行情感分析，但我不知道哪些数据库实际上是用于分析的。 (我知道我可以使用NLTK，但我发现TextBlob更强大，因为它叫做NLTK。)

浏览 15提问于2017-01-26得票数 0

1回答

在数据帧中转换文本以保持其他列数据

、、

我想发短信给我的，出于多种原因，我建立了一个数据框架，其中我在一列中有单词，在第二个例子中有频率： words freq Have 123 have 5 having 4589 注意，我们可以很快看到，如果频率非常大，这样做可能会更有效地转换词，而不是有一个语料库与特定的词多次重复。我想用tm来转换使用tolower，stemDocument等的单词我知道我可以将words列从数据帧中提取到一个语料库中，但是这样我就会丢失频率信息。我想得到： words freq have 123 have 5 have 4589 然后，我想我可以使用setDT、d

浏览 2提问于2016-05-20得票数 1

回答已采纳

1回答

使用GenSim的词组间语义相似性

、、

背景我试图用Gensim判断一个短语在语义上是否与语料库中的其他单词有关。例如，这里是预先标记的语料库文档： **Corpus** Car Insurance Car Insurance Coverage Auto Insurance Best Insurance How much is car insurance Best auto coverage Auto policy Car Policy Insurance 我的代码(基于)对语料库中的所有字符串使用余弦相似度来判断短语的语义相关性。问题如果查询包含在我的字典中找到的任何术语，则判断该短语在语义上类似于语料库(

浏览 3提问于2015-08-05得票数 6

2回答

使用主题模型，我们应该如何建立一个“停止词”列表？

、、、

有一些标准的停止列表，给出诸如"a of of to“这样的词从语料库中删除。然而，我想知道，停止列表是否应该逐个改变呢？例如，我有10K的期刊文章，然后因为文章的结构，基本上你会在每一篇文章中看到诸如“导言、评论、结论、页面”这样的词。我担心的是:我们应该把这些词从我们的语料库中删除吗？(每一份文件都有几个字？)感谢每一个评论和建议。

浏览 4提问于2015-02-24得票数 5

回答已采纳

2回答

在大型语料库中高效地计算词频，而不考虑文档边界

、、

我有一个近两百万份文档的语料库。我想要计算术语在整个语料库中的词频，而不考虑文档边界。一种天真的方法是将所有文档合并到一个非常大的文档中，并对其进行矢量化。一种精心设计的方法是使用tm或任何工具构建一个完整的TDM，其中每个术语在每个文档中都有词频，因此在整个语料库中也是如此。我是这样做的： # Build a TDM from the 'corpus' tibble using a filtered 'texts' column: htgs = VCorpus(VectorSource(subset(x = corpus,

浏览 33提问于2020-12-18得票数 0

回答已采纳

3回答

如何在R语言tm (文本挖掘)包中使用stemDocument？

、、

我正在尝试使用R语言tm包中的stemDocument来阻止语料库。我已经尝试了tm手册中的示例： data("crude") crude[[1]] stemDocument(crude[[1]]) 并得到以下错误： Could not initialize the GenericProperitiesCreator. This exception was produced: java.lang.NullPointerException 感谢您的帮助。我对Java一无所知。谢谢

浏览 1提问于2011-10-01得票数 2

1回答

Gensim主题建模，并提供建议的初步投入？

、、

我正在使用python中的gensim在一个中等大小的语料库上做am主题模型。我们已经大致知道了一些我们期待的话题。特别是，我们知道语料库中确实存在一个特定的主题，我们希望模型能够为我们找到这个主题，这样我们就可以提取出属于这个主题的语料库的元素。有没有一种方法可以手动设置你的主题之一的初始条件在gensim给模型一个‘正确’的方向？这样做的目的是以几个已知的目标主题为例，并将每个单词的概率设置为它们在已知示例中的频率。或者那个想法附近的什么东西。提前感谢您的帮助！

浏览 8提问于2022-10-31得票数 -1

1回答

问:情绪分析:推特极性不太受欢迎

、、

我目前正在第一次从事一个情绪分析项目，该项目将使用tweet作为输入。这些推文的主题是体育，目前我正在对数据进行预处理，并试图给它们分配一个极性。分配这些情绪分数的许多不同方法让我有点困惑，因此我有一些问题：这个线程()列出了一些语料库，但它们都不适用于体育。我能用其中的一个来训练一个分类器，适用于我的情况吗？或者，使用不相关的语料库会扭曲结果吗？是否有可能通过依赖于这个主题的词典(例如，上面的链接)来取得好的结果？为了训练分类器，我应该查询我的db并手动注释tweet吗？谢谢

浏览 1提问于2017-08-25得票数 0

6回答

用于情感分析的训练数据

、、、、

我在哪里可以获得一个文档库，这些文档已经被归类为对企业领域的情绪有正面/负面影响？我想要一个为公司提供评论的大型文档语料库，就像分析师和媒体提供的对公司的评论一样。我发现有产品和电影评论的语料库。是否有业务领域的语料库，包括对公司的评论，与业务语言相匹配？

浏览 2提问于2011-09-26得票数 57

回答已采纳

2回答

R文本挖掘--一个接一个地将段落组合在一起，不让句子混淆。

、、

R和文本挖掘的初学者。当前使用tm包。我试图把两个不同文件的文本放在一个语料库中。当我使用这样的语句时 c(corpus.doc[[1]],corpus.doc[[2]]) 或粘贴语句 paste(corpus.doc[[1]],corpus.doc[[2]]) 我得到了每一行合并的文本的结果。例如:如果 > corpus.doc[[1]] He visits very often and sometimes more > corpus.doc[[2]]) She also stays 我从这些陈述中得到的是 He visits very often

浏览 0提问于2012-01-27得票数 5

1回答

在许多较小的数据中拆分一个巨大的数据文件，以在r中创建一个语料库。

、、

我需要从一个巨大的数据(大约170.000行，但只有两列)创建一个语料库来挖掘一些文本和根据搜索词的用户名分组。例如，我从这样的dataframe开始： username search_term name_1 "some_text_1" name_1 "some_text_2" name_2 "some_text_3" name_2 "some_text_4" name_3 "some_text_5" name_3 "some_text_6&

浏览 0提问于2015-11-25得票数 2

回答已采纳

1回答

斯坦福大学NLP: OutOfMemoryError

、

我正在注释和分析一系列的文本文件。每次读取文件时，pipeline.annotate方法都会变得越来越慢。最后，我得到了一个OutOfMemoryError。管道初始化一次： protected void initializeNlp() { Log.getLogger().debug("Starting Stanford NLP"); // creates a StanfordCoreNLP object, with POS tagging, lemmatization, // NER, parsing, and Properties p

浏览 1提问于2016-06-18得票数 1

回答已采纳

2回答

BERT数据PreProcessing (德国基)

、、、

我正在与伯特一起开发一个情感分析解决方案，用德语分析推特。我的训练数据集是一个1000条推特的类，它们被手动注释为中性、正面和负面的类。包含10.000条tweet的数据集分布非常不均匀：大约3000正数2000负5000中性这些推文包含@name、https链接、数字、标点符号、笑脸(如:3 :D :)等。有趣的是，如果我在数据清理期间用下面的代码删除它们，F1的分数就会变得更糟。只有删除https链接(如果我单独做的话)，才能带来小小的改进。 # removing the punctuation and numbers def remove_punct(text): tex

浏览 2提问于2020-06-25得票数 1

2回答

R: tm包，聚合/加入文档

、、、、

我找不到任何以前的问题张贴在这，所以也许你可以帮助。根据元数据(例如不同作者的聚合文本)将数据聚合到tm语料库中的好方法是什么？至少有两种显而易见的方法可以做到： tm中的内置函数，允许在元数据特性上构建DocumentTermMatrix。不幸的是我还没能发现这个。一种基于表中某些外部元数据在语料库中连接文档的方法。它只是使用元数据来替换文档ids。因此，您将有一个包含: DocumentId，AuthorName的表以及包含大量文档的tm构建的语料库。我知道引入表作为语料库对象的元数据并不困难。矩阵可以用以下函数建立。 library(tm) # version

浏览 1提问于2015-01-19得票数 1

2回答

如何检查一个单词在复数形式中是否更常见，而不是在一个单词数组(使用Python/NLTK)中是单数形式呢？

、

我正试着做NLTK的练习，但我不能做这个。“哪些名词在复数形式上比它们的单数形式更常见？(只考虑由-s后缀构成的规则复数)。”我花了一天的时间思考这个问题和尝试一些事情，但我就是搞不懂。谢谢。

浏览 2提问于2015-05-04得票数 0

回答已采纳

1回答

基于特定字段子串的SOLR中的FullText

、、

我正在工作的一个项目中使用Apache。我已经完成了所有的设置，我也能够执行SOLR查询。然而，我对SOLR的一种行为感到困惑--即使在论坛上搜索之后--也无法理解这种行为。在我的solr模式中，我有一个field，其类型是solr.TextField。我正试图在上面做一个fullTextSearch。只有在搜索关键字之前和之后包含通配符*时，查询才会返回结果。如果我只在结尾处包含它，它就不起作用(例如：searchWord*) 然而，许多在线论坛都提到，solr/lucene在搜索术语一开始就不支持*。请在schema.xml下面找到。注意:我使用的是solr v7.4.0 <?x

浏览 1提问于2018-09-22得票数 1

回答已采纳

1回答

如何比较语料库的复杂性？

、

我想比较一下我的三个语料库有多复杂(多变或可预测)。它们来自不同的主题，所以有些词汇是不同的，有些是相同的。查看其中一个数据集，很明显，语法比其他两个更难，句子更长，等等。我使用SRILM工具包(我是语言建模的新手)构建了word N-Gram语言模型，我的想法是可以比较这些模型。关于语言模型，提到的一个衡量标准是困惑。我对以下问题感到困惑:我是否可以直接使用这三个LMs的困惑程度来衡量语料库的多样性？词汇量和语料库的大小不同，所以现在我认为这不是一个很好的比较。我也从词性标签构建了LMs，但词性标记结果的质量并不好，因为语言来自fora，有拼写错误，不符合语法的句子等等。可以使用什么度量来比

浏览 3提问于2015-01-16得票数 3

4回答

情绪分析-当正面和负面单词列表的长度不同时，我应该对它们进行标准化吗？

、

我正在实现一个简单的情感分析算法，其中论文的作者有一个正面和负面单词的单词列表，并简单地计算每个单词在分析的文档中出现的次数，并使用以下内容对文档进行情感评分： sentiment = (#positive_matches - #negative_matches) / (document_word_count) 这是通过文档长度对情感评分进行归一化，但是负面单词的语料库比积极单词语料库(大约300个积极单词和1800个负面单词)大6倍，因此通过上面的测量，情感评分可能会有负面偏差，因为要匹配的负面单词比积极单词更多。我如何纠正正负语料库长度的不平衡？我是否应该调整情绪得分，以通过各自的语料

浏览 0提问于2015-02-19得票数 1

2回答

如何减少Scikit-Learn Vectorizers的内存使用？

、、、、

TFIDFVectorizer占用了如此多的内存，向量化470MB的10万个文档需要超过6 GB，如果我们使用2100万个文档，它将无法容纳我们现有的60 GB内存。所以我们选择HashingVectorizer，但仍然需要知道如何分发散列vectorizer.Fit，而partial fit什么也不做，那么如何处理大型语料库？

浏览 0提问于2013-07-09得票数 3

回答已采纳

1回答

文本挖掘基本问题

、、、

文本挖掘特定问题：我来自汽车行业的CRM领域，在那里我们有很多非结构化的调查数据。第一个问题是-是否有一个特定领域的字典，可以在这里用来映射积极和消极的词，用于情感分析？如果是，请帮助我。在进行情绪分析时，我们如何处理“不坏”和“不好”这样的词。不坏本质上意味着好，但会给出一个负面分数..。我们如何处理那些位于重要词汇附近的词语。例如：“是没有帮助的”和“非常有帮助的”应该给予消极和积极的分数，因为这里重要的是“不”和“非常”，它围绕着“有用”这个词。有些人称这种方法为“意见挖掘”。它是如何发生在研发和照顾这样的情况。任何人的帮助都将是非常感谢的。

浏览 1提问于2016-04-06得票数 1

1回答

两个语料的Tf-Idf计算

、、、

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。我的问题是，在建立与语料库1的句子相关的向量的过程中，我使用语料库2的索引，通过汇总与X术语相关的文档来获得Idf，这是正确的方式吗!？由于语料库1中的一些术语在语料库2中不可用，Tf-idf函数将为这些术语返回0！或者我必须为语料库1建立另一个索引(在我看来，这将消除Tf-idf的

浏览 10提问于2017-01-16得票数 0

回答已采纳

2回答

不确定如何开始使用NLP来分析用户反馈

、、

我有~138 k的用户反馈记录，我想分析这些记录，以了解我们的用户最常说的内容中的广泛模式。每一个都有一个1-5星级之间的评级，所以我不需要做任何类型的情绪分析。我最感兴趣的是将数据集分解成>=4星号，看看我们做得好什么，<= 3星来看看我们需要改进什么。我遇到的一个关键问题是，我希望能看到很多的n克。其中一些我知道，比如"HOV车道“，”拼车车道“，”绕道时间“，”让开我的路“等等，但我也想通过编程来检测普通的双三格。我一直在玩Spacy，但它似乎没有任何能力在语料库级别，仅在文档级别上进行分析。理想情况下，我的管道应该是这样的(我认为)：将已知n克的列表导入令

浏览 1提问于2020-08-27得票数 0

回答已采纳

2回答

从TripAdvisor抓取数据的任何建议

、、

我们目前正在研究一个NLP项目，需要一个从tripadvisor.com中提取的语料库。我们期望输出为两种类型:注释和该评论的评级。我的问题是：有没有最适合这个目的的爬行工具？它必须易于使用，并且首选python。美汤是我发现的，但我想在这里问它任何其他的建议。是否有任何完整的工具就是为了这个目的？我的意思是为tripadvisor.com编写的程序？任何其他有关数据(评论/评级)从大型网站爬行的建议将不胜感激。该语料库将用于大学研究的情感分析，我们需要尽快抓取它。

浏览 6提问于2013-01-16得票数 3

1回答

Word2Vec训练语料库中不可用的单词

、、

我对Word2Vec完全陌生。我想在我的数据中找到词对之间的余弦相似性。我的代码如下： import pandas as pd from gensim.models import Word2Vec model = Word2Vec(corpus_file="corpus.txt", sg=0, window =7, size=100, min_count=10, iter=4) vocabulary = list(model.wv.vocab) data=pd.read_csv("experiment.csv") cos_similarity = model.w

浏览 0提问于2021-04-13得票数 0

回答已采纳

1回答

检测外来词

、、

我正在编写一个脚本来检测A语言中B语言中的单词。这两种语言非常相似，并且可能有相同单词的实例。如果您对我到目前为止拥有的内容感兴趣，代码就在这里：我将在这里解释我的方法:我在B语言中创建了一个bigram列表，在A语言中创建了一个bigram列表( B语言中的小语料库，A语言中的大型语料库)。然后我删除所有常见的大图。然后，我用A语言浏览文本，并使用B语言检测到这些文本，并将它们存储在文件中。然而，这种方法发现了许多对两种语言来说都很常见的单词，还发现了一些奇怪的符号，比如两个相邻国家的名字，以及其他异常情况。你们中有谁有我可以使用的建议，阅读材料，NLP方法吗？

浏览 0提问于2014-11-28得票数 3

回答已采纳

1回答

阅读r中pdf或文本的语料库

、、

我有一个很大的文件清单，我想阅读R作为一个语料库。所有的文件都是pdf，但最近，我意识到其中一些文件将是txt。在获得文本文件之前，我只是创建了目录中的pdf文件列表，并使用readerControl的语料库函数读取它们： getwd() files <- list.files(pattern = "pdf$") corp <- Corpus(URISource(files), readerControl = list(reader = readPDF)) 我尝试创建pdfs和txt的组合列表，但我无法找到一种方法来使用readerC

浏览 1提问于2019-06-18得票数 1

回答已采纳

2回答

Java内存不足:增加堆空间？

、、、

这似乎是一个常见的问题，然而现有的解决方案对我来说并不起作用。我正在尝试在mallet包的帮助下在R中执行主题建模。语料库由论坛评论组成，是app。50MB大小。它被分成41.975个文件。下面是我的脚本： documents_65 <- mallet.read.dir("~/20170315_F65/tm") # Loading corpus and stopwords mallet.instances <- mallet.import(id.array = documents_65$id,

浏览 2提问于2017-04-10得票数 2

1回答

如何使用自然语言处理来识别逻辑门应用问题的输入和输出？

、、

目前，我已经确定了给定场景中的实体，并尝试使用邻域分析技术对输入实体和输出实体进行分类。这种方法不太准确，因为提供场景的方式可能会不时改变。举个例子：有一个门，窗口和安全。如果关上门，打开窗户，保险箱就解锁了。要找到这方面的布尔表达式，我们需要考虑安全，门和窗口是entities.Furthermore，保险箱是一个输出实体，另外两个是输入实体。有人能建议我使用python来识别哪些是输入实体，哪些是输出实体的正确逻辑吗？

浏览 0提问于2019-02-05得票数 0