如何使用R准确地使用法语中的停用词

、、、

我正试着用古腾堡图书馆检索一本书，然后删除法语停用词。通过这样做，我已经能够用英语准确地做到这一点： twistEN <- gutenberg_download(730)twistEN= c("word")) count(word, sort=TRUE) top.fr <- countsFR[1:20,] 我确实根据我在网上找到的</e

浏览 32提问于2019-09-21得票数 4

2回答

检查和调整给定的分析器？

、、、

我在用法语分析器。在检查了这个分析器的输出后，我对一些停用词有点不满意(例如，表达式‘ayant-’出现为'caus'，因为'ayant‘是一个停用词：)。我如何着手检查这些停用词，然后对它们进行调整？我必须在现有的法语分析器的基础上创建一个自定义分析器吗？或者我可以直接调整法语版本？注意:我正在使用Python 模块(“瘦客户端”)，但在REST命令方面的答案将是很好的</e

浏览 5提问于2021-02-16得票数 0

1回答

tm_map:可以将删除词函数与我自己注册为txt文件的停止词一起使用吗？

、、

我使用R tm包对facebook的一个群组进行文本分析，发现removewords功能对我不起作用。我试着把法语停用词和我自己的停用词结合起来，但它们仍然在出现。因此，我使用自己的列表创建了一个名为"french.txt“的文件，如以下命令所示：my_stop_words<

浏览 25提问于2019-10-29得票数 1

回答已采纳

1回答

Javascript:使用字典从字符串中过滤单词？

我需要从一个字符串中过滤出几百个“停”字。因为有很多“停止”的词，我不认为这样做是个好主意：我如何创建类似哈希图的东西来存储停用的单词？在这个映射中，键本身就是一个停用词，值并不重要。则过滤将导致检查该单词是否不存在于停用词映射中。使用什么数据结构来构建这样的地图？

浏览 0提问于2012-02-23得票数 0

1回答

在Solr中使用不同语言的停用词

、

Solr在托管模式中为不同的语言提供了一些开箱即用的数据类型，如英语、法语、日语等。我们使用公共数据类型"text_general“进行字段声明，并使用stopwards.txt进行停用字过滤。filter class="solr.LowerCaseFilterFactory"/> </fieldType> 在将数据同步到Solr核心时，我们在字段中导入不同语言<

浏览 20提问于2021-02-11得票数 1

0回答

Azure Speech API语言

、、、

我已经使用Azure Speech API在网页上实现了聊天，可以使用语音转文本。它工作得很好，但我不知道在哪里可以设置API所理解的语言。我希望它能理解法语，但当我用法语说话时，它会用熟悉的发音转录成英语单词。如何/在何处设置语言？我准确地说，我不是在Azure仪表板上设置服务的人。

浏览 7提问于2018-07-12得票数 0

回答已采纳

1回答

有没有一种方法可以将维达复合分数划分为情绪级别/类别？

、、

我一直在努力寻找一种尺度或分类指标，以赋予维德情绪分析某种程度的情感，而不仅仅是积极、消极或中立。如果有人能分享他们的观点或资源来帮助对VADER复合得分进行分类，我将不胜感激：-0.5 to -0.74 - Frustrated -0.25 to

浏览 0提问于2019-07-09得票数 1

3回答

Stop Word Library For Sentiment Analysis工具

、、、

我正在构建一个使用谷歌预测API的情绪分析工具。我有一些标记的训练数据，我将使用它们来训练模型。由于这是从社交媒体收集的数据，句子中的大多数单词都是停用词，所以我想在训练模型之前删除它，这是否有助于提高准确性？在java中有没有什么库可以用来删除这些停用词，而不是构建我自己的停用词集。

浏览 7提问于2015-02-12得票数 0

1回答

Solr多语言搜索

、、

我想知道我应该如何配置Solr来进行多语言搜索。我有一个网站有Solr搜索。这是为英语工作，我想为所有语言工作。 </fields> 当我看到日志文件Solr正在索引不同语言的URL时，我不知道如何显示搜索结果。我的网站正在

浏览 0提问于2011-05-27得票数 1

2回答

Lucene分析仪的比较

、

有人能解释一下Lucene中不同分析器之间的区别吗？我得到了一个maxClauseCount异常，我知道我可以通过使用KeywordAnalyzer来避免这种情况，但我不想在不了解围绕分析器的问题的情况下更改StandardAnalyzer。

浏览 0提问于2011-03-30得票数 109

回答已采纳

18回答

用c实现时延

、、、、

我不知道如何准确地用词来搜索这个..所以我没有找到任何幸运的东西..:S例如，我想做一些事情，然后等待，比如说1分钟，然后继续做事情。这有意义吗？有人能帮我吗？

浏览 2提问于2010-10-14得票数 32

回答已采纳

2回答

未登录词和已知词的词性

、、

有没有什么工具可以预测单词的词性标注..

浏览 4提问于2013-05-20得票数 0

1回答

不使用词表为tesseract 3.03生成eng.traineddata

、

我要做的是从图像中提取文本，我实际上是在windows上使用python包装器为tesseract 3.03，我已经下载了许多语言(英语，法语，...)的.traineddata文件。.the问题是我在某处读到tesseract在检测到分隔字符后尝试使用单词列表文件来检测单词。我的问题是如何在不使用词表的情况下生成.traineddata文件，因为我希望tesseract返回检测到的句子而不验证单词

浏览 2提问于2017-05-04得票数 0

2回答

WIDCOMM和Android:怎么做？

、、

免责声明：蓝牙新手面前的问题。我不是想用不准确或不恰当的用词来威胁你。我正在使用一个使用WIDCOMM堆栈进行通信的蓝牙设备。在Android中，我看到通信是使用完成的，所以我假设使用RFCOMM堆栈。如何允许使用RFCOMM堆栈的Android应用程序从使用WIDCOMM堆栈的设备接收数据？

浏览 3提问于2011-08-08得票数 0

回答已采纳

1回答

Silverlight + RIA服务和自定义用户/密码存储

、、

使用Silverlight业务应用程序模板在VS2010中使用Silverlight项目和ASP.NET项目创建一个很好的默认解决方案。它还自动提供一些很好的身份验证，似乎可以将新注册用户的用户名/密码/etc存储到本地Server数据库中。是否可以自定义存储机制？我已经在其他地方有一个数据存储，并希望自己处理添加/删除等细节。

浏览 2提问于2009-12-22得票数 1

回答已采纳

2回答

如何获得本地化的NSError

、、

我想使用NSError的系统本地化(在我的例子中用法语)plist中的 : CFBundleDevelopmentRegion = fr_FR当我调用属性"localizedDescription“时，我总是得

浏览 5提问于2015-04-10得票数 2

2回答

从字符串中删除字符向量中的特征词

我在R中有一个停用词的字符向量： "able" , "above" ,"you've" , "zero")str <- c("I have zero a accor

浏览 1提问于2016-03-04得票数 16

回答已采纳

1回答

如何在R中准确地使用epi.kappa()函数？

、

我试图对我创建的两个索引执行kappa统计测试。我发现R中有多个包具有函数，并试图比较两个函数: epiR包中的epiR()函数和来自心理包的cohen.kappa()函数。我能够在数据中成功地使用cohen.kappa()函数，但是，在使用epi.kappa()函数时，我仍然会遇到错误。我的代码如下kap.dat = matrix(c(275,78,305,154),nrow=2,by

浏览 2提问于2022-07-19得票数 0

回答已采纳

1回答

Bigram包含weka中的Stopword？

、

我正在处理weka中的一个分类问题，并使用smart 524停用词列表。我在weka中使用NGram标记器。它正确地从unigram中过滤停用词，但二元语法中包含停用词，例如"the east"，"the window“。我之前假设weka可能会首先过滤文本文档中的所有停用词，然后将它们转换为单字和双字，但这并不是发生在那里的

浏览 0提问于2014-01-25得票数 2

2回答

计算虚词频率

、、、、

我想在Python/NLTK中计算的频率。我看到了两种方法：我更喜欢第一个，而不是第二个或任何其他的例子，这会使我得到更准确</em

浏览 0提问于2011-04-28得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

检查和调整给定的分析器？

tm_map:可以将删除词函数与我自己注册为txt文件的停止词一起使用吗？

Javascript:使用字典从字符串中过滤单词？

在Solr中使用不同语言的停用词

Azure Speech API语言

有没有一种方法可以将维达复合分数划分为情绪级别/类别？

Stop Word Library For Sentiment Analysis工具

Solr多语言搜索

Lucene分析仪的比较

用c实现时延

未登录词和已知词的词性

不使用词表为tesseract 3.03生成eng.traineddata

WIDCOMM和Android:怎么做？

Silverlight + RIA服务和自定义用户/密码存储

如何获得本地化的NSError

从字符串中删除字符向量中的特征词

如何在R中准确地使用epi.kappa()函数？

Bigram包含weka中的Stopword？

计算虚词频率

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐