腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
统计
文本
中
的
词频
并
创建
曲线图
、
、
、
、
我有一个包含40802个基因名称
的
数据框架列表,还有一个包含14000篇文章信息
的
数据框架。文章信息包括文章、摘要、日、月、年。我真的很感激任何关于如何做到这一点
的
浏览 8
提问于2017-08-03
得票数 0
3
回答
Python
词频
统计
程序
、
我用python
创建
了一个简单
的
单词
统计
程序,它读取一个
文本
文件,
统计
词频
,并将结果写入另一个文件。问题是,当单词重复时,程序会写入同一单词
的
初始计数和最终计数。例如,如果单词" hello“重复3次,程序将在输出
中
写入3个hello实例,如下所示:你好-1你好-3counts ={} counts我是python
的
新手
浏览 0
提问于2014-02-19
得票数 1
1
回答
从阿拉伯
文本
输出
的
空WordCloud PNG
、
cloud.generate_from_frequencies(dictionary) cloud.to_file("wordCloud.png")` 📷 问题是我成功地构建了Python脚本,它迭代通过阿拉伯
文本
并
统计
每个单词
的
频率,但是wordcloud输出
的
是空
的
PNG,就像上面的图像一样,我无法解决它,可能它与utf-8编码有关,但我仍然不知道如何在wordcloud
中
实现它。
文本
阅读,迭代和
统计
<em
浏览 21
提问于2020-06-13
得票数 0
1
回答
在Java和Lucene
中
处理来自RSS提要
的
大量字符串
的
最佳实践
、
、
、
我有这样一种情况:我有一个每小时一次
的
批处理作业,它必须解析大量
的
RSS提要,并从每个提要
的
每个项目中提取标题和描述元素
的
文本
到字符串
中
,然后Lucene将计算它们
的
词频
for each feed get text from tit
浏览 3
提问于2010-12-06
得票数 1
1
回答
统计
文本
中
的
单
词频
率?
、
、
可能重复: 实现这一点
的
最有效
的
算法方法是什么?
浏览 1
提问于2011-01-12
得票数 11
3
回答
统计
R
中
多个列
的
词频
、
、
、
我在R中有一个数据框,它有多个列,其中包含多个单词
文本
响应,如下所示:studentopportunities university我希望能够计算1a、1b和1c列
中
单词组合
的
频率,以及2a、2b和2b组合
的
单
词频
率。目前,我正在使用这段代
浏览 2
提问于2018-11-16
得票数 1
1
回答
机器翻译
中
的
字符串相似度有哪些深入
的
学习方法?
、
、
、
我对机器翻译感兴趣,更具体地说,我想研究两个字符串之间
的
相似之处。我想知道是否有深入学习
的
方法来进行
文本
特征提取。我已经尝试过著名
的
统计
方法,如余弦相似度、Levenstein距离、
词频
等。 谢谢
浏览 0
提问于2018-05-20
得票数 0
回答已采纳
5
回答
包含值和键
的
字典
的
python
词频
我是第一次学习python,我知道如何使用
词频
来计算列表
中
每个唯一变量
的
个数,如下所示 else: 然而,我想知道通过使用double for循环,单
词频</e
浏览 2
提问于2020-02-18
得票数 0
2
回答
Java Stanford NLP:查找
词频
?
、
、
我使用
的
是Stanford NLP解析工具包。给定词典
中
的
一个单词,我如何找到它
的
频率*?或者,给定一个频率等级,我如何确定相应
的
单词?class ParserDemo { LexicalizedParser lp
浏览 0
提问于2009-11-30
得票数 2
1
回答
从给定
文本
自动
创建
标题
、
我正在尝试写一个程序,当一篇文章被给出(通常是摘要)时,它会给出一个合适
的
标题。有没有可用
的
标准算法?
浏览 2
提问于2011-07-21
得票数 1
回答已采纳
2
回答
在Lucene索引
中
修改.tim和.tip文件
、
我有一个具有多个索引
的
Lucene应用程序,其中相关性评分由于不同索引之间
的
词频
差异而受到影响。我
的
理解是术语词典(.tim文件)包含“术语
统计
信息”,比如每个术语
的
文档频率
统计
信息。我在想,一种方法可能是修改每个索引(和相关段)
的
.tim文件,
并
更新“术语
统计
”。是否可以用这种方式覆盖或修改.tim和.tip文件?
浏览 1
提问于2014-06-25
得票数 0
1
回答
使用egrep
的
不带停用词
的
词频
、
、
、
、
我想使用终端
统计
文学
文本
"text.txt“
中
的
词频
,而不计算停用词(来自名为”stopwords.txt“
的
列表)。text.txt | tr -sc 'A-Za-z' '\n' | tr 'A-Z' 'a-z' | egrep -vwFf stopwords.txt | sort | uniq -c 为什么这不起作用,正确
的
脚本应该是什么样子
的
浏览 1
提问于2017-10-18
得票数 0
2
回答
以HBase为数据源计算文档
的
TF-IDF
、
、
、
我想要计算存储在HBase
中
的
文档
的
TF (
词频
)和IDF (逆文档频率)。你能引导我通过吗?我已经看过Mahout 0.4上
的
BayesTfIdfDriver了,但我并没有领先一步。
浏览 3
提问于2012-06-09
得票数 1
2
回答
我们可以训练Spacy进行
文本
摘要吗
、
、
Spacy可以训练NER,
文本
分类。我们可以使用它
的
功能进行摘要,所以我们可以训练spacy来提高摘要
的
准确性吗?
浏览 67
提问于2021-09-22
得票数 0
1
回答
Python:单词列表
的
NLTK概率
、
我一直在
统计
语料库
中
的
单词列表,
并
看到单词列表
的
概率。提前谢谢你!
浏览 1
提问于2012-10-01
得票数 0
回答已采纳
1
回答
使用R
统计
词频
的
文本
挖掘
、
、
我想计算“不确定性”一词
的
出现次数,但前提是“经济政策”或“立法”或与政策有关
的
词语出现在同一
文本
中
。现在,我已经用R编写了一个代码来
统计
文本
中所有单词
的
频率,但它不能识别
统计
的
单词是否出现在正确
的
上下文中。你有什么建议如何纠正这个问题吗?
浏览 3
提问于2013-12-19
得票数 3
1
回答
MySQL -长
文本
域上
的
词频
计数
、
、
我有一个MySQL表,其中一个字段包含
文本
描述(大约5-200个单词)。我想做一些词数
统计
分析,比如一般
的
词频
统计
(每个单词出现
的
次数)或每个类别的前K个单词。word countplace 2 ...有没有一种方法可以在不涉及编程语言
的
情况下仅用MySQL完成?
浏览 28
提问于2017-07-01
得票数 0
回答已采纳
2
回答
统计
python
中
的
词频
、
、
我试图删除标点符号,
并
计算我
的
代码工作
的
words.Part频率,但我
的
代码似乎不完整。我正在尝试获取{'hello':2,'hi':1}等单词
的
字典。它对hello word有效,但对于Hurray,它给我
的
输出就像是Hurray!任何关于为什么它会这样做
的
意见都是值得赞赏
的
。
浏览 2
提问于2019-09-28
得票数 0
2
回答
如何在一个目录下
的
所有文件上运行脚本?
、
我有一个脚本,它执行一些基本
的
文本
清理和标记化,然后计算和排序
词频
。我能够让脚本在单个文件上工作,但我需要在整个目录上实现它
的
帮助。因此,简而言之,我想使用这段代码来
统计
整个目录
中
的
全局
词频
(而不是返回每个文件
的
单个值)。下面是我
的
代码: import refrom collections import Counter file = open("german/tes
浏览 15
提问于2020-01-09
得票数 0
2
回答
从Python
中
的
列表
中
删除句号、逗号、引号
、
我有一个
文本
文件
中
的
单
词频
率
统计
的
python代码。程序
的
问题是它考虑了fullstop,因此改变了计数。为了计算单词,我使用了一个排序
的
单词列表。
浏览 0
提问于2014-02-19
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教你如何使用Excel创建与工资核算的表格并统计数据
总结Java中创建并写文件的5种方式
短语挖掘与流行度、一致性及信息度评估:基于文本挖掘与词频统计|附数据代码
何将文本文件中的数据导入到Word并生成表格?
如何将文本文件中的数据导入到Word并生成表格?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券