腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
有没有
可能在
C
中
使用
两个
缓冲区
精确地
计算
一个
单词
在
文件
中
的
出现
频率
?
、
、
我有
一个
1 1GB大小
的
文件
。我想知道"sosowhat“这个词
在
文件
中
出现
了多少次。我已经
使用
fgetc()编写了一段代码,它从
文件
中一次读取
一个
字符,对于1 1GB大小
的
文件
来说,这太慢了。因此,我创建了
一个
大小为1000
的
缓冲区
(
使用
mmalloc)来一次保存
文件
中
的<
浏览 26
提问于2020-07-14
得票数 2
1
回答
Ngram模型: Good-Turing平滑
、
我目前正在参加竞赛,争取
在
大学获得一份工作。我们正在
使用
一个
简单
的
3-gram模型。问题是,为了节省内存,我们别无选择,只能忽略
出现
1、2、3次
的
单字,以及
在
我们
的
训练集中
出现
过一次
的
双字。这里
的
问题是,我们如何
计算
/估计每个ngram
的
概率,以便当我们找到
一个
看不见
的
单词
或短语时,概率不是0?为了好
浏览 1
提问于2014-12-09
得票数 1
9
回答
处理大量数字
的
最有效
的
排序算法
、
、
、
、
我正在做
一个
大型项目,我不会在这里进行总结,但该项目的这一部分是要获取
一个
非常大
的
文本文档(最少大约50,000个
单词
(不是唯一
的
)),并按
使用
最多到最少
使用
的
顺序输出每个唯一
的
单词
(可能前三个将是"a当然,我
的
问题是,最好
的
排序算法是什么?我正在读计数排序,我喜欢它,但我担心
的
是,与唯一
单词
的
数量相比,值
的<
浏览 0
提问于2009-06-05
得票数 9
回答已采纳
1
回答
是否有方法确定在excel中用逗号分隔
的
列
中
单词
的
频率
?
我可以
使用
"countifs“来
计算
某个特定
单词
出现
在excel工作表列
中
的
次数。 但是,是否有一种方法可以自动显示数据列中最常见
的
单词
和
出现
频率
?就像。
在
示例图像
中
,列A有不同
单词
aa、am、aq...separated
的
逗号行。我想
计算
一下
C
栏显示
的
最常见
的
<e
浏览 5
提问于2022-03-09
得票数 1
回答已采纳
3
回答
vb.net检查字符串
中
是否存在
单词
并执行相应操作
、
我读取了
一个
文本
文件
,删除了所有标点符号,然后读取了String()
中
的
所有
单词
。我想要
计算
单词
,所以我需要一些具有
两个
字段
的
String(),
单词
和
频率
。
在
我添加
一个
单词
之前,我会用Function CountMyWords
计算
它在文本中
出现
的
次数。如果
单词
已经
在<
浏览 51
提问于2021-03-30
得票数 0
回答已采纳
1
回答
计算
文档
中
单词
模式
的
频率
、
我正在尝试
计算
文档
中
单词
模式
的
频率
。例如,
单词
模式“自然语言处理”
在
文档中
出现
了多少次。我尝试
使用
TF-IDF和Bag of words。然而,它给了我每个
单词
单独
的
频率
。
有没有
办法
使用
NLP,文本挖掘来解决这个问题? 提前感谢
浏览 0
提问于2021-04-21
得票数 0
1
回答
支持1词频
的
Tag Cloud算法
、
、
、
我希望
在
Objective-
C
中
创建
一个
标签云,并且我正在尝试找到
一个
好
的
算法。我试过几个,一开始似乎工作得很好,但它们都有
一个
缺点:如果
出现
频率
最低
的
单词
和
出现
频率
最高
的
单词
出现
的
频率
一样高,整个过程就有缺陷。示例(Google
中
的
第<e
浏览 4
提问于2011-10-25
得票数 2
回答已采纳
3
回答
用于
计算
包含字母组合(中间有重复和字母)
的
单词
数
的
Unix命令
、
如何
计算
包含所有字母a、b和
c
的
文本
文件
中
的
单词
数。这些字母
可能在
单词
中
出现
多次,该
单词
也可能包含其他字母。(例如,应将"cabby“
计算
在内。)
使用
应返回2
的
示例输入:我都试过了: grep 'abcdef
浏览 0
提问于2014-04-09
得票数 2
2
回答
MySQL查询
中
的
单词
频率
评分
、
、
、
我正在处理
一个
由2列组成
的
单表数据库:
一个
整数wordID和varchar。该表有几千行长,是通过编程读取大量文本并在
一个
空间上拆分,然后将单个
单词
插入数据库
中
创建
的
。我想要做
的
是
计算
每个
单词
的
计数(我自己做
的
),以及每个
单词
的
“分数”--也就是说,
一个
单词
mush在数据集中显示
一个
分数<em
浏览 4
提问于2013-11-13
得票数 1
回答已采纳
2
回答
如何根据
两个
txt
文件
中
的
相对词频对词典进行排序
我正在尝试编写一些代码来读取
两个
单独
的
文本
文件
,过滤掉常见
的
单词
,
计算
每个
文件
中
单词
的
频率
,最后按照
两个
列表之间
的
相对
频率
顺序输出。因此,理想
的
输出是
文件
1
中
出现
频率
相对较高
的
单词
应该
出现
在列表
的
浏览 16
提问于2020-05-30
得票数 1
1
回答
Python词频排序
、
、
、
我被要求编写
一个
计算
文本
文件
中
单词
的
程序。我能够数出
单词
和它们
的
频率
,并将它们存储
在
字典
中
。现在,我必须将这些数据写入另
一个
文本
文件
中
,但
频率
会降低。如果
两个
单词
的
频率
相同,则该
单词
必须按字母顺序写入输出文本
文件
。 我将<
浏览 2
提问于2016-02-19
得票数 0
回答已采纳
3
回答
用人工智能方法求解Hangman
我把它命名为"AI方式“,因为我想让应用程序
在
没有人与人交互
的
情况下玩挂人游戏。 应用程序对每个
单词
进行Hangman游戏,直到获胜或失败为止。这里
的
限制是最大错误
的
猜测。26显然是没有意义
的
,让我们假设6是最大错误
的</e
浏览 6
提问于2012-02-09
得票数 8
回答已采纳
1
回答
句子重要性得分和词频分布
、
我正在
使用
stanford-nlp来分析新闻文章。 我需要
计算
单词
频率
分布来确定
单词
在
文章
中
的
重要性,这样我就可以根据
单词
重要性/
频率
计算
句子重要性分数。我已经
在
文章中
使用
HashMap
计算
了词频,但我想知道斯坦福-nlp
中
是否有执行
单词
重要性和句子重要性
计算
的
东西
浏览 13
提问于2017-08-13
得票数 0
1
回答
QTP或UFT VBScript
、
、
、
有没有
人能帮助我们解决我们所关心
的
问题我们有
一个
网站,如果用户点击
一个
链接,它会下载
一个
pdf
文件
到我们
计算
机
中
的
下载
文件
夹部分。现在我们需要
一个
函数或一些代码,我们可以
在
QTP或UFT
中
实现,它应该能够从下载
文件
夹
中
读取pdf
文件
浏览 1
提问于2016-08-08
得票数 1
2
回答
从大型
文件
中
查找
单词
频率
、
、
、
、
我有
一个
这样
的
文本
文件
:andwentamericaengland 3 and 1 jerry 1 tom我拥有的文本
文件
大约是30 in
的
,因此不
可能在
内存中加载所有内容所以我现在做<
浏览 6
提问于2019-09-22
得票数 1
2
回答
计算
表示马尔可夫链规则
的
字典中值
的
总
频率
和相对
频率
、
、
、
、
我制作了
一个
函数make_rule(text, scope=1),它简单地遍历
一个
字符串并生成
一个
字典,作为马尔可夫文本生成器
的
规则(其作用域是链接字符
的
数量,而不是
单词
)。>>> rule = make_rule("abbcad", 1){'a': ['b', 'd'], 'b': ['b', '<em
浏览 29
提问于2019-04-16
得票数 0
回答已采纳
5
回答
如何在java中统计
单词
、
我正在寻找
一个
算法,提示或任何源代码,可以解决我
的
以下问题。例如,我有
两个
文档: Doc A => "brown fox jump“Doc B => "dog not jump
浏览 0
提问于2009-12-31
得票数 5
回答已采纳
2
回答
用Java阅读法语字符
、
、
、
我必须做
一个
类似于网络索引
的
作业。基本上,我有几个
文件
(ASCII格式),我必须
计算
单词
的
频率
。现在,关于
使用
<e
浏览 4
提问于2014-11-22
得票数 2
回答已采纳
1
回答
计算
列
中
字典
单词
的
频率
并生成新
的
"dictfreq“列
、
、
似乎是
一个
简单
的
命令,但我似乎找不到
在
R中生成这个词
的
好方法--基本上,我只想在另
一个
dataframe列
的
word dict中
计算
字典
中
每个
单词
的
频率
:
浏览 1
提问于2020-11-24
得票数 0
回答已采纳
3
回答
余弦相似度文档距离
、
我得到了
两个
文档,并要求我
计算
文档
中
每个
单词
出现
的
频率
。例如,
在
doc1和doc2
中
,
单词
“猫”分别
出现
了两次,然后它总共
出现
了4次,我需要
计算
它
出现
的
频率
。通过过去三个晚上
的
谷歌搜索,我发现了
一个
很棒
的
算法,叫做余弦相似度。我现在明白了它是如何工作
浏览 4
提问于2015-03-27
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
好用的82款Vim插件
快速分析300万字莎翁全集?只用命令行就能做到!
Redis基础—了解Redis是如何做数据持久化的
FastText的内部机制
从单词嵌入到文档距离:WMD一种有效的文档分类方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券