首页
学习
活动
专区
工具
TVP
发布

数说工作室

专栏作者
214
文章
363829
阅读量
70
订阅数
治啰嗦利器~TF-IDF!| 文本分析
这个系列打算以文本相似度为切入点,逐步介绍一些文本分析的干货,包括分词、词频、词频向量、TF-IDF、文本匹配等等。 第一篇中,介绍了文本相似度是干什么的; 第二篇,介绍了如何量化两个文本,如何计算余弦相似度,穿插介绍了分词、词频、向量夹角余弦的概念。 其中具体如何计算,在这里复习: 文本分析 | 余弦相似度思想 文本分析 | 词频与余弦相似度 ---- 上文中留下了一个问题: 当文本很长的时候,词频向量的维度会很大,下面《水浒传》里的一段: 这吴氏年纪二十五六,是八月十五生的,小名叫做月姐,后来嫁到西门庆
数说君
2018-04-08
1.2K0
周一鸡血 | 编程不好怎么学数据挖掘? | 数说 · 精选
本文作者谢科,是数说君在知乎认识的一位数据科学大牛,Twitter的Data Scientist,目前正在创业(“用软件定义商家做生意的方式”)。 对于一个编程基础不是很好的学生来说,学习数据挖掘、机器学习之类的并以后从事这样的工作靠谱吗? 文 | 谢科 以下为对匿名用户回答的引用(数说君注:匿名用户指另一位匿名了的用户对该问题的回答) 【你们以为上上公开课就够的?那些东西我看过,Andrew Ng的课什么的,以我的实力一两天就解决了,你觉得能有啥用?那点简单的东西与实际需要解决的问题相比根本不值一提,入
数说君
2018-04-08
7170
【温故】金融数据挖掘之朴素贝叶斯
你和我之前的人生, 就像是来自同一个分布族的共轭曲线, 即使有各自的参数空间, 也注定要相识相念。 你和我之后的人生, 是我们相扶相持下不离不弃的最大似然, 用“信任与珍惜”的先验去修正所有后验, 用
数说君
2018-04-04
9180
A轮融资3200万,创冰科技估值已2亿!体育产业万亿盛宴,大数据该怎么参与?
创冰是一家成立不过两年的体育大数据公司,近日却完成了3200万的A轮融资,目前公司估值2亿。在足球领域,创冰已经为国字号球队、半数以上的中超俱乐部以及很多地方体育台提供了数据方面的技术支持。 创冰的本次A轮融资由苏宁文化投资管理有限公司领投,上海沃体跟投,此前苏宁已经全方位在体育产业布局,涉足俱乐部经营、赛事运营、版权经销、媒体平台、经纪、场馆运营等多个领域[1]。 自主产权技术 上海创冰是国内唯一拥有独立自主产权,集数据采集、数据发掘及数据产品化于一体的体育互联网公司,通过图像可视化加人工辅助统计的方式
数说君
2018-04-04
8600
金融数据挖掘之决策树(ID3)
数说工作室提供策略编写、数据分析服务和量化支持。
数说君
2018-03-28
8780
金融数据挖掘之朴素贝叶斯
你和我之前的人生, 就像是来自同一个分布族的共轭曲线, 即使有各自的参数空间, 也注定要相识相念。 你和我之后的人生, 是我们相扶相持下不离不弃的最大似然, 用“信任与珍惜”的先验去修正所有后验, 用
数说君
2018-03-28
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档