数说工作室

187 篇文章
44 人订阅

全部文章

数说君

海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

这是一个相似匹配的问题(文本相似匹配基础→ 词频与余弦相似度)。但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的...

632
数说君

【温故】P值之死

100年前的今天(1918年7月8日),有位叫 Ronald Fisher 的人向外界宣读了一篇论文《Thecorrelation between relati...

592
数说君

你的每一次点击行为,是如何变成数据的?| 聊一聊互联网公司的内部数据采集

数据是怎么来的? 在很多行业,数据都是人工收集来的,比如医学疾病数据、环境数据、经济数据等。数据的更新周期也比较长,比如年度、月度。 但互联网行业不一样,这个...

3977
数说君

通过逐笔数据计算主力资金流数据 |【量化小讲堂】

1)涉及到的金融学知识 正文对一些概念的解释已经很清楚了,但是对于没有操作过股票的人来说,一些最基本的可能会不太明白,比如市价单、限价单(一个是按实时价格交易...

3105
数说君

创业板、市盈率、Python!|【量化小讲堂】计算创业板平均市盈率

数说君的文前话 本文开始正式进入python的金融数据学习,为更好的学习,数说君为大家准备了一些基础知识。 → 如果对python完全不了解,点击这里: 统计师...

3374
数说君

浅议P值校正

P值,通常被我们用来判断是否接受一个假设,关于P值的前世今生,可以看数说君的了一篇文章《P值之死》,在微信公众号中回复“P值”查看。本篇不说P值本身的问题,我们...

3586
数说君

什么是维数灾难?

SVM第一话(回复 SVM1 查看)里提到了“维数灾难”,什么是维数灾难呢? 维数灾难(英语:curseof dimensionality,又名维度的诅咒)是一...

27610
数说君

面板数据与Eviews操作指南(下)

三、动态面板数据及Eviews实现 (1)动态面板数据简介 在现实社会中,很多经济关系是动态的,有时需要引入滞后项去解释这些经济关系。动态面板数据模型,即面板数...

3567
数说君

量化投资之动量反转

量化投资投资之动量反转 微博:@数说工作室网站 微信公众号:数说工作室 那一年,你在我的有效市场里随机游走,不经意间毁灭了我的理性人假设。从此,维持...

36810
数说君

【概率论-上帝的赌术】局部完结篇

本系列是数说君去年10-11月发布在微博上的漫画趣文,本次发布的微信的版本经过了一些修改,供大家回顾。本系列旨在趣解一些基本概率和统计知识,非学术探讨,不能替代...

3238
数说君

面板数据与Eviews操作指南(下)

面板数据与Eviews操作指南(下) 三、动态面板数据及Eviews实现 (1)动态面板数据简介 在现实社会中,很多经济关系是动态的,有时需要引入滞后项去解释这...

2868
数说君

【分类战车SVM】第五话:核函数(哦,这实在太神奇了!)

分类战车SVM (第四话:拉格朗日对偶问题) 转载请注明来源 微信公众号:数说工作室 新浪微博:数说工作室网站 前段时间热映的《星际穿越》想必大家都看过,在这...

2835
数说君

【SAS Says】基础篇:描述性分析(上)

特别说明:本节【SAS Says】基础篇:描述性分析(上),用的是数说君学习《The little SAS book》时的中文笔记,我们认为这是打基础的最好选择...

3227
数说君

《神经网络》中文字幕版(2.3 感知器的几何空间 &2.4 感知器的原理透析)

《Neutral Network for Machine Learning》(机器学习中的神经网络)系列课程,是深度学习大神 Geoffrey Hinton 毕...

3379
数说君

《神经网络》中文字幕版 | (3. 线性/逻辑神经网络和反向传播)

《Neutral Network for Machine Learning》(机器学习中的神经网络)系列课程,是深度学习大神 Geoffrey Hinton 毕...

3337
数说君

这是一份开光的课程 |《神经网络》中文字幕版(1.3 & 1.4)

《Neutral Network for Machine Learning》(机器学习中的神经网络)系列课程,是深度学习大神 Geoffrey Hinton 毕...

2697
数说君

这是一份开光的课程 |《神经网络》中文字幕版(1.5)

《Neutral Network for Machine Learning》(机器学习中的神经网络)系列课程,是深度学习大神 Geoffrey Hinton 毕...

33911
数说君

文本相似度 | 余弦相似度思想

我一直觉得,在数据分析领域,只有文本分析是最“接地气儿”的,“接地气儿”不是指最简单,而是我们普通大众的使用它最多。 我们每天使用互联网,但不一定每个人都炒股...

3107
数说君

行业前景 | DNV GL:51%的全球企业打算在大数据上有更多投入!但有清晰规划的仅23%!

国际调查机构DNV GL联合GFK Eurisko共同开展了一项关于大数据使用的调查。调查访问了1189位专业人士,来自82个不同的企业,遍及欧洲、亚洲、北美、...

2625
数说君

2. 两独立样本非参数检验 | 非参数检验汇总

飞扬 / 撰写 整理 数说君 / 编辑 ---- 1. 关于非参数检验 上一文(1. 单样本非参数检验 | 非参数检验汇总)中已经说过,相比参数检验,非参数检验...

3269

扫码关注云+社区