首页
学习
活动
专区
工具
TVP
发布

数说工作室

专栏作者
214
文章
366159
阅读量
70
订阅数
从 AI 到 信息安全
如果把AI算法用来做个性化推荐,那么算法和被推荐对象会是一种 “相互取悦” 的关系,被推荐者一定希望推荐给他的是他需要的(在隐私保护做的好的前提下),算法也努力试图去计算出被推荐者真正需要的东西,二者是同向而行,或者至少,被推荐对象不会躲着AI走(推荐给我不需要的东西,什么心态?)。 但是算法用来做安全对抗就完全不一样了,算法努力计算出攻击者画像、预测出攻击者的行为,而攻击者则努力规避算法的计算,试图通过各种方式绕开AI的猜测,于是变成了一场对抗。 这是AI算法应用在信息安全的客观情况,包括网络入侵、帐号
数说君
2022-08-25
5730
Adam作者大革新, 联合Hinton等人推出全新优化方法Lookahead
最优化方法一直主导着模型的学习过程,没有最优化器模型也就没了灵魂。好的最优化方法一直是 ML 社区在积极探索的,它几乎对任何机器学习任务都会有极大的帮助。
数说君
2019-08-06
5870
TensorFlow 速成 | 统计师的Python日记 第13天
今天将带来第13天的学习日记,开始学习 TensorFlow,介绍的版本是1.X。本文先认识一下 TensorFlow 的建模流程,学习搭建一个 logistic 回归,再用 TensorFlow 跑一个深度神经网络。
数说君
2019-06-04
6570
轻量级深度学习端侧推理引擎 MNN,阿里开源!
数说君导读:MNN,Mobile Neural Network,用于在智能手机、IoT设备等端侧加载深度神经网络模型,进行推理预测。支持 Tensorflow、Caffe、ONNX 等主流模型格式,支持 CNN、RNN、GAN 等常用网络。这是阿里开源的首个移动AI项目,已经用于阿里手机淘宝、手机天猫、优酷等20多个应用之中。覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。在IoT等移动设备场景下,也有若干应用。
数说君
2019-05-17
6.8K0
支付宝有多安全?看 ATEC 大会上这项技术就明白了
在刚刚过去的 ATEC 科技大会上,蚂蚁金服副总裁芮雄文展示了一项风控技术——识别手机丢失风险。
数说君
2018-10-23
6720
你的每一次点击行为,是如何变成数据的?| 聊一聊互联网公司的内部数据采集
数据是怎么来的? 在很多行业,数据都是人工收集来的,比如医学疾病数据、环境数据、经济数据等。数据的更新周期也比较长,比如年度、月度。 但互联网行业不一样,这个天然的流量行业,数据量巨大,更新周期按天就算长了,通常有小时级、分钟级、实时秒级,甚至来不及落入表中,直接对实时流数据就进行计算。 最后说的这种「流式计算」,之前介绍过:什么是流式计算 | 另一个世界系列,对数据流实时进行计算,不需要存储到表里,主要为了满足一些实时级的需求,比如实时监控、实时个性化推荐等。 不管是「流式计算」还是存储到表里再计算
数说君
2018-04-08
1.6K0
面板数据与Eviews操作指南(下)
三、动态面板数据及Eviews实现 (1)动态面板数据简介 在现实社会中,很多经济关系是动态的,有时需要引入滞后项去解释这些经济关系。动态面板数据模型,即面板数据模型的解释项中纳入被解释变量的滞后项,
数说君
2018-04-08
2.6K0
量化投资之动量反转
量化投资投资之动量反转 微博:@数说工作室网站 微信公众号:数说工作室 那一年,你在我的有效市场里随机游走,不经意间毁灭了我的理性人假设。从此,维持与你相爱的动量效应,成为我人生唯一的投资策略。 ——送给她 一. 行为金融学 1. 行为金融学的发展 20世纪80年代,股票市场一系列经验研究发现了与有效市场不符现象,如股权溢价之谜、动量效应与反转效应、期权微笑等。到20世纪90年代,该领域涌现了大量高质量的理论和实证文献,形成最具活力的行为金融学派。 2002年,诺贝尔经济学奖授予了美国行为经
数说君
2018-04-08
2.3K0
面板数据与Eviews操作指南(下)
面板数据与Eviews操作指南(下) 三、动态面板数据及Eviews实现 (1)动态面板数据简介 在现实社会中,很多经济关系是动态的,有时需要引入滞后项去解释这些经济关系。动态面板数据模型,即面板数据
数说君
2018-04-08
2.2K0
2. 两独立样本非参数检验 | 非参数检验汇总
飞扬 / 撰写 整理 数说君 / 编辑 ---- 1. 关于非参数检验 上一文(1. 单样本非参数检验 | 非参数检验汇总)中已经说过,相比参数检验,非参数检验不需要管那么多假设,想象这样的场景: 我想检验某组数据是否符合某个分布,两组数据的分布是否有差异(废话我当然不知道他们的总体分布,不然我还检验干嘛?) 我不知道两组样本的均值和方差,但我就想检验这两个总体分布是否一样; 这个时候就需要非参数检验,顾名思义,不需要理会那么多参数了。 在第一文中,介绍了单样本的非参数检验——检验某组数据是否符合某种特
数说君
2018-04-08
1.6K0
精确率、召回率、TPR、ROC...... | 机器学习算法常用指标总结
阅读目录 1. TPR、FPR&TNR 2. 精确率Precision、召回率Recall和F1值 3. 综合评价指标F-measure 4. ROC曲线和AUC 5. 参考内容 考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True
数说君
2018-04-08
8.5K0
logistic回归:从生产到使用【下:生产篇】
logistic回归:从生产到使用【下:生产篇】 上篇介绍了logistic模型的原理,如果你只是想使用它,而不需要知道它的生产过程,即拟合方法及编程实现,那么上篇就足够了。如果你想知道它的上游生产,那么请继续。 本篇着重剖析logistic模型的内部生产流程、以及每一个流程的工作原理,暴力拆解。 上下两篇的大纲如下: 【上篇:使用篇】 1. Logistic回归模型的基本形式 2. logistic回归的意义 (1)优势 (2)优势比 (3)预测意义 3. 多分类变量的logistic回归 (1)
数说君
2018-04-08
1.3K0
Python &R 代码 对照速查表
推荐一篇文章,文中将常用机器学习算法的Python和R代码对照整理成一个表,方便查找和对比学习,原文还有PDF的下载。 (版权归原作者所有,点击文末阅读原文查看)
数说君
2018-04-04
1.4K0
特征选择怎么选? | 讨论
想构建一个模型,几十万行数据、400多变量,怎么选? (1)全部塞进去 模型运行慢,一不小心跑一个月能受得了?更关键塞进了那么多无效变量,效果肯定也不好啊。 (2)按照业务理解选择 不是所有场景都那么好选的,而且这样永远无法发现新的异动点。 (3)PCA主成分压缩 首先PCA这个过程就很慢不说,无效变量还是没有被计算进来了。 ...... 那么在实际项目中,你是如何进行特征选择的?哪些方法如何实现呢?
数说君
2018-04-04
7970
【数说学院】机器学习分类大全
作者 | 冰 · 冰 本文及图的作者是两个人,她们是一个女子博士团体——冰 · 冰 图中整理了机器学习的各种方法,大体分为监督式学习、半监督式学习、无监督式学习、增强学习、其他五大类,每一类都有很多算
数说君
2018-04-04
1K0
【微博汇】大数据如何改变我们的衣食住行?
微博(@数说工作室网站)滚动播报大数据动态、咨询、行业最新解读,以及一些数据分享。 以下是本周微博内容的汇总, 一、大数据应用: 看看大数据如何在生活购物、家庭健康、军事农业上改变人类的未来。 生活购物 【新奇加美味:当大数据走进小厨房】 IBM的一群研究人员认为会。他们已经开发出一套软件,能够利用数学、化学和海量数据,炮制出前所未有而又不同寻常的食谱。 为了构建他们的算法,研究者们将我们开发创意时可能会采取的步骤建立了模型。“我们自己创造的食谱中有一些确实非常好吃,比如奶油烤肯尼亚球芽甘蓝
数说君
2018-03-28
7510
单样本非参数检验 | 非参数检验汇总
1. 何为非参数检验 我想检验一组是否是否符合XX分布怎么办?我想检验两个组数据均值是否相当,但又不知道各自的总体均值方差、分布....怎么办?不知道不知道,我什么都不知道,我就想做个检验,怎么办 简单粗暴的说,用非参数检验,你不用管数据是否符合某某分布,甚至极端一点,你再也不用操心数据是否满足那些假定了! 非参数检验(Nonparametrictests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。 参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的
数说君
2018-03-28
1.6K0
数说工作室 2017年干货总结
盘点2017年优质文章,并给出传送链接,方便大家取阅回顾。文末有福利~! 1、Python & R 代码对照速查表 文中将常用机器学习算法的Python和R代码对照整理成一个表,方便查找和对比学习 Python & R 代码 对照速查表 2、文本系列 余弦相似度思想 词频与余弦相似度 TF-IDF 常用距离/相似度 一览 哈希函数的套路 3、什么是 TPU TPU 是专门用来做机器学习的处理器,全称Tensor Processing Unit 张量处理器,与CPU和GPU有什么区别? 懂点硬件 | Al
数说君
2018-03-28
9160
哈希函数的套路 | 文本分析:大规模文本处理(1)
这个系列打算以文本相似度为切入点,逐步介绍一些文本分析的干货。 第一篇中,介绍了文本相似度是干什么的; 第二篇,介绍了如何量化两个文本,如何计算余弦相似度,穿插介绍了分词、词频、向量夹角余弦的概念。 第三篇中,介绍了目前常用的相似度,以及相关 Python 包。 其中具体如何计算,在这里复习: 文本分析 | 余弦相似度思想 文本分析 | 词频与余弦相似度 文本分析 | TF-IDF 文本分析 | 常用距离/相似度 一览 ---- 假如我现在有 5 条文本数据,想计算两两之间的相似度,找出最相似的文本对(比
数说君
2018-03-28
1.7K1
造出一艘logistic模型 | 【logistic从生产到使用】(上) | 数说 · 算法
前几天飞扬博士更新了一篇算法文章,关于softmax regression的,它是logistic模型的扩展,因此要是能有些logistic regression的底子就看起来非常容易,因此在发softmax regression之前,重新复习一下logistic模型。 一句话介绍: logistic regression,它用回归模型的形式来预测某种事物的可能性,并且使用优势(Odds)来考察“某事物发生的可能性大小”。 ---- 之前介绍过的几个算法,如KNN、决策树等(在微信公众号“数说工作室”中回
数说君
2018-03-28
1.1K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档