首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏成员
2119
文章
2529093
阅读量
188
订阅数
快速选择合适的机器学习算法
本文主要适用于初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。
小莹莹
2018-07-24
6320
数据科学家最常用的十大机器学习算法
在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。
小莹莹
2018-07-24
5240
【案例】如何用大数据优化技术提高Linkedin内容运营效果数十倍?实战干货分享
作者简介 宋碧莲博⼠是商业优化专家。 擅长机器学习客户行为,海量数据价值挖掘,对商业目标精准预测和决策优化。曾经是Linkedin,eBay的大数据核⼼成员。有近10年一线企业实战经验。曾为eBay数字营销优化挖掘上亿美元机会。被Linkedin CEO 誉为最好的分析师, 获Linkedin改⾰奖。 宋碧莲博士(Sophia) 2015年在硅谷创立了大数据公司Datatist (公众号为Datatist大数据家), 名字源于连接各位大数据专家共创美好未来的愿望。 致力于用机器学习技术自动优化企业的商业
小莹莹
2018-04-25
1.2K0
面试机器学习、数据挖掘等大数据岗位必备
part1—-面试常见内容及面试技巧 机器学习、大数据相关岗位的职责 自己参与面试的提供算法岗位的公司有 BAT、小米、360、飞维美地、宜信、猿题库 等,根据业务的不同,岗位职责大概分为: 平台搭
小莹莹
2018-04-25
8390
天龙八部:一张图告诉你如何8步炼成数据科学家
如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。 OK, 这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。 接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤。拿好不谢~ 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧。数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的典型教育背景是:高中5%,技校5%,
小莹莹
2018-04-25
1K0
【干货长文】神经网络浅讲:从神经元到深度学习
  神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。   本文以一种简单的,循
小莹莹
2018-04-25
6890
必须了解的8种神经网络架构
机器学习已经在各个行业得到了大规模的广泛应用,并为提升业务流程的效率、提高生产率做出了极大的贡献。目前机器学习主要在以下方面应用: 模式识别:实际场景中的目标、包括人脸、表情、语音识别等等; 异常检测:例如信用卡交易的异常检测、传感器异常数据模式检测和异常行为检测等; 预测问题:预测股票或者汇率、或者预测消费者喜欢的电影、音乐等。 神经网络是一类机器学习算法和模型的统称,也是目前机器学习发展最快的一个领域。神经网络的架构主要分为三大类——前馈、循环和对称链接网络。神经网络具有如下三个特征使它成为了机器
小莹莹
2018-04-24
2K0
什么是最大似然估计、最大后验估计以及贝叶斯参数估计
假如你有一个硬币。你把它投掷 3 次,出现了 3 次正面。下一次投掷硬币正面朝上的概率是多少? 这是一个从数据中估计参数的基础机器学习问题。在这种情况下,我们要从数据 D 中估算出正面朝上 h 的概率
小莹莹
2018-04-24
1.3K0
数据驱动决策的13种思维
“数据驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,相信将来你一定能用上! 第一、信度与效度思维 这部分也许是全文最难理解的部分,但我觉得也最为重要。没有这个思维,决策者很有可能在
小莹莹
2018-04-24
1.3K0
【重磅】百度高层剧烈震荡,首席科学家吴恩达宣布辞职!
编者按:吴恩达( Andrew Ng)绝对是顶级的机器学习研究专家,在工程界非常受欢迎。他在斯坦福公开课里面主讲《机器学习》,有超过800名学生选修,几乎是斯坦福历史上最多人同时选修的课程。吴恩达的离开对于正在全力投入AI领域的百度应该说是一个不小的损失。百度已经远不是一个技术驱动型的公司,目前要掉头回来研究(搞)技术(基)的确面临不小的挑战,王劲、吴恩达两位重量级人物的离职,再次为百度的前路蒙上了一层阴影。 吴恩达公开信: 亲爱的朋友们: 我将从百度辞职,之前在百度我一直领导AI团队。百度AI非常强
小莹莹
2018-04-24
8450
diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)
现在NLP技术那么发达了,各种工具那么NB了,可是用R做文本分析的人居然还得为如何读文件不乱码、如何分词、如何统计词频这样的事犯难,也是醉了。如果老停留在这个水平上,那各位亲你们离自己整天挂在嘴边儿的大数据机器学习之类的基本上就无缘了。所以希望大家能把更多精力放到算法上,而不是用在一些琐碎、浪费时间又极其恼人的事情上。 其实像文本清理这种活儿,基本上就应该是用鼠标点吧点吧就能自动完成的,若要还费半天劲的话纯属扯淡。 所以,chinese.misc这个R包就要来完成这个任务。 chinese.misc
小莹莹
2018-04-24
1.1K0
轻松看懂机器学习十大常用算法
来源:不会停的蜗牛 链接:http://www.jianshu.com/p/55a67c12d3e9 通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)。以后有机会再对单个算法做深入地解析。 今天的算法如下: 决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboost 算法 神经网络 马尔可夫 1. 决策树 根据一些 feature 进行分类,每个节点提一个问题,通过判断,将
小莹莹
2018-04-24
7020
案例 | 机器学习案例实战:信用卡欺诈检测
作者简介: 唐宇迪,深度学习领域多年一线实践研究专家,同济大学硕士。 主要研究深度学习领域,计算机视觉,图像识别。精通机器学习,热爱各种开源技术尤其人工智能方向。在图像识别领域有着丰富经验,实现过包括人脸识别,物体识别,关键点检测等多种应用的最新算法。 故事背景 原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。 imp
小莹莹
2018-04-24
1.7K0
写给大数据开发初学者的话
导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hadoop上的数据搞到别处去 第五章:快一点吧,我的SQL 第六章:一夫多妻制 第七章:越来越多的分析任务 第八章:我的数据要实时 第九章:我的数据要对外 第十章:牛逼高大上的机器学习 经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你
小莹莹
2018-04-24
7120
工具 | Facebook 开源产业级深度学习框架 Caffe2,带来跨平台机器学习工具
来源:caffe2.ai 作者:caffe2 team 译者:文强 【导读】近日,Facebook 宣布开源 production-ready 的深度学习框架 Caffe2,轻量级、模块化,在移动端和云上都做了优化。同时提供的还有 C++ 和 Python API,以及模型库 Caffe2 Model Zoo,里面有视觉、语音、翻译等预训练模型,方便开发人员和研究者直接使用。 AI 模型的训练和部署通常与大量数据中心或超级计算机相关联,原因很简单。从大规模的图像、视频、文本和语音等各种信息中持续处理、创
小莹莹
2018-04-24
6930
三张图读懂机器学习 :基本概念、五大流派与九种常见算法
机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展仍还在继续,甚至被认为有可能彻底改变人类文明的发展方向乃至人类自身。但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布了多份解读机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。为便于读者阅读,机器之心对这些图表进行了编译和拆分,分三大部分对这些内容进行了呈现,希望能帮助你进一步阅
小莹莹
2018-04-24
1.7K0
进阶篇:从 0 到 1 掌握 Python 机器学习(附资源)
进阶篇 机器学习算法 本篇是使用 Python 掌握机器学习的 7 个步骤系列文章的下篇,如果你已经学习了该系列的上篇基础篇:从 0 到 1 掌握 Python 机器学习(附资源),那么应该达到了令人
小莹莹
2018-04-24
9030
基础篇:从 0 到 1 掌握 Python 机器学习(附资源)
Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,至于后面再从 1 到 100 变成机器学习专家,就要看你自己的努力了。本教程原文分为两个部分,机器之心在本文中将其进行了整合,原文可参阅:http://suo.im/KUWgl 和 http://suo.im/96wD3。本教程的作者为 KDnuggets 副主编兼数据科学家 Matthew Mayo。 「开始
小莹莹
2018-04-24
8080
机器学习入门阶段易犯的 5 个错误
怎样进入机器学习领域没有定式。我们的学习方式都有些许不同,学习的目标也因人而异。 但一个共同的目标就是要能尽快上手。 如果这也是你的目标,那么这篇文章为你列举了程序员们在通往机器学习高手道路上常见的五种错误。 1. 将机器学习看得高不可攀 机器学习不过是另一堆技术的集合,你可以用它来解决复杂问题。这是一个飞速发展的领域,因此,机器学习的学术交流一般出现在学术期刊及研究生的课本里,让它看起来高不可攀又难于理解。 要想高效掌握机器学习,我们需要转变观念,从技术转到方法,由精确变为“足够好”,这也同样适用于程
小莹莹
2018-04-24
6690
聚类分析:k-means和层次聚类
尽管我个人非常不喜欢人们被划分圈子,因为这样就有了歧视、偏见、排挤和矛盾,但“物以类聚,人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。 前面所提到的机器学习算法主要都是分类和回归,这两类的应用场景都很清晰,就是对分类型变量或者数值型变量的预测。聚类分析是一种根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。 有人不理解分类和聚类的差别,其实这个很简单:分类是一个已知具体有几种情况的变量,
小莹莹
2018-04-24
2.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档