首页
学习
活动
专区
工具
TVP
发布

数据科学与人工智能

专栏作者
811
文章
1008959
阅读量
170
订阅数
学习| 如何处理不平衡数据集
分类是机器学习中最常见的问题之一。处理任何分类问题的最佳方法是从分析和探索数据集开始,我们称之为探索性数据分析(EDA)。唯一目的是生成尽可能多的关于数据的见解和信息。它还用于查找数据集中可能存在的任何问题。在用于分类的数据集中发现的一个常见问题是不平衡类问题。
陆勤_数据人网
2019-05-16
2K0
【ML】机器学习项目清单
我发现编写和比较特定过程的各种解释的活动,以实现自己对所述过程的解释是有价值的。 我先前已经对我们可以称之为机器学习过程的其他解释做了这样的事情(至少在某种程度上,可以合理地与数据科学或数据挖掘过程紧密结合)你可以在这里,这里和这里找到示例。
陆勤_数据人网
2019-03-08
5100
Python scikit-learn 做线性回归
线性回归是简单易用的机器学习算法,scikit-learn是python强大的机器学习库。 本篇文章利用线性回归算法预测波士顿的房价。波士顿房价数据集包含波士顿郊区住房价值的信息。 第一步:Pytho
陆勤_数据人网
2018-02-28
1.3K0
Python玩机器学习简易教程
本文介绍利用Python和Python的机器学习库scikit-learn完成一个端到端的机器学习项目。 俗话说,“师傅领进门,修行在个人”。本文就是扮演领进门这种角色,至于各位看官能够修行到什么境界,全凭自己。 1 设置环境 2 导入所需库和模块 3 加载数据集 4 数据集划分为训练集和测试集 5 数据预处理 6 参数调优 7 模型优化(交叉验证) 8 全数据拟合 9 模型评估 10 模型保存 1 设置环境 检查电脑是否安装了Python以及相应库numpy/pandas/scikit-learn。 若是
陆勤_数据人网
2018-02-28
1.2K0
【Python语言】Scikit-learn 快速入门
环境 ubuntu 12.04, 64 bits python 2.7 sklearn 0.14 准备 sklearn 快速入门的官方文档7。这个文档主要描述机器学习的概念,以及如何加载数据,训练模型,保存模型。 这里提供另外一个更加详细的材料,这份材料基于ipython notebook(可选),可以在浏览器里运行代码,功能强大,演示效果非常好,github下载地址6。 将材料下载到本地: git clone git@github.com:jakevdp/sklearn_pycon2013.git 安装
陆勤_数据人网
2018-02-27
4960
【Python环境】Python分类现实世界的数据
引入 一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。 Iris数据集 Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virgin
陆勤_数据人网
2018-02-27
9310
【Python环境】基于 Python 和 Scikit-Learn 的机器学习介绍
你好,%用户名%! 我叫Alex,我在机器学习和网络图分析(主要是理论)有所涉猎。我同时在为一家俄罗斯移动运营商开发大数据产品。这是我第一次在网上写文章,不喜勿喷。 现在,很多人想开发高效的算法以及参加机器学习的竞赛。所以他们过来问我:”该如何开始?”。一段时间以前,我在一个俄罗斯联邦政府的下属机构中领导了媒体和社交网络大数据分析工具的开发。我仍然有一些我团队使用过的文档,我乐意与你们分享。前提是读者已经有很好的数学和机器学习方面的知识(我的团队主要由MIPT(莫斯科物理与技术大学)和数据分析学院的毕业生构
陆勤_数据人网
2018-02-27
7550
【数据科学家】数据大师Olivier Grisel给志向高远的数据科学家的指引
Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。 在上一篇博文里(CSDN[注]译文:[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来),我记录了谈话的内容,他们主要探讨了scikit-learn和
陆勤_数据人网
2018-02-27
6260
【Python环境】scikit-learn的线性回归模型
内容概要 如何使用pandas读入数据 如何使用seaborn进行数据的可视化 scikit-learn的线性回归模型和使用方法 线性回归模型的评估测度 特征选择的方法 作为有监督学习,分类问题是预测类别结果,而回归问题是预测一个连续的结果。 1. 使用pandas来读取数据 Pandas是一个用于数据探索、数据处理、数据分析的Python库 In [1]: import pandas as pd In [2]: # read csv file directly from a URL and save th
陆勤_数据人网
2018-02-27
1.2K0
【Python环境】监督学习之KNN算法
1、ipython是一个python的交互式shell,比默认的python shell好用得多,支持变量自动补全,自动缩进,支持bash shell命令,内置了许多很有用的功能和函数。在ubuntu下只要sudo apt-get install ipython 就装好了,通过ipython启动。 2、iris.csv数据集以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类[山鸢尾(Iris setosa)、变色鸢尾(Iris versicolor)和维吉尼亚鸢尾(Iris virginica)
陆勤_数据人网
2018-02-27
8490
【Python环境】使用 scikit-learn 进行机器学习的简介
概要: 该章节,我们将介绍贯穿scikit-learn使用中的“机器学习(Machine Learning)”这个词汇,并给出一些简单的学习示例。 一、机器学习:问题设定 通常,一个学习问题是通过分析一些数据样本来尝试预测未知数据的属性。如果每一个样本不仅仅是一个单独的数字,比如一个多维的实例(multivariate data),也就是说有着多个属性特征 我们可以把学习问题分成如下的几个大类: (1)有监督学习 数据带有我们要预测的属性。这种问题主要有如下几种: ①分类 样例属于两类或多类,我们想要从
陆勤_数据人网
2018-02-27
9270
【Python环境】Scikit-Learn:开源的机器学习Python模块
scikit-learn是一个用于机器学习的 Python 模块,建立在SciPy基础之上,获得3-Clause BSD 开源许可证。这个项目是由 David Cournapeau 在 2007 年发
陆勤_数据人网
2018-02-27
6340
【Python环境】Olivier Grisel谈scikit-learn和机器学习技术的未来
几周前,我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈,正好我得到这个机会去旁听。Olivier是scikit-learn机器学习库的主要贡献者,因此他们两个详细地讨论了Olivier的工作和其它技术的发展。这是采访的第一部分。 Olivier Grisel 和 scikit-learn FD:Olivier,你作为scikit-learn的主要贡献者已经有一段时间了。你可以告诉我们一些关于你的贡献么? OG:大概是2010年,我就开始做scikit-
陆勤_数据人网
2018-02-26
8250
【Python环境】机器学习反欺诈实践:Python+scikit-learn+随机森林
作者:Jun He 出处:CSDN 将机器学习算法用于金融领域的一个很好的突破口是反欺诈,在这篇博文中,WePay介绍了支付行业构建机器学习模型应对很难发现的shell selling欺诈的实践心得。WePay采用了流行的Python、scikit-learn开源学习机器学习工具以及随机森林算法。以下是文章内容: 什么是shell selling? 虽然欺诈几乎涉及各种领域,但相对于传统的买方或卖方仅仅担心对方是否是骗子,支付平台需要担心的是交易双方。如果其中任何一方存在信用诈骗,真正的持卡人发现和
陆勤_数据人网
2018-02-26
1.2K0
【陆勤践行】WePay机器学习反欺诈实践:Python+scikit-learn+随机森林
什么是shell selling? 虽然欺诈几乎涉及各种领域,但相对于传统的买方或卖方仅仅担心对方是否是骗子,支付平台需要担心的是交易双方。如果其中任何一方存在信用诈骗,真正的持卡人发现和撤销费用,平台自身就要进行账单偿还。 shell selling是在这种情况下特别受关注的欺诈类型的一种。基本上,当交易双方都带有欺骗性质时,这种模式便会发生,比如说有一个犯罪分子用偷来的一个信用卡账户来支付两笔支付。 shell selling可能很难发现,因为这些欺骗者姿态很低调。他们通常没有多少“真正”的客户,所以你
陆勤_数据人网
2018-02-26
6120
【知识】图解机器学习
每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客
陆勤_数据人网
2018-02-26
5300
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档