首页
学习
活动
专区
工具
TVP
发布

深度学习入门与实践

专栏作者
48
文章
72236
阅读量
44
订阅数
【原】深度学习的一些经验总结和建议 | To do v.s Not To Do
前言:本文同步发布于公众号:Charlotte数据挖掘,欢迎关注,获得最新干货~  
Charlotte77
2019-07-23
4110
PaddlePaddle分布式训练及CTR预估模型应用
  github:https://github.com/huxiaoman7/PaddleAI
Charlotte77
2019-05-25
8310
【资料总结】| Deep Reinforcement Learning 深度强化学习
  在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习。有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准。如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略。简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食的时候吃零食,而不是在不合适的时间吃零食。同样,曾经风靡过一段时间的Flappy bird,很多玩家在短时间内达到了高分,是怎么做到的呢?除了非常厉害的玩家是真的自己手动玩的高分,其实很多高分是通过我们用强化学习的方法来训练一个模型,让小鸟自己学习如何不碰到障碍物一直往前飞,获得最高分。此外,大家熟知的Alpha Go,其实也是强化学习训练的模型,不过是深度强化学习。
Charlotte77
2019-05-25
6450
【机器学习】如何解决数据不平衡问题
在机器学习的实践中,我们通常会遇到实际数据中正负样本比例不平衡的情况,也叫数据倾斜。对于数据倾斜的情况,如果选取的算法不合适,或者评价指标不合适,那么对于实际应用线上时效果往往会不尽人意,所以如何解决数据不平衡问题是实际生产中非常常见且重要的问题。
Charlotte77
2019-05-25
1.4K0
【深度学习系列】PaddlePaddle垃圾邮件处理实战(二)
  在上篇文章中我们讲了如何用支持向量机对垃圾邮件进行分类,auc为73.3%,本篇讲继续讲如何用PaddlePaddle实现邮件分类,将深度学习方法运用到文本分类中。
Charlotte77
2018-07-31
5720
【深度学习系列】PaddlePaddle垃圾邮件处理实战(一)
PaddlePaddle垃圾邮件处理实战(一) 背景介绍   在我们日常生活中,经常会受到各种垃圾邮件,譬如来自商家的广告、打折促销信息、中国澳门博彩邮件、理财推广信息等,一般来说邮件客户端都会设置一定的关键词屏蔽这种垃圾邮件,或者对邮件进行归类,但是总会有一些漏网之鱼。   不过,自己手动做一个垃圾邮件分类器也并不是什么难事。传统的机器学习算法通常会采用朴素贝叶斯、支持向量机等算法对垃圾邮件进行过滤,今天我们主要讲如何用PaddlePaddle手写一个垃圾邮件分类器。当然
Charlotte77
2018-05-28
2.2K2
【深度学习系列】用PaddlePaddle进行人脸识别
上个案例中我们讲了如何用PaddlePaddle进行车牌识别的方法,这次的案例中会讲到如何用PaddlePaddl进行人脸识别,在图像识别领域,人脸识别也属于比较常见且成熟的方向了,目前也有很多商业化的工具进行人脸识别。广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位或检测、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身
Charlotte77
2018-04-16
2.6K0
【深度学习】用PaddlePaddle进行车牌识别(二)
  上节我们讲了第一部分,如何用生成简易的车牌,这节课中我们会用PaddlePaddle来识别生成的车牌。 ---- 数据读取   在上一节生成车牌时,我们可以分别生成训练数据和测试数据,方法如下(完整代码在这里): 1 # 将生成的车牌图片写入文件夹,对应的label写入label.txt 2 def genBatch(self, batchSize,pos,charRange, outputPath,size): 3 if (not os.path.exists(outputPath))
Charlotte77
2018-04-04
1.4K0
2017年总结与2018年目标和计划
  前段时间看到版内经常会有2017年的总结,但我总觉得年还没过,2017就不算真正的过完,上周五公司开了部门年会,这周五公司要开公司年会,年会完了再过一周多就准备回家了,一年才算快到头了。今年对于我而言是一个多变的一年,到年底我算工作了两年半了,打算从以下几个方面总结: 2017 工作 ---- 上半年:上半年负责了部门最重要的一个项目,通过算法对用户人群进行分级,把公司的订单转换率提高了原来的订单转化率的2~4倍(月均),带来的大概是每月几百万~几千万的业务,业务方很满意,当然也是加班3个月的结果,从4
Charlotte77
2018-03-19
6910
【深度学习系列】CNN模型的可视化
前面几篇文章讲到了卷积神经网络CNN,但是对于它在每一层提取到的特征以及训练的过程可能还是不太明白,所以这节主要通过模型的可视化来神经网络在每一层中是如何训练的。我们知道,神经网络本身包含了一系列特征提取器,理想的feature map应该是稀疏的以及包含典型的局部信息。通过模型可视化能有一些直观的认识并帮助我们调试模型,比如:feature map与原图很接近,说明它没有学到什么特征;或者它几乎是一个纯色的图,说明它太过稀疏,可能是我们feature map数太多了(feature_map数太多也反映了
Charlotte77
2018-03-19
1.4K0
【深度学习系列】PaddlePaddle可视化之VisualDL
  上篇文章我们讲了如何对模型进行可视化,用的keras手动绘图输出CNN训练的中途结果,本篇文章将讲述如何用PaddlePaddle新开源的VisualDL来进行可视化。在讲VisualDL之前,我们先了解一下常用的Tensorflow的可视化工具---Tensorboard。 ---- Tensorflow的可视化   Tensorboard是Tensorflow自带的可视化模块,我们可以通过Tensorboard直观的查看神经网络的结构,训练的收敛情况等。要想掌握Tensorboard,我们需要知道一
Charlotte77
2018-03-19
1.3K0
【深度学习系列】关于PaddlePaddle的一些避“坑”技巧
最近除了工作以外,业余在参加Paddle的AI比赛,在用Paddle训练的过程中遇到了一些问题,并找到了解决方法,跟大家分享一下: ---- PaddlePaddle的Anaconda的兼容问题   之前我是在服务器上安装的PaddlePaddle的gpu版本,我想把BROAD数据拷贝到服务器上面,结果发现我们服务器的22端口没开,不能用scp传上去,非常郁闷,只能在本地训练。本机mac的显卡是A卡,所以只能装cpu版本的,安装完以后,我发现运行一下程序的时候报错了: 1 import paddle.v2
Charlotte77
2018-03-19
1.1K0
【深度学习系列】迁移学习Transfer Learning
  在前面的文章中,我们通常是拿到一个任务,譬如图像分类、识别等,搜集好数据后就开始直接用模型进行训练,但是现实情况中,由于设备的局限性、时间的紧迫性等导致我们无法从头开始训练,迭代一两百万次来收敛模型,所以这个时候迁移学习就派上用场了。 ---- 什么是迁移学习?   迁移学习通俗来讲,就是运用已有的知识来学习新的知识,核心是找到已有知识和新知识之间的相似性,用成语来说就是举一反三。由于直接对目标域从头开始学习成本太高,我们故而转向运用已有的相关知识来辅助尽快地学习新知识。比如,已经会下中国象棋,就可以类
Charlotte77
2018-03-19
9450
【深度学习系列】用PaddlePaddle进行车牌识别(一)
小伙伴们,终于到了实战部分了!今天给大家带来的项目是用PaddlePaddle进行车牌识别。车牌识别其实属于比较常见的图像识别的项目了,目前也属于比较成熟的应用,大多数老牌厂家能做到准确率99%+。传统的方法需要对图像进行多次预处理再用机器学习的分类算法进行分类识别,然而深度学习发展起来以后,我们可以通过用CNN来进行端对端的车牌识别。任何模型的训练都离不开数据,在车牌识别中,除了晚上能下载到的一些包含车牌的数据是不够的,本篇文章的主要目的是教大家如何批量生成车牌。 ---- 生成车牌数据 1.定义车牌
Charlotte77
2018-03-19
1.8K0
【深度学习系列】卷积神经网络详解(二)——自己手写一个卷积神经网络
Screenshot (15).png   上篇文章中我们讲解了卷积神经网络的基本原理,包括几个基本层的定义、运算规则等。本文主要写卷积神经网络如何进行一次完整的训练,包括前向传播和反向传播,并自己手写一个卷积神经网络。如果不了解基本原理的,可以先看看上篇文章:【深度学习系列】卷积神经网络CNN原理详解(一)——基本原理  卷积神经网络的前向传播   首先我们来看一个最简单的卷积神经网络: image.png  1.输入层---->卷积层 以上一节的例子为例,输入是一个4*4 的image,经过两个2
Charlotte77
2018-01-15
2.4K0
【深度学习系列】用PaddlePaddle和Tensorflow实现经典CNN网络AlexNet
上周我们用PaddlePaddle和Tensorflow实现了图像分类,分别用自己手写的一个简单的CNN网络simple_cnn和LeNet-5的CNN网络识别cifar-10数据集。在上周的实验表现中,经过200次迭代后的LeNet-5的准确率为60%左右,这个结果差强人意,毕竟是二十年前写的网络结构,结果简单,层数也很少,这一节中我们讲讲在2012年的Image比赛中大放异彩的AlexNet,并用AlexNet对cifar-10数据进行分类,对比上周的LeNet-5的效果。 什么是AlexNet? A
Charlotte77
2018-01-15
8320
【深度学习系列】用PaddlePaddle和Tensorflow实现GoogLeNet InceptionV2/V3/V4
上一篇文章我们引出了GoogLeNet InceptionV1的网络结构,这篇文章中我们会详细讲到Inception V2/V3/V4的发展历程以及它们的网络结构和亮点。 GoogLeNet Inception V2 GoogLeNet Inception V2在《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》出现,最大亮点是提出了Batch Normalization
Charlotte77
2018-01-15
6910
【原】浅谈KL散度(相对熵)在用户画像中的应用
  最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接。   首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵,信息增益,它是度量两个概率分布P与Q之间差异的一种不对称度量,可以看做是概率分布P到目标概率Q之间距离。一般情况下,P表示数据的真是分布,Q表示数据的理论分布,也可以理解为影响P分布的一种因素。计算公式为:                
Charlotte77
2018-01-09
1.1K0
【原】数据分析/数据挖掘/机器学习---- 必读书目
总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下面列的书基本上我写的都是读完过的,不然不敢写,怕误人子弟  = =,持续更新ing~ 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所以领导要我两星期把R学会,当时看的有这些书 1.R语言实战 评价:很好的入门书,从安装、入门、基本的统计分析,作图命令,以及常见的分类、回归、降维等方法都有写 推荐指数:五颗星 2.数据分析-R语言实战 评
Charlotte77
2018-01-09
2.2K0
【原】KMeans与深度学习自编码AutoEncoder结合提高聚类效果
这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: 1 id goods_name goods_amount 2 1 男士手袋 1882.0 3 2 淑女装 2491.0 4 2 女士手袋 345.0 5 4 基础内衣 328.0 6 5 商务正装 4985.0 7 5 时尚 969.0 8 5 女饰品 86.0
Charlotte77
2018-01-09
1.8K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档