首页
学习
活动
专区
工具
TVP
发布

月色的自留地

专栏作者
113
文章
208418
阅读量
65
订阅数
梯度下降法基本推导--机器学习最基本的起点
仍然是一篇入门文,用以补充以前文章中都有意略过的部分。 之前的系列中,我们期望对数学并没有特别喜好的程序员,也可以从事人工智能应用的开发。但走到比较深入之后,基本的数学知识,还是没办法躲过的。
俺踏月色而来
2019-06-22
8800
TensorFlow从1到2(十五)(完结)在浏览器做机器学习
TensorFlow一直努力扩展自己的基础平台环境,除了熟悉的Python,当前的TensorFlow还实现了支持Javascript/C++/Java/Go/Swift(预发布版)共6种语言。 越来越多的普通程序员,可以容易的在自己工作的环境加入机器学习特征,让产品更智能。
俺踏月色而来
2019-05-17
8870
TensorFlow从1到2(十四)评估器的使用和泰坦尼克号乘客分析
通常认为评估器因为内置的紧密结合,运行速度要高于Keras。Keras一直是一个通用的高层框架,除了支持TensorFlow作为后端,还同时支持Theano和CNTK。高度的抽象肯定会影响Keras的速度,不过本人并未实际对比测试。我觉的,对于大量数据导致的长时间训练来说,这点效率上的差异不应当成为大问题,否则Python这种解释型的语言就不会成为优选的机器学习基础平台了。 在TensorFlow 1.x中可以使用tf.estimator.model_to_estimator方法将Keras模型转换为TensorFlow评估器。TensorFlow 2.0中,统一到了tf.keras.estimator.model_to_estimator方法。所以如果偏爱评估器的话,使用Keras也不会成为障碍。
俺踏月色而来
2019-05-15
9340
TensorFlow从1到2(十二)生成对抗网络GAN和图片自动生成
上一篇中介绍的VAE自动编码器具备了一定程度的创造特征,能够“无中生有”的由一组随机数向量生成手写字符的图片。 这个“创造能力”我们在模型中分为编码器和解码器两个部分。其能力来源实际上是大量样本经过学习编码后,在数字层面对编码结果进行微调,再解码生成图片的过程。所生成的图片,是对原样本图的某种变形模仿。
俺踏月色而来
2019-05-15
1.1K0
TensorFlow从1到2(十)带注意力机制的神经网络机器翻译
机器翻译和语音识别是最早开展的两项人工智能研究。今天也取得了最显著的商业成果。 早先的机器翻译实际脱胎于电子词典,能力更擅长于词或者短语的翻译。那时候的翻译通常会将一句话打断为一系列的片段,随后通过复杂的程序逻辑对每一个片段进行翻译,最终组合在一起。所得到的翻译结果应当说似是而非,最大的问题是可读性和连贯性非常差。 实际从机器学习的观点来讲,这种翻译方式,也不符合人类在做语言翻译时所做的动作。其实以神经网络为代表的机器学习,更多的都是在“模仿”人类的行为习惯。 一名职业翻译通常是这样做:首先完整听懂要翻译的语句,将语义充分理解,随后把理解到的内容,用目标语言复述出来。 而现在的机器翻译,也正是这样做的,谷歌的seq2seq是这一模式的开创者。 如果用计算机科学的语言来说,这一过程很像一个编解码过程。原始的语句进入编码器,得到一组用于代表原始语句“内涵”的数组。这些数组中的数字就是原始语句所代表的含义,只是这个含义人类无法读懂,是需要由神经网络模型去理解的。随后解码过程,将“有含义的数字”解码为对应的目标语言。从而完成整个翻译过程。这样的得到的翻译结果,非常流畅,具有更好的可读性。
俺踏月色而来
2019-05-14
6940
TensorFlow从1到2(九)迁移学习
迁移学习是这两年比较火的一个话题,主要原因是在当前的机器学习中,样本数据的获取是成本最高的一块。而迁移学习可以有效的把原有的学习经验(对于模型就是模型本身及其训练好的权重值)带入到新的领域,从而不需要过多的样本数据,也能达到大批量数据所达成的效果,进一步节省了学习的计算量和时间。
俺踏月色而来
2019-05-10
1.8K0
TensorFlow从1到2(六)结构化数据预处理和心脏病预测
前面所展示的一些示例已经很让人兴奋。但从总体看,数据类型还是比较单一的,比如图片,比如文本。 这个单一并非指数据的类型单一,而是指数据组成的每一部分,在模型中对于结果预测的影响基本是一致的。 更通俗一点说,比如在手写数字识别的案例中,图片坐标(10,10)的点、(14,14)的点、(20,20)的点,对于最终的识别结果的影响,基本是同一个维度。 再比如在影评中,第10个单词、第20个单词、第30个单词,对于最终结果的影响,也在同一个维度。 是的,这里指的是数据在维度上的不同。在某些问题中,数据集中的不同数据,对于结果的影响维度完全不同。这是数据所代表的属性意义不同所决定的。这种情况在《从锅炉工到AI专家(2)》一文中我们做了简单描述,并讲述了使用规范化数据的方式在保持数据内涵的同时降低数据取值范围差异对于最终结果的负面影响。 随着机器学习应用范围的拓展,不同行业的不同问题,让此类情况出现的越加频繁。特别是在与大数据相连接的商业智能范畴,数据的来源、类型、维度,区别都很大。 在此我们使用心脏病预测的案例,对结构化数据的预处理做一个分享。
俺踏月色而来
2019-05-07
1K0
TensorFlow从1到2(五)图片内容识别和自然语言语义识别
上一节我们讲过了完整的保存模型及其训练完成的参数。 Keras中使用这种方式,预置了多个著名的成熟神经网络模型。当然,这实际是Keras的功劳,并不适合算在TensorFlow 2.0头上。 当前TensorFlow 2.0-alpha版本捆绑的Keras中包含:
俺踏月色而来
2019-04-25
2.1K0
从锅炉工到AI专家(4)
手写数字识别问题 图像识别是深度学习众多主流应用之一,手写数字识别则是图像识别范畴简化版的入门学习经典案例。在TensorFlow的官方文档中,把手写数字识别“MNIST”案例称为机器学习项目的“Hello World”。从这个案例开始,我们的连载才开始有了一些“人工智能”的感觉。 问题的描述是这样: 有一批手写数字的图片,对应数字0-9。通过机器学习的算法,将这些图片对应到文本字符0-9。用通俗的话来说,就是计算机认出了图片上面手写的数字。 从问题描述可见这个机器学习项目的“Hello World”
俺踏月色而来
2018-06-20
6440
从锅炉工到AI专家(5)
图像识别基本原理 从上一篇开始,我们终于进入到了TensorFlow机器学习的世界。采用第一个分类算法进行手写数字识别得到了一个91%左右的识别率结果,进展可喜,但成绩尚不能令人满意。 结果不满意的原因,当然还是算法太简单了。尽管我们都已经接受了“所有问题都可以用数学公式来描述”这个观点,但直接把一幅图片展开的784个数字作为方程式参数进行一个线性运算+非线性分类器就叫做“人工智能”怎么都感觉那么不靠谱...至于能得到91%不高的识别率,从这个意义上说,似乎都令人有点不太相信。这个不相信不是指91%太低了
俺踏月色而来
2018-06-20
6872
从锅炉工到AI专家(6)
欠拟合和过拟合 几乎所有的复杂方程都存在结果跟预期差异的情况,越复杂的方程,这种情况就越严重。这里面通常都是算法造成的,当然也存在数据集的个体差异问题。 所以”欠拟合“和”过拟合“是机器学习过程中重
俺踏月色而来
2018-06-20
4810
从锅炉工到AI专家(7)
说说计划 不知不觉写到了第七篇,理一下思路: 学会基本的概念,了解什么是什么不是,当前的位置在哪,要去哪。这是第一篇希望做到的。同时第一篇和第二篇的开始部分,非常谨慎的考虑了非IT专业的读者。希望借此沟通技术人员和产品人员,甚至管理和销售人员。我信服“上下同欲者胜”,所以也非常害怕因为大家对概念完全不同的理解而影响到团队的合作。 从最简单的部分入手,由概念到代码,完成技术破冰。这是第二、三篇希望做到的。 逐步迭代,从简单概念到复杂概念,从简单算法到复杂算法,接触到机器学习现实最常用的技术。这是四、五、六篇希
俺踏月色而来
2018-06-20
5690
从锅炉工到AI专家(8)
ImageNet 基础部分完成,从本篇开始,会略微的增加一些难度。 通常说,在解决问题的时候,大多程序员都会在网上搜索,寻找一些相似相近的案例作为参考。这个方式在机器学习领域同样有效。可惜早期的时候,各公司的保密还是做的比较严格,时至今日有了很大改善,但在整个IT行业中,机器学习领域,各公司的研发成果保密仍然是最严重的。 因此,ImageNet对机器学习的推动更是难能可贵和功不可没。在机器学习尚处于摸索阶段,大家在都没有大规模投资的情况下艰苦研究的时候,ImageNet提供了一个迄今也是最大的已标注视觉
俺踏月色而来
2018-06-20
6190
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档