机器学习项目到底怎么做? 站在巨人的肩膀上!-----资料分享

很久没有更新图形图像处理方面的博客了,最近在培训数据发掘方面的技术,就把学到的东西和大家分享下。机器学习的项目到底怎么做呢?具体如何和业务结合落地,我们一起来慢慢探索这整个的生态圈。


1. 压箱底的资料

还有一些平时收集 的压箱底的资料拿出来和大家分享下:

1.1 IPOL —-经典计算机视觉算法的c实现

http://www.ipol.im/?utm_source=doi

1.2 https://www.codecademy.com/ —-在线编程自学成才

我的python就是在这个网站自学的,基本上把python的基本数据结构,list,dist等等介绍了一遍,只要一周左右甚至更短的时间就可以基本掌握一门全新的语言

1.3 在线绘制框图—-没有visio的最好选择

https://www.processon.com/

如果没有visio这是最好的选择!

1.4 一些大牛的博客

刘未鹏 http://mindhacks.cn/ http://mindhacks.cn/2011/11/04/how-to-interview-a-person-for-two-years/ http://mindhacks.cn/2012/08/27/modern-cpp-practices/

廖雪峰的python教程 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

1.5 写技术博客的选择

在csdn耕耘了8年有余,一直很喜欢这里,然而不知道为何身边的朋友高手就是github,stackoverflow。学习过程中不时记录总结的习惯非常重要,正所谓温故而知新。

后面我也准备尝试一些其他的平台

1.6 机器学习算法的c++ sdk(提供更多选择)

Dlib是一个使用现代C++技术编写的跨平台的通用库,遵守Boost Software licence.它包含机器学习算法和工具,用于在C++中创建复杂的软件来解决现实问题。它在工业和学术界被广泛应用于各种领域,包括机器人,嵌入式设备,移动电话和大型高性能计算环境。

主要特点如下: 1.完善的文档:每个类每个函数都有详细的文档,并且提供了大量的示例代码,如果你发现文档描述不清晰或者没有文档,告诉作者,作者会立刻添加。 2.可移植代码:代码符合ISO C++标准,不需要第三方库支持,支持win32、Linux、Mac OS X、Solaris、HPUX、BSDs 和 POSIX 系统 3.线程支持:提供简单的可移植的线程API 4.网络支持:提供简单的可移植的Socket API和一个简单的Http服务器 5.图形用户界面:提供线程安全的GUI API 6.数值算法:矩阵、大整数、随机数运算等 7.机器学习算法: 8.图形模型算法: 9.图像处理:支持读写Windows BMP文件,不同类型色彩转换 10.数据压缩和完整性算法:CRC32、Md5、不同形式的PPM算法 11.测试:线程安全的日志类和模块化的单元测试框架以及各种测试assert支持 12.一般工具:XML解析、内存管理、类型安全的big/little endian转换、序列化支持和容器类

参考网页

2017年最牛逼的五个机器学习项目 https://www.kdnuggets.com/2017/01/five-machine-learning-projects-cant-overlook-january.html 35个最牛逼的机器学习项目 https://mp.weixin.qq.com/s/zBaOHSMqC7v7dML9AWPLiA 使用dlib 的python接口实现换脸 http://python.jobbole.com/82546/

1.7 可视化感受机器学习的整个过程

1.神经网络的训练:http://playground.tensorflow.org

我们选择一个数据为非线性切分的复杂例子

2.两层简单神经网络演示非线性切分 http://cs.stanford.edu/people/karpathy/convnetjs//demo/classify2d.html

3.神经网络进行手写字符识别 http://terencebroad.com/convnetvis/vis.html


2. Transwarp 机器学习培训

转型机器学习方向的过程是痛苦的。最近在上海花了一周时间参加transwarp的数据分析师培训,这是我时隔7年之后再次踏上魔都的土地。上次来这里还是7年前来看上海世博会,不同的是此处上海之行是由北京启程。我乘坐的是最早一班复兴号列车,由于很多外国人都在新奇 的拍照,这一路风驰电掣的路过祖国的大好河山,让我也怀揣着满满的民族自豪感惊异于祖国 的发展速度。2010年那会来上海一趟多难呀,尤其要买个卧铺,真是难上加难。

非常感谢单位领导给予的宝贵培训机会,之前说实话并未有全面系统的学过机器学习内容。但最重要的还是不知道:真实,工业级,业务上究竟怎么开展机器学习与业务的结合工作。这次培训基本给了我答案。transwarp 通过

推荐其支持托拉拽的机器学习产品sophon,让我直观的感受了整套机器学习工具平台的使用过程,以及机器学习模型的建模套路。其中之前我一直不太注重的有以下两点:

1.特征工程,归一化,字符串索引 2.评价指标,roc,方差和等

2.1 机器学习的算法

2.2 到底如何衡量业务是否需要机器学习?

  1. 业务问题是否适用机器学习算法?
  2. 如何选择模型
  3. 设计开发节奏
  4. 最终产品的检验

2.3 完整的数据发掘建模流程

2.4 特征工程

特征工程是机器学习的决定性因素是机器学习成功的关键

“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已” 纵观Kaggle、KDD,阿里天池等国内外大大小小的比赛,每个竞赛的冠军其实 并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作, 然后使用一些常见的算法,比如Linear Regression(线性回归),就能得到出色的 性能。

领域特定知识( domain specific knowledge),

最近还看到公众号上面一些好的文章,整取领悟以后分享出来

2.5 可视化托拉拽机器学习产品

感觉以下这两个产品有点类似

KNIME https://www.knime.com/

对于机器学习和数据科学的初学者来说,最大的挑战之一是需要同时学习太多知识,特别是如果你不知道如何编码。你需要快速地适应线性代数、统计以及其他数学概念,并学习如何编码它们,对于新用户来说,这可能会有点难以承受。

如果你没有编码的背景并且发现很难学习下去,这时你可以用一个GUI驱动的工具来学习数据科学。当你刚开始学习的时候,可以集中精力学习实际的项目。一旦适应了基本的概念,你就可以在以后慢慢学习如何编写代码。

在今天的文章中,我将介绍一个基于GUI的工具:KNIME

sophon

星环还通过Transwarp Sophon来帮助数据工程师开发数据挖掘的应用。Sophon提供了可视化界面工具Midas 用于创建模型,用户只需通过拖拽数据源对象和运算符就能完成模型设计,然后将设计的模型在TDH集群上训 练或预测分析。

此外,Sophon还整合了深度学习框架Tensorflow,使用户可以通过拖拽生成各种神经网络模型,灵活调参和训练,将大数据和人工智能结合起来推动业务创新。

3. 经典案例—-泰坦尼克乘客的生还预测,房价预测

http://blog.csdn.net/sinat_32547403/article/details/71269804 http://blog.csdn.net/ZengHaihong/article/details/53199559

4. 优秀开源机器学习库

28款GitHub最流行的开源机器学习项目 https://yq.aliyun.com/articles/30794

15 个开源的顶级人工智能工具 http://blog.jobbole.com/106447/

5.普通程序员如何学习机器学习

https://www.zhihu.com/question/51039416

未完待续。。。。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Debian社区

Linux 4.0全新发布!引入热升级

对于所有开源爱好者来说,今天是个大喜的日子,Linus Torvalds很高兴地宣布了Linux Kernel 4.0全新内核。

17220
来自专栏Debian社区

Debian下安装搜狗拼音输入法

2013年12月,搜狗与Ubuntu Kylin团队开始合作开发“搜狗输入法Linux版”。经过五个月的合作,于2014年4月17日,正式发布了1.0版本。20...

51730
来自专栏Debian社区

Linux 内核组织将关闭 FTP 服务

Linux Kernel Organization(kernel.org) 是一家建立于 2002 年的加利福尼亚公共福利公司,其目的是公开地免费分发 Linu...

20030
来自专栏做全栈攻城狮

安卓开发-使用异步网络请求框架、多线程文件下载

相信对于前面的教程,大家已经很熟悉安卓网络编程了。这篇文章主要讲解一下异步网络编程和文件下载。学习编程重在写代码,只有自己的代码量上去了,自己才能完全理解。所以...

21240
来自专栏极客编程

Swift编写的EOS区块链开源框架SwiftyEOS

SwiftyEOS是一个用于与EOS交互的开源框架,用Swift编写。可以在iOS和macOS上使用。

20920
来自专栏做全栈攻城狮

Lucene.Net实现站内搜索功能

Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查...

18630
来自专栏做全栈攻城狮

使用GitHub进行协同项目开发和开源项目贡献

此次是GitHub课程的第三次课程,也是最后一次课程。推荐进行按照次序查看本次教程。上篇文章:程序员,一起玩转GitHub版本控制,超简单入门教程 干货2

10530
来自专栏Debian社区

Proxmox VE 5.0 Beta1 发布,基于 Debian 9 Stretch

Proxmox 5.0 Beta 1 “Virtual Environment” 发布了,新版基于 Debian 9 “Stretch”,采用了 Linux 4...

12820
来自专栏Debian社区

分布式版本控制系统 Git v2.12.2 发布

Git v2.12.2 发布了,Git 是一个开源的分布式版本控制系统,用以有效、高速的处理从很小到非常大的项目版本管理。是 Linus Torvalds 为了...

16340
来自专栏木子昭的博客

用Python3薅"百度翻译"的羊毛

最近博主在https://unsplash.com搜索免费可商用图片的时候, 发现...

32730

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励