专栏首页MixLab科技+设计实验室当算法遇上敏捷开发

当算法遇上敏捷开发

今天翻看了下我电脑上的各种试验项目,已经积累到160个了。其中最好玩的应该是智能设计和智能写作这2部分相关的试验。从 0到1 实现一款智能产品是非常有趣的过程,需要解决非常多前人没有碰到的问题。今天聊聊算法的一些实践心得。

我是非常倡导敏捷开发的方式的,不仅程序,包括设计、算法、运营等等,我都倾向于有想法立马实践,快速试错,不断迭代,找到最终最佳路径。

基于此,谈谈

我所理解的算法实现阶段

v1.0

我设计算法的时候,大部分的时候会碰到没有数据集的情况,这个时候,我会选择先制作小规模的数据集,一般在MB或者GB级。然后以规则为主,让项目先跑起来。

v2.0

当积累到一定程度,大批量地扩充数据,把数据集扩大100倍,然后再用一些常用的算法试验效果。这个时候是规则+算法并行。

v3.0

当积累的数据量达到GB、TB或者PB的时候,动用分布式的计算平台就显得非常重要了。此阶段真正的以算法为主。

Spark 作为一个用途广泛的大数据运算平台。

Spark 允许用户将数据加载到多台计算机所建立的 cluster 集群的内存中存储,执行分布式计算,再加上 Spark 特有的内存运算,让执行速度大幅提升,非常适合用于机器学习的算法。况且,spark包含大量开箱即用的机器学习库。

算法包括分类与回归、支持向量机、回归、线性回归、决策树、朴素贝叶斯、聚类分析、协同过滤等。

使用spark必须先了解Spark的核心——RDD

分布式数据集Resiliennt Distributed Datasets(简称RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。

RDD ,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。

通俗点来讲,RDD 本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区,每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上,从而可以在集群中的不同结点上进行并行计算

习惯使用python的话,可以通过终端安装:

pip install pyspark

最后,推荐一个入门级的教程

http://jadianes.github.io/spark-py-notebooks/

这是一个基于KDD CUP 1999 dataset 数据集做的实战教程。

KDD CUP 1999 dataset 是KDD竞赛在1999年举行时采用的数据集。该数据集记录的是1998年美国国防部高级规划署在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。

随后哥伦比亚大学的Sal Stolfo 教授和北卡罗莱纳州立大学的 Wenke Lee 教授采用数据挖掘等技术对数据集进行特征分析和数据预处理,形成了一个新的数据集。该数据集用于1999年举行的KDD CUP竞赛中,成为著名的KDD99数据集。KDD99数据集目前仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础。

我也会在后续更新中,把该教程中的一些要点总结出来。

没错,包括学习一项新技术,我都是倾向于直接找实践教程,边做边学,而不是老老实实地观看官方文档,或者是观看视频教程。

本文分享自微信公众号 - 无界社区mixlab(mix-lab),作者:shadow chi

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习的应用

    01/20 最近在系统地学习斯坦福大学的机器, 共有20课,这是第一课《机器学习的动机与应用》的学习心得。 一、监督学习 特点:提供标准答案的训练数据 任务...

    mixlab
  • 数据驱动型的设计01

    本系列从数据结构相关的计算机知识出发,从数据的角度提出一些数据驱动的设计思维模式。第01期总体介绍数据结构与设计的关系,用数据结构的方式来思考设计,并通过几个案...

    mixlab
  • 爬虫之数据获取的3种方法

    封面由ACE Land 人工智能设计师设计,最近升级了一点点小能力,可以给文字配上Icon啦~ 以下为正文: 这是在开发一个持续监测电商数据变化的工具过程中的经...

    mixlab
  • 技术干货|集成学习算法(Ensemble Method)浅析

    个性化推荐系统是达观数据在金融、电商、媒体、直播等行业的主要产品之一。在达观数据的个性化推荐系统架构中, 可以简单地分为5层架构,每层处理相应的数据输出给下一层...

    达观数据
  • 数据治理成功的几大要素,你都做到了吗?

    数据治理(DG)是对企业中使用的数据的可用性,可用性,完整性和安全性的整体管理。健全的数据治理计划包括理事机构或理事会,一套明确的程序和执行这些程序的计划。企业...

    逐月的天堂
  • JS模块化规范总结(面试必备良药)

    本文为我之前总结的笔记,因为内容在面试中问得比较多,因而搬运过来,作为面试系列的文章之一。

    winty
  • 大数据应用开发如何入门需要知道这些

    前几天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都...

    IT小白龙
  • 数字化时代下金融业数据治理迫在眉睫

    近年来,数据治理越来越受到银行、监管机构乃至国家层面的重视。2018年5月21日,中国银保监会印发了《银行业金融机构数据治理指引的通知》,正式发布了《银行业金融...

    数据前沿
  • 【钱塘号】大数据驱动中国从“制造大国”走向“制造强国”

    制造业是一个国家综合国力最重要的表现,在国民经济中占有重要份额,也是决定民众生活质量的重要条件。中国的制造业在改革开放30多年来取得了举世瞩目的成就,连续几年成...

    钱塘数据
  • 深度学习常用Linux命令

    touch file_name创建文件。如果文件已存在,可以修改文件的末次修改时间

    mathor

扫码关注云+社区

领取腾讯云代金券