作为一名大一新生专业是大数据专业, 应该从哪里开始入门学习?

首先你要有自己职业规划,知道数据分析和大数据是做什么的、能解决什么问题,给自己定一个小目标。一个有经验的数据科学家:最少要有2到3年工作经验,而工作经验体现在运用数据科学处理各种商业问题的能力上,同时需要具备以下技能:

  • 一流的分析技巧:探索凌乱的数据集并提取洞察的能力;
  • 在SQL运用能力方面是一名内行;
  • 能很好的掌握假设检验、分配、回归分析和贝叶斯方法;
  • 有与商业方面的机器学习经验;
  • 对于Python语言和Jupyter环境有经验;
  • 对于pandas、numpy、sk-learn和NLTK有一定操作经验;
  • 具备写编写Latex格式文档的能力;
  • 在统计学,运筹学,经济学,计算机科学,或其它相关领域具有本科或硕士学历。

未来数据分析是一种工具,在金融、互联网、电子商务、公共服务、医疗健康等领域非常广泛,职位上面偏业务的有数据分析师、数据产品经理、数据规划师等职位,偏技术的有大数据工程师、大数据架构师、算法工程师等职位。你需要了解自己的兴趣和特长并选择合适的职业通道。具体可以看下《与大数据相关的工作职位有哪些?》这篇文章。 在大学本科阶段,没有什么比学好数学更为重要的了:先关课程包括《高等数学》《线性代数》《概率与数理统计》《数值分析》《多元分析》《泛函分析》。数学是一门基础学科,需要长时间的学习和知识积累,而且数学课程离开学校是没地方补的。其他能力大部分是可以通过其他渠道学习的: 一、数据分析技能: 数据清洗 建立数学模型 运用合适的统计方法来分析数据 运用机器学习算法 检验模型的正确与否 实现数据可视化 二、编程技能: 精通一种或多种数据分析工具(R/Matlab/SPSS/SAS) 精通一种或多种面向对角编程语言(Python、C++、Java、C#、perl 等) 其他IT公司经常需要的技能(熟悉HTML/CSS,互联网公司可能会要求) 三、数据管理技能(尤其是针对大规模数据): hadoop(尤其是hive/HBase、HDFS和MapRdeuce) SQL NoSL 其他IT公司常用的数据管理技能 四、商业知识:熟悉瀑布模型和敏捷模型等软件开发模式 理解公司运行规则 对于产业所属领域有所了解 其他公司常用商业技巧 五、交流技巧(软实力): 做演讲和PPT演示来展示产品 撰写报名 懂得倾听重点信息 能够将用户的需求转换为实际产品 其他公司常用交流交往技能

作为第一批“数据科学与大数据技术”的科班学生,你们无疑是幸运的,仰望星空,你们已经走在数据科学的大路上,前途一片光明。希望你们能想老一辈统计学家和人工智能专家学习,继往开来,早日成才!最后推荐几本课外学习教材给大家仅供参考! 推荐书籍 《统计学:从数据到结论》 吴喜之著 《复杂数据统计方法 基于R的应用》吴喜之著 《模式分类》第二版:除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。 《推荐系统实践》:过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如 覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。 《深入搜索引擎–海量信息的压缩、索引和查询》:理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。 《大数据:互联网大规模数据挖掘与分布式处理》:主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。 《Web数据挖掘》:信息检索领域的书籍,该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。 《数据之巅》:对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。、 《深入浅出统计学》:本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。 《矩阵分析》:本书从数学分析的角度论述矩阵分析的经典方法和现代方法,取材新,有一定的深度,并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括:特征值、特征向量和相似性,酉等价和正规矩阵,标准形,Hermite矩阵和对称矩阵,向量范数和矩阵范数,特征值和估计和扰动,正定矩阵,非负矩阵。 《机器学习导论》:对机器学习的定义和应用实例进行了介绍,涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器,局部模型、隐马尔可夫模型。分类算法评估和比较,组合多学习器以及增强学习等。 《机器学习及其应用》:全书共分14章,内容分别涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用,以及互联网应用对机器学习技术需求的探讨。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了适用的典...

9810
来自专栏AI科技评论

中科院赵军:开放域事件抽取 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

37040
来自专栏AI科技评论

干货 | 从菜鸟到老司机 数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网整理编译的 17 个常用数据集,并列举了...

41240
来自专栏数据科学与人工智能

简明数据科学(1):啥啥啥?这都是啥?

原文:Data Science Simplified Part 1: Principles and Process 译者:杨德杰 2006年,英国数学家、Tes...

28570
来自专栏算法channel

如何抉择是否要做机器学习?如何入门机器学习?

今天又有公众号读者问我一些关于职业选择、入门AI的问题,想想它们同样曾经困扰着我,相信现在也还困扰着一些人,未来可能还会有人面临这样的问题。我深知你们心里很焦急...

10120
来自专栏数据猿

影创科技的创始人兼CEO孙立:AI在增强现实中怎么用

数据猿导读 我们在光学上做了非常多的研究。首先是现在国内外量产能力非常不错的一个产品,是自由曲面,通过可量产的方案解决增强现实眼镜价值比较贵的问题。当然如果个人...

45150
来自专栏新智元

【不在谷歌?没关系】不在大公司,如何做好深度学习

【新智元导读】不在大公司,没有大数据,如何做好深度学习?深度学习研究员 Bharath Ramsundar 看好低数据学习(low data learning)...

366120
来自专栏AI科技评论

国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?|SMP 2017

AI科技评论按:近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、...

731100
来自专栏人工智能头条

专访Twitter施闻哲:图像质量的评判标准是超分辨率的下一个关键

24280
来自专栏大数据文摘

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

17330

扫码关注云+社区

领取腾讯云代金券