机器学习研究和开发所需的组件列表

  • 线性代数: 机器学习开发人员需要数据结构,如向量,矩阵和张量,它们具有紧凑的语法和硬件加速操作。其他语言的例子:NumPy,MATLAB和R标准库,Torch。
  • 概率论: 各种随机数据生成:随机数和它们的集合; 概率分布; 排列; 收集,加权抽样等等。示例:NumPy和R标准库。
  • 数据输入输出: 在机器学习中,我们通常最感兴趣的是以下列格式解析和保存数据:纯文本,CSV等表格文件,SQL等数据库,Internet格式JSON,XML,HTML和Web抓取。还有很多特定于域的格式。
  • 数据争用: 类似表的数据结构,数据工程工具:数据集清理,查询,拆分,合并,改组等。Pandas,dplyr。
  • 数据分析/统计: 描述性统计,假设检验和各种统计资料。R标准库,以及很多CRAN包。
  • 可视化: 统计数据可视化(非饼图):图形可视化,直方图,马赛克图,热图,树状图,3D表面,空间和多维数据可视化,交互式可视化,Matplotlib,Seaborn,Bokeh,ggplot2,ggmap,Graphviz,D3 .js。
  • 符号计算: 自动区分:SymPy,Theano,Autograd。
  • 机器学习包: 机器学习算法和求解器。Scikit-learn,Keras,XGBoost,E1071和caret。
  • 交互式原型设计环境: Jupyter,R studio,MATLAB和iTorch。

Here is a list of components that are needed for the successful machine learning research and development, and examples of popular libraries and tools of the type:

  • Linear algebra: Machine learning developer needs data structures like vectors, matrices, and tensors with compact syntax and hardware-accelerated operations on them. Examples in other languages: NumPy, MATLAB, and R standard libraries, Torch.
  • Probability theory: All kinds of random data generation: random numbers and collections of them; probability distributions; permutations; shuffling of collections, weighted sampling, and so on. Examples: NumPy, and R standard library.
  • Data input-output: In machine learning, we are usually most interested in the parsing and saving data in the following formats: plain text, tabular files like CSV, databases like SQL, internet formats JSON, XML, HTML, and web scraping. There are also a lot of domain-specific formats.
  • Data wrangling: Table-like data structures, data engineering tools: dataset cleaning, querying, splitting, merging, shuffling, and so on. Pandas, dplyr.
  • Data analysis/statistic: Descriptive statistic, hypotheses testing and all kinds of statistical stuff. R standard library, and a lot of CRAN packages.
  • Visualization: Statistical data visualization (not pie charts): graph visualization, histograms, mosaic plots, heat maps, dendrograms, 3D-surfaces, spatial and multidimensional data visualization, interactive visualization, Matplotlib, Seaborn, Bokeh, ggplot2, ggmap, Graphviz, D3.js.
  • Symbolic computations: Automatic differentiation: SymPy, Theano, Autograd.
  • Machine learning packages: Machine learning algorithms and solvers. Scikit-learn, Keras, XGBoost, E1071, and caret.
  • Interactive prototyping environment: Jupyter, R studio, MATLAB, and iTorch.

摘录来自: Oleksandr Sosnovshchenko. “Machine Learning with Swift: Artificial Intelligence for iOS。” Apple Books.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python小屋

Python计算电场中两点间的电势差

根据组合数定义,需要计算3个数的阶乘,在很多编程语言中都很难直接使用整型变量表示大数的阶乘结果,虽然Python并不存在这个问题,但是计算大数的阶乘仍需要相当多...

861
来自专栏数说工作室

海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

这是一个相似匹配的问题(文本相似匹配基础→ 词频与余弦相似度)。但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的...

3283
来自专栏专知

【读书笔记】基于知识库的问答:生成查询图进行语义分析

【导读】将DBPedia和Freebase这样的大规模知识库组织并存储在一个结构化的数据库,这已成为支持开放领域问题问答的重要资源。 KB-QA的大多数方法基于...

4467
来自专栏林欣哲

自然语言处理--文本处理

自然语言处理的目的是让机器试图理解和处理人类的文字。通常来说,人的语言是冗余的,含有歧义的,而机器是准确的,无歧义的,要让机器理解,这之间存在一个转换的问题。 ...

3768
来自专栏算法+

基于傅里叶变换的音频重采样算法 (附完整c代码)

如果特定情况下需要,我也可以上matlab,python,delphi,c#,c++等等。

3013
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

13行代码实现最快速最高效的积分图像算法。

  研究图像到一定程度的人,应该都对积分图像有所了解,大家在百度或者google中都可以搜索到大量的相关博客,我这里不做多介绍。用积分图也确实能解决很多实际的问...

4248
来自专栏Duncan's Blog

Personalized Search论文阅读笔记-08年SIGIR

对于这样允许大众分类的应用,如何满足用户在搜索时尽可能准确地返回用户所需要的资源是一个有意思的问题。因为如果像传统的搜索方法仅通过查询关键词去匹配搜索结果,返回...

1243
来自专栏大数据挖掘DT机器学习

时间序列预测全攻略(附带Python代码)

原文作者:AARSHAY JAIN 36大数据翻译,http://www.36dsj.com/archives/43811 时间序列(简称TS)被认为是分...

2.1K7
来自专栏AI研习社

告别选择困难症,我来带你剖析这些深度学习框架基本原理

无论你喜欢或不喜欢,深度学习就在这里等着你来学习,伴随着技术淘金热而来的过多的可选项,让新手望而生畏。

1763
来自专栏生信小驿站

生存分析①R语言

生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小...

1974

扫码关注云+社区

领取腾讯云代金券