# 机器学习研究和开发所需的组件列表

• 线性代数： 机器学习开发人员需要数据结构，如向量，矩阵和张量，它们具有紧凑的语法和硬件加速操作。其他语言的例子：NumPy，MATLAB和R标准库，Torch。
• 概率论： 各种随机数据生成：随机数和它们的集合; 概率分布; 排列; 收集，加权抽样等等。示例：NumPy和R标准库。
• 数据输入输出： 在机器学习中，我们通常最感兴趣的是以下列格式解析和保存数据：纯文本，CSV等表格文件，SQL等数据库，Internet格式JSON，XML，HTML和Web抓取。还有很多特定于域的格式。
• 数据争用： 类似表的数据结构，数据工程工具：数据集清理，查询，拆分，合并，改组等。Pandas，dplyr。
• 数据分析/统计： 描述性统计，假设检验和各种统计资料。R标准库，以及很多CRAN包。
• 可视化： 统计数据可视化（非饼图）：图形可视化，直方图，马赛克图，热图，树状图，3D表面，空间和多维数据可视化，交互式可视化，Matplotlib，Seaborn，Bokeh，ggplot2，ggmap，Graphviz，D3 .js。
• 机器学习包： 机器学习算法和求解器。Scikit-learn，Keras，XGBoost，E1071和caret。
• 交互式原型设计环境： Jupyter，R studio，MATLAB和iTorch。

Here is a list of components that are needed for the successful machine learning research and development, and examples of popular libraries and tools of the type:

• Linear algebra: Machine learning developer needs data structures like vectors, matrices, and tensors with compact syntax and hardware-accelerated operations on them. Examples in other languages: NumPy, MATLAB, and R standard libraries, Torch.
• Probability theory: All kinds of random data generation: random numbers and collections of them; probability distributions; permutations; shuffling of collections, weighted sampling, and so on. Examples: NumPy, and R standard library.
• Data input-output: In machine learning, we are usually most interested in the parsing and saving data in the following formats: plain text, tabular files like CSV, databases like SQL, internet formats JSON, XML, HTML, and web scraping. There are also a lot of domain-specific formats.
• Data wrangling: Table-like data structures, data engineering tools: dataset cleaning, querying, splitting, merging, shuffling, and so on. Pandas, dplyr.
• Data analysis/statistic: Descriptive statistic, hypotheses testing and all kinds of statistical stuff. R standard library, and a lot of CRAN packages.
• Visualization: Statistical data visualization (not pie charts): graph visualization, histograms, mosaic plots, heat maps, dendrograms, 3D-surfaces, spatial and multidimensional data visualization, interactive visualization, Matplotlib, Seaborn, Bokeh, ggplot2, ggmap, Graphviz, D3.js.
• Symbolic computations: Automatic differentiation: SymPy, Theano, Autograd.
• Machine learning packages: Machine learning algorithms and solvers. Scikit-learn, Keras, XGBoost, E1071, and caret.
• Interactive prototyping environment: Jupyter, R studio, MATLAB, and iTorch.

0 条评论

• ### pygit：足够的Git客户端创建一个repo，commit，并将自己推送到GitHub

Git因其非常简单的对象模型而闻名（其中包括） - 并且有充分的理由。学习时git我发现本地对象数据库只是目录中的一堆普通文件.git。除了index（.git...

原文：https://support.apple.com/zh-cn/HT210380

• ### 乳腺癌预后基因集

In addition to cell of origin and somatic mutation events, studies over the past...

• ### IJPR特刊邀稿| 主题：生产和配送管理中的大数据分析

The International Journal of Production Research (IJPR), published since 1961, i...

• ### 用于NLP的Python：使用Keras进行深度学习文本生成

文本生成是NLP的最新应用程序之一。深度学习技术已用于各种文本生成任务，例如写作诗歌，生成电影脚本甚至创作音乐。但是，在本文中，我们将看到一个非常简单的文本生成...

• ### 循环经济和工业生态的概念是如何交织在一起的?文献计量学和文本挖掘分析（cs）

结合文献计量学和文本挖掘分析的新见解，以及以往有关循环经济和工业生态学的研究成果，本文旨在阐明这些概念的最新发展趋势和相互关系，包括它们的表现和应用。在此基础上...

• ### Github项目推荐 | 知识图谱文献集合

https://github.com/shaoxiongji/awesome-knowledge-graph

• ### 促进包容性获取丰富在线内容和服务的策略研究

中文摘要：在线访问内容和服务对每个人，包括残疾人，都越来越重要。包括《美国残疾人法》在内的各国承诺，以及包括《联合国残疾人权利宣言》在内的国际决议，都要求努力确...