首页
学习
活动
专区
工具
TVP
发布

信数据得永生

专栏作者
1404
文章
1556458
阅读量
53
订阅数
数据科学 IPython 笔记本 9.10 数组排序
到目前为止,我们主要关注使用 NumPy 访问和操作数组数据的工具。本节介绍与 NumPy 数组中的值的排序相关的算法。
ApacheCN_飞龙
2022-12-02
1.8K0
数据科学 IPython 笔记本 9.9 花式索引
在前面的章节中,我们看到了如何使用简单的索引(例如,arr [0]),切片(例如,arr [:5])和布尔掩码来访问和修改数组的片段( 例如,arr [arr> 0])。在本节中,我们将介绍另一种数组索引方式,称为花式索引。
ApacheCN_飞龙
2022-12-02
5830
数据科学 IPython 笔记本 9.8 比较,掩码和布尔逻辑
本节介绍如何使用布尔掩码,来检查和操作 NumPy 数组中的值。当你想要根据某些标准,提取,修改,计算或以其他方式操纵数组中的值时,掩码会有所帮助:例如,你可能希望计算大于某个值的所有值,或者可能删除高于某些阈值的所有异常值。
ApacheCN_飞龙
2022-12-02
9750
数据科学 IPython 笔记本 9.7 数组上的计算:广播
我们在上一节中看到,NumPy 的通用函数如何用于向量化操作,从而消除缓慢的 Python 循环。向量化操作的另一种方法是使用 NumPy 的广播功能。广播只是一组规则,用于在不同大小的数组上应用二元ufunc(例如,加法,减法,乘法等)。
ApacheCN_飞龙
2022-12-02
6610
数据科学 IPython 笔记本 9.6 聚合:最小、最大和之间的任何东西
通常,当面对大量数据时,第一步是计算相关数据的汇总统计信息。也许最常见的汇总统计数据是均值和标准差,它允许你汇总数据集中的“典型”值,但其他汇总也很有用(总和,乘积,中位数,最小值和最大值,分位数等)。
ApacheCN_飞龙
2022-12-02
4840
数据科学 IPython 笔记本 9.5 NumPy 数组上的计算:通用函数
到目前为止,我们一直在讨论 NumPy 的一些基本要点;在接下来的几节中,我们将深入探讨 NumPy 在 Python 数据科学领域如此重要的原因。也就是说,它为数据数组的最优计算,提供了一个简单而灵活的接口。
ApacheCN_飞龙
2022-12-02
8950
数据科学 IPython 笔记本 9.4 NumPy 数组的基础
Python 中的数据操作几乎与 NumPy 数组操作同义:即使是像 Pandas 这样的新工具也是围绕 NumPy 数组构建的。本节将介绍几个示例,使用 NumPy 数组操作来访问数据和子数组,以及拆分,重塑和连接数组。
ApacheCN_飞龙
2022-12-02
1.5K0
数据科学 IPython 笔记本 9.3 理解 Python 中的数据类型
数据驱动的科学和有效计算需要了解数据的存储和操作方式。本节概述了如何在 Python 语言本身中处理数据数组,以及对比 NumPy 如何改进它。对于理解本书其余部分的大部分内容,理解这种差异至关重要。
ApacheCN_飞龙
2022-12-02
7410
数据科学 IPython 笔记本 9.2 NumPy 简介
主题非常广泛:数据集可能来源于广泛的来源和各种格式,包括文档集合,图像集合,声音片段集合,数值测量集合或几乎任何其他内容。尽管存在这种明显的异质性,但它将帮助我们从根本上将所有数据视为数字数组。
ApacheCN_飞龙
2022-12-02
2230
数据科学 IPython 笔记本 9.1 NumPy
9.1 NumPy 致谢:派生于 Olivier Grisel 分享的 scikit-learn 和 IPython 并行机器学习 译者:飞龙 协议:CC BY-NC-SA 4.0 NumPy 数组,dtype和形状 常见数组操作 原地修改形状和更新 合并数组 创建示例数据 import numpy as np NumPy 数组,dtype和形状 a = np.array([1, 2, 3]) print(a) print(a.shape) print(a.dtype) ''' [1 2 3]
ApacheCN_飞龙
2022-12-02
2340
数据科学和人工智能技术笔记 十七、聚类
在 scikit-learn 中,AgglomerativeClustering使用linkage参数来确定合并策略,来最小化(1)合并簇的方差(ward),(2)来自簇对的观测点的距离均值(average) ,或(3)来自簇对的观测之间的最大距离(complete)。
ApacheCN_飞龙
2022-12-02
5850
数据科学和人工智能技术笔记 七、特征工程
主成分分析(PCA)是数据科学中常见的特征提取方法。 从技术上讲,PCA 找到具有最高特征值的协方差矩阵的特征向量,然后使用这些特征向量将数据投影到相等或更小维度的新子空间。 实际上,PCA 将 n 个特征矩阵转换为(可能)小于 n 个特征的新数据集。 也就是说,它通过构造新的较少变量来减少特征的数量,这些变量捕获原始特征中找到的信息的重要部分。 但是,本教程的目的不是要解释 PCA 的概念,这在其他地方做得非常好,而是用于演示 PCA 的实际应用。
ApacheCN_飞龙
2022-12-02
3220
数据科学和人工智能技术笔记 一、向量、矩阵和数组
注意:有许多类型的稀疏矩阵。 在上面的示例中,我们使用 CSR,但我们使用的类型应该反映我们的用例。
ApacheCN_飞龙
2022-12-02
5160
SciPyCon 2018 sklearn 教程(下)
在前面的章节和笔记本中,我们将数据集分为两部分:训练集和测试集。 我们使用训练集来拟合我们的模型,并且我们使用测试集来评估其泛化能力 - 它对新的,没见过的数据的表现情况。
ApacheCN_飞龙
2022-12-02
8680
Kaggle word2vec NLP 教程 第三部分:词向量的更多乐趣
现在我们有了训练好的模型,对单词有一些语义理解,我们应该如何使用它? 如果你看它的背后,第 2 部分训练的 Word2Vec 模型由词汇表中每个单词的特征向量组成,存储在一个名为syn0的numpy数组中:
ApacheCN_飞龙
2022-12-02
4480
Kaggle word2vec NLP 教程 第二部分:词向量
本教程的这一部分将重点介绍使用 Word2Vec 算法创建分布式单词向量。 (深度学习的概述,以及其他一些教程的链接,请参阅“什么是深度学习?”页面)。
ApacheCN_飞龙
2022-12-02
5470
TensorFlow 高效编程
TensorFlow 和其他数字计算库(如 numpy)之间最明显的区别在于 TensorFlow 中操作的是符号。这是一个强大的功能,这保证了 TensorFlow 可以做很多其他库(例如 numpy)不能完成的事情(例如自动区分)。这可能也是它更复杂的原因。今天我们来一步步探秘 TensorFlow,并为更有效地使用 TensorFlow 提供了一些指导方针和最佳实践。
ApacheCN_飞龙
2022-12-02
1.5K0
《Scikit-Learn与TensorFlow机器学习实用指南》第4章 训练模型
在之前的描述中,我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例,你惊奇的发现你可以优化回归系统,改进数字图像的分类器,你甚至可以零基础搭建一个垃圾邮件的分类器,但是你却对它们内部的工作流程一无所知。事实上,许多场合你都不需要知道这些黑箱子的内部有什么,干了什么。
ApacheCN_飞龙
2022-12-01
2270
JavaScript 编程精解 中文第三版 二十一、项目:技能分享网站
技能分享会是一个活动,其中兴趣相同的人聚在一起,针对他们所知的事情进行小型非正式的展示。在园艺技能分享会上,可以解释如何耕作芹菜。如果在编程技能分享小组中,你可以顺便给每个人讲讲 Node.js。
ApacheCN_飞龙
2022-12-01
1.2K0
JavaScript 编程精解 中文第三版 十六、项目:平台游戏
我最初对电脑的痴迷,就像许多小孩一样,与电脑游戏有关。我沉迷在那个计算机所模拟出的小小世界中,我可以操纵这个世界,我同时也沉迷在那些尚未展开的故事之中。但我沉迷其中并不是因为游戏实际描述的故事,而是因为我可以充分发挥我的想象力,去构思故事的发展。
ApacheCN_飞龙
2022-12-01
1.7K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档