开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

尝试在python中对数组的进行线性回归，但我一直收到错误消息“array一定不能包含infs或NaNs”。没有infs或NaNs

在Python中进行数组的线性回归，可以使用scikit-learn库中的线性回归模型来实现。对于收到错误消息"array一定不能包含infs或NaNs"，意味着你的数组中包含了无穷大(infinity)或缺失值(NaN)。

解决此问题的方法是先对数组进行预处理，确保不包含无穷大或缺失值。可以通过以下步骤来处理：

导入所需的库和模块：

from sklearn.linear_model import LinearRegression
import numpy as np

创建包含输入特征(x)和目标变量(y)的数组。确保数组不包含无穷大或缺失值。

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

检查数组是否包含无穷大或缺失值。可以使用以下代码来检查：

np.isnan(x).any()  # 检查x是否包含缺失值
np.isinf(x).any()  # 检查x是否包含无穷大
np.isnan(y).any()  # 检查y是否包含缺失值
np.isinf(y).any()  # 检查y是否包含无穷大

如果任何一个数组包含无穷大或缺失值，可以通过删除这些元素或者用合适的处理方法进行替换。下面的示例展示了如何删除包含无穷大或缺失值的元素：

x = x[~np.isnan(x) & ~np.isinf(x)]
y = y[~np.isnan(y) & ~np.isinf(y)]

现在，可以使用处理后的数组进行线性回归。以下是一个完整的示例：

from sklearn.linear_model import LinearRegression
import numpy as np

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

if np.isnan(x).any() or np.isinf(x).any() or np.isnan(y).any() or np.isinf(y).any():
    x = x[~np.isnan(x) & ~np.isinf(x)]
    y = y[~np.isnan(y) & ~np.isinf(y)]

model = LinearRegression()
model.fit(x.reshape(-1, 1), y)

在这个示例中，我们首先检查数组是否包含无穷大或缺失值。如果包含，我们删除了这些元素。然后，使用处理后的数组进行线性回归。

请注意，这只是一个示例，实际情况下，你可能需要根据具体数据和需求进行适当的预处理和调整。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Introduction to debugging neural networks

但是一个有经验的神经网络训练者将能够系统地克服这些困难，尽管存在着大量似是而非的错误消息：性能错误：你的神经网络没有训练好。对于缺乏经验的人来说，这种信息是令人生畏的。...RNN倾向于在训练早期产生梯度，其中10%或者更少的batch会出现学习尖峰，这些尖峰上的梯度值非常大。如果没有限制幅度，这些尖峰就可能导致NaNs。...尝试将batch size设为1来检查batch计算中的错误。在代码中加入一些log输出以确保是以你期望的方式运行的。一般来说，通过暴力排查总会找到这些错误。...如果你正在做句子翻译，尝试首先为目标语言构建一个语言模型。当上一步成功了，只给出三个源语言的单词，尝试着去预测翻译的第一个词。如果你打算从图像中检测物体，训练回归网络之前试着去分类图像中有多少个物体。...花一些时间来熟悉在标准数据集（如ImageNet或Penn Tree Bank）上训练的成熟网络中的组件的权值直方图应该是什么样子。

1.1K6 0

叙述 C语言编译

工作原因有时候会用python写写测试工具，感受到其快速实现应用的便利，但由于偏底层开发，主力语言依然是C。对于开发语言没有什么优劣概念，在特定的情景下哪种实现更佳就用哪种，工具合适才是最好的。...：根据#if后面的条件决定需要编译的代码将源文件中#include格式包含的文件直接复制到编译的源文件中用实际值替换用#define定义的字符串对源代码进行预处理操作 $ gcc -E hello.c...，递归的，也说明了为什么在每个被包含的头文件，需要添加如下代码段。...链接（Linking）主要是在不同模块间对符号进行重定位在ELF文件 hello.o 里保存一张重定位表（relocation table），保存了其他地方的函数、变量（统称符号）的名字和地址。...GOT中的信息需要在动态链接库被程序加载后立刻填写正确。这就给采用动态链接库的程序在启动时带来了一定额外开销，从而减缓了启动速度。ELF采用了做延迟绑定的做法来解决这一问题。

1.8K1 1

你应该知道的神经网络调试技巧

特别是当你刚接触这个的时候，它会让人非常沮丧！但是一个有经验的神经网络训练者将能够系统地克服这些困难，尽管存在着大量似是而非的错误消息：性能错误：你的神经网络没有训练好。...RNN倾向于在训练早期产生梯度，其中10%或者更少的batch会出现学习尖峰，这些尖峰上的梯度值非常大。如果没有限制幅度，这些尖峰就可能导致NaNs。...如果你的网络仍然不能过度拟合训练集的10个样本，请再次确认数据和标签是否是正确对应的。尝试将batch size设为1来检查batch计算中的错误。...如果你打算从图像中检测物体，训练回归网络之前试着去分类图像中有多少个物体。在获得一个确保网络可以解决的好的子问题，以及花费最少的时间来使用代码挂接数据之间存在着平衡点。创造力可以起到帮助作用。...花一些时间来熟悉在标准数据集（如ImageNet或Penn Tree Bank）上训练的成熟网络中的组件的权值直方图应该是什么样子。

1K7 0

优化PyTorch速度和内存效率的技巧汇总

# If these gradients contain infs or NaNs, # optimizer.step() is skipped....在加载数据和数据增强的时候异步处理 num_workers=0使数据加载需要在训练完成后或前一个处理已完成后进行。设置num_workers>0有望加快速度，特别是对于大数据的i/o和增强。...直接在设备中创建张量只要你需要torch.Tensor，首先尝试在要使用它们的设备上创建它们。不要使用原生Python或NumPy创建数据，然后将其转换为torch.Tensor。...如果源数据是NumPy数组，使用torch.from_numpy(numpy_array) 会更快。...# If these gradients contain infs or NaNs, # optimizer.step() is skipped.

2.5K3 0

基于HMM的中文词性标注 POSTagging

对所有的eval 评估文件读取第一行的第3个或第4个准确率，绘制语料大小与准确率的曲线 # -*- coding:utf-8 -*- # python3.7 # @Time: 2019/12/20 23...对所有的eval 评估文件读取第一行的第3个或第4个准确率，绘制语料大小与准确率的曲线 ? ?...BiHMM模型结合了上下文来进行预测，准确率更高随着语料规模增加，每种模型的性能曲线如何？语料增加，在解决什么问题？...解答：避免多重for循环，尽可能利用造好的轮子，numpy等进行矩阵运算标注偏置、概率平滑问题解答：需要选择合适的平滑算法。对没有出现过的事例，需要给他一个概率，用来贴近真实情况。...举例：比如，Rg 这个词性，在文本中只出现了一次，对应的词是斯（逝者如斯夫），那么在 +1 平滑的时候，当预测当前词性为 Rg，但是词又不是斯的时候，斯的频次1+1=2，不认识的词是 0+1=1，

2.1K1 0

惊呆了，LeetCode居然挂了……LeetCode周赛第281场解析

、长度为 n 的整数数组 nums 和一个整数 k ，返回满足下述条件的下标对 (i, j) 的数目： 0 <= i < j <= n - 1 且 nums[i] * nums[j] 能被 k 整除。...解法注意一下数据范围，1e5，表明不能接受复杂度超过的解法，所以暴力的方法一定会超时，我们一定要想办法进行优化。...仔细分析可以发现，我们可以求出nums数组中每一个和k的最大公约数，因为除了最大公约数之外的因子我们并不关心，不会对答案产生影响。...所以首先我们可以进行一重转化，将nums数组中的每一个变成它和k的最大公约数。...这一次的比赛总体来说难度还可以，最后一题稍稍有点侧重数学，需要一点数论知识，不知道辗转相除法的同学估计做不出来。这也不能怪，本身算法当中也是包含数论的。

6471 0

Objective-C源文件编译过程

如下命令可以对.c、.m源文件进行预处理，其中参数-E就是对源文件进行预处理操作： clang -E xxx.m 如果我们的.m文件中import（文件包含）了其他的文件或者其他的库，执行以上命令对OC...ps：由上面词法分析后的结果和源文件对照可知，注释虽然没有真实的意义，但是注释占用的行依旧是有效的，在词法分析阶段并没有被忽略掉。...语义分析的过程同时也收集类型信息，并把类型信息存储在语法树或符号表中，以便随后的中间代码生成过程中使用。语义分析一个重要的部分就是“类型检查”和“自动类型转换”。...又比如，很多语言中要求数组的下标是一个非负整数，如果浮点数作为下标，编译器就必须报告错误。...生成中间代码在把源程序翻译成目标代码的过程中，一个编译器可能构造出一个或多个中间表示（Intermediate Representation或IR）。这些中间表示可以有多种形式。

9.6K5 1

训练的神经网络不工作？一文带你跨过这37个坑

机器之心对该文进行了编译，原文链接请见文末。神经网络已经持续训练了 12 个小时。它看起来很好：梯度在变化，损失也在下降。但是预测结果出来了：全部都是零值，全部都是背景，什么也检测不到。...因此打印／显示若干批量的输入和目标输出，并确保它们正确。 2. 尝试随机输入尝试传递随机数而不是真实数据，看看错误的产生方式是否相同。如果是，说明在某些时候你的网络把数据转化为了垃圾。...检查训练、验证、测试集的预处理 CS231n 指出了一个常见的陷阱：「任何预处理数据（例如数据均值）必须只在训练数据上进行计算，然后再应用到验证、测试数据中。...例如计算均值，然后在整个数据集的每个图像中都减去它，再把数据分发进训练、验证、测试集中，这是一个典型的错误。」此外，要在每一个样本或批量（batch）中检查不同的预处理。 III....尝试逐层评估你的网络，这样就会看见 NaNs 到底出现在了哪里。 ?

1.1K10 0

经验分享 | 解决NN不work的37个方法

作者举了几个例子，有时候处理图像数据时会宽和高这两个维度混淆，有时候会误把全0输入给网络，或者一直使用同一个batch来训练一个网络。要避免这种错误只要把输入打印出来看一看就好了。 2....调节损失的权重 Adjust loss weights 如果你的损失函数是由多个损失函数组成的，那就要检查一下它们的权重是符合你的期望的，可以尝试一下不同的权重。 21....对自定义的层进行测试 Test any custom layers 如果模型中某些层是你自己实现的，那就需要着重检查这些层是否真的像你所期望的那样工作。 23....改变超参数 Change your hyperparameters 效果不好也有可能是超参数导致的，如果条件允许，可以尝试对超参数进行 grid search。 30....有几种方法可以解决这个问题： - 降低学习率，特别是在前100次迭代就得到了 NaNs 的时候； - NaNs 也可能是因为除0操作/对0或负数取对数造成的，检查一下是否有这些问题； - Russell

1.3K2 0

JAX 中文文档（十三）

数值和随机性数值运算的确切值在 JAX 的不同版本中并不保证稳定。事实上，在给定的 JAX 版本、加速器平台上，在或不在 jax.jit 内部，等等，确切的数值计算不一定是稳定的。...4,) 以及pspec = P(('x', 'y', 'z')) 因为pjit不会将主机本地形状提升为全局形状，所以您会收到以下错误：注意：只有当您的主机本地形状小于网格的形状时，才会看到此错误。...ensure_compile_time_eval() 确保在追踪/编译时进行评估的上下文管理器（或错误）。...当内置pickle模块遇到Array时，它将通过紧凑的位表示方式对其进行序列化，类似于对numpy.ndarray对象的处理。解封后，结果将是一个新的Array对象在默认设备上。...自版本 2.0 起不推荐使用：s必须只包含整数，而不能包含None值。目前None值意味着在相应的 1-D 变换中使用默认值n，但此行为已弃用。

3451 0

Numpy 简介

NumPy包的核心是ndarray对象。它封装了python原生的同数据类型的n维数组，为了保证其性能优良，其中有许多操作都是代码在本地进行编译后执行的。...NumPy数组和标准Python Array（数组）之间有几个重要的区别： NumPy数组在创建时具有固定的大小，与Python的原生数组对象（可以动态增长）不同。...例外情况：Python的原生数组里包含了NumPy的对象的时候，这种情况下就允许不同大小元素的数组。 NumPy数组有助于对大量数据进行高级数学和其他类型的操作。...如果数据存储在两个Python列表a和b中，我们可以迭代每个元素，如下所示：确实符合我们的要求，但如果a和b每个包含数百万个数字，我们将为Python中循环的低效率付出代价。...矢量化描述了代码中没有任何显式的循环、索引等这些事情，当然，只是在优化的、预编译的C代码中“幕后”发生了这些事情。

4.7K2 0

Numpy 数学函数及逻辑函数

()floor计算小于或等于元素的最大整数np.floor()rint对浮点数取整到最近的整数，但不改变浮点数类型np.rint()modf分别返回浮点数的整数和小数部分的数组np.modf()isnan...并不是所有的维度都要彼此兼容才符合广播机制的要求，但它们必须满足一定的条件。若两个数组的各维度兼容，也就是两个数组的每一维等长，或其中一个数组为一维，那么广播机制就适用。...如果shape维度不匹配，但是有维度是1，那么可以扩展维度是1的维度匹配另一个数组；如果shape维度不匹配，但是没有任何一个维度是1，则匹配引发错误；二维数组加一维数组 import numpy as...在 numpy 中对以上函数进行了运算符的重载，且运算符为元素级。也就是说，它们只用于位置相同的元素之间，所得到的运算结果组成一个新的数组。注意 numpy 的广播规则。...通用函数（universal function）通常叫作ufunc，它对数组中的各个元素逐一进行操作。这表明，通用函数分别处理输入数组的每个元素，生成的结果组成一个新的输出数组。

6663 0

独家 | 你的神经网络不起作用的37个理由（附链接）

在许多调试过程中，我经常发现自己在做同样的检查。我把我的经验和最好的想法整理在这个便利的列表中，希望它们对你也有用。目录 1. 如何使用本指南？ 2. 数据集问题 3....确保你的批次中不只包含一个标签这可能发生在排序的数据集中（即前10k个样本包含相同的类)。通过打乱数据集很容易解决。 11....检查“冻结”层或变量检查是否无意中禁用了一些应该被学习的层/变量的梯度更新。 24. 增加网络的大小也许你的网络的表现力不足以捕获目标功能。尝试在完全连接的层中添加更多层或更多隐藏单元。 25....对输入维使用奇怪的数字（例如，每个维使用不同的素数)，并检查它们如何在网络中传播。 26. 进行梯度检查如果你手工实现梯度下降，进行梯度检查可以确保你的反向传播能够正常工作。...一些解决方法：降低学习速度，特别是如果你在前100次迭代中得到了NaNs。 NaNs可以由除以0，或0或负数的自然对数产生。 Russell Stewart在如何应对NaN中有很好的建议。

8161 0

numpy的基本操作

下面的例子将数组c的shape改为(4,3)，注意从(3,4)改为(4,3)并不是对数组进行转置，而只是改变每个轴的大小，数组元素在内存中的位置并没有改变： >>> c.shape = 4,3 >>>...the input to an array, checking for NaNs or Infs.asscalar(a)Convert an array of size 1 to its scalar...皮皮blog 广播规则广播规则允许你在形状不同但却兼容的数组上进行计算。换句话说，你并不总是需要重塑或铺平数组，使它们的形状匹配。 ... 当使用ufunc函数对两个数组进行计算时，ufunc函数会对这两个数组的对应元素进行计算，因此它要求这两个数组的形状相同。 ...广播规则允许你在形状不同但却兼容的数组上进行计算。换句话说，你并不总是需要重塑或铺平数组，使它们的形状匹配。广播规则描述了具有不同维度和/或形状的数组仍可以用于计算。

9650 0

你的神经网络不起作用的37个理由

确保你的批次中不只包含一个标签这可能发生在排序的数据集中（即前10k个样本包含相同的类)。通过打乱数据集很容易解决。 11. 减少批量大小有论文指出，批量较大会降低模型的泛化能力。...检查“冻结”层或变量检查是否无意中禁用了一些应该被学习的层/变量的梯度更新。 24. 增加网络的大小也许你的网络的表现力不足以捕获目标功能。尝试在完全连接的层中添加更多层或更多隐藏单元。 25....对输入维使用奇怪的数字（例如，每个维使用不同的素数)，并检查它们如何在网络中传播。 26. 进行梯度检查如果你手工实现梯度下降，进行梯度检查可以确保你的反向传播能够正常工作。...解决一个非常小的数据集对一小部分数据进行过度拟合，并确保其工作正常。例如，只训练1或2个例子，看看你的网络能否学会区分这些。继续对每个类别添加更多的示例。 28....NaNs可以由除以0，或0或负数的自然对数产生。 Russell Stewart在如何应对NaN中有很好的建议。

7760 0

独家 | 你的神经网络不起作用的37个理由（附链接）

确保你的批次中不只包含一个标签这可能发生在排序的数据集中（即前10k个样本包含相同的类)。通过打乱数据集很容易解决。 11....检查“冻结”层或变量检查是否无意中禁用了一些应该被学习的层/变量的梯度更新。 24. 增加网络的大小也许你的网络的表现力不足以捕获目标功能。尝试在完全连接的层中添加更多层或更多隐藏单元。 25....对输入维使用奇怪的数字（例如，每个维使用不同的素数)，并检查它们如何在网络中传播。 26. 进行梯度检查如果你手工实现梯度下降，进行梯度检查可以确保你的反向传播能够正常工作。...解决一个非常小的数据集对一小部分数据进行过度拟合，并确保其工作正常。例如，只训练1或2个例子，看看你的网络能否学会区分这些。继续对每个类别添加更多的示例。 28....一些解决方法：降低学习速度，特别是如果你在前100次迭代中得到了NaNs。 NaNs可以由除以0，或0或负数的自然对数产生。 Russell Stewart在如何应对NaN中有很好的建议。

7812 0

数据预处理 | 机器学习之特征工程

存在缺失值：因为各种各样的原因，真实世界中的许多数据集都包含缺失数据，这类数据经常被编码成空格、NaNs，或其他占位符。...信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。...类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。无量钢化 1 标准化数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。...在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。...公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按属性（按列进行）减去其均值，并除以其方差。得到结果是，对于每个属性（每列）来说所有数据都聚集在0附近，方差为1。

1K9 0

数据缺失的坑，无监督学习这样帮你补了

很多著名的无监督学习算法，比如层次聚类，K-Means，混合高斯模型或隐马尔可夫模型，对同一问题可能得到不同的答案，依我拙见，对于找结构问题，没有所谓更好的或更正确的普适方法（真的吗？...利用留下的特征，对训练集应用聚类算法，并预测两组中每个样本的簇。加上删去的列，计算按照簇分组后每个特征的平均值（或均值，如果是定性的话）。所以现在我们有了每个簇未补全时的特征的平均值。...结果在条形图中，用红线标记平均值插补的分数，以便进行比较。占有率检测数据集：诚如之前提到的，这个数据集并没有缺失数据，所以只能模拟补缺行为。对将要补缺的数据特征和样本应当谨慎挑选。...我们并没有对房产市场数据使用GMM_MML算法，因为它包含太多特征，而协方差的计算对于多特征数据比多样本量数据更加困难。...均值补缺的表现没有比基于聚类补缺方法差很多，因此也可以考虑使用。后续工作数据整理也可以尝试新方法：不再丢弃有缺失数据的特征，可以用均值或中位数填补缺失值，对修改后的数据集使用聚类分析。

1.3K3 0

NumPy 1.26 中文文档（四十三）

np.digitize 是基于 np.searchsorted 实现的。这意味着使用二分搜索对值进行分箱，对于更大数量的区间，比以前的线性搜索更具规模优势。它还消除了输入数组必须是一维的要求。...与 numpy 中的标准用法相反，NaNs 会被比较，如果两个对象在相同位置具有 NaNs，则不会引发断言。参数： x 类似数组对象要检查的较小对象。 y 类似数组对象要比较的较大对象。...err_msg 字符串在失败情况下打印的错误消息。 verbose 布尔类型如果为 True，则将冲突的值附加到错误消息中。...随机数据的测试随机数据的测试很好，但由于测试失败旨在暴露新的错误或回归，因此一个大部分时间都通过但偶尔在没有代码更改的情况下失败的测试是没有帮助的。...随机数据测试随机数据测试虽然很好，但由于测试失败意味着暴露新的错误或回归，因此大部分时间通过但偶尔失败而没有代码更改的测试并不有用。通过在生成之前设置随机数种子来使随机数据具有确定性。

1591 0

Python学习之numpy——2

参考链接： Python中的numpy.logaddexp2 part（三） Numpy 使用教程--Numpy 数组操作及随机抽样一、实验介绍 1.1 实验内容如果你使用 Python 语言进行科学计算...，并对使用 Numpy 进行科学计算感兴趣的用户。...其实，它们直接是有区别的，区别在于对原数组的影响。reshape 在改变形状时，不会影响原数组，相当于对原数组做了一份拷贝。而 resize 则是对原数组执行操作。...2.15 翻转数组在 numpy 中，我们还可以对数组进行翻转操作： fliplr(m)：左右翻转数组。flipud(m)：上下翻转数组。...二、数学函数使用 python 自带的运算符，你可以完成数学中的加减乘除，以及取余、取整，幂次计算等。导入自带的 math 模块之后，里面又包含绝对值、阶乘、开平方等一些常用的数学函数。

1.7K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭