python重抽样_python 抽样_等距抽样python - 腾讯云开发者社区

、、、

我又很难用剪贴画--学习剪影系数。(第一个问题是：)。我做了一个非常不平衡的聚类，但是有很多个体，所以我想使用剪影系数的抽样参数。我想知道次抽样是否是分层的，也就是关于集群的抽样。我以虹膜数据集为例，但我的数据集要大得多(这就是为什么我需要抽样)。我的代码是： from sklearn import datasets from sklearn.metrics import * iris = datasets.load_iris() col = iris.feature_names name = iris.target_names X = pd.DataFrame(iris.data, colu

浏览 1提问于2013-12-18得票数 1

回答已采纳

1回答

用于传感器简单时间序列数据的非均匀DFT应用库

、、、、

我有传感器监控泵的实时数据。我需要在频域上分析泵的占空比.我在快速傅立叶变换方面很生疏，所以我希望找到一个C++或Python，它有一个简单的API接收时间序列数据(即一系列{时间戳，值}实数对)，并返回一系列的频率、振幅和相位。我发现好几个包裹都是复数系列的。此外，他们的示例代码通常使用随机数据作为输入，这使得它很难与生产代码集成。基于Matlab的解决方案对我来说也很难集成到代码中。我发现的一个包裹是： https://github.com/flatironinstitute/finufft 我知道问题在于我缺乏知识，但鉴于传感器数据分析是当今的热门话题，我惊讶地发现这样一个图书馆是如

浏览 0提问于2019-09-08得票数 0

1回答

对一类分类精度的优化？

、、、

我的数据集有两个类。无兴趣者占90%，兴趣类约占10%. 我已经完成了重采样，不仅仅是一次，还有一次平衡集(例如10组)。并进行多数投票以得到最终的预测结果。在对多个模型进行比较后，树得到了最好的结果。我已经根据重要性分数选出了最重要的特征。总体精度不差，75%，但对我感兴趣的班级的精度只有30%，这不是很好。如何对目标类的精度进行优化？我认为，在R中的ctree包后面的算法是对总体精度进行优化。我也试过单级分类，比如svm，但不是很好。顺便说一下，我都用了R和python。但我没有找到任何有关我的问题的包裹。我是否需要编写自己的树算法来优化感兴趣的类的精度？谢谢。

浏览 2提问于2016-04-08得票数 1

回答已采纳

1回答

为什么DALEX和tidymodel提供不同的GOF？

、、、

我想知道为什么DALEX model_performance和collect_metrics不提供同样的准确性。他们是使用不同的措施还是不同的方法？我编译了以下示例代码： library(tidymodels) library(parsnip) library(DALEXtra) set.seed(1) x1 <- rbinom(1000, 5, .1) x2 <- rbinom(1000, 5, .4) x3 <- rbinom(1000, 5, .9) x4 <- rbinom(1000, 5, .6) id <- c(1:1000) y <- as.

浏览 6提问于2022-03-02得票数 1

1回答

不改变螺距和比率的重采样

、、、、

我在做语音识别和去噪。为了将数据提供给我的模型，我需要重采样并使它成为两个通道。虽然我不知道每个声音的最佳重采样率。当我用一个固定的数字来重采样率(Resr)，比如20000或16000，有时起作用，有时会使音高变差或变慢。在这种情况下，重采样是如何工作的？我需要优化器吗？另外，如果我接到一个电话，而一个人的声音太安静，以至于它确实被识别为噪音，我该怎么办呢？这是我的密码： num_channels = sig.shape[0] # Resample first channel resig = torchaudio.transforms.Resample(sr, resr)(sig[:1,:

浏览 15提问于2022-10-20得票数 0

1回答

用击数预测

、、、、

如果我有一个有1083个样本的训练数据集和一个有79871个样本的测试数据集，那么如何使样本相等呢？我一直在使用SMOTE，但现在我发现了错误。 ValueError: Unknown label type: 'continuous-multioutput' 我的代码： from imblearn.over_sampling import SMOTE from sklearn import utils over_sampler = SMOTE() print(utils.multiclass.type_of_target(x)) print(utils.multiclas

浏览 8提问于2022-01-29得票数 0

1回答

Matlab/Python:非均匀时间序列的功率谱密度

、、、

我试图找出在不均匀时间测量的信号的功率谱密度。数据如下所示： 0 1.55 755 1.58 2412256 2.42 2413137 0.32 2497761 1.19 ... 其中第一列是自第一次度量(以秒为单位)以来的时间，第二列是度量的值。目前，利用Matlab中的周期图函数，我已经能够通过以下方法估计功率谱密度： nfft = length(data(:,2)); pxx = periodogram(data(:,2),[],nfft); 现在，我一直在用 len = length(pxx); num = 1:1:len; plot(num,pxx) 它显然没有将正确的x轴放置在功

浏览 2提问于2014-02-13得票数 4

1回答

实现低采样透明度的一些有效方法是什么？

、、、

似乎有些游戏已经成功地实现了低采样的透明度，并可能获得了显着的性能提升。(例子:未知2，Crysis 2)之前我试图在Gems 3中实现一种基于文章的这种形式，但是我们发现它的速度还不够快，不能成为我们的胜利。我正在寻找关于实现低采样透明度的其他技术的信息，特别是针对PS3和Xbox360的信息。

浏览 0提问于2011-04-25得票数 3

1回答

TensorVariable到数组

、、

我试图计算一个theano TensorValue表达式： import pymc3 import numpy as np with pymc3.Model(): growth = pymc3.Normal('growth_%s' % 'some_name', 0, 10) x = np.arange(4) (x * growth).eval() 但是得到错误 Traceback (most recent call last): File "<stdin>", line 1, in <module> Fi

浏览 1提问于2018-11-14得票数 2

回答已采纳

1回答

用LogisticRegression()比较R和Python的GLMNET输出

、、、、

我使用Logistic回归和L1范数(LASSO)。我选择使用R中的R包和python中的sklearn.linear_model中的LogisticRegression()。根据我的理解，这应该会产生同样的结果，但事实并非如此。请注意，我没有缩放数据。对于python，我使用以下链接作为参考：对于R，我使用了以下链接：以下是R中使用的代码 ################################### #### LASSO LOGISTIC REGRESSION #### ################################## x <- model.

浏览 2提问于2019-09-09得票数 1

1回答

为什么重采样要改变模型系数的值？

、、、

下面是python中的代码，用于创建LinearRegression模型。当我用重新采样的数据训练模型时，它的系数得到不同的值。我不明白为什么会这样。请你帮我一下好吗？更新我想重采样和洗牌是一样的。这意味着数据的顺序是改变的，而不是数据本身。在提供的用例中，行数与我检查的行数相同，而且据我所知，数据的顺序也发生了变化。谢谢! from sklearn.linear_model import LinearRegression from sklearn.utils import resample model = LinearRegression(fit_intercept=False)

浏览 0提问于2018-07-18得票数 1

回答已采纳

1回答

如何获得引导p值和引导t值，以及函数boot()是如何工作的？

、

我想得到一个lm的引导t值和引导p值。我有下面的代码(基本上是从一篇论文中复制的)，它可以工作。 # First of all you need the following packages install.packages("car") install.packages("MASS") install.packages("boot") library("car") library("MASS") library("boot") boot.function <- function(data

浏览 1提问于2011-11-25得票数 4

回答已采纳

2回答

XGBoost预测的概率

我看了足球数据，并试图预测是否会出现一个目标二进制的xgboost :逻辑。我的数据是1:10不平衡，没有比目标更占优势的目标。我在mlr包中使用了smote或task.over来过度采样(因子为4)。我训练模型，调和交叉验证，但预测似乎是合理的(低拍卖30%，但在其他统计数据高)。然而，当我看这个模型预测的概率时，它比实际的平均值要大得多。有什么能导致这件事的吗？概率是多少？也就是说，第一类概率是指他们在第一类中的概率，所以可能并不能真正代表得分的概率。提前感谢

浏览 0提问于2020-11-10得票数 1

2回答

python支持向量机的主动学习(如池抽样)

、、

我正在研究一个问题，它将极大地受益于主动学习协议(例如，与现有模型相比，给定一组未标记数据，该算法要求由“oracle”标记未标记数据的子集)。有没有人在支持向量机(最好是python)中实现主动学习(使用池抽样、委员会查询或其他方式)的示例？

浏览 5提问于2016-05-03得票数 7

回答已采纳

1回答

如果我已经在使用打击炮，是否有必要使用分层抽样？

、

我已经用300 K以上的观测数据对我的不平衡数据集应用了SMOTE。使用分层的K-折叠交叉验证，而不仅仅是普通的K-折叠交叉验证(似乎不太可能，每个K-折叠训练集都会不平衡)，这是否仍然有意义？

浏览 0提问于2021-10-19得票数 0

回答已采纳

1回答

改进不平衡数据集中的文本分类与标注

、、

我正在尝试分类文本标题(NLP)在类别。让我们说，我有6K的标题，应该属于四个类别。我的问题：我不明白为什么在某些ML技术中，类别被转换成“转换预测目标”的数值？这会不会影响模型的准确性而不是使用标称值？我的数据是严重不平衡的一些类别，例如: CAT A有4K标题和CAT B有500个标题。因此，过度抽样或过低采样可能会影响准确性，因为正确预测的机会将更高，属于最大的类别，就像原来的分布一样，我是正确的吗？最后，标题可以有诸如公司、产品之类的品牌。等等，在训练模型之前，应该清洗和更换吗？因为如果像丰田这样的品牌出现在标题中，那么模型就能猜出一段文字是否属于汽车范畴？

浏览 0提问于2021-10-11得票数 1

回答已采纳

1回答

狮身人面像4非常精确

、

我正在尝试让斯芬克斯4与我的桌面应用程序一起工作，并且它在0%的时间里都是正确的，而且我使用的是默认的语言模型和sphinx4 data.jar中的所有东西代码： import edu.cmu.sphinx.api.Configuration; import edu.cmu.sphinx.api.Microphone; import edu.cmu.sphinx.api.SpeechResult; import edu.cmu.sphinx.api.StreamSpeechRecognizer; public class Speechy { public static void main(S

浏览 4提问于2017-09-08得票数 1

回答已采纳

1回答

数据周期-如何标准化？

、、

我有一个包含12年天气数据的数据集。在最初的10年中，每天记录这些数据。在过去两年中，现在每周都有记录。我想在Python中使用这些数据进行分析，但对于如何将其规范化以供使用，我一点也不感兴趣。我的思想使用平均数将头10年的数据也转换为每周的数据。可能有用，但在翻译过程中丢失了这么多数据。每周数据不能转换为每天的数据。忽略日常数据--这是一个巨大的损失。忽略每周数据--我失去了更多的最新数据。对此有什么想法吗？

浏览 3提问于2017-10-20得票数 0

1回答

用Python和给定的响应变量估计联合分布

、、、

我有来自一个函数Y = f(X)的一系列示例，其中有d随机变量、X_1、X_2 . X_d和一个响应变量Y，这些变量的X设置为x_1、x_2、……x_d，最后是Y为y (Y为实值)。我将这些样本存储在维数(n x d)的矩阵中，并将响应存储在向量(d x 1)中。我想用Python计算联合发行版，这样在接收到新的样本后，我就可以无痛地更新发行版。最重要的是，我希望能够从我自己计算出的以Y为条件的分布中采样Y设置，也就是说--选择一个期望的值Y = y，然后从一个条件的加权联合分布中选择一组可能的X设置，考虑到对Y = y的选择。有些变量是分类的，有些是序号的，但如果需要的话，我可以将它们

浏览 4提问于2013-11-13得票数 2

4回答

不平衡类:星火MLLib中ML算法的class_weight

、、、

在python学习中，有多种算法(例如回归、随机森林.等)具有处理不平衡数据的class_weight参数的。但是，对于MLLib算法，我没有找到这样的参数。是否有为某些class_weight算法实现MLLib的计划？或者，在MLLib中是否有处理不平衡数据的方法？或者我们实际上必须处理MLLib中所有的上/下采样？谢谢!

浏览 0提问于2016-12-07得票数 8

2回答

如何在iPhone上记录低样本(约1000赫兹)

、、

我正在编写一个应用程序，用内置麦克风在iPhone 6上录制单声道音频。当配置为8000 Hz时，这些应用程序可以正常工作。这是密码 // Set up audio session let session = AVAudioSession.sharedInstance() // Configure audio session do { try session.setCategory(AVAudioSessionCategoryPlayAndRecord) var recordSettings = [String:AnyObje

浏览 1提问于2017-01-27得票数 5

回答已采纳

1回答

如何从数据集中获取学生t参数？

、

我对python的编码很陌生，我希望从理论上知道的数据集中获取参数，这些数据很可能是t分布的。我尝试的第一个方法是使用t.fit()。为了再次检查结果，我还使用了st.stats.describe()，并注意到我得到了不同的结果。我还使用t.stats()来获取"mvsk“时刻。我不知道不同的函数是做什么的，什么结果值得信任。这些参数稍后将用于蒙特卡罗模拟。有人能解释一下不同的方法吗?我做错了什么？ import numpy as np from scipy.stats import norm,t import scipy.stats as st import pandas as pd

浏览 0提问于2019-04-04得票数 0

1回答

配置jflow v5 get错误:接口-名称：'xxx'：必须是服务接口

、、

朋友：当我在MX-480上配置jflow v5时： ===== admin@USA-MX-RE0# show forwarding-options sampling instance { MONITOR-FLOW { input { rate 1000; } family inet { output { ## ## Warning: Output 'interface' or 'inline J

浏览 0提问于2020-05-11得票数 1

回答已采纳

2回答

Matlab或Python中的MCMC图像处理示例

、、

我正在寻找一个示例代码，使用马尔可夫链蒙特卡罗方法进行图像处理，最好是用于分割，在Matlab或Python中。除了MRP ICM.m示例之外，我找不到任何示例。有什么建议吗？

浏览 2提问于2011-11-03得票数 2

回答已采纳

1回答

基于条件的文件省略行的迭代效率

、、、、

阿海。我的任务是提高 sample.py的性能，作为一项实践活动。我已经把代码的一部分算出来了。它还包括一个PCG随机生成器，它迄今为止已经提高了大约20秒的性能(从72s下降)，以及优化打印输出(使用一个基本的c函数，而不是python的write())。这一切都很好，但除了这些修复，我想优化循环本身。基本功能，如bit.ly的sample.py中所示 def run(sample_rate): input_stream = sys.stdin for line in input_stream: if random.randint(1,100) <

浏览 5提问于2016-05-25得票数 1

1回答

理解librosa.feature.spectral_contrast

、

我正在使用python，我正在尝试使用这个函数，但是我正在与它做斗争。 def extract_feature_for_one_signal(signal): signal = signal.astype(float) mel = np.mean(librosa.feature.melspectrogram(signal, sr=SAMPLE_RATE, n_fft=N_FFT, hop_length=HOP_LENGTH).T, axis=0) mfccs = np.mean(librosa.feature.mfcc(y=signal, sr=SAMPL

浏览 8提问于2020-09-29得票数 0

1回答

Sphinx4语音识别传输演示不能准确地用于短wav文件

、、、、

我刚刚为转录的音频文件实现了转录程序演示。我的音频文件是.wav文件，它只包含像"BHAVIK“、"ANKIT”、"SAGAR“这样的名字。我的语法文件由以下语法组成： public = (JAY)|(SAGAR)|(BHAVIK)|(ANKIT)|(MIRAJ)|(YAGNESH)；但问题是，转录者演示没有提供正确的结果，..its只是提供给我一些其他当我给.wav文件的“杰伊”..its没有给出正确的结果。为什么会这样？我的.wav文件在这里你能听到..。请帮帮我..。预先感谢，我已经将逻辑以这样的方式实现了.我使用一个类名作为had音频记录器。公共类E

浏览 2提问于2012-09-03得票数 1

1回答

图像分层采样

、、、

我有一个数据科学问题，在20个不同的类别中，大约有70000张图片已经贴上了标签。有些类别有许多图像，而另一些类别则有较少的图像。这反过来导致不平衡的数据集和糟糕的结果(目前的准确率为68% )。经过一些研究，我发现我需要做一个图像的采样(图像挖掘？)而不是选择所有的图像。这种方法之一可以是分层抽样。问题是如何选择图像来优化模型的培训？任何命令行工具或开放源代码，我可以使用70k图像？

浏览 0提问于2018-05-01得票数 0

回答已采纳

1回答

WEKA分类器评价

、

我试着在WEKA中使用10倍的CV来评估分类器的性能。我有三万二千张唱片，分成三个不同的类别，"po"，"ng"，"ne“。po：~950 ng：~1200 ne：~30000 如何分割用于执行简历的数据集？我是否正确地假设，对于简历，我应该有一个大致相同的记录为每一个班级，以防止不公平的加权对"ne“类？

浏览 4提问于2016-04-27得票数 0

回答已采纳

1回答

Tensorflow.js中的反向传播

、、、、

我正在为情绪分类做一个RNN，同时使用多到一个结构。为了使我的RNN能够在HTML文件中运行。为了使问题简短和简单：什么是Tensorflow的Tensorflow.js ( python版本) tf.train.GradientDescentOptimizer(1.0).minimize(loss)

浏览 0提问于2020-08-14得票数 1

回答已采纳

1回答

Python3.6.4挂件模块窗口错误？{pyglet.gl.lib.GLException: B‘无效枚举’}

、、、、

更新：我检查了安装在电脑上的显卡。其中一个“工作”有Nvidia图形，另一个在设备管理器的显示适配器下有Intel HD图形。我假设Intel图形驱动程序是不够的(不包含所需的OpenGL？) 为了让街机模块工作，我需要在Intel HD R图形计算机上安装什么？原始问题：遇到一个非常奇怪的问题，我在一台计算机上编写了python代码，但在另一台计算机上却没有，我不知道为什么. I在两台计算机上都安装了Python3.6.4，任何版本( 3.6 +)都应该能够运行Arcade模块。，这是我的代码，超级简单的东西： # import needed modules import rand

浏览 1提问于2019-03-28得票数 2

回答已采纳

1回答

用相同的参数解释每个随机森林运行的特征重要性输出的方差

、、、

我注意到，在每个随机森林运行中，即使使用相同的参数，我也得到了不同的特性重要性结果。现在，我知道随机森林模型随机地接受观测，这导致了重要性水平的变化。这一点特别显示在不太重要的变量上。我的问题是，在多次运行时，如何解释随机森林中的差异？我知道，可以通过增加树的数量来减少结果的不稳定性；然而，这并不能真正告诉我我的特性重要性结果是否为" true“，尽管它们对于特定的运行可能是正确的(但不一定是单独运行的)。即使我取了非常多的树，并平均每个变量的特征重要性结果，但如果我再次重复这个完全相同的过程，它也不一定会产生相同的重要性结果。此外，我已经尝试了非常多的树，但仍然得到了一个轻微的

浏览 0提问于2022-05-13得票数 0

回答已采纳

1回答

用Gibbs抽样+瘦选项实现LDA主题模型？

、、、

我试图优化一个LDA主题模型使用崩溃吉布斯抽样。我一直在使用R中的ldatuning包来优化主题数k： controls_tm <- list( burnin = 1000, iter = 4000, thin = 500, nstart = 5, seed = 0:4, best = TRUE ) num_cores <- max(parallel::detectCores() - 1, 1) result <- FindTopicsNumber(my_dfm, topics = seq(40, 100, by = 5), metri

浏览 2提问于2017-11-02得票数 0

2回答

阿尔萨音频记录和回放

、、

我只是在用python在raspberry pi上玩声音输入和输出。我的计划是读取麦克风的输入，操作它并播放被操纵的音频。此刻，我试着读并播放音频。由于我在最后一步将读取的数据写入了wave文件，所以读取似乎是可行的，而wave文件似乎很好。但回放只是噪音的声音。播放wave文件也同样有效，因此耳机也很好。我想可能我的设置或输出格式出了问题。守则： import alsaaudio as audio import time import audioop #Input & Output Settings periodsize = 1024 audioformat = audio.PC

浏览 6提问于2017-05-21得票数 0

回答已采纳

1回答

如何使用H2o Python获取分类的最佳阈值

、、、

我在Python语言中有一个使用H2o的分类模型，它的AUC = 71% 但基于混淆矩阵的分类准确率仅为61%。我知道混淆矩阵是基于.5阈值的我如何确定哪个阈值的准确率为71%？

浏览 17提问于2020-06-02得票数 0

回答已采纳

1回答

如何从给定的范围内均匀地得到n个唯一数？

、、

我有一个整数范围[0，Z)。我需要从这个范围获得n(其中n <= Z)随机数，但它们必须是唯一的。所以我知道我可以对拒绝抽样进行编码，但是我想知道是否有一行python函数可以帮我完成这个任务？

浏览 5提问于2022-09-07得票数 -2

回答已采纳

2回答

如何使用Python对图像数据集进行过采样？

、、、、

我正在研究一个具有不平衡图像数据集(不同类)的多类分类问题。我尝试过imblearn库，但它不适用于图像数据集。我有一个三类的图像数据集，即A，B，C。A有1000个数据，B有300个，C有100个。我想对B类和C类进行过采样，以避免数据不平衡。请让我知道如何使用python过采样图像数据集。

浏览 2提问于2018-01-30得票数 3

7回答

如何随机抽样文件的子集

、、

有什么Linux命令可以用来示例文件的子集吗？例如，一个文件包含100万行，我们希望从该文件中随机抽取1000行。对于随机，我的意思是，每条线被选择的概率是相同的，而选择的行没有一个是重复的。 head和tail可以选择文件的一个子集，但不能随机选择。我知道我总是可以编写python脚本来做到这一点，但我只是想知道这种用法是否有一个命令。

浏览 0提问于2014-01-09得票数 77

回答已采纳

1回答

我应该如何处理不平衡的二进制目标？

、、、、

我试图用Python对我的数据建模，我对我的二进制目标变量很担心，因为它有90%的情况在0中下降，10%的情况在1中下降。我尝试过重新采样我的数据，得到的观察结果比我多了两倍。我不确定这样做是否正确。

浏览 0提问于2020-10-30得票数 -1

2回答

在print语句中，是什么决定了python shell是打印空字符还是等待输入

最近我尝试了一些用python编写的练习程序，遇到了这个小问题。当我输入的时候 print "" 在IDLE中，python shell打印一个空字符。如果我键入 print """""" 在IDLE中，python shell打印一个空字符。但是，如果我输入以下命令，python shell将等待输入。 print """" 为什么会观察到这种行为。据我所知，它也应该为这个print """"打印空字符。

浏览 1提问于2009-05-19得票数 2

回答已采纳

1回答

不能使用sox将mp3采样率设置为44.1k

、、

我正在尝试覆盖两个文件(将它们合并为一个，以便它们同时处理)。 sox --combine的选项有顺序、串联、混合、混合、合并和乘法.我看过docs 这里，不完全清楚我应该使用哪一种。序列和级联的工作时，他们有不同的采样率，但它不覆盖他们。我正在尝试使用mix，但它不允许我将采样率设置为41k (据我的理解，这对于mp3是正确的)：为了预防不同的采样率，我循环遍历输入文件，并将它们的所有采样率设置为41k。我有以下代码来执行此操作： sox -r 44.1k input1.mp3 output1.mp3 sox -r 44.1k input2.mp3 output2.mp3 我得到了这个(

浏览 0提问于2017-06-12得票数 0

2回答

Python/SciPy中Matlab的gaussmf？

、、、、

我需要相当于Matlab的gaussmf函数的Python，但我找不到它。目前，我只是重新实现了它： def gauss(x, sigma=1, mean=0, scale=1): return scale * numpy.exp(-numpy.square(x - mean) / (2 * sigma ** 2)) 但是只使用库函数会感觉更好，最好是从numpy或scipy开始，这样我就可以在像x(一维numpy.ndarray)这样的数组上使用它。

浏览 4提问于2013-08-21得票数 0

回答已采纳

2回答

输入大小相同的快速和非常慢的scipy.signal.resample

、、、、

根据的文档，速度应根据输入的长度而变化。如前所述，重采样使用FFT转换，如果输入样本数量大且是素数，则转换可能非常慢，请参见scipy.fftpack.fft。但是，我有非常不同的时间(因子x14) ，具有相同的输入，并且只对期望的输出大小有很小的变化： import numpy as np, time from scipy.signal import resample x = np.random.rand(262144, 2) y = np.random.rand(262144, 2) t0 = time.time() resample(x, 233543, axis=0)

浏览 0提问于2018-09-14得票数 3

回答已采纳

1回答

Kolmogorov-Smirnov试验的实测值

、

我已经调用python上的KS测试函数来比较两个特性:大小和持续时间，我在解释输出时有点不知所措。这是我的代码： from scipy.stats import ks_2samp import csv ds1=getColumn("TraceBG.csv",5) ds2=getColumn("TraceFG.csv",5) ds11=getColumn("TraceBG.csv",6) ds12=getColumn("TraceFG.csv",6) print "size: | ",ks_2samp(ds1,d

浏览 1提问于2014-08-11得票数 0

回答已采纳

1回答

在Matlab下采样矢量时如何消除偏差

、、

我有一组向量，包含一些任意形状，就像一个三角形脉冲，有一个最大值。我需要用整数因子对这些向量进行降采样。最大值相对于向量长度的位置应该保持不变。下面的代码显示，当我这样做的时候，有一个由下采样步骤引入的bias=-0.0085，它的平均值应该是零。偏差似乎变化不大，取决于向量的数量(尝试在200到800矢量之间)。我还尝试了不同的重采样函数，如downsample和decimate，得到了相同的结果。 datapoints = zeros(1000,800); for ii = 1:size(datapoints,2) datapoints(ii:ii+18,ii) = [1

浏览 1提问于2019-11-28得票数 1

回答已采纳

1回答

无法在MAC上导入python模块lxml

、、、

无法从MAC上的终端导入lxml。得到下面的错误错误： python Python 2.7.14 (v2.7.14:84471935ed, Sep 16 2017, 12:01:12) [GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> from lxml import etree Traceback (m

浏览 3提问于2017-11-05得票数 1

3回答

在多类文本分类中，是否需要缓解类的不平衡问题？

、、、

我正在使用python中的BERT执行多类文本分类。用于重新培训我的模型的数据集非常不平衡。现在，我非常清楚的是，班级不平衡导致了一个糟糕的模式，在模型培训之前，我们应该平衡低采样、过抽样等所设置的培训。然而，培训集的分布应与生产数据的分布相似，这也是事实。现在，如果我肯定在生产环境中扔给我的数据也会不平衡，即要分类的样本可能属于一个或多个类别，与其他类别相比，我是否应该平衡我的训练集？或我是否应该保留培训集，因为我知道培训集的分布类似于我将在生产中遇到的数据的分布？请给我一些想法，或提供一些博客或论文来理解这个问题。

浏览 5提问于2022-07-14得票数 2

1回答

当一个新的取样方向低于正常方向的半球时，我该怎么办？

、、、

我在GGX中从D项的pdf中生成随机方向。在图片上，白点是新的方向，交叉是光的方向，粗糙度= 1。我应该如何处理在半球下面产生的方向？我应该也可以抛弃他们吗？ 📷

浏览 0提问于2020-09-09得票数 5

回答已采纳

1回答

具有给定特征的数据随机样本

、、、、

我有一个数据df与病人subject_id，包括他们的gender和age。我想从这个数据中随机抽取一个大小为n的样本，其特征如下： 50%男性，50%女性 40岁你知道我怎么能用python来完成这个任务吗？谢谢!

浏览 3提问于2021-12-01得票数 1

回答已采纳

1回答

小参数np.random.dirichlet :在当前numpy中嵌入未来解决方案

、、、

目前正在讨论当前的np.random.dirichlet函数，因为它不适用于小参数： In [1]: import numpy as np In [2]: np.random.dirichlet(np.ones(3)*.00001) --------------------------------------------------------------------------- ZeroDivisionError Traceback (most recent call last) <ipython-input-2-464b0fe9c6

浏览 2提问于2015-11-11得票数 0

回答已采纳