每个csv作为一个训练示例

每个CSV作为一个训练示例是指在机器学习和数据分析领域中，将数据存储为CSV（逗号分隔值）文件格式，并将每个文件作为一个独立的训练示例来处理和分析。

CSV是一种常见的文件格式，用于存储结构化数据。它使用逗号作为字段之间的分隔符，每行表示一个数据记录，每个字段表示数据的不同属性。CSV文件易于创建和编辑，并且可以在各种应用程序和编程语言中进行读取和处理。

将每个CSV文件作为一个训练示例可以带来以下优势：

灵活性：每个CSV文件代表一个独立的训练示例，这意味着可以根据需要对每个示例进行个性化的处理和分析。这种灵活性使得可以针对不同的数据集和问题进行定制化的训练和分析。
可扩展性：通过将数据分割为多个CSV文件，可以轻松地扩展训练示例的数量。这对于处理大规模数据集和进行分布式计算非常有用。
可读性：CSV文件格式易于阅读和理解，使得数据科学家和分析师可以直观地查看和检查每个训练示例的内容。这有助于发现数据中的异常和问题，并进行必要的数据清洗和预处理。
可移植性：CSV文件格式是一种通用的数据交换格式，几乎所有的数据处理工具和编程语言都支持读取和写入CSV文件。这使得可以在不同的平台和环境中无缝地使用和共享训练示例。

应用场景：

机器学习：将每个CSV文件作为一个训练示例，可以用于各种机器学习任务，如分类、回归、聚类等。通过对每个示例进行特征提取和模型训练，可以实现对数据的预测和分析。
数据分析：将每个CSV文件作为一个训练示例，可以用于数据探索、统计分析和可视化。通过对每个示例进行数据处理和分析，可以揭示数据中的模式、趋势和关联性。
数据挖掘：将每个CSV文件作为一个训练示例，可以用于从大规模数据集中发现隐藏的模式和知识。通过对每个示例进行挖掘和分析，可以提取有价值的信息和洞察。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云对象存储（COS）：腾讯云对象存储（COS）是一种高可用、高可靠、强安全性的云端存储服务，适用于存储和管理各种类型的数据。它提供了简单易用的API和工具，方便上传、下载和管理CSV文件。了解更多：https://cloud.tencent.com/product/cos
腾讯云机器学习平台（Tencent Machine Learning Platform，TMLP）：腾讯云机器学习平台（TMLP）是一种全面的机器学习解决方案，提供了丰富的工具和算法，支持对CSV文件进行特征提取、模型训练和预测。了解更多：https://cloud.tencent.com/product/tmpl
腾讯云大数据平台（Tencent Big Data Platform，TBDP）：腾讯云大数据平台（TBDP）是一种全面的大数据解决方案，提供了强大的数据处理和分析能力，支持对大规模CSV文件进行批量处理和分布式计算。了解更多：https://cloud.tencent.com/product/tbdp

如何将word的向量传递给LSTM？

、

我正在使用LSTM进行情绪分析，我有一个csv格式的数据集，其中有' sentiment '，'Tweet‘。Wor2vec模型是在这个数据集上训练的，但是现在我不知道如何将它作为输入提供给lstm。我试着用矢量替换csv文件中的单词，但我做不到。在构建lstm时是否需要使用任何查找方法，或者我们必须用向量替换csv文件中的单词，但如何做呢？ (我已经保存了经过训练的word2vec模型)

浏览 1提问于2018-05-12得票数 0

1回答

我正在使用AutoML构建一个分类模型，我有一些关于GCP的基本用法问题。 1-数据隐私问题；如果我们保存行为数据以在BigQuery中训练我们的模型，谷歌是否有权访问这些数据？谷歌可以使用这些数据来了解更多我们收集的数据中个人的行为吗？ 2-由于培训费用是按小时收费的，我想了解一下数据和培训时间之间的关系。时间是否随着训练数据集的大小而线性增加？例如，我们使用1.7MB的数据训练一个分类，花了3个小时。那么，训练一个拥有17MB数据的模型需要30个小时吗？ 3-批量预测每小时1.16美元。然而，我们的数据是在csv中，似乎我们不能上传csv来进行批量预测。因此，我们将尝试使用API。因此，我

浏览 17提问于2020-02-19得票数 0

1回答

如何在R中保留/重新释放data.frame的因子水平？

、、、

我有一个大型数据集，用于在R中训练机器学习算法。在所有的数据预处理之后，我有一个包含因素和数值的数据。我将这些数据集分割成一个训练集和一个测试集，并将它们保存到write.csv()中。当我读回test.csv和train.csv文件时，可能会出现一些因素已经失去了水平。这使得一些算法在创建设计矩阵时失败。下面是一个详细的例子。假设最初我有一个包含12行的数据集，然后将数据集分成8行和4行的测试集。我将8行训练保存到train.csv，4行保存到test.csv。请注意，factor2在train.csv中具有级别(a、b、c、d)： factor1 factor2 value 1

浏览 1提问于2015-11-22得票数 1

回答已采纳

1回答

caffe的HDF5输入

、、、、

我正在尝试关注git上发布的。我想修改示例并使用我下载的数据(威斯康星州乳腺癌数据集)。我已经把它全部从csv传输到hdf5文件了。我不清楚如何将这些数据输入到网络中？它由700行和11列组成，其中一列是用于预测的“标签”列。根据我的理解，每一行都应该独立地输入到其他行，以便进行正确的训练？提前感谢

浏览 12提问于2019-07-22得票数 0

1回答

在scikit-learn - csv文件中生成图像特征数据集

、、、、

我从一张图像中提取了两个边缘特征(Hog特征和sobel算子)。如何在Scikit-learn python中创建图像特征数据集，如iris_dataset？在库中有表示数据集的csv文件。仅包含数字的csv文件。这些数字是如何生成的？特征提取？不幸的是，我在这里只看到了一个java教程，...，在5点讨论如何生成训练矩阵(平均矩阵和协方差矩阵)？Scikit中有没有生成这些训练数组的函数？

浏览 1提问于2012-12-11得票数 0

回答已采纳

1回答

无法训练Google Vision，因为验证错误

、、

我对Google Cloud Vision有一个问题。我添加了16张图片，并添加了边界框。但是我有一个验证错误，我不明白为什么?！我已经导出了我的CSV用于添加验证，但当我上传这个新的CSV时，没有任何变化...我已经有这个错误了。有了这些我就不能开始训练了。 ?

浏览 29提问于2021-09-27得票数 0

回答已采纳

1回答

将CSV文件转换为Siddhi事件

、、、

我想使用WSO2流处理器将CSV文件转换为一组Siddhi事件，以便使用该CSV文件训练kmeansIncremental模型。我尝试使用' file‘作为源类型和' csv’作为映射类型来创建该csv文件，但我无法做到这一点。 @source(type='file',file.uri='file:///home/Documents/Project%20Documents/logs/access.csv', @map(type='csv', header.present='true', event-groupi

浏览 11提问于2019-09-19得票数 0

1回答

关于十进制值的卷积神经网络

、、、、

我有很多csv文件，其中包含大约1000行和2列，数据如下所示： 21260.35679 0.008732499 21282.111 0.008729349 21303.86521 0.008721652 21325.61943 0.008708224 这两个特性是输出将是设备名称的特性。每个csv文件都是来自不同时间的特定设备的数据，也有许多设备。我想做的是训练数据，然后使用CNN对设备名称进行分类。如果在经过训练的观测之外有任何输入数据，则应将其归类为异常。我试图将这些值转换成图像矩阵，这样我就可以使用CNN来训练这些数据。但是我关心的是，第二列包含小于1或接近于零的值，并且值也是

浏览 2提问于2022-05-08得票数 -2

2回答

如何从CSV文件中训练和测试一个简单的二进制分类器？

、、、、

我用tweets bigram做了一个下面的CSV文件，我想训练一个模型来预测标签。我在网上找到的大多数示例都包含带有附加参数的数字特征，这使得它很难理解。在这里，我要求一个非常简单的例子来理解应该如何使用python (使用诸如scikit-learn之类的库)来训练和测试使用这个最简单的CSV数据集的分类模型(任何模型)。 bigram, label I love, 0 love you, 0 I hate, 1 hate you, 1 ... 我希望这篇文章也能帮助其他机器学习的初学者。

浏览 26提问于2020-10-27得票数 0

1回答

无法训练或测试数据

、、、

我有这位先生在"https://github.com/venky14/Machine-Learning-with-Iris-Dataset/blob/master/Machine%20Learning%20with%20Iris%20Dataset.ipynb“中提到的代码在将数据分成训练和测试后，我无法使用训练和测试的功能，因为data.Error被抛给了In92。出现错误"KeyError："'A‘'B’'C‘'D’'E‘'F’'H‘'I’不在索引中“” 下面是我的CSV文件的图像 ?

浏览 7提问于2018-12-25得票数 0

回答已采纳

2回答

将csv读入多个数据帧

、、

我有一个非常大的csv文件(8GB+)。我想使用该csv文件中的数据进行训练、测试和交叉验证集。如何将csv文件随机读取到多个数据帧中？我使用的是Python 3。

浏览 0提问于2016-05-03得票数 1

1回答

谷歌AutoML对象检测数据拆分错误

、、

我有一个图像数据集，我正在尝试使用谷歌的AutoML对象检测来运行对象检测。我手动将数据拆分为训练、测试和验证。但是，当我将csv上传到数据集中时，我多次收到以下错误："Error: Example is deduped with example id: 2289134970725637758“。 ? ? ? 我注意到它没有读取我在某个标签(chickennuggets)上设置为验证的图像。此外，每个拆分的数量与我的csv上的每个拆分的图像数量不匹配。我需要模型来读取图像并将其分配给集合(训练、测试或验证)，我将其放入CSV中。

浏览 29提问于2021-09-27得票数 0

1回答

使用大型数据集训练对话框

、、、

我有拥有用户查询和响应的数据集。数据集大小约为50K。数据存储在csv文件中，文件中分别有两列用于查询和响应。如何使用此数据集训练对话框流？我能用python训练它吗？这是在他们的文档中提到的- 。但我想不出怎么训练它？我想像这样训练- 。但我不能完全理解如何做到这一点。

浏览 0提问于2019-01-10得票数 4

回答已采纳

3回答

从Vowpal Wabbit的内存中读取数据？

、、

有没有一种方法可以发送数据来训练Vowpal Wabbit中的模型，而不把它写到磁盘上？这就是我想要做的。我在csv中有一个相对较大的数据集(大约2gb)，它在内存中没有问题。我在R中将它加载到一个数据帧中，并且我有一个函数将数据中的数据转换为VW格式。现在，为了训练一个模型，我必须先将转换后的数据写入一个文件，然后将该文件提供给大众。写入磁盘部分的时间太长了，特别是因为我想尝试不同的模型，并进行不同的特性转换，因此我不得不多次将数据写入磁盘。因此，假设我能够在R中创建一个字符向量，其中每个元素都是VW格式的一行数据，那么我如何才能在不将其写入磁盘的情况下将其输入VW呢？我考虑过使用守

浏览 6提问于2014-07-20得票数 5

回答已采纳

3回答

有人能帮我处理一下TensorFlow吗？

谷歌刚刚开放了TensorFlow作为开源。我读了一点，但看起来你只能用他们给定的MNIST数据来训练它。我正在寻找示例代码，在那里我可以用我自己的数据进行训练，并为我的测试文件输出结果。其中我有.csv文件(就像每行一个样本)作为训练数据(带有id，输出，+72列) 并为测试数据创建另一个.csv文件，我将在其中预测输出(1或0)。有没有人足够了解TensorFlow，给我一些示例代码？

浏览 1提问于2015-11-11得票数 4

2回答

如何使用K最近邻训练和测试数据？

、、

我正在尝试做一个机器学习算法，使用k近邻来训练程序。我有一个训练数据和一个测试数据，这是两个独立的csv文档，但大多数机器学习算法都是训练测试拆分方法，这不是我所需要的，因为训练测试拆分是在一个文档上进行训练和测试，但我是在一个文档上进行训练，并在一个文档上进行测试，所以我被如何使用训练数据和测试数据进行训练和测试所困扰。下面是我从互联网上参考的一组代码。它没有显示错误，但也没有任何东西出来。谁能告诉我下面这段python代码是否正确？有没有人知道k近邻机器学习算法的准确代码？ #K-最近的邻居从sklearn.neighbors导入KNeighborsClassifier 将熊猫作为p

浏览 1提问于2021-02-20得票数 0

1回答

如何使用c# .NET调用？

、、、、

我在AWS中训练和部署了一个模型，现在我试图以c# .NET的形式调用客户端的端点。在下面的代码中，由于Body参数的无效值，我似乎得到了错误。 AmazonSageMakerRuntimeClient aawsClient = new AmazonSageMakerRuntimeClient(); Amazon.SageMakerRuntime.Model.InvokeEndpointRequest request = new Amazon.SageMakerRuntime.Model.InvokeEndpointRequest(); request.EndpointName = "

浏览 0提问于2018-01-23得票数 0

1回答

Python TFlearn -损失太高

、、、

在修复了输入形状问题之后，我运行了我的程序，问题是程序打印的总损失太高了(例如，如果我将其与快速入门教程中的比较)。我的目标是通过使用过去的数据(我有超过10M的输入和分数标记)来预测未来条目的拥堵情况，所以我在训练上应该不会有问题。这是我的代码： import numpy as np import tflearn # Load CSV file, indicate that the first column represents labels from tflearn.data_utils import load_csv data, labels = load_csv('now

浏览 4提问于2017-06-30得票数 2

回答已采纳

1回答

使用pylearn2模型进行预测

我已经使用pylearn2训练了以下CNN模型。 h1 Input space: Conv2DSpace(shape=(25, 150), num_channels=1, axes=('b', 0, 1, 'c'), dtype=float64) Total input dimension: 3750 h2 Input space: Conv2DSpace(shape=(11, 73), num_channels=8, axes=('b', 'c', 0, 1), dtype=float64) To

浏览 4提问于2015-12-26得票数 1

1回答

Sagemaker在容器中找不到路径

、、

这是一个很难描述的情况。我在以下位置有一个python模型训练脚本： myproject/opt/program/train 这将在./opt/ml/input/data/external/train.csv中获取一个文件当我执行python3 opt/program/train时，训练在本地运行得很好。然后，我将项目容器化，并将opt复制到Dockerfile文件中的/opt。现在，当我运行docker run <image name> train时，它也训练得很好。然后我将镜像部署到SageMaker，创建一个估计器，并调用我得到的model.fit(my_data)

浏览 16提问于2019-11-17得票数 0

回答已采纳

3回答

AWS理解自定义分类作业输出的行数多于输入

、

我已经使用AWS Comprehend训练了一个NLP模型。输入: 1000行输出: 2082行输出如下所示： predictions.json <...> {"File": "test.csv", "Line": "0", "Classes": [{"Name": "No", "Score": 0.7022}, {"Name": "Yes", "Score": 0.2892}, {"Name&

浏览 1提问于2019-05-21得票数 0

1回答

如何将CSV文件中的每一列设置为样本而不是神经网络中的每一行？

、、、

我正在尝试使用非结构化数据进行第一次机器学习。预处理后的培训数据存储在CSV文件中，每一列都作为示例存储。跑后 numpy_array.shape 结果是(240000, 400)，即总共有400个样本，每个样本有240000个特征。培训数据集中没有标题(字符串)。我的问题是如何让模型知道，每一列都是一个样本。我应该先转到训练数据集吗？

浏览 3提问于2020-07-02得票数 0

回答已采纳

1回答

测试多列的列车数据帧

、、、、

我有一个csv文件 Date,Open,High,Low,Close,Adj Close,Volume,Cash EPS,Book Value,Div/share,Net profit/share,NPM,ROE,ROCE,ROA,DEBT/EQ,ATR,CR 2004-04-26,82.924217,82.924217,82.924217,82.924217,60.026066,0,221.24,488.21,129.5,186.6,26.11,38.22,38.22,24.2,0,92.67,1.65 2004-04-27,82.778122,82.778122,79.765625,80

浏览 22提问于2021-04-26得票数 0

回答已采纳

1回答

knn图像分类，精度差

、、、

我有一个用于图像分类的knn算法。在trainImages中，我有用于训练的图像，在trainLabels的标签中，validationImages和validationLabels是用于测试的 import imageio import glob import numpy as np import os import csv trainImages = [] for imagePath in glob.glob('C:/Users/razva/*.png'): image = imageio.imread(imagePath) trainImages.

浏览 40提问于2021-03-29得票数 0

1回答

Google >数据集-- csv中的验证数据不会上传

、

我正在使用谷歌视觉自动。为了训练一个模型，需要上传数据。有两种方法。 computerUpload直接将上传到google，并生成包含图像文件路径的csv .。见下面的图像因为，我想比较我的本地预培训模型和我将在谷歌自动化培训的模型，我想确保使用相同的数据分割(训练，测试，验证)。所以第二条路是最好的方法问题：我已经以以下格式制作了一个csv。但是当我上传它时，只加载了训练和测试集。

浏览 3提问于2020-02-14得票数 0

回答已采纳

2回答

使用什么服务来触发分配了机器学习任务的Azure Pipeline？

、、、、

我有一个在SVM上训练的模型，数据集为CSV，上传为blob存储中的blob。如何更新CSV，以及如何使用这些更改来触发重新训练ML模型的管道。

浏览 0提问于2019-12-25得票数 0

1回答

为多个CSV文件实现SVM

、、

我想知道是否可以有多个用于培训的CSV文件和一个用于测试的文件。例如，我得到了四个CSV文件，其中包含8列数据和一个标签，这与我所有的4个CSV训练文件不同。有了所有这些数据，我想在一个只包含8列数据的test.scv文件上进行测试，并在同一文件中添加预测的标签。(不确定是怎么做到的) 我只为一个用于测试和训练的CSV文件做到了这一点，下面是代码： svm_data = pd.read_csv('excel1.csv') classifcator=svm_data[['alpha','beta','gama','t

浏览 27提问于2020-05-22得票数 0

1回答

在神经网络实现中耗尽内存(使用Numpy Array)。什么能优化数据负载？

、、、、

我的数据集的格式如下：训练数据一个大小为numpy的数组(7855,448,448，3)，其中(448,448，3)是RGB图像的numpy版本。因为网络的目的是回归，我还没有找到使用ImageDataGenerator的解决方案。因此，我已经将整个图像数据集转换为一个numpy数组。训练目标训练目标是一个尺寸为7855的一维numpy阵列.这些条目对应于培训数据的条目。要获得numpy数组，我必须将整个数据集加载到一个变量中，然后传递给它以进行拟合和预测。仅这一项就占用了5-6个内存。当拟合模型时，RAM迅速溢出，运行时崩溃。如何将numpy数组元素分批输入，或者是否有另一种方式

浏览 0提问于2019-03-19得票数 0

回答已采纳

1回答

Watson NLC培训数据和用户问题中的逗号

在分析用户提交的问题时，我发现有时用户会包含逗号。当发生这种情况时，它会影响CSV文件的结构，因此分类不再是...问题，类，问题，类..。而是..。问题部分1，问题部分2，课堂，问题部分1，问题部分2，问题部分3，课程，...等。这种对.csv训练数据文件格式的无意更改似乎会在训练分类器时造成问题。请给我建议。

浏览 0提问于2016-04-30得票数 0

1回答

用Python的学习决策树对传感器数据(多变量时间序列)进行分类

、、、

我试图在以下数据集上应用scikit学习决策树，目的是对数据进行分类：感官数据：多个.csv文件每个.csv文件都有多个传感器(参见这里) 每个.csv文件都有一个标签(0或1) 到目前为止，我已经试着用潘达斯系列来训练我的模特。它可以工作，但决策树不能区分特征/传感器。熊猫系列是分析这样的数据的正确方法吗？还是有人有解决这个问题的办法？

浏览 0提问于2019-04-03得票数 0

1回答

如何获得可读(csv或txt)格式的doc2vec或sen2vec训练向量？

、、、

我在csv文件中为我的新闻收集训练了快速文本或Sen2vec，或者word2vec模型，每条新闻都有这样的一行。 0 Trump is a liar..... 1 Europa going for brexit..... 2 Russia is no more world power...... 所以，我得到了训练的模型，现在我可以很高兴地为我的csv文件中的任何一行(快速文本)得到向量。 import csv import re train = open('tweets.train3','w') test = open('tweets.val

浏览 0提问于2019-08-12得票数 0

回答已采纳

2回答

针对包含多个区块的大数据(~22 for )的Catboost训练模型

、、

我正在尝试训练一个csv文件中大约22 50数据的CatboostClassifier，这个文件大约有50列。我试着在pandas数据帧中一次加载所有数据，但做不到。有没有什么办法可以在catboost中使用多个数据帧块来训练模型？

浏览 2提问于2017-10-30得票数 1

1回答

我可以配置Brain.js让它输出0到1之间的数字数组吗？

、

我正在训练一个LSTM，试图预测每次击键后(A)的下一个最可能的键。(并且只显示用户最可能的8个后继键，这应该会产生一个8键键盘，就像我之前做的那样，但没有brain.js) 网络被训练成一个文本块，其中所有的两个字母集都作为网络的输入。对应的输出是两个后面的字母。我尝试了不同的配置设置和培训数据模型：用字符串->训练网络，它输出一个字符(这是不够的) 使用一组由27项组成的加权数组(每个字母+空格一个条目)来训练网络，它输出一个26的->字符串和一个与字母对应的1的位置。虽然我用一个数组作为输出来训练它。->仍然只有一封信当我用两个字母作为输入运行网络

浏览 3提问于2020-03-22得票数 1

1回答

如何在svm多标签中进行文件培训和测试？

、、

如何在svm多标签中进行文件培训和测试？我的问题是我的项目是动态键盘，一个用户对所有用户进行培训--例如，如果您有三个A、B和C类，那么您将有3个SVMs，每个都有自己的参数，即权重和偏差，以及分别对应于这3个类的3个单独的输出。当训练SVM-A时，B类和C类分别作为负训练集，而A类作为正训练集，当训练SVM-B -A和C是负训练集时，而对SVM-C A和B类是负数。这就是所谓的“一比全”的训练过程。我试过了，但结果出了问题我要培训的文件是.csv，包含： 65 134，+1 70 98 +1 73 69，+1 82 122，+1 82 95 +1 83 127，+1 84 7，+1

浏览 1提问于2016-10-16得票数 0

回答已采纳

1回答

在列车和测试数据上运行get_dummies会返回不同数量的列--在特性工程之后，可以将这两组数据连接起来并分开吗？

、、

我的训练和测试数据集是两个独立的csv文件。我在测试集上做了一些特性工程，并使用了pd_get_dummies()，它的工作原理与预期一样。训练班 |Condition| ----------- Poor Ok Good Excelent 我的问题是，当我试图预测值时会出现不匹配，因为测试集在pd.get_dummies()之后有不同数量的列。测试集： |Condition| ----------- Poor Ok Good 注意，超能力缺失了！！在创建假人之后的所有列中，我都比训练数据少了20列。我的问题是加入train.csv和test.csv --运行我的所有特性工程、缩放等，然

浏览 1提问于2019-11-13得票数 1

回答已采纳

1回答

深度学习-将图像数据集分为训练和测试

、、、、

enter image description here我在一个文件夹中有3000个用于训练和测试的图像，我还有label.csv文件中的图像标签，其中包含五个类别。谁能帮我把这个数据集分成训练数据和测试数据，这样我就可以使用卷积神经网络对图像进行分类了。将csv和图像链接后，我的数据集看起来如下图所示。

浏览 14提问于2019-02-19得票数 0

2回答

如何训练不包含对象的Tensorflow对象检测图像？

、、、、

我正在使用Tensorflow的对象检测训练一个对象检测网络，我可以根据自己的图像和标签成功地训练网络。但是，我有一个大型的图像数据集，其中不包含任何标记的对象，我希望能够训练网络，使其不检测这些图像中的任何内容。根据我对Tensorflow对象检测的理解，我需要为它提供一组图像和相应的XML文件，用于对图像中的对象进行装箱和标记。这些脚本将XML转换为CSV，然后再转换为另一种用于训练的格式，并且不允许没有对象的XML文件。如何给出一个没有对象的图像和XML文件？或者，网络如何了解哪些不是对象？例如，如果你想检测“热狗”，你可以用一组热狗图像来训练它。但是怎样训练它才不是热狗呢？

浏览 2提问于2018-11-09得票数 9

2回答

如何在调用sagemaker端点时构造"text/csv“有效负载

、、、

我的训练数据看上去 df = pd.DataFrame({'A' : [2, 5], 'B' : [1, 7]}) 我在AWS Sagemaker中训练了一个模型，并将模型部署在端点后面。端点接受有效负载为"text/csv“。要使用boto3调用端点，可以执行以下操作： import boto3 client = boto3.client('sagemaker-runtime') response = client.invoke_endpoint( EndpointName="my-sagemaker-endpoint

浏览 1提问于2020-05-24得票数 4

回答已采纳

1回答

用AutoML自然语言UI进行预测

、

我一直在测试自然语言UI功能，并创建了一个单标签分类模型。为了训练模型，我使用了两个列的csv，第一列有文本，第二列有标签。然后，我进入“测试&使用”选项卡来执行预测。我将csv文件上传到GS中，当我试图选择它时，我会得到这样的消息：“无效文件类型，只允许以下文件类型: pdf、tif、tiff”。我想知道我是否可以使用类似于我训练模型时的csv文件。图片：

浏览 6提问于2021-03-04得票数 0

回答已采纳

1回答

Seaborn :两组透明度不同的数据集

、

我想用海运库制作一个PairGrid图。我有两个分类数据:一个训练集和一个目标点. 我想把一个目标点画成不透明的，但是训练集中的样本应该是透明的。我想在较低的细胞里画出一个目标点。这是我的代码和图像： import seaborn as sns import matplotlib.pyplot as plt import numpy as np import pandas as pd data = pd.read_csv("data.csv") g = sns.PairGrid(data, hue='type') g.map_upper(sns.sca

浏览 10提问于2022-02-22得票数 1

回答已采纳

1回答

我们能否通过python将数据附加到存储在Azure blob存储中的现有csv文件中？

、

我有一个机器学习模型部署在蔚蓝设计师工作室。我需要通过python代码每天用新的数据重新训练它。我需要将现有的csv数据保存在blob存储中，并将更多的数据添加到现有的csv中，并对其进行再培训。如果我只使用新的数据对模型进行重新培训，那么旧的数据就会丢失，所以我需要通过在现有数据中添加新的数据来重新训练模型。有没有任何方法可以通过python编码来完成呢？我也研究过附加的blob，但是它们只在blob的末尾添加。在文档中，他们提到我们不能更新或添加现有的blob。

浏览 0提问于2021-03-11得票数 2

回答已采纳

1回答

“国旗”在熊猫身上有什么用？

、、

当我进行预测建模的训练时，我无法理解标志的使用。我搜索了一下，但找不到最好的解释。 train = pd.read_csv('C:/Users/Analytics Vidhya/Desktop/challenge/Train.csv') test = pd.read_csv('C:/Users/Analytics Vidhya/Desktop/challenge/Test.csv') train['Type'] = 'Train' #Create a flag for Train and Test Data set test[&#

浏览 2提问于2016-08-27得票数 3

回答已采纳

1回答

为什么要使用keras predict_proba来预测概率具有相同的值？

、、

我的csv中的数据是这样的： [ [0, 0,……, 0], [0, 1,……, 0], [0, 2,……, 0], [0, 3,……, 0], [1, 0,……, 0], [2, 0,……, 0], [3, 0,……, 0], [1, 1,……, 1], [2, 1,……, 1], [1, 2,……, 1], [3, 1,……, 1], ] 训练集有400,000行数据，测试集有200,000行数据。 y_train的值只有0和1，csv中有40多列数据。我用这段代码用x_test来预测1的概率，但是结果中的所有概率都有相同的值，为什么？ import pandas as pd from

浏览 0提问于2020-10-29得票数 1

1回答

如何将数据传递给keras？

、、、

目前，我正在努力理解如何使用keras来训练我的回归网络。我不知道该如何将输入数据传递到网络。输入数据和输出数据都存储为numpy数组的列表。每个输入numpy数组是一个矩阵，它有(400行，x列)，每个输出numpy数组是一个矩阵，它有(x行数，13列)。输入维度为400，输出为13。但如何将列表中的每个集合传递给培训？ # Multilayer Perceptron model = Sequential() # Feedforward model.add(Dense(3, input_dim=400, output_dim=13)) model.add(Activation(&

浏览 0提问于2016-11-13得票数 9

回答已采纳

2回答

Caffe:将CSV文件转换为HDF5

、、、、

我对Caffe框架有了一点了解(它被用来定义和训练深度学习模型)。作为我的第一个程序，我想用数据集编写一个训练和测试“面部情感识别”任务的程序。我下载的数据集是"CSV“格式。我知道，要使用Caffe，dataset格式必须是"lmdb“或"hdf5”。因此，我要做的第一件事似乎是将数据集转换为hdf5或lmbd格式。下面是我最初尝试过的一段简单代码： import pandas as pd import numpy as np import csv csvFile = pd.HDFStore('PrivateTest.csv') Privat

浏览 4提问于2016-08-07得票数 2

1回答

用GAN进行异常检测

、、、、

有一些关于甘的训练我不明白。我在做一个异常检测的GAN。首先，我按照这个指南创建了一个DCGAN (并了解它是如何工作的)，然后进入异常检测部分。我理解这两个训练阶段是如何为GANs工作的，在经历了将近2000个时代之后，发电机产生了一些很好的假图像。问题是判别器不能很好地检测异常:如果我尝试输入一个真实图像，它会产生一个0.5到1之间的值，不管图像是否有异常。因此，从本质上说，鉴别器能很好地区分真实图像和假图像，但对异常图像和真实图像的识别效果并不好。我试着训练更多的模型，但是结果不会改变(相反，它看起来比以前更糟了！)这两个损失保持在0和1左右，例如，现在模型有： gen_loss:

浏览 2提问于2022-04-20得票数 0

1回答

是否可以将ROC曲线登录到CSV文件中

、、、、

我已经在python上使用sklearn生成了一个ROC曲线，并且想知道是否有任何方法将结果记录到CSV文件中？我能够使用下面的CSV记录器将模型训练数据记录到CSV csv_logger = CSVLogger('training.log') model.fit(X_train, Y_train, callbacks=[csv_logger]) 如果有类似的情况出现在ROC曲线上，那就太完美了

浏览 6提问于2022-11-03得票数 0

回答已采纳

2回答

Snakemake:如何在规则中使用不同的参数(整数)运行shell命令？

、、、

我正试图为我的增强决策树训练研究最佳的超参数。下面是两个实例的代码： user = '/home/.../BDT/' nestimators = [1, 2] rule all: input: user + 'AUC_score.pdf' rule testing: output: user + 'AUC_score.csv' shell: 'python bdt.py --nestimators {}'.format(nestimators[i] for i in range

浏览 9提问于2021-05-14得票数 0

回答已采纳

1回答

Julia - describe()函数显示不完整的汇总统计信息

、、

我正在和Julia一起尝试基本的数据分析我使用可以在here (名为train_u6lujuX_CVtuZ9i.csv)中找到的训练数据集跟随this tutorial，代码如下： using DataFrames, RDatasets, CSV, StatsBase train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv"); describe(train[:LoanAmount]) 并获得以下输出： Summary Stats: Length: 614 Type: Union{Miss

浏览 92提问于2019-01-05得票数 2

回答已采纳

2回答

为python中的keras从csv文件加载数据集

、、

我正在尝试使用keras和tensorflow来训练网络。我有自己的缅甸语数据集。我正在尝试使用python开发使用神经网络的缅甸数字识别。首先，我想从标记的训练数据集.csv文件中加载数据集。以及从未标记的测试数据集.csv文件中加载数据集。问题是如何从这些数据集文件加载这些数据集。请帮我详细解释一下。

浏览 22提问于2020-02-24得票数 2