有没有从HDF5数据集中删除行的方法？_从python中的数据集中删除行_从稀疏数据集中删除列和行 - 腾讯云开发者社区

python、hdf5

我想从Python的HDF5数据集中删除一个元素。下面是我的示例代码 DeleteHDF5Dataset.py # This code works, which deletes an HDF5 dataset from an HDF5 file file_name = os.path.join('myfilepath', 'myfilename.hdf5') f = h5py.File(file_name, 'r+') f.__delitem__('Log list') 然而，这不是我想做的。‘'mydatatset’是

浏览 0提问于2018-05-07得票数 2

回答已采纳

3回答

从HDF5文件中删除信息

python、hdf5

我意识到一个SO用户以前问过这个，但它是在2009年问的，我希望有更多关于HDF5的知识可用，或者更新的版本已经解决了这个特定的问题。在这里重申关于我自己问题的问题；我有一个巨大的文件，其中包含来自大型几何图形的节点和元素，并且已经从其中检索到了我需要的所有有用信息。因此，在Python中，我试图保留原始文件，但删除不需要的信息，并为其他来源填充更多信息。例如，我有一个不需要的节点数据集。但是，我需要保留相邻的数据集，并包含来自外部文件的有关其索引的信息。有没有办法删除这些特定的数据集？或者，在HDF5文件中保留“占位符”的旧想法仍然适用，这样就没有人知道如何/麻烦地删除信息？我不太担心空

浏览 1提问于2012-06-26得票数 17

回答已采纳

2回答

用HDF5库读取NetCDF数据集

java、dataset、hdf5、netcdf

在HDF5中，我们得到了一些包含数据集、表格数据的文件，其中每一列都有名称，并且可能具有不同的数据类型(例如，string类型的"author“，无符号整数类型的”计数“，等等)。我唯一能找到的用于阅读HDF5的纯Java(即非JNI)库是NetCDF。看来，我可以使用HDF5 Variable从NetCDF数据集中读取一列数据。但是，没有办法从数据集中读取整个数据表吗？HDF5数据集到NetCDF仅仅是具有单维数组值的变量集合，而不是表吗？编辑:让我进一步解释。如果我打开HDF5 2.9中的一个文件，导航到"HDF5复合数据集“的一个项，并选择”HDF5复合数据集“，就会

浏览 3提问于2013-04-18得票数 1

回答已采纳

2回答

使用C#中的HDF5处理实时数据

c#、hdf5

我能够使用.net版本的HDF5存储HDF5数据。问题是，数据在一个数组中，之后我将其写出到HDF5文件。有没有一种方法可以从C#实时连续地向HDF5添加数据？从我在互联网上看到的，这是由数据包表处理的，但我没有看到它是dotnet端口的一部分？

浏览 0提问于2015-11-03得票数 1

1回答

真空HDF5数据集(用于删除数据行和调整大小)

python、hdf5、delete-row、h5py、vacuum

假设我有HDF5数据集，maxshape=(无，1000)，chunk=(1,1000)。然后，每当我需要删除某一行时，我只需对其进行0-it(很多)： ds[ix,:] = 0 什么是最快的方式真空-零行和调整数组的大小？现在让我们加入一个转折。我有个字典可以解析符号=to=> ds_ix { name : ds_ix }.. 什么是最快的方式真空和保持正确的ds_ix？

浏览 4提问于2022-08-14得票数 0

1回答

使用Python (h5py)删除外部链接的HDF5

python、python-3.x、hdf5、h5py

从HDF5文件中删除数据需要重新打包主文件。由于我们使用大型子数据库文件(测量数据)，单独的HDF5数据文件从外部链接到主文件中。由于链接文件占用的空间很小，因此您可能会争论是否需要重新打包。由于HDF5数据库可能会损坏，那么从主HDF5 db文件中正确删除外部链接数据库(h5py.ExternalLink)的过程是什么？

浏览 30提问于2020-07-07得票数 0

回答已采纳

1回答

如何在现有文件中获取HDF5块尺寸？

c、hdf5

我正在编写一些代码来删除现有HDF5文件的一部分(一些维度、一些数据集等)。使用C HDF5应用程序接口。我希望新的HDF5文件具有与现有HDF5文件相同的块大小，但我似乎找不到可以检索当前块大小的地方。有一个H5P_GET_CHUNK函数，但它仅在创建数据集时检索块维度。还有H5D_GET_CHUNK_STORAGE_SIZE函数，它只检索总尺寸(而不是维度)。有没有办法从我缺少的现有数据集中检索块维度(而不仅仅是总大小)？

浏览 25提问于2020-09-22得票数 0

1回答

在h5py中输入一个数字数组列表

python、arraylist、hdf5、h5py

我试图使用HDF5将一个数字数组列表输入到一个h5py文件中。例如，考虑： f = h5py.File('tester.hdf5','w') b = [[1,2][1,2,3]] 这会引发一个错误。 TypeError: Object dtype dtype('O') has no native HDF5 equivalent 所以我假设HDF5不支持这一点。就像您可以使用特殊的数据类型来存储字符串列表一样，是否也有一种方法来存储数字数组列表。如果没有，还有哪些其他适当的方法来存储这样的列表，我以后可以从内存中访问这些列表。谢谢你提前提供

浏览 0提问于2017-06-08得票数 4

回答已采纳

1回答

与hdf5文件中的块大小相关的压缩性能

compression、hdf5、chunking

我想问一个关于压缩性能的问题，这与hdf5文件的块大小有关。我手头有两个hdf5文件，它们具有以下属性。它们都只包含一个数据集，称为“数据”。文件A的“数据”：类型: HDF5标量数据集不是的。维数:2 尺寸尺寸：5094125 x6 麦克斯。尺寸尺寸:无限x无限数据类型:64位浮点数分块：10000 x6 压缩: GZIP级别=7 文件B的“数据”：类型: HDF5标量数据集不是的。维数:2 尺寸尺寸：6720 x 1000 麦克斯。尺寸尺寸:无限x无限数据类型:64位浮点数分块：6000x1 压缩: GZI

浏览 2提问于2013-05-28得票数 8

回答已采纳

2回答

是否删除或更新HDF5中的数据集？

c++、c、api、hdf5

我想以编程方式更改HDF5文件中与数据集关联的数据。我似乎找不到一种方法，既不能按名称删除数据集(允许我用修改后的数据重新添加它)，也不能按名称更新数据集。我使用的是HDF5 1.6.x的C应用程序接口，但是指向任何HDF5应用程序接口的指针都会很有用。

浏览 3提问于2009-01-15得票数 4

回答已采纳

1回答

如何提高HDF5 I/O(写文件)效率？

fortran、hdf5

我有很多与时间相关的科学数据要写，这意味着数据应该每隔几秒钟写进hdf5文件。我的hdf5文件结构设计如下：创建多个时间组，如时间1组、时间2组、时间3组等. 在时间组中，创建了许多数据集，如DataSetA、DataSetB、DataSetC等。将数据写入上面的数据集。使用的API：HDF5 5-Fortran 运行这个程序，一切都好，但是速度慢，如何提高hdf5写动作的效率？非常感谢。

浏览 4提问于2013-08-13得票数 3

回答已采纳

1回答

从一个HDF5文件中提取数据集到多个文件

python、h5py

实际上，我在从HDF5生成img时提出了一个问题。现在，我遇到的另一个问题是从现有的h5生成。例如，我有一个ABC.h5，里面有用于图像的数据集及其gt_density映射。关键是图像，density_maps 我想要GT_001.h5，GT_002.h5..。而不是单个h5文件。这是为每个图像提取的density_maps。如何做到这一点？非常感谢。编辑这里是更多的相关信息。谢谢你给我的导游。在CRSNet中的原始数据集中，h5中只有一个图像文件及其地面真相密度图。此密度映射为<HDF5 5数据集“密度”：f4 (544,932)，键入"<f4"> &

浏览 7提问于2021-04-09得票数 0

回答已采纳

3回答

关闭打开的h5py数据文件

python、ipython、hdf5、h5py

在我们的实验室中，我们通过python包h5py将数据存储在hdf5文件中。在实验开始时，我们创建一个hdf5文件，并将数组一个接一个地存储在文件中的数据数组中(以及其他内容)。当实验失败或被中断时，文件不会正确关闭。因为我们的实验是从iPython运行的，所以对数据对象的引用保留在内存中(某处)。有没有办法扫描所有打开的h5py数据对象并将其关闭？

浏览 6提问于2015-04-25得票数 21

回答已采纳

1回答

将HDF5子集存储为数据集(在python中)

python、hdf5

我只有有限的HDF5知识，但我想了解一些关于硬盘驱动器的选择。为了给出一些背景信息，我对使用HDF5在机器学习中的应用感兴趣。假设您有一个包含n行和p列的数据矩阵。在典型的k-folds交叉验证设置中，您将把矩阵拆分为k个样本(每个样本的大小为(n/k, p))，并重复使用k-1进行训练，使用1进行测试。当然，存储所有的训练和测试集将占用大量空间。这就是HDF5选择可以提供帮助的地方。如果我理解正确的话，选择可以引用数据集的任何子集。此外，还可以将选择存储到数据集中。因此，从HDF5中的(n, p)数据集开始，我可以创建k组(每个文件夹一个)，其中包含一个训练数据集(原始数据集中的行子集)

浏览 0提问于2015-01-06得票数 2

1回答

有没有办法将R包中的数据帧保存为hdf5加载到python中？

python、r、hdf5

我尝试将每个数据集从CASdatasets包(http://cas.uqam.ca/)循环中导出，并将它们保存到一个hdf5文件中，以便将它们作为pandas数据帧加载到python中。但是，我不像python那样熟悉R。有没有一种方法可以遍历包中的每个数据集并将每个数据集作为hdf5文件保存到磁盘上？到目前为止，我已经 install.packages("CASdatasets", repos = "http://dutangc.free.fr/pub/RRepos/", type="source") library(CASdatasets

浏览 4提问于2020-01-07得票数 1

3回答

HDF5 :存储NumPy数据

python、c、numpy、hdf5、pytables

当我使用NumPy时，我以本机格式*.npy存储它的数据。它非常快，给了我一些好处，就像这个 I可以将*.npy从C代码中读取为简单的二进制数据(我的意思是*.npy与C结构兼容) 现在我正在与HDF5 (目前的PyTables)打交道。当我在本教程中阅读时，他们使用NumPy序列化程序来存储NumPy数据，这样我就可以像从简单的*.npy文件一样从C中读取这些数据了吗？ HDF5 5的numpy与C结构也是二元兼容的吗？ UPD：我有matlab客户端从hdf5读取数据，但不想从C++读取hdf5，因为从*.npy读取二进制数据要快得多，所以我确实需要从C++读取hdf5 (二进制兼容性)

浏览 9提问于2010-11-09得票数 2

回答已采纳

6回答

将HDF5文件读入numpy数组

python、numpy、hdf5、h5py

我使用以下代码将hdf5文件作为numpy数组读取： hf = h5py.File('path/to/file', 'r') n1 = hf.get('dataset_name') n2 = np.array(n1) 当我打印n2时，我会得到这样的结果： Out[15]: array([[<HDF5 object reference>, <HDF5 object reference>, <HDF5 object reference>, <HDF5 object reference>.

浏览 1提问于2017-10-13得票数 22

3回答

用Python编写HDF5文件的最快方法？

python、hdf5、h5py

假设有一个大的(10 GB) CSV文件，其中包含混合的文本/数字，那么在保持合理的内存使用的同时，创建具有相同内容的HDF5文件的最快方法是什么？如果可能的话，我想使用h5py模块。在下面的玩具示例中，我发现了一种将数据写入HDF5的非常慢和非常快的方法。在10,000行左右的块中写入HDF5是不是最佳实践？或者，有没有更好的方法将大量数据写入这样的文件？ import h5py n = 10000000 f = h5py.File('foo.h5','w') dset = f.create_dataset('int',(n,),'

浏览 86提问于2011-03-29得票数 23

回答已采纳

1回答

在服务器上调用R，从主机上的R会话中提取数据？

bash、r、hdf5

背景我有一个在主机上运行的R脚本，并在服务器上启动作业。作业输出较大的hdf5文件。我剩下的工作是在主机上完成的。但是，R hdf5库只能在服务器上工作，而不能在主机上工作(因为有一个已知的)。是否可以从主机上的R连接到服务器上的R会话，加载R hdf5库，从hdf5文件中提取数据，然后将此对象传递给主机？当前方法我目前的做法是从R内部调用一个bash脚本，该脚本调用服务器上的R脚本并提取Rdata文件，然后使用rsync将其带回主机(全部在system()中) 问题有没有更好的方法从服务器上的这些hdf5文件中提取数据？我正在考虑以与调试时进入browser会话相同的方式进入服

浏览 1提问于2011-03-26得票数 3

回答已采纳

2回答

从MySQL表中删除重复行

mysql

有没有办法从MySQL数据库中删除所有重复的行？

浏览 0提问于2010-02-10得票数 0

1回答

Pandas和HDF5中的文件大小缩减

python、numpy、pandas、hdf5、pytables

我正在运行一个模型，该模型将数据输出到多个Pandas框架中，然后将这些帧保存到HDF5文件中。该模型运行数百次，每次在现有HDF5文件的框架中添加新列(多索引)。这是用Pandas merge完成的。由于每次运行的帧都有不同的长度，因此在帧中最终会出现大量的NaN值。完成足够的模型运行后，如果行或列与出现错误的模型运行相关联，则从框架中删除数据。在这个过程中，新的数据帧被放入一个新的HDF5文件中。下面的伪python演示了这个过程： with pandas.HDFStore(filename) as store: # figure out which indices should

浏览 3提问于2015-10-28得票数 2

回答已采纳

2回答

相对于数据存储，HDF5用于数据检索的效率有多高？

hadoop、apache-spark、hdfs、hdf5、bigdata

我想将一个键控500 to的表转储到HDF5中，然后检索匹配特定键的行。对于一个HDF5文件，所有数据访问之类的项都使用一个整数“行”号，因此我似乎必须在HDF5之外实现一个‘键到行号映射’。对于使用HDFS的Hadoop或Spark这样的分布式系统，检索难道不是更有效吗？我应该使用分布式系统来实现map/hashfunction吗？

浏览 2提问于2016-07-09得票数 3

回答已采纳

2回答

仅从DBGrid中删除行

delphi

我有一个点击按钮就能更新的DBGrid。更新后，我让它检查每一行与一个XML文件。如果该行中的字段与XML文件中的数据匹配，我只想从dbgrid中删除该行。查询是从ADOconnection / DBgrid / Datasource加载的。主要连接是与链接到excel文件的数据库的连接。XML文件只是我们每月收到的一份报告。通常，我们必须检查以确保excel文件中的所有机器也在给我们的报告中。对于数百台机器，我试图自动检测任何差异。但是我不知道如何删除网格中的行，只有当它找到匹配项时，网格中才会有不匹配的项。

浏览 4提问于2020-05-08得票数 0

2回答

查询SQL + HDF5混合查询

mysql、database、orm、hdf5

我正在开发一个用于数据分析的混合SQL (使用mySQL)和HDF5数据库解决方案。我的一些数据非常适合关系，SQL作为一种查询语言非常方便和有效，但是我有大量的数字数据(具有数千或元素/行/列的数组和矩阵)。因此，我将这些数据保存在一个HDF5文件中，并根据每个观察值之间的一些共性来排列组层次结构，这样，如果我将用于派生该层次结构的字段添加到SQL Select查询中，并在关系数据库中添加一个包含该特定观察值在数据集中的位置的索引，我就可以快速获得在HDF5文件中定位数值数据所需的所有信息。我用Python，Numpy和h5py写了所有这些。然而，在某种程度上，我想让整个事情变得更加用户友

浏览 4提问于2013-07-19得票数 1

1回答

h5md组中的元数据和hdf5规范中定义的缺失属性有哪些？

metadata、hdf5、h5py

我有一个包含分子动力学模拟数据的hdf5格式文件Data File。为了进行快速检查，h5ls工具非常方便。例如： h5ls -d xaa.h5/particles/lipids/positions/time | less 现在我的问题是基于我收到的关于数据格式的评论！根据hdf5规范和群组中的元数据，缺少哪些属性？

浏览 17提问于2021-09-16得票数 0

回答已采纳

1回答

使用PyTables索引500 GB HDF5文件

python、hdf5、pytables、h5py、bigdata

我想将一个键控的500GB-800GB表转储到HDF5中，然后检索与特定键匹配的行。对于一个HDF5文件，所有数据访问之类的项都使用一个整数“行”号，因此我似乎必须在HDF5之外实现一个‘键到行号映射’。这个能行吗？我是否需要访问“内存中的整个HDF5”？有人能告诉我HDF5在这种情况下的表现有多差吗？如果有不错的索引，这只是一个巨大的字典，对吗？我应该用别的东西吗？

浏览 1提问于2016-07-10得票数 0

回答已采纳

1回答

请建议单用户应用程序的数据存储。

.net、sqlite、storage、hdf5

我正在寻找一个数据存储选项，用于存储心电图(1000个样本/sec)和其他病人数据(例如血压、体温等，采样率要低得多)，在我的C#应用程序的可查询存储中。我已经评估了SQLite (这本身就是一个很好的选择)，但是我正在寻找一些可以满足以下要求的选项：小存储空间-心电图通常以1000个样本/秒采样，我需要存储24 - 48小时的心电图数据(~82 ~1.62亿个数据样本)。在SQLite上，它占用了巨大的空间。我应该能够快速阅读这些数据的一部分(从-到时间戳)。我应该能够修改数据的一部分，而不必从那时开始编写所有的数据。我也看过HDF5，但还没有真

浏览 2提问于2013-02-05得票数 3

回答已采纳

5回答

如何在pytable/ hdf5中存储宽表

python、numpy、hdf5、pytables

我有来自csv的数据，csv有几千列和一万行左右的行。在每一列中，数据的类型是相同的，但是不同的列有不同类型的数据*。以前，我一直在挑选numpy中的数据，并将其存储在磁盘上，但速度相当慢，特别是因为通常我希望加载某些列的子集，而不是全部。我希望使用pytable将数据放入hdf5中，我的第一种方法是将数据放在一个表中，每个hdf5列中有一个hdf5列。不幸的是，由于512 (软)列的限制，这是行不通的。存储这些数据的合理方法是什么？ *我的意思是，由文本转换后的数据类型。

浏览 4提问于2013-11-18得票数 11

回答已采纳

1回答

在Julia中写入和附加到HDF5文件中的复合表

julia、hdf5

如何在包含可变长度字符串列和其他各种标准类型(Int64、Float64、Bool)列的HDF5中写入和追加数据？基础知识以某种形式存在于Julia中。使用Julia的C接口，编写完全在HDF5中实现的自定义HDF5文件，但是我还没有找到创建、写入和附加到这样一个复合表的方法。我的目标是有一个文件，其中存储了来自许多仪器的数据，并有明确的注释。随着更多数据的传入，这些数据将定期附加到这些HDF5文件中。为了将文件保持在可管理的大小，需要二进制文件，并且需要在我们组中使用的编程语言之间实现可移植性的通用标准。数据库对于我们的用例来说并不实用。

浏览 2提问于2017-11-09得票数 2

2回答

PyTables与Matlab的HDF5读取时间

python、matlab、hdf5、nastran

我有一个来自NASTRAN的HDF5输出文件，其中包含模式形状数据。我试图将它们读入Matlab和Python，以检查各种后处理技术。所讨论的文件位于这两个测试的本地目录中。该文件是半大的，1.2GB，但肯定没有那么大的HDF5文件，我以前读过。我想访问的表中有17567342行8列。第一列和最后一列是整数，中间6是浮点数。 Matlab： file = 'HDF5.h5'; hinfo = hdf5info(file); % ... Find the dataset I want to extract t = hdf5read(file, '/NASTRAN/RESU

浏览 0提问于2019-01-22得票数 0

回答已采纳

2回答

R中大文件的数据格式是什么？

python、r、csv、bigdata

我用Python生成一个非常大的数据文件，主要由0 (false)和少数1 (true)组成。它有大约700.000列和15.000行，因此其大小为10.5GB。第一行是标题。然后，该文件需要在R中读取和可视化。我正在寻找正确的数据格式，以便从Python导出我的文件。如前所述， HDF5是基于行的。通过使用不太宽但相当长的表，可以获得很高的效率。由于我有一张非常宽的桌子，我想，HDF5在我的情况下是不合适的？那么，哪种数据格式最适合这个目的呢？压缩(压缩)也有意义吗？我的文件的示例： id,col1,col2,col3,col4,col5,... 1,0,0,0,1,0

浏览 7提问于2016-01-19得票数 4

回答已采纳

1回答

HDF5将字符串头写入文件

string、hdf5

我正在尝试从HDF5中编写一个C++文件。该文件基本上包含以下格式的大型timeseries矩阵 TimeStamp Property1 Property2 我已经成功地编写了数据，我创建了一个dset并使用了H5Dwrite函数。现在我的问题是如何创建一个文件头，换句话说，如果我想将以下数组写入文件. ‘时间戳’，‘Property2 1’，'Property2‘ ...and将其标记到列中以便于以后使用(我计划用Python分析矩阵)。怎么做？我试图使用H5Dwrite编写字符串数组，但失败了，我猜它需要一致的数据类型，所以它只想要浮点数，这是我的数据的数据类型

浏览 2提问于2014-05-04得票数 2

回答已采纳

2回答

在hdf中存储数据集( C++类的实例)

c++、hdf5

我有一个应用程序，需要存储数据到hdf文件。可以将数据集存储在hdf中吗?hdf实际上是一个C++对象。例如，我想将下面对象a中包含的数据存储到一个hdf文件(hdf4或hdf5)中。我能这么做吗？如果是，如果有人能做到这一点，我将不胜感激。谢谢。 class A(){ public: A(int i, double j):i(i), j(j){}; ~A(); int i; double j; int* ai; vector<int> b; setValues(int i, double j){}; } void main(){

浏览 4提问于2011-11-25得票数 4

1回答

如何在蟒蛇上安装pytable3.2？

python、installation、anaconda、pytables

我使用anaconda，我不能用 conda update pytables 上面写着“已经安装”。 .... # All requested packages already installed. # packages in environment at C:\Anaconda: # pytables 3.1.1 np19py27_1 然后我试了一下： C:\Users\HP>pip install --upgrade tables Collecting tables Using cached tables-3.2.0

浏览 1提问于2015-06-15得票数 6

2回答

将pandas (python)数据帧序列化为二进制格式

python、dataframe、pandas

这篇文章包括我的问题，但实际上是关于另一个问题：有没有像numpy.savez这样的pandas数据帧序列化例程？我知道我可以使用hdf5，但我希望避免这种情况，因为hdf5是额外安装的，而且我无法在我需要的所有平台上启动和运行h5py。

浏览 0提问于2012-10-08得票数 3

1回答

如何使用scala/breeze读取hdf5矩阵？

scala、hdf5、scala-breeze

我正在使用Scala中的Breeze库。有没有一种简单的方法将HDF5数据集读入矩阵(假设使用Java HDF5接口)？

浏览 2提问于2014-03-05得票数 3

1回答

要联接的SSRS多个数据库源

mysql、database、oracle、reporting-services

只是坚持从两个来源获取信息，我们有一个用于维修信息的MYSQL数据库，我在SSRS中有，这带来了7000行。我们在Oracle中有另一个Repair数据库，它返回了300多万行。我似乎不能从oracle中获取主键，因为它超过了最大限制，但是有没有办法使用左连接，这样我就可以只将我需要的两列从oracle中带到MySQl中，这意味着我有7000行加上来自Oracle的2列，它们有一个共同的主键。我似乎不能在两个数据库上连接两个数据集。有人能帮上忙吗。提前THank你

浏览 2提问于2016-04-19得票数 0

1回答

通过使用HDFStore比较列来选择行

select、pandas、where、hdf5、hdfstore

如何使用Pandas通过比较hdf5文件中的两列来选择一些行？hdf5文件太大，无法加载到内存中。例如，我想选择列A和列B相等的行。数据帧保存在文件'mydata.hdf5‘中。谢谢。 import pandas as pd store = pd.HDFstore('mydata.hdf5') df = store.select('mydf',where='A=B') 这不管用。我知道store.select('mydf'，where='A==12')将会工作。但我想比较A列和B列。示例数据如下所示： A

浏览 3提问于2014-12-08得票数 1

1回答

如何将HDF5文件转换为Parquet文件？

hadoop、hdf5、impala、parquet、hdfstore

我已经通过pandas和pandas.HDFStore()将大约800 GB的巨大数据帧存储到HDF5中。 import pandas as pd store = pd.HDFStore('store.h5') df = pd.Dataframe() # imagine the data being munged into a dataframe store['df'] = df 我想用Impala来询问这个问题。有没有一种简单的方法可以将这些数据解析到Parquet中？或者Impala允许您直接使用HDF5？对于HDF5上的数据，还有其他选择吗？

浏览 15提问于2017-01-06得票数 0

1回答

用java将uint32数据从hdf5文件写入数组的最简单方法是什么？

java、hdf5

我有一个hdf5文件，表264x264x1024中填充了uint32编号。我很难理解如何从java中获取hdf5 5-文件的数据。我想将数据从表写入数组。有什么简单的方法吗？可悲的是，我正在开发的系统仍然是java6。对不起，如果问题不是很具体，如果你需要更多的信息来帮助我，请问。就像我说的，我还不太了解hdf5。谢谢

浏览 0提问于2016-10-25得票数 0

回答已采纳

2回答

如何扩展h5py以访问hdf5文件中的数据？

python、numpy、python-module、hdf5、h5py

我有一个小的python程序，它使用h5py模块创建hdf5文件。我想编写一个python模块来处理hdf5文件中的数据。我怎么能这么做呢？更具体地说，我可以将numpy数组设置为PyArrayObject并使用PyArg_ParseTuple读取它们。这样，我就可以在编写python模块时从numpy数组中读取元素。如何读取hdf5文件以访问单个元素？更新:感谢你下面的回答。我需要从C中读取hdf5文件，而不是从Python中-我知道如何做到这一点。例如： import h5py as t import numpy as np f=t.File('\tmp\tmp.h5'

浏览 0提问于2011-03-23得票数 2

1回答

在caffe中使用hdf5中的均值文件

machine-learning、computer-vision、neural-network、deep-learning、caffe

我正在准备使用hdf5文件中的数据在咖啡馆进行训练。该文件还包含训练集的每像素平均数据/图像。在'transform_params'部分的输入数据图层的文件'train_val.prototxt'中，可以使用mean_file来归一化数据，通常是二进制原始格式，例如 transform_param { mirror: true crop_size: 227 mean_file: "data/ilsvrc12/imagenet_mean.binaryproto" } 对于每个通道的标准化，可以使用而不是mean_file。但是，有没有

浏览 2提问于2016-09-09得票数 0

回答已采纳

3回答

R中的hdf5文件，用于按ID快速随机访问

r、hdf5

假设我想要将一个大维度的矩阵存储为HDF5文件，然后我希望只按ID读取矩阵的一些切片( ID指的是矩阵的行名，在我的例子中，行名是唯一的，因此可以用作ID)。有没有一种使用HDF5文件的快速方法？举例说明。 my.mat = matrix(rnorm(400,2,1), nrow=100, ncol=4) rownames(my.mat) = paste("id", c(1:100), sep="") 然后，我会这样做： h5createFile("test.h5") h5createDataset(file="test.h5"

浏览 2提问于2014-01-17得票数 4

1回答

如何将熊猫的hdf5二进制数据保存在内存中？

python、pandas、hdf5、pytables、python-3.9

我希望将熊猫数据的字节内容导出为hdf5，理想情况下不实际保存文件(即内存中的文件)。在python>=3.6, < 3.9 (和pandas==1.2.4，pytables==3.6.1)上，以下内容用于工作： import pandas as pd with pd.HDFStore( "in-memory-save-file", mode="w", driver="H5FD_CORE", driver_core_backing_store=0, ) as store: store.put(

浏览 14提问于2021-05-11得票数 1

回答已采纳

1回答

从正在抓取的页面上的链接检索信息

python、scrapy、hdf5

我在python3.5上使用scrapy构建了一个刮板。我在一个众筹论坛中收集项目，并将数据保存在hdf5文件中。抓取项目是通过读取urls列表来完成的，该列表被抓取，然后将每个项目的信息保存为tabel行(具有多个列)。这是我的脚本的开头： class ExperimentScraperSpider(scrapy.Spider): name = 'project_scraper' allowed_domains = ['projectname.com'] dt = pd.read_csv("urls.csv") #

浏览 0提问于2017-10-03得票数 2

1回答

如何将HDF文件(固定格式，多个密钥)作为pandas数据帧处理？

python、pandas、hdf5、hdf

我得到了一个使用pandas创建的20 as的HDF5文件，但不幸的是，它是以固定格式(而不是表)编写的，每一列都写成一个单独的键。这可以很好地快速加载一个功能，但它不允许方便的面向表格的过程(例如，统计分析或绘图)。尝试将文件作为一个整体加载时会出现以下错误： ValueError: key must be provided when HDF5 file contains multiple datasets。 f=pd.read_hdf('file_path') ValueError Traceback (most

浏览 53提问于2020-06-13得票数 1

1回答

关于处理非常大的数据集的建议- HDF5、Python

python、bigdata、hierarchical-data-format

最近，我开始开发一个应用程序来可视化非常大的数据集。当在线阅读时，很明显，大多数人使用HDF5来存储大的多维数据集，因为它提供了允许多个维度的多功能性，没有文件大小限制，并且可以在操作系统之间传输。如何有效地管理非常大的文件？我正在使用具有三个维度的数据集，所有这些数据集都有大量的组件(示例大小: 62, 500 ,000 x3,500，32位int)，这有点问题。从理论上讲，HDF5能够处理这个问题，但是，我发现将数据写入文件的速度非常慢，随后检索数据的速度也很慢。由于数据项的数量很大，所以必须压缩数据，否则它在HDD上就会变得异常庞大，然而，压缩需要分块，而分块是非常棘手的.我以(1×5

浏览 0提问于2019-03-21得票数 4

3回答

JNI性能

java-native-interface、hdf5

我们的主程序是用java编写的，但是从存储中提取数据的代码是用C编写的。我需要从提取的数据构建一个HDF5文件。使用JNI调用C代码来获取数据，然后从Java构建HDF5文件，还是从C代码构建HDF5更好？我几乎没有使用JNI或C的经验。我们的主要标准之一也是性能。使用JNI对性能的影响有多大？

浏览 2提问于2009-10-13得票数 2

回答已采纳

2回答

处理HDF5文件中大量大的2D数组的建议(最佳实践)

hdf5

我正在使用python程序将4000x4000数组写入hdf5文件。然后，我用一个c程序读取数据，我需要它作为输入来做一些模拟。我需要这些4000x4000数组中的大约1000个(这意味着，我正在进行1000次模拟运行)。我现在的问题是:哪种方式“更好”，1000个单独的hdf5文件，还是一个包含1000个不同数据集(名为'dataset_%04d')的大hdf5 5文件？对于这类问题的任何建议或最佳实践行为都会受到极大的赞赏(因为我对hdf5并不太熟悉)。如果您感兴趣的话，下面是我用来编写hdf5文件的python代码： import h5py h5f = h5py.

浏览 2提问于2015-11-04得票数 4

回答已采纳

1回答