是否可以使用dask从远程服务读取.tiff文件？_是否可以使用JAVA从文件读取/写入位？_使用pandas从远程服务器读取excel文件 - 腾讯云开发者社区

、、、

我把.tiff文件存储在谷歌云存储上。我想使用分布式Dask集群installed with Helm on Kubernetes.来操作它们。基于dask-image repo、remote data services上的Dask文档和storage_options的使用，现在看起来支持从.zarr、.tdb、.orc、.txt、.parquet和.csv格式进行远程读取。对吗？如果是这样，是否有任何建议的解决方法来访问远程.tiff文件？

浏览 18提问于2019-10-17得票数 2

回答已采纳

1回答

达克的imread返回MemoryError -在导入时更改块大小

、、、

我有一系列*.tiff电影，它们太大了，不适合numpy来处理(shape = (1, 9000, 512, 512))，看起来dask.array.image.imread可以处理这个问题(根据这个问题的答案：)。在创建数组时，dask.array.image.imread在试图导入任何大型文件时提供一个MemoryError。但是，它使用shape = (1, 20, 512, 512)处理较小的文件栈，所以我认为它一定是关于块大小的。我试过是否可以在导入时在imread内更改块大小，但我没有找到任何东西。当达斯克自己的imread无法工作时，我尝试了，它似乎能够将帧分割成块。有趣的是

浏览 0提问于2017-11-27得票数 2

回答已采纳

1回答

利用dask机会主义缓存(或其他)避免io的策略

我有一个问题，当索引到一个由dask.delayed加载的3D tiff文件夹构建的dask数组中时，它与方法相似:我的4D (tzyx) dask.array<stack, shape=(600, 65, 512, 512), dtype=uint16, chunksize=(1, 65, 512, 512), chunktype=numpy.ndarray>是用一堆读取3D tiff堆栈的dask.delayed(skimage.io.imread)调用构造的。通过机会主义的缓存，我可以将完全3D视图上的io事件最小化(例如，多次调用的stack[0].compute()只读

浏览 3提问于2019-11-17得票数 0

1回答

如何将dask数据文件保存到与dask剪切器/工人相同的机器上？

、、

我试图通过Dataframe保存到与Dask调度程序/工作人员所在的同一台机器上。但是，我在这段时间里遇到了麻烦。 My安装程序：我的python脚本在本地计算机(笔记本电脑16 GB RAM)上执行，但该脚本为运行在远程计算机上的Dask调度程序(用于并行计算的具有400 GB RAM的服务器)创建了Dask客户端。Dask调度程序和工作人员都位于同一台服务器上，因此它们都共享本地可用的相同的文件系统。由于我的团队的所有成员都使用这个远程Dask调度程序，我们正在处理的文件也位于同一服务器上，通过同一个Dask集群向所有成员提供对所有文件的公共访问。我试过： # This saves th

浏览 2提问于2019-12-20得票数 2

回答已采纳

2回答

在JavaScript中用TIFF文件读取get响应

、、、

我正在开发一个web应用程序，在这里我试图显示从服务器请求的TIFF文件。我使用来显示TIFF文件，但我需要通过get请求从服务器获取图像，而不是从本地计算机打开文件。在服务器端，我使用Spark框架发送响应。这是用于此目的的Java代码： get("tiff", (request, response) -> { byte[] bytes = Files.readAllBytes(Paths.get("temp/201600004068.tif")); HttpServletResponse raw = response.

浏览 5提问于2016-05-11得票数 1

回答已采纳

1回答

Android view多页.tiff文件

、、

我正在使用这个在我的安卓应用程序中查看.tiff图像，它工作得很好。然而，问题是我从服务器收到的一些.tiff文件是多页.tiff文件，上面的库提供了一种只查看一个页面(首页)的方法，尽管该.tiff文件有其他页面。如何使用上面的库显示多页.tiff文件？

浏览 4提问于2014-05-07得票数 1

1回答

无法从本地计算机访问文件时使用dask.dataframe读取

、

我有一台功能强大的机器(远程机器)，可以通过SSH访问。我的数据存储在远程机器上。我想运行并访问远程机器上的数据。为此，我在远程机器上运行了一个dask-scheduler &一个dask-worker。然后，我在我的笔记本电脑(本地机器)上运行了一个jupyter笔记本电脑，使用的是client=Client(‘schedular ip:8786’)，但它仍然引用本地机器上的数据，而不是远程机器上的数据。如何从运行在本地计算机上的notebook引用远程计算机的数据？ import dask.dataframe as dd from dask.distributed impor

浏览 31提问于2021-09-26得票数 2

1回答

将Tiff obect从BitMiracle LibTiff转换为网络类型

、、

在客户端，我在TIFF图像中有多个页面的图像。首先，我将图像文件转换为字节数组，然后将这些数据发送到web服务。为了将TIFF转换为字节数组，我使用方法System.IO.File.ReadAllBytes。在web服务端，我想将这个字节数组转换为如果字节数组包含无效的数据，那么最好有som控件。那么我需要做这些事：将多TIFF图像中的所有页面解析为System.Drawing.Image的对象类型从多个TIFF获取指定的图像将BitMiracle.LibTiff.Classic.Tiff对象转换为字节数组以TIFF格式将BitMiracle.LibTiff.C

浏览 0提问于2012-08-25得票数 1

回答已采纳

1回答

是否可以处理Javascript中的缓存？

、、、、

这里使用来自客户端的tiff阅读器库将用户view.User的tiff文件转换为图像一次只看到一个，在这里提供分页以查看next/prev 1，而用户每次按下服务器分页以获取tiff并在屏幕上将其呈现为图像。参见代码: var costructUrl = 'http://cdn.dmsapp.tk/'+appUrl+'/'+evt+'?authToken='+this.getuserservice.authorizationfun()+'&force=false'; xhr.open('GET', cost

浏览 3提问于2017-01-04得票数 1

1回答

避免同时读取dask数组的多个文件

、

从一个库中，我得到一个函数，它读取一个文件并返回一个numpy数组。我想用多个文件中的多个块构建一个Dask数组。每个块都是在文件上调用函数的结果。当我要求Dask计算时，Dask会要求函数同时从硬盘读取多个文件吗？如果是这样的话，如何避免呢？我的电脑没有并行文件系统。示例： import numpy as np import dask.array as da import dask # Make test data n = 2 m = 3 x = np.arange(n * m, dtype=np.int).reshape(n, m) np.save('0.npy'

浏览 0提问于2018-08-06得票数 1

1回答

如何使用dask并行导入hdf5数据并创建dataframe？

、、、

我完全被困住了，所以我正在寻求善意的建议。我的目标是并行读取多个hdf5文件，提取内部的多个模糊数组，并将每个数组存储在一个dataframe的一行，准确地说是一个单元格中。我不选择熊猫df，因为我相信它会太大。不可能使用read_hdf()从用h5py创建的hdf5文件中读取。我能做些什么来用paralleL中的dask导入数千个hdf5 5文件，并访问其中的多个do数组？我想要创建一个dataframe，其中每个2d数组(从hdfs中的n个暗数组中提取)都存储在dataframe的一个单元格中。因此，行数对应于在所有文件中找到的总数组数，在这里9。我将数组存储在一个列中。在将来我希望将更

浏览 0提问于2021-09-30得票数 1

回答已采纳

6回答

获取在Windows中创建文件的进程名？

、、、、

是否有一种很好的方法来获得在Windows中创建文件的进程名？我在Windows2000Server上有一个目录 C:\WINNT\Temp，它填充了名为： 70618199 21834082 它们的大小总是121,201 KB。通过编程，我可以“捕获”程序名称或服务名称，在这个位置删除文件吗？更多信息：我对此做了更多的研究。我重新命名了文件TIFF并能够打开它。这台机器通过一个定制的ASP.NET应用程序作为文档搜索工具。这台机器在E:\驱动器上包含大约50,000个TIFF文档。此机器还运行SQL Server 2000 w/启用全文索引。全文索引绝不会触及链接，但它不应该这样做

浏览 7提问于2009-01-09得票数 1

回答已采纳

1回答

用dask并行读取文件

、

我有一个关于延迟装饰的问题，它可能类似于以下问题“Dask:我将如何将我的代码与dask延迟并行？”但即使在那里，它也没有得到答复。我有以下代码： @dask.delayed def remove_unnessasey_data(temp,l1): do some work return temp @dask.delayed def change_structure(temp): do some work return temp1 @dask.delayed def read_one(filename): return pd.read_csv(fil

浏览 1提问于2019-02-24得票数 1

回答已采纳

1回答

使用Dask进行内存高效数据加载

、、

嗯，我有一个包含数据和服务器RAM瓶颈的大型CSV文件。除此之外，还有一个dask分布式集群，看起来像是这种情况的解决方案，dask-scheduler运行在服务器上。这是我尝试过的： import dask.dataframe as dd import pandas as pd from dask.bag import from_sequence cheques = dd.read_csv('cheque_data.csv') # not working because of distributed workers can't access file directl

浏览 3提问于2021-09-22得票数 0

1回答

从SVS文件中提取完整的图像。

、、

我正在尝试使用Libtiff提取SVS文件的第一页。SVS文件对此图像使用JPEG2000压缩。我的计划是：从SVS的第一页提取原始瓷砖，以及用OpenJPEG解码它。下面是我试图从SVS中提取原始瓷砖的内容。我只从152 to文件中得到一个43 to的输出文件(它未能提取原始块)。我希望有人能让我知道如何从SVS文件中提取瓷砖。 int main() { const char* filename = "input.svs"; TIFF* tiff_in = TIFFOpen(filename, "r"); TI

浏览 0提问于2018-12-10得票数 1

回答已采纳

2回答

是否可以从远程服务器连续获取文件内容

、

我知道在本地逐行获取文件内容是可能的。就像 Scanner s = new Scanner(new File("D:\\Users\\qding\\Desktop\\spy.log")); while (s.hasNextLine()) { String line = s.nextLine(); System.out.println("[Method Server] " + line); } 是否可以从远程(Windows/Linux)获取文件内容？此外，在远程服务器上，该文件是一个日志文件，并且会始终更新。那么第二个问

浏览 1提问于2012-06-16得票数 1

回答已采纳

1回答

Dask read_csv无法从BytesIO读取数据

、、

我有以下代码从字节读取一个gzipped的csv文件。它可以与pandas.read_csv一起工作，但是在dask (dd.read_csv)中失败。 d['urls'][0]中的文件是指向亚马逊S3上由第三方服务提供的文件的链接。 import io import requests import pandas import dask.dataframe as dd output = io.BytesIO() output.name = "chunk_1.csv.gz" with requests.get(d['urls'][0], str

浏览 1提问于2020-12-28得票数 2

1回答

如何将.tiff文件输入Matlab vision.VideoFileReader？

、、、

我有一个.tiff视频文件，并希望输入到我的Matlab脚本。但是vision.VideoFileReader只支持.mpeg .mp2 .mpg .m4v，而不支持.tiff。 Matlab是否有将.tiff转换成vision.VideoFileReader可读格式的函数？

浏览 3提问于2015-09-09得票数 1

回答已采纳

1回答

如何在线程调度程序中利用多线程？

、、

我对Dask的本地线程调度程序感兴趣。此调度程序可以使用多个线程从多维数组中“并行”加载数据块。我对I/O界问题感兴趣，所以暂时不考虑计算密集型应用。使用Dask的存储方法从随机数组加载和保存数据的一些速度测试似乎证实了这一事实:随着块大小的增加，性能下降(据说是因为最小块增加了并行性)。在这个实验中，我使用没有物理块的hdf5文件:1包含数组中所有数据的数据集。我面临的问题有两个: 1)在HDD上读取数据时，Dask如何具有并行性? 2)如果python同时阻止线程在内存中保存数据，那么Dask在读取数据时如何具有并行性？谢谢您抽时间见我。

浏览 4提问于2019-11-02得票数 2

回答已采纳

5回答

检查文件是否为JPEG、PDF或TIFF格式

、

如何检查文件是否为jpeg、pdf或tiff？我指的是真正的检查，而不仅仅是mime类型和文件扩展名。我可以访问原始文件数据(此检查是上传程序的一部分)，我需要验证文件是否为jpeg、pdf或tiff。我假设我必须在文件中检查某种类型的头文件，但我不知道要查找什么以及从哪里开始。

浏览 2提问于2013-01-09得票数 6

回答已采纳

1回答

使用Dask从google云存储读取拼图文件

、、、、

我试着用Dask从谷歌的桶里读和写。使用一组csv文件可以工作，但不方便(速度较慢，无法压缩，无法只读取某些列)，所以我尝试使用apache parquet格式。这篇文章似乎行得通： import dask.dataframe as dd pandas_df = pd.DataFrame({'x' : [2,3, 2], 'y': [1, 0, 0]}) dask_df = dd.from_pandas(pandas_df, npartitions=2) dask_df.to_parquet("gcs://my_google_bucket/test/&

浏览 0提问于2018-09-24得票数 1

回答已采纳

1回答

用不同的列选择加载多个拼花文件

、、、

我想使用Dask从存储在不同目录中的许多拼板文件中加载特定的列，并且每个分区需要加载不同的列。我想使用Dask，这样我就可以在一台机器上使用多个核心。我了解了如何将文件或通配符的列表传递给dd.read_parquet，以指示多个文件(例如*.parquet)，但我没有看到传递要为每个文件读取的不同列集的方法。我想知道是否可以使用dask.delayed完成这一任务。我的具体情况是：我将大型单细胞基因表达数据集(大约10,000列/单元格)存储为不同目录中的拼花文件。每个目录都有两个分割文件: 1)大型基因表达数据(单元格为列)；2)单元元数据(单元格为行，单元元数据为列)。我使用较小的元

浏览 0提问于2019-05-24得票数 1

回答已采纳

1回答

是否可以创建一个包含多页tiff文件的所有帧的base64字符串？

、、、

使用已知的转换方法将多页tiff文件转换为base64字符串似乎只包含其中的一个页面。我从本地磁盘获取多页tiff文件： Image multiPageImage = Image.FromFile(fileName); 将其转换为base64字符串： base64string = ImageToBase64(multiPageImage, ImageFormat.Tiff); public static string ImageToBase64(Image image, ImageFormat format) { using (MemoryStream ms = new Memor

浏览 3提问于2015-01-30得票数 4

回答已采纳

3回答

使用Python读取大型csv文件

、、、、

我使用Dask读取了2.5 to的csv文件，Python给了我错误。这是我写的代码： import pandas as pd import numpy as np import time from dask import dataframe as df1 s_time_dask = time.time() dask_df = df1.read_csv('3SPACK_N150_7Ah_PressureDistributionStudy_Data_Matrix.csv') e_time_dask = time.time() 以下是我从Python得到的错误： dask_df

浏览 0提问于2021-06-17得票数 0

1回答

在MemoryError中使用Dask处理大网格的结果

、、、、

我在亚马逊网络服务的S3上有三个GeoTIFF，每个大小大约500MB，我试图使用Dask在EMR集群上处理它们，但我在处理第一个tiff后获得了一个MemoryError。在使用xarray.open_rasterio()读取GeoTIFF之后，我将网格值转换为布尔值，然后将数组乘以浮点值。此工作流已在三个大小为50 MB的GeoTIFF上成功执行。此外，我还尝试在使用xarray读取数据时使用分块，但获得了相同的结果。 Dask有没有大小限制，或者我可能会遇到的其他问题？

浏览 3提问于2019-07-07得票数 0

1回答

从tiff图像生成数组时出现的问题

、、、、

我的主要目标是从“登革热”文件夹中的每个图像中生成一维阵列。为此，我使用下面的代码同时使用PIL和GLOB读取文件。从PIL导入图像导入全局 image_list = [] for filename in glob.glob('./dengue/*.tiff'): im=Image.open(filename) image_list.append(im) 输出是- UnidentifiedImageError: cannot identify image file './dengue/image_2016-09-18.tiff 如何解决这个问题？同样

浏览 12提问于2021-11-15得票数 0

1回答

从远程服务器目录获取文件名列表

、、、

如何使用带有.Js文件的批处理文件(.bat)连接到远程服务器？如何从远程服务器获取特定路径文件夹下已有pdf文件的pdf文件名？实际上，我需要使用javascript文件在远程服务器的特定路径上获取现有的pdf文件，并用Product Master表检查这些pdf文件是否存在。我的Pdf文件在远程服务器上&我使用批处理文件在另一台服务器上执行.js文件。请让我知道。

浏览 11提问于2013-10-24得票数 1

2回答

如何在python中使用Dask/ pyarrow从远程HDFS读取拼图文件

、、、、

请帮助我从远程HDFS读取拼图文件，即；在Linux服务器上使用Dask或python中的pyarrow设置？也建议我，如果有更好的方法来做同样的事情，而不是上述两个选项。已尝试以下代码 from dask import dataframe as dd df = dd.read_parquet('webhdfs://10.xxx.xx.xxx:xxxx/home/user/dir/sample.parquet',engine='pyarrow',storage_options={'host': '10.xxx.xx.xxx',

浏览 7提问于2020-07-23得票数 0

2回答

从真彩色图像转换为调色板颜色

、、

我们有一个.NET应用程序，它当前通过打印到虚拟打印机来创建文档到TIFF文件。我们希望摆脱虚拟打印机，因为它昂贵、速度慢，并且不支持64位操作系统。现在，我可以使用其他工具来创建TIFF图像，比如说，从300dpi的Word文档创建TIFF图像。但是，我无法很好地控制最终的TIFF格式；具体地说，它会创建完整的24位真彩色图像，因此会创建非常大的TIFF文件。传统的解决方案，对于它的所有缺点，确实创建了漂亮的8位调色板颜色TIFF文件。所以我的问题是:有没有一种简单有效的方法将24位真彩色图像转换为8位调色板图像？如果生成的调色板针对特定的图像进行了优化，那就太好了，但我意识到分析每个像素

浏览 4提问于2011-04-05得票数 2

1回答

如何使用dask/dask-cudf将单个大型拼图文件读入多个分区？

、

我正在尝试使用dask_cudf/dask读取单个大的parquet文件(size > gpu_size)，但它当前正在将其读取到单个分区中，我猜测这是从文档字符串推断出的预期行为： dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs): Read a Parquet file into a D

浏览 18提问于2019-10-18得票数 3

回答已采纳

1回答

将带有skimage的非RGBA 4平铺多页tiff图像加载到dask数组中

、、、

我需要阅读一个文件夹，里面装满了由Suite2p神经生物学包生成的多页tiffs。从Suite2p源代码创建多个tiffs如下所示： import numpy as np from tifffile import TiffWriter # fake example images img_5_tiles = np.random.randint(0,65535,(5,10,20), dtype='uint16') img_4_tiles = img_5_tiles[1:,...] # save fake images with TiffWriter(r'D:\5til

浏览 28提问于2021-04-19得票数 2

回答已采纳

1回答

通过dask读取包含多行文本列的csv

、、、、

我必须读取包含全文数据的csv，它可以是多行的。我能够读取这个csv纯熊猫(测试版本0.25.3和1.0.3)没有任何问题，但当我尝试读取这个csv的dask我收到ParserError: Error tokenizing data. C error: EOF inside string starting at row 28，行号取决于我试图读取的文件。我准备了人工数据帧来重现这个错误。我是否可以调优dask参数，预处理输入文件，或者这是dask实现问题？ multiplication_factor = 71 # 70 works fine, 71 fail number_of_column

浏览 0提问于2020-07-15得票数 0

1回答

xarray如何用GeoTIFF加载和索引大型open_rasterio文件？

我正在使用xarray包来加载和访问大型GeoTIFF文件(>50 it )的数据，它的工作是完美无缺的。 import xarray as xr img = xr.open_rasterio("path/to/large_geo_tiff.tif") pixel_value = img[0,1225, 4321] print("The pixel value is: ", pixel_value.values.item()) 但是，我想知道xarray实际上是如何加载大型GeoTIFF文件的。显然，它没有将整个文件加载到内存中，因为它不适合，而是执行某种

浏览 2提问于2020-06-09得票数 2

回答已采纳

1回答

使用Java脚本从网页打印远程文件

、、、

我正在努力完成的任务:需要在用户本地系统中从J2EE应用程序的网页中打印一个远程文件(我有不同服务器中的文件URL，该URL将打开/下载该文件)。描述：我正在尝试从浏览器打印远程文件。远程文件可以是任何东西，PDF，word或TIFF。最大的案例，它将是PDF。这可以使用JS吗？我在VBScript中遇到了一些解决方案，但我听说VBScirtp不会在Chrome和Firefox中工作。此解决方案应支持IE、chrome和Firefox 也试图通过使用applet来实现，但到目前为止没有运气。需要建议如何以最好的方式实现这一点，指出任何例子都会有很大帮助。谢谢你。

浏览 0提问于2014-04-04得票数 0

回答已采纳

3回答

如何访问在另一个命名空间中创建的服务

、

在访问另一个名称空间中的服务时，我遇到了问题。我有两个名称空间(在同一个集群中)，airflow-dev和dask。在dask-dev命名空间中，我已经部署了dask集群(dask调度程序和工作人员)。此外，创建了一个服务(集群IP)的达克-调度程序荚.我可以使用'kubectl端口-前进‘命令从铬访问达克-调度程序荚。 kubectl port-forward --namespace dask-dev svc/dask-dev-scheduler 5002:80 但是，无法从airflow-dev命名空间中的pod (气流调度程序)访问服务(或dask-调度程序荚)。尝

浏览 2提问于2021-05-19得票数 2

2回答

R:使用连接和栅格包从gz文件中读取GeoTiff

、、、

我想在不下载的情况下从服务器上读取一个压缩后的GeoTIFF。我只是不想创建太多的临时文件，我必须在以后删除这些文件。包含.csv.gz文件的。使用download时，我使用以下方式： library(raster) link <- "ftp://ftp.glcf.umd.edu/glcf/SRTM/Degree_Tiles/n000/SRTM_ff03_n000e010 /SRTM_ff03_n000e010.tif.gz" download.file(link, "test.tif.gz") gunzip("test.tif.gz"

浏览 13提问于2017-02-07得票数 3

2回答

有人能解释一下基于MQSeries文件的远程客户端JMS访问吗

、、

我一直在大量搜索关于如何将JMS访问从远程客户端设置到基于JNDI系列提供程序的文件的描述，但没有成功。我的JMS客户机在与我的MQSeries 7.5服务器相同的Linux机器上工作正常，使用基于文件的JNDI。如何设置远程客户端以使用基于文件的JNDI？是否有可能或必须使用LDAP？我已经看到了一些暗示，一个人应该能够拥有一个远程客户端，但是没有什么是非常清楚的。我使用Spring JMSTemplate，它使用提供者url。在同一台机器上，我的Tomcat context.xml文件使用了一个文件: fileName url，正如我所说，该文件可以与MQSeries服务器并置。

浏览 2提问于2013-11-26得票数 1

回答已采纳

1回答

了解将多个文件内容加载到Dask Array的过程及其扩展方式

在上使用示例 filenames = sorted(glob('2015-*-*.hdf5') dsets = [h5py.File(fn)['/data'] for fn in filenames] arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets] x = da.concatenate(arrays, axis=0) # Concatenate arrays along first axis 我很难理解下一行，以及它是一个"dask数组“的dask_array还

浏览 10提问于2016-08-27得票数 1

回答已采纳

2回答

使用FileInputStream与URLConnection读取文件

、、、

我有一段从远程服务器或本地磁盘检索文件的代码。我知道URLConnection可以处理这两种情况，所以我想知道，如果我使用FileInputStream读取本地文件，而不是仅仅将其交给URLConnection从磁盘读取，是否会有任何性能优势？

浏览 0提问于2013-05-31得票数 2

回答已采纳

1回答

Ghostscript:拆分一个多页TIFF

、、

是否可以使用Ghostscript来分割多页TIFF？我在文档中找不到任何东西，但也许这是可能的，因为我可以用PDF文件来完成它。我试过的脚本是： gs -dFirstPage=1 -dLastPage=2 -dNOPAUSE -sDEVICE=tiff24nc -r600 -o output.tiff input.tiff

浏览 0提问于2016-10-20得票数 0

回答已采纳

1回答

PDF上的Ghostscript邮票图像

、、、、

是否有任何方法在现有PDF文件上标记或重叠tiff映像并使用Ghostscript输出结果？我有两个PDF，我想合并在一个结果PDF与另一个使用幽灵脚本。我想知道这是否可以做到，如何做到，或它是否可以与一个PDF作为tiff图像之上的基础PDF。幽灵脚本可以使用PDF中的图层制作这个邮票吗？谢谢你的回答

浏览 2提问于2013-09-23得票数 1

回答已采纳

1回答

Dask数据帧连接拼花文件从内存中抛出

、、、、

我有1024个拼花文件，每个都是1mbin大小。我使用python dask将这1024个文件合并到一个文件中，我有大量的磁盘空间，但是ram是有限的。是否有使用python dask解决这一问题的有效方法？ import dask.dataframe as dd def generatePath(): for i in range(0,1024): return "data/2000-" + i +".parquet" def readDF(): paths = generatePath() for x in pa

浏览 3提问于2020-05-12得票数 2

2回答

在R中导入原始图像

、、、

我在寻找一种将原始图像导入R. 事实上，有许多软件包允许将.bmp、.png、.jpeg或.tiff映像导入R (ImageMagick、EBImage、imager、bmp、tiff、TIFF、pixmap、Momocs等)。但是这些文件格式有一个转换(白平衡，对比，饱和..)图片可以是不同的(从饱和度，亮度.)即使拍照是标准化的，但物体的大小或颜色不同。原图上没有这个问题。我知道，随着相机品牌的不同，延长性也会不同，这会使事情变得复杂。但我想用比.jpeg或.tiff更精确和相关的方法来分析饱和度、亮度之间的差异。尽管我进行了研究，但我还是阻止了第一步:原始图像的输入。有人已经通过

浏览 0提问于2018-05-16得票数 4

回答已采纳

1回答

计算()在dask中做什么？

、

我对dask并不熟悉，也不知道dask中计算()方法到底做了什么？它是一种打印对象的方法吗？我从它的网站上读过文档，不确定我是否理解“具体价值”和“懒惰的达克”这两个术语。 --您可以通过调用.compute()方法或dask.compute(.)将任何dask集合转换为具体值函数。这个函数将被阻塞，直到计算完成，直接从一个懒惰的dask集合到本地内存中的一个具体值。我所说的“这是一种打印对象的方法吗？”也就是说，当我创建一个dask对象并在spyder控制台中调用它时，它会产生dask.array<arange, shape=(11,), dtype=int32, chunksi

浏览 5提问于2019-11-05得票数 0

回答已采纳

1回答

如果fileName包含正斜杠，则res.downalod在下载时更改.tiff文件的名称

、、、

我使用express res.download从服务器位置下载文件，如下所示- res.download('path', 'report a/b/c.tiff') 下载上述文件时，文件名将更改为c.tiff。可能的原因是什么，以及如何获取下载的文件，仅报告a/b/c.tiff。

浏览 22提问于2020-02-13得票数 0

1回答

对s3工作人员进行ec2访问

、、

我尝试从s3读取大量csv文件，工作人员使用正确的IAM角色在ec2实例上运行(我可以从其他脚本中的相同桶读取)。当我尝试使用以下命令从私有桶中读取自己的数据时： client = Client('scheduler-on-ec2') df = read_csv('s3://xyz/*csv.gz', compression='gzip', blocksize=None, #storage_options={'key': '', &

浏览 1提问于2017-03-02得票数 2

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

、、、

我有11年的数据和记录(行)每秒钟，超过100列。它用一系列的日期时间(用Pandas to_datetime()创建)进行索引，我们需要能够在列之间进行一些相关分析，一次只能加载两个列。我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存中，这些拼花文件中的每一个都加载了大约20 In的内存。预期的目标机器只有16 GB，即使在11年中只加载1列也需要10 GB，因此两列也不适合。是否有一个比使用Pandas

浏览 29提问于2022-06-20得票数 1

5回答

如何将多个png图像转换为单个tiff文件

、、、

我有一个字节数组，其中包含几个png格式的图像。我必须将其转换为tiff文件，然后转换为相应的字节数组。此tiff文件将包含多个图像。我经历过很多磨难，但我还没有成功。关键是。我只能用java来做这件事！！:)谁能提供一些关于我的问题的见解？我不会从ImageMagick等中受益，因为我有一个服务器组件来处理这个转换，然后将它保存在后端作为tiff。客户端给了我一个字节数组，它将转换为png图像。

浏览 3提问于2009-04-27得票数 2

1回答

如何在同一个shell命令中打开sftp连接并执行sftp命令

、、、

是否有可能从shell打开到远程服务器的sftp连接并在同一行中执行sftp命令。就像这样： sftp user@example.com && put /tmp/test.txt /tmp/ 其中put是sftp命令。我的想法是通过bash脚本将文件从本地服务器放到远程服务器，在远程服务器上只允许sftp。

浏览 0提问于2014-11-18得票数 6

回答已采纳

1回答

如何将含有非解锁图像的矩阵转换为原始图像文件，可由Lightroom操作？

、、、、

我有一个相机模块，我从其中读出“原始”的，非去解的图像数据(这个相机模块使用拜耳BGGR滤波器)。我目前正在将此存储在MATLAB矩阵中。我知道MATLAB可以为我演示这幅图像，但我想使用Adobe的解锁算法和处理工具。是否存在将此矩阵(使用MATLAB或其他方法)转换为标准原始文件的工具，如Adobe的DNG格式？据我所知，DNG与TIFF非常相似，这是否可以利用呢？

浏览 7提问于2015-06-18得票数 0

回答已采纳