使用Dask读取嵌套NoneType文件时遇到“JSON错误”

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试使用dask bag首先读取嵌套的大json文件，然后将其扁平为dask dataframe，然后将其保存为csv。然而，在扁平化过程中，我遇到了一个非类型错误"TypeError：' nonetype‘object is not subscriptable“。'early_termination': False, 'platform

浏览 25提问于2021-05-24得票数 1

回答已采纳

1回答

Read_json()任务是并行的吗？

、、

使用dask distributed读取100个json文件：(Workers:5核:5内存: 50.00 GB) from dask.distributed import Client df = dd.read_json('gs://xxxxxx/2018

浏览 8提问于2019-04-16得票数 2

2回答

为什么dask.bag.read_text(文件名).map(json.loads)会返回一个列表？

、、

我需要使用Dask读取几个json.gz文件。我试图通过使用dask.bag.read_text(文件名).map(json.loads)来实现这一点，但输出是一个嵌套列表(文件包含字典列表)，而我只想获得字典列表。import json import dask.bag as db dict_list = [{'id'

浏览 34提问于2019-09-19得票数 0

回答已采纳

1回答

使用dask转换大量文件的最佳方式是什么？

我在s3中有大量相对较小的文件。我需要读取每个文件，进行一些处理，然后将它们写回Google Cloud Storage。每个文件都足够小，可以放入内存中。保留每个文件的名称和内容非常重要。在多个内核/线程间扩展此工作时，最好的dask抽象是什么？我尝试使用dask.bag处理文件，并成功地处理了小批量文件，但在尝试处理大量文件时遇到

浏览 1提问于2021-03-09得票数 1

1回答

Dask DataFrames的值误差

我正在使用dask读取csv文件。但是，由于以下错误，我无法对其应用或计算任何操作：

浏览 3提问于2016-12-01得票数 0

回答已采纳

1回答

达克能以块读取压缩文件吗？

、

Dask能够读取块压缩的文件吗？在读取文件时，我在.xz中收到了一些错误，ValueError:无

浏览 1提问于2019-01-15得票数 0

3回答

分割包含多个表的250 tables文件

、、、

我有一个具有以下示例格式的JSON文件， "Table1": { {最大的问题是文件的大小，无法将它加载到内存中。因此，我尝试使用</

浏览 8提问于2020-11-24得票数 3

回答已采纳

1回答

将信息从一个类方法传递到另一个类方法

、、、、

我正在尝试创建一组类方法来读取.JSON文件的特定部分，但在将信息从一个方法传递到另一个方法时遇到了问题，在这种情况下，我试图将dask.bag从'read_files‘方法传递到'split_to_requests我不确定我的错误在哪里，但是在“test_split_requests”测试中运行单元测试失败。我在代码的底部添加了测试。import json from

浏览 23提问于2020-01-10得票数 0

2回答

用Array<Map<String，String>>列读取Parquet文件

、、、、

我使用Dask读取由PySpark生成的Parquet文件，其中一列是字典列表(即array<map<string,string>>')。engine='fastparquet时，Dask可以很好地读取所有其他列，但返回具有复杂类型的列的Nones列。很多googling已经清楚地表明，现在并不真正支持使用嵌套数组读取列，而且我不完全确定处理这个问题的最佳方法是什么。我想我

浏览 2提问于2019-07-14得票数 4

回答已采纳

1回答

读取多行json数组时的`dask.bag` JSONDecodeError

、、

当使用dask.bag读取json文件时，当文件中的json是多行时，我会得到一个JSONDecodeError。import json[[{'a':value: line 2

浏览 7提问于2017-07-03得票数 1

回答已采纳

1回答

在'from_delayed‘JSON文件中发现任务元数据不匹配

、、、

我刚刚开始了我的DASK之旅，我正在学习json格式的示例数据集。我知道对于初学者来说，这不是世界上最简单的数据格式:)ValueError: Metadata mismatch found in `from_delayed`.我不知道如何处理这个错误。请帮帮忙，我将非常感激！

浏览 0提问于2019-03-05得票数 3

5回答

打开一个大型JSON文件

、、

我有一个1.7GB的JSON文件，当我试图用json.load()打开时，它会产生内存错误，那么如何在python中读取JSON文件呢？我的JSON文件是一个包含特定键的对象数组。编辑：，如果它只是一个大的对象数组，并且预先知道对象的结构，那么就没有必要使用工具，我们可以逐行读取它。一行将只包含数组的一个元素。我注意到json文件就是这样存储的

浏览 6提问于2012-05-23得票数 13

1回答

TL;DR：我如何从分布式读取中收集元数据(解析期间的错误)到dataframe集合中。目前，我有一种专用的文件格式，用于输入dask.DataFrame。我有一个函数，它接受一个文件路径并返回一个pandas.DataFrame，dask.DataFrame成功地在内部使用该函数将多个文件加载到同一个dask.DataFrame。直到最近，我还在使用自己的代码将几个pandas.DataFrames合并为一个，现

浏览 7提问于2016-01-26得票数 2

回答已采纳

1回答

在Numpy数组上执行Pandas函数

、、、、

为了对其进行一些处理，我将其设置为Dask数据帧。问题是我需要做Dask不支持的unstack和plot。我已经将Dask数据帧写入h5文件，但在尝试将其作为Pandas数据帧读取时遇到内存问题。我在将Dask DF转换为Pandas时也遇到了内存错误。有人建议我使用NumPy数组，但我不知道如何进行连接和分组/计数/绘图。对于数组，这是可能的吗？这对解决内存问

浏览 2提问于2020-04-22得票数 2

1回答

使用to_csv和dask忽略不匹配的列类型

、、、、

我正在尝试使用dask和Dask手册中列出的dask.dataframe.to_csv(datframe_name, file etc..)命令导出数据帧：ValueError: Mismatched dtypes found in `

浏览 2提问于2019-10-16得票数 0

1回答

使用dask.bag和pandas.DataFrame将字典的dask.delayed转换为dask.dataframe

、

我正在努力将字典的dask.bag转换为dask.delayed pandas.DataFrames，使之成为最终的dask.dataframe到目前为止，我一直在使用dask.delayed对象来加载、转换和附加所有工作正常的数据(参见下面的示例)。但是，对于以后的工作，我想使用<

浏览 3提问于2019-03-22得票数 5

回答已采纳

1回答

R与Python之间的交叉读取拼花文件

、、

我们已经生成了一个拼花文件，一个用Dask (Python)，另一个用R Drill (使用Sergeant数据包)。他们使用不同的parquet 实现。我们无法交叉读取文件( python不能读取R文件，反之亦然)。在R环境中读取parquet文件时，我们会收到以下错误：system error: Illegalstatexception: UTF8 can only annot

浏览 3提问于2017-08-01得票数 0

回答已采纳

1回答

在xarray中加速open_mfdataset的方法

、、

我试图用xarray中的NetCDF函数打开大量的open_mfdataset文件(340 GB，7,000+文件)。但是，当我试图将所有这些文件名的排序列表读取到open_mfdataset中时，需要很长时间(~30分钟)才能完成。考虑到我试图读取的内容的大小，这可能是预期的行为，但我的理解是，大多数计算时间应该发生在我如何处理数据集并最终调用.compute()之后。 open_mfdataset应该花这么长时间吗？我知道有“大块”的论点，但我的理解是，只有当我在超级计算机上做并行计

浏览 2提问于2021-01-05得票数 1

3回答

用Python在Parquet中嵌套数据

、、、

我有一个文件，每行有一个JSON。"110v", } "user": "Daniel Severo"我想要创建一个包含如下列的拼花文件：我知道parquet有一个使用Dre

浏览 0提问于2017-07-27得票数 18

回答已采纳

1回答

无法从jupyter实验室启动新的dask* SLURM集群-“没有名为‘dask_jobqueue’的模块”*

、

我正在尝试使用JupyterLab中的Dask扩展启动一个新的SLURM集群。当我点击'+New‘按钮时，我遇到了以下弹出窗口：这是尽管在~/.config/dask中有一个包含'dask_jobqueue‘模块的labextension.yaml文件。此屏幕截图显示了问题，以及我在后台的配置文件：

浏览 10提问于2021-03-13得票数 1

回答已采纳

点击加载更多