将Pandas DF加载到大查询失败

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在使用以下代码(基于示例pandas-gbq-migration)，如下所示： from google.cloud import bigqueryimport osos.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "link_to_credentials.json" table_ref = dataset_ref.table('y

浏览 68提问于2019-01-07得票数 4

回答已采纳

1回答

Dask DataFrame能和大熊猫DataFrames一起工作吗？

、、

df = pandas.DataFrame({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas(df, npartitions=100

浏览 7提问于2019-03-06得票数 0

回答已采纳

1回答

从CSV文件中选择*

、、

我想知道是否有一种简单而直观的方法来做这样的事情：我搜索了网页，但找不到任何查询CSV文件的SQL类型语法。在R，我可以这样做：df <- read.csv.sql("C:\\your_path_here\\CSV1.csv", "select * from file whereName='Ryan'")我想知道Python中是否有类似的东西。

浏览 1提问于2018-07-30得票数 0

回答已采纳

5回答

将大量数据从BigQuery加载到python/大熊猫/dask

、、、、

我在BigQuery中有一个大表(假设每天插入2000万行)。我希望有大约2000万行数据，在python/大熊猫/dask中有大约50列的数据来做一些分析。

浏览 2提问于2019-03-06得票数 6

回答已采纳

1回答

Python Dask:无法将非限定值(NA或inf)转换为整数

、、

我正在尝试从一个postregres表中捕获一个非常大的结构化表格。它有大约200,000,000条记录。我正在使用dask而不是pandas，因为它更快。当我将数据加载到df中时，它比pandas快得多。

浏览 0提问于2020-02-20得票数 1

1回答

将大型SQL语句传递给Python SQLAlchemy中的变量？

、、、

请指导我如何将一个非常大的SQL语句(50列)传递给stmt变量，之后我将用它来加载到pandas df中？以下是我所做的工作：import pandas as pddf</em

浏览 1提问于2017-06-27得票数 1

3回答

管道从外壳进入jupyter笔记本电池

、、、

是否有人知道如何将shell命令( csvkit工具调用链)的输出流到jupyter笔记本单元，但特别是在Pandas DataFrame中。df = DataFrame.read_csv(output)我正在寻找一种管道/流解决方案，它允许Pandas读取输出。

浏览 4提问于2016-06-12得票数 2

2回答

我可以将csv加载到pandas dataframe中，但它被困在列表中。我怎样才能直接从Pydrill加载到pandas数据框中，或者从pandas数据框列和数据列表中删除？由于Pydrill查询，pd.dataframe无法工作。 reviews = drill.query("SELECT * FROM hdfs.datasets.`titanic_ML/titanic.csv` LIMIT 1000", timeout=30) pr

浏览 30提问于2019-10-11得票数 0

1回答

熊猫read_csv()不能读取字符串"null“

、、

如果我有这个CSV："hi"import pandasprint(list(df["col1"]))['hi'][nan] 我的实际CSV相当大，

浏览 4提问于2021-09-25得票数 0

回答已采纳

3回答

仅将一个工作表加载到dataframe

、、、、

我正在尝试用pandas的read_excel方法把一个excel表格读成df文件。excel文件包含6-7个不同的工作表。其中，2-3张纸非常大。我只想从文件中读出一张excel表格。我读过pandas使用的xlrd总是将整个工作表加载到内存中。我不能更改输入的格式。你能建议一种提高性能的方法吗？

浏览 31提问于2017-12-21得票数 2

1回答

将大型.jsons文件加载到Pandas数据中

、、

我正在尝试将一个大的jsons-文件(2.5GB)加载到Pandas dataframe。由于文件的大小较大，pandas.read_json()将导致内存错误。file.jsons')) as json_file: data = list(map(json.loads, data)) df

浏览 0提问于2019-09-16得票数 3

2回答

pandas:迭代数据帧，对每一行执行SQL查询

、

在数据帧的每一行中，我希望添加一个列，该列是对Postgres数据库的查询结果。这就是我现在所拥有的： for index, row in df_tf.iterrows(): id = row['National ID'] q我知道我可以将Postgres数据加载到pandas中并直接连接，但它相当大且很慢，所以我更喜欢使用Postgres查询。

浏览 22提问于2021-06-28得票数 0

3回答

将csv文件加载到BIGquery中，并在插入数据时添加日期列

、、

我正在编写一个python云函数，以便在添加新的列creation_date后将csv文件加载到BigQuery中。到目前为止还没有成功。有没有办法使用云函数或pandas来实现这一点？

浏览 67提问于2021-08-04得票数 0

回答已采纳

1回答

获得更多信息当大查询加载失败时，CSV表遇到太多错误，放弃

我试图从CSV文件将表加载到大查询中，但是它失败了当我单击大查询控制台中的作业状态时。没有更多的信息了。

浏览 2提问于2018-12-19得票数 0

2回答

ColumnarToRow是如何在Spark中高效运行的

、、、

即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。 'a': [i for i in range(200

浏览 13提问于2020-11-12得票数 10

1回答

将数据加载到

、

我的问题如下：{"value":"123"}我已经为我的数据定义了以下架构。[] 当我试图将json文件加载到大查询中时，如果出现以下错误，它将失败

浏览 3提问于2014-05-14得票数 4

1回答

如何将两只熊猫的数据加载到拥抱面的dataset对象中？

、、、、

我正在尝试将火车和测试数据帧加载到dataset对象中。将熊猫数据加载到dataset对象中的通常方法是：import pandas as pddataset = Dataset.from_pandas(df)from d

浏览 5提问于2022-06-04得票数 1

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

、、、、

我有一个运行pandas版本0.25.2的服务。此服务从数据库读取数据并将快照存储为csv查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3的不同机器上，我将csv文件的内容读入数据帧这将导致OutOfBoundsDateti

浏览 18提问于2019-11-08得票数 1

回答已采纳

1回答

如何在我的SQ查询中使用pandas数据框？

、、、、

我有一个熊猫数据帧: df。我是用sql query得到的。现在，我想编写另一个sql查询，从该pandas数据帧中获取数据： SELECT id, type, valueGROUP BY id, type 我想这样做是因为第一个查询非常大，第二个查询也可能变得非常大，所以为了避免大型查询，如何在第二个查询中插入熊猫数据帧？

浏览 11提问于2021-09-30得票数 0

1回答

使用气流迁移大型表

、、

我需要使用MySQL Airflow将一些非常大的s3表迁移到s3文件。气流中的所有相关钩子和操作符似乎都适合使用Pandas数据文件将完整的SQL输出加载到内存中，然后将其转换/导出到所需的文件格式。这给无法完全装入内存且正在失败的大型表带来了明显的问题。我无法让气流读取查询结果并将其保存到本地文件中，而不是将其全部存储到内存中。我看到了bulk_dump使用MySqlHook将结果输出到MySQL服务器上的文件的方法，但是没有明确的方法

浏览 1提问于2021-03-25得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云