可以使用SQL操作通过Pandas创建的数据帧吗？_可以将SQL语言与pandas数据帧一起使用吗？_可以在Pandas中创建带有子头的数据帧吗？ - 腾讯云开发者社区

、、、

因此，我正在尝试创建一个python脚本，该脚本允许我在使用pandas创建的数据帧(masterfile)上执行SQL操作。数据帧从特定文件夹中找到的csv文件中提取其内容。我能够成功地创建其他所有内容，但我在SQL操作部分遇到了麻烦。我正在尝试使用数据帧作为“数据库”，在这里我将使用我的SQL查询来拉取数据，但是我得到了一个"AttributeError：' dataframe‘object has no attribute 'cursor’“错误。我没有看到很多pandas.read_sql_query()的例子，所以我很难理解我将如何在其中使用我的数据帧。

浏览 12提问于2020-06-28得票数 0

1回答

从python Dataframe上传数据到Exasol

、、、、

我想知道是否有任何方法可以上传数据帧并在Exasol中创建新表？import_from_pandas假设该表已经存在。我们是否需要单独运行SQL来创建表？对于其他数据库，如果表不存在，to_sql可以只创建表。

浏览 12提问于2020-11-02得票数 0

1回答

我可以以类似的方式使用SQL语法来应用'set_index‘到pandas吗？

、

在pandas中，我可以使用'set_index‘来设置索引列。例如，我可以更改以下内容：至：我将此数据帧作为表存储在SQLite中。但是，它的格式与原始数据帧相同。我想将'Date‘列设置为SQL环境中的索引。我可以使用SQL语法来做这件事吗？

浏览 0提问于2016-12-19得票数 0

3回答

如何创建一个用随机字符串填充列的pandas数据帧？

、

我想创建一个包含2列x行的Pandas数据帧，其中包含随机字符串。我找到了生成带有随机int和随机字符串生成器的pandas数据帧的代码。我仍然没有看到一条清晰的路径来创建一个带有随机字符串的pandas数据框架。用于随机int数据帧的代码 import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD')) 随机字符串的代码 import string import random def id_gener

浏览 60提问于2019-06-01得票数 4

回答已采纳

1回答

有没有办法在SQLAlchemy连接字符串中指定Postgres模式？

、、、

我目前正在迁移一个使用SQLAlchemy的现有Python程序，但几乎完全是通过在Pandas数据帧中使用SQLAlchemy引擎(例如，pandas to_sql)。目前，在创建引擎时使用的连接字符串是另一个数据库(即MySQL)的连接字符串，访问数据库(类似于Postgres schema)很容易完成。如何最好地指定给定引擎中的模式(而不仅仅是包含它们的Postgres数据库)？编辑:似乎有人给这个问题贴上了重复标签。事实并非如此。我不希望通过使用会话自动生成查询；我希望创建连接字符串，以便创建在Pandas的to_sql函数中使用的SQLAlchemy引擎。

浏览 0提问于2017-04-06得票数 3

1回答

如何在SQLAlchemy + Pandas操作中限制内存消耗？

、、、

我们有几个进程，它们使用SQLAlchemy从DB中提取数据，然后使用Pandas来操作数据。我是否在我的sql中使用cast()拉取到较小的数据类型？或者我应该将作为较小的数据类型加载到我的数据帧中？ df = pd.read_sql("select cast(column_name as smallint) from schema.table;") vs df = pd.read_sql("select column_name from schema.table;", dtype={"column_name": "int8"}

浏览 0提问于2020-05-12得票数 0

1回答

如何使用google cloud函数定期将数据写入google cloud SQL

、、、、

我需要用python从google cloud function连接google cloud SQL server，每30分钟写一次数据。我有一个创建pandas数据帧的python函数，我用另一个函数连接Google cloud SQL server，并将这个pandas数据帧写入Microsoft SQL server管理中的相应表中。但我需要每隔20分钟定期运行一次此函数。因此，我的想法是创建云函数，然后创建google cloud scheduler work以每20分钟运行一次这些python函数。但我找不到明确的指南。谷歌云文档非常混乱。任何建议都会受到欢迎。

浏览 12提问于2020-10-26得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

7回答

Pandas更新sql

、、

有没有办法在不遍历每一行的情况下从数据帧中执行SQL update-where？我有一个postgresql数据库，要从数据帧更新数据库中的表，我将使用psycopg2并执行以下操作： con = psycopg2.connect(database='mydb', user='abc', password='xyz') cur = con.cursor() for index, row in df.iterrows(): sql = 'update table set column = %s where column = %s&

浏览 16提问于2015-08-13得票数 68

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

2回答

将pyodbc.rows列表转换为pandas Dataframe需要很长时间

、、

有没有更快的方法将pyodbc.rows对象转换为pandas Dataframe？将10个million+ pyodbc.rows对象列表转换为pandas数据帧大约需要30-40分钟。 import pyodbc import pandas server = <server_ip> database = <db_name> username = <db_user> password = <password> port='1443' conn = pyodbc.connect('DRIVER={SQL Ser

浏览 2提问于2018-11-27得票数 5

3回答

在Python中过滤数据帧

、

我有一个包含2列的数据帧，如下所示： Index Year Country 0 2015 US 1 2015 US 2 2015 UK 3 2015 Indonesia 4 2015 US 5 2016 India 6 2016 India 7 2016 UK 我想创建一个新的数据帧，其中包含每年国家的最大计数。新的数据帧将包含3列，如下所示： Index Year Countr

浏览 0提问于2017-08-12得票数 2

1回答

在使用pandas read_sql_table() -SQLAlchemy时应用where条件

、、、

我想使用read_sql_table()使用SQLAlchemy和Pandas将表从Posgresql数据库读取到Pandas数据帧中。对数据库的SQL查询类似于： SELECT col1,col2 FROM my_table WHERE col1=='value' 我尝试使用以下代码从表中获取Pandas数据帧： from sqlalchemy import create_engine db_uri = environ.get('SQLALCHEMY_DATABASE_URI') engine = create_engine(db_uri, echo=Tru

浏览 23提问于2021-06-14得票数 0

1回答

在pandas中设置数据模型

、

所以我习惯了数据库ETL。在SQL中，我创建表并设置字符长度、数据类型等。据我所知，pandas使用数据帧中所有内容的最大长度。如果您还在使用python，那也没问题，但是我需要显式地指定这些东西。下面是一些基础代码，欢迎使用指针： df=pd.Dataframe() df['ID'] = some data probably i + 1 df['text'] = some text length set to max 255

浏览 2提问于2020-11-14得票数 2

3回答

如何加速将数据帧导入pandas

、、

我理解pandas导入csv文件相对较慢的原因之一是，在猜测类型之前，它需要扫描一列的整个内容(请参阅关于pandas.read_csv的low_memory选项的讨论)。我的理解正确吗？如果是这样的话，什么样的格式才是存储数据帧的好格式，哪些格式显式地指定了数据类型，这样pandas就不必去猜测了(SQL暂时不是一个选项)？有什么特别的选择吗？我的数据帧有浮点数、整数、日期、字符串和Y/N，所以只支持数字值的格式是行不通的。

浏览 0提问于2017-11-15得票数 2

2回答

将数据帧写入SQL的函数

、、

我有一个函数，它接收数据帧并将其作为表写入SQL。 def insert(df): with connection.cursor as cur: cur.execute('''create tablaexyz.xyz (ID integer, first_name varchar(100), last_name varchar(100))''') d

浏览 17提问于2021-04-07得票数 0

1回答

如何使用雪花和python从Pandas数据帧创建Spark数据帧？

、、、、

我有一个sql，它是存储在python中的一个变量中，我们使用SnowFlake数据库。首先，我已经转换成熊猫数据帧使用sql，但我需要转换成火花数据帧，然后存储在一个CreateorReplaceTempView。我试过了： import pandas as pd import sf_connectivity (we have a code for establishing connection with Snowflake database) emp = 'Select * From Employee' snowflake_connectio

浏览 5提问于2020-06-04得票数 0

1回答

将pandas数据帧转换为元组列表并删除所有pandas数据类型

、、、

我需要将数据帧转换为可以插入到sql表中的格式。 data_tuples = [tuple(row) for row in df.values] 如何从pandas数据帧中删除所有非python数据类型(包括np int、nans和NaTs)？

浏览 2提问于2016-08-08得票数 1

回答已采纳

2回答

将panda数据框写入sql developer时出现问题

、、、

我一直在尝试从jupyter notebook (使用to_sql)到sql developer编写一个panda数据帧。我做了以下工作： import pandas as pd import cx_Oracle from sqlalchemy import types, create_engine df = pd.read_csv('C:/Users/TOSHIBA/Downloads/Pandas Hub/Pandas_data//survey_results_public.csv') engine = create_engine('oracle+cx_oracle

浏览 2提问于2020-07-01得票数 0

2回答

识别pandas read_sql中的日期类型

、、、

在pandas中使用read_sql时，该函数需要确定哪些列应该被视为日期(参见下面的代码片段)。但是我事先不知道哪些栏是日期。给定一条select语句，我需要检索它的列类型并将结果集加载到pandas数据帧中。我期望pandas在从select创建dataframe时标识date类型的列并分配类型。在select语句或数据帧中标识date类型的最佳方法是什么？我尽量避免使用pyodbc运行语句来检测类型。 import pyodbc import pandas as pd conn = pyodbc.connect.... sql_df = pd.read_sql( &#

浏览 60提问于2020-10-03得票数 1

1回答

检查来自pandas dataframe的哪些值不在SQL数据库中

、、、、

我想检查来自pandas dataframe的哪些值不在SQL数据库中。因此，基本上是一个左连接( left是pandas df)，其中右(SQL DB)键为NULL。 DB非常大，大约有500万个条目，但我只对主键感兴趣。 Pandas dataframe(50k行)比SQL DB(5M)小得多，所以我更愿意将数据移动到能带来所有数据的batabase中我曾经考虑过在SQL中创建一个临时表并进行左连接，但也可以只使用一个查询来实现 pandas数据帧： index 0 1 2 3 4 sql数据库：

浏览 9提问于2019-07-11得票数 2

回答已采纳

1回答

绘图时来自新数据帧的Keyerror

、、、

创建新的数据帧，然后尝试绘制新的数据帧后，Keyerror :0。最初，代码简化了原始数据帧的绘制。删除了少量行(~5行)，并创建了新的数据帧。显示的新数据帧没有问题，但是在尝试绘制新数据帧时显示Keyerror : 0。我试图解决这个问题，但没有成功。以下是用于替换、删除丢失数据和创建新数据帧的脚本。 df_pre_orderset2_t = df_pre_orderset2.replace(0, np.nan) df_pre_orderset2_top = df_pre_orderset2_t.dropna() pd.set_option('display.max_colwi

浏览 83提问于2021-07-25得票数 0

回答已采纳

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用： 1)用于拉取数据的Spark数据帧2)在初始聚合后转换为pandas数据帧3)想要转换回Spark以写入HDFS 从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。你能给点建议吗？ from pyspark.sql import SparkSession import pyspark.sql.functions as sqlfunc from pyspark.sql.types import * import argparse, sys from pyspark.sql import

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

从oracle提取数据到python pandas dataframe的速度非常慢。

、、

我正在尝试使用cx_Oracle模块从Oracle数据库中提取数据并将其放入Pandas数据帧中。使用fetchall()函数时，如下所示 cursor = con.cursor() cursor.arraysize = 1000 results = cursor.execute("select * from TABLE1") rows = results.fetchall() 提取速度与使用R Oracle库提取非常相似，大约需要8秒(数据大小约为750,000行和30列混合数据类型) 但是，当使用Pandas read_sql函数将其导入到数据帧中时，性能要差得多 df

浏览 3提问于2016-07-06得票数 3

2回答

内存不足:将大数据从Amazon传输到Pandas

、、、、

我在中有一个很大的数据块(大约1000万行)，我将在Pandas数据帧中获取这些数据，并将数据存储在一个泡菜文件中。但是，由于数据的大小，由于明显的原因，它显示了“内存不足”异常。然而，我尝试了很多其他的东西，比如sqlalchemy，但没能解决这个问题。有人能提出一个更好的方法或代码来完成它吗。我的当前(简单)代码片段如下： import psycopg2 import pandas as pd import numpy as np cnxn = psycopg2.connect(dbname=<mydatabase>, host='my_redshift_Se

浏览 0提问于2018-05-04得票数 0

回答已采纳

1回答

从Pandas WKT转换时GeoPandas的性能

、、

我有一个阅读近似的要求。从PostGIS数据库到GeoPandas数据帧中的1000万条记录。直接从数据库读取数据大约需要花费一些时间。15分钟，通过以下方式： geopandas.GeoDataFrame.from_postgis(sql, engine) 这是可以接受的，但我一直在尝试通过结合使用PostgreSQL COPY命令和SQLAlchemy copy_export函数来提高读取性能。使用此方法将数据读取到Pandas数据帧中大约需要花费一些时间。60秒，这是一个巨大的进步： def read_data(engine, sql): with tempfile.Tempor

浏览 0提问于2021-05-19得票数 1

2回答

将新列插入到数据帧中会给出'ValueError:值的长度(4)与索引的长度(6)不匹配‘

、、、

我用pandas库创建了一个数据帧。我想向dataframe中添加一列。然而，我得到了以下error.But，我想我必须输入与lines.How数量一样多的数据，我可以在我想要的行和列中输入信息吗？如果不输入数据，如何创建列？ import pandas as pd kd = pd.DataFrame(data) insertColumns = kd.insert(0, "Age", [21, 23, 24, 21],True ) print(kd) 错误： ValueError: Length of values (4) does not match length o

浏览 302提问于2020-10-10得票数 2

回答已采纳

3回答

2个以上的熊猫数据帧中的联合

、、、、

我正在尝试将sql查询转换为python。sql语句如下： select * from table 1 union select * from table 2 union select * from table 3 union select * from table 4 现在我在4个数据帧df1, df2, df3, df4中有了这些表，我想联合4个pandas数据帧，它们将匹配与sql query相同的结果。我搞不懂应该用什么操作来等同于sql union？提前感谢！！注意:所有数据帧的列名都是相同的。

浏览 1提问于2016-01-08得票数 18

3回答

在Python中读取SQL表

、、、、

我有一个.sql文件，我只想读入Jupyter Notebook中的Pandas数据帧。对于CSV文件，我只需要上传文件并创建一个数据帧，如下所示： df = pd.read_csv('file.csv') 我想我的SQL文件需要使用像MySQL这样的数据库应用程序提供服务。也许有某种方法可以在本地托管.sql文件？我不需要做任何数据库操作-我只想读取表值。

浏览 3提问于2018-06-25得票数 0

2回答

在Pandas中使用方法链接赋值给列的子集

、、、

我想使用Pandas方法链接的现代方式来为列的子集赋值。假设我有以下数据帧 df = pd.DataFrame({'a': [1, 0, 0, 1]}) a 0 1 1 0 2 0 3 1 我想实现等同于 df.loc[df.a == 1, 'a'] = 2 使用类似于 df.query('a == 1').assign(a=2) 但是，上面创建了一个子集dataframe，并且不会修改整个dataframe。这有可能以某种方式实现吗？

浏览 1提问于2018-11-09得票数 4

1回答

如何在tkinter中显示pandas数据

、、、

我从python中的csv文件创建了一个pandas数据帧。如何在tkinter窗口中显示此数据帧。 import pandas as pd methods = pd.read_csv('metode.csv') methods = methods.drop(methods.columns[[0]], axis=1)

浏览 3提问于2019-10-29得票数 0

2回答

如何使用两组变量拆分pandas数据帧

、

我有一张桌子，看起来像这样。从CSV文件中读取，所以没有关卡，没有花哨的索引，等等。 ID date1 amount1 date2 amount2 x 15/1/2015 100 15/1/2016 80 我拥有的实际文件是date5和amount 5。我如何将其转换为： ID date amount x 15/1/2015 100 x 15/1/2016 80 如果我只有一个变量，我会使用pandas.melt()，但是有了两个变量，我真的不知道如何快速完成。我可以手动导出到内存中的sqlite3数据库，

浏览 0提问于2015-11-03得票数 1

1回答

使用pandas中的索引列查看或过滤？

、

使用Python的pandas库，我导入了一个csv并将多个列设置为我的索引。出乎意料的是，当我显示数据帧时，索引列不再存在，并且我不能使用索引列作为过滤器选项。这让我想知道我是否错误地认为pandas索引类似于SQL索引。 date, exchange, symbol, low, high, open, close, last exchange和symbol足以唯一标识一行。它是加快了查找速度，还是添加了一些对stack/unstack/pivot/groupby之类的东西有用的语义信息？它能减少内存使用量吗？为什么要将日期、交换和符号移出数据帧(并移到索引系列中？)？把它们留在dat

浏览 1提问于2014-09-19得票数 0

1回答

循环列表以从SQL查询创建多个数据帧。

、、、

我有一个SQLite查询，我想运行多次，根据感兴趣的年份创建多个Pandas数据帧。像这样的东西(但这绝对行不通)。基本上，我试图在year列表上循环创建数据框架，以创建4个数据帧(每年1帧)，而且即使经过相当多的Googling搜索，我现在仍然无法做到这一点。 year = [2018, 2019, 2020, 2021] query = ''' SELECT some stuff FROM table WHERE table.YEAR = ? ''' for x in year: df[x] = pd.read_sql_que

浏览 4提问于2021-12-17得票数 0

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

2回答

用scipy.io打开arff文件

、、

我正在尝试加载一个arff文件，并将数据转换为pandas数据帧。然而，当我这样做时，数据可以在上获得： import numpy as np import pandas as pd from scipy.io import arff dataframe, meta = arff.loadarff('chronic_kidney_disease.arff') dataframe = pd.DataFrame(dataframe) dataframe.head() 我得到以下错误： ValueError: yes value not in ('yes',

浏览 6提问于2020-06-30得票数 0

1回答

使用数据帧/矩阵为sklearn和Tensorflow创建输入

、、、

我正在使用pandas / python /numpy / datalab/bigQuery为机器学习处理生成一个输入表。数据是基因组的--现在，我正在处理174行12430列的小子集以同样的方式从bigQuery (df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True))中提取列名，提取行名：samples_rows = bq.Query('SELECT sample_id FROMspeedy-emissary-167213.pg

浏览 8提问于2017-06-28得票数 1

回答已采纳

2回答

将不同的数据帧分配给不同的变量

、、

我正在为一个算法创建测试和训练数据。我在不同的csv文件中有数据，我想从这些文件中创建训练和测试数据。我已经使用以下命令将所有csv文件导入到pandas数据帧中 dfs = [pd.read_csv(file) for file in datafiles] 第一个数据帧是dfs1，第二个是dfs2，依此类推我想将它们分配到不同的数据帧中，格式为Xtest1是dfs1，Xtest2是dfs2，依此类推，直到文件结束有没有人可以使用循环或任何其他想法来帮助完成这项工作

浏览 0提问于2019-04-01得票数 0

1回答

获取pandas中可用数据帧的列表

、

如何检查pandas中可用数据帧的名称？通过一个循环，我创建了几个数据帧，并且我想检查是否创建了所有需要的df

浏览 0提问于2017-03-21得票数 1

2回答

pandas dataframe to oracle - NotImplementedError

、、、、

我正在尝试用下面的代码在oracle表中插入一个pandas数据帧： tabl.to_sql('RESULT', cnxn, flavor='oracle', if_exists='replace'); 但是，我遇到了以下错误： Traceback (most recent call last): File "./pp.py", line 125, in <module> tabl.to_sql('RESULT', cnxn, flavor='oracle', if_exi

浏览 1提问于2015-04-22得票数 2

1回答

从现有数据帧的某些列创建新的pandas数据帧

、、

我已经阅读了将csv文件加载到pandas数据帧中，并希望对该数据帧进行一些简单的操作。我不知道如何根据从原始数据框中选择的列来创建新的数据框。我的尝试是： names = ['A','B','C','D'] dataset = pandas.read_csv('file.csv', names=names) new_dataset = dataset['A','D'] 我想用原始数据帧中的列A和D创建一个新的数据帧。

浏览 1提问于2017-07-11得票数 24

回答已采纳

1回答

如何在spark sql dataframe中映射一列以创建新列？

、、、

在python和pandas中，我可以创建一个新的专栏，如下所示：使用pandas dataframe中的两列来创建字典。 dict1 = dict(zip(data["id"], data["duration"])) 然后，我可以应用这个字典在第二个dataframe中创建一个新列。 df['id_duration'] = df['id'].map(lambda x: dict1[x] if x in dict1.keys() else -1) 如果我有一个数据帧id_duration (有两列：id和duration)和

浏览 38提问于2021-01-22得票数 0

回答已采纳

2回答

如何防止pandas psql.read_sql_query获取缓存

、

我使用pandas 0.15.2并从mysql storedproc读取到dataframe import pandas.io.sql as psql cnx= pymysql.connect( .. connection string ...) df=psql.read_sql_query('call storedproc', con=cnx) 数据库非常活跃，经常有新数据，我意识到每当我重新运行上述语句将数据加载到我的数据帧中时，它都会返回最后查询的数据缓存。如果我再运行几次read_sql_query，它最终还是会加载的。我的问题是，什么是正确的方法，以确保它永远不会获得

浏览 2提问于2015-04-04得票数 1

2回答

从pandas df更新数据库中的现有行

、、

我有一个PostgreSQL数据库。Pandas有一个“to_sql”函数，可以将数据帧的记录写入数据库。但我还没有找到任何文档，说明在我使用完dataframe时如何使用pandas更新现有的数据库行。目前，我可以使用pandas read_sql_table将数据库表读取到数据帧中。然后，我会根据需要处理数据。但是，我还不能弄清楚如何将该数据帧写回数据库以更新原始行。我不想覆盖整个表。我只需要更新最初选择的行。

浏览 73提问于2015-04-13得票数 25

1回答

pyspark:创建多个dataframe失败

、、

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示： import pandas as pd from pyspark import SparkContext,SQLContext df1 = pd.read_csv('data1.cat',delim_whitespace=True) df2 = pd.read_csv('data2.cat',delim_whitespace=True) sc = SparkContext() sql = SQLContext(sc) spark_df1 = sql.createDa

浏览 208提问于2020-06-08得票数 0

回答已采纳

1回答

Pandas read_sql_query将32位数据转换为64位

、、

我正在使用pandas.read_sql_query从Sql server中读取一些数据。我在Sql server中读取的数据类型是int和real，即32位整数和32位浮点值。但在结果数据帧中，数据类型是int64和float64。我可以在将数据放入Pandas数据帧后将其转换回32位，但我正在读取大量数据，因此这将导致内存问题。有没有办法在读取数据帧时保持来自Sql server的32位数据？下面是db连接的一个示例： cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER='+server+';DATABASE=&#

浏览 31提问于2020-12-04得票数 2

1回答

Pandas数据帧和字典的深度副本

、、、

我正在创建一个小的Pandas数据帧： df = pd.DataFrame(data={'colA': [["a", "b", "c"]]}) 我把那个df拷贝了一遍。我使用的不是Pandas方法，而是通用Python，对吧？ import copy df_copy = copy.deepcopy(df) 一个df_copy.head()提供以下内容： ? 然后我将这些值放入字典中： mydict = df_copy.to_dict() 字典看起来是这样的： ? 最后，我删除了列表中的一项： mydict['colA&#

浏览 42提问于2020-01-10得票数 3

回答已采纳

1回答

我是否可以逐行编写DB查询的结果并跳过Python 3中的数据帧？

、、

我正在寻找一种内存高效的方法，可以将22‘m的记录写入到管道分隔的csv中。我使用pyodbc和pandas将22‘m的记录拉到数据库中。我的数据帧遇到了内存问题。太多唱片让它卡住了。我知道有文件流方法，但我只将它用于组合CSV，而不是编写数据库查询结果。我可以以某种方式将查询流式传输到磁盘，而不首先访问RAM吗？ import sys import pandas as pd import pyodbc as db import time import os print("Connecting to SQL Server database" + time.strftime(

浏览 14提问于2019-08-14得票数 0

回答已采纳