如何在python中提高从dataframe列读取数据的速度？_Python无法从dataframe中的列获取数据_Python:从dataframe的列中清除特定范围的数据 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

我可以使用以下代码从Master节点中的Oracle数据库中读取数据： val spark = SparkSession .builder .master("local[4]") .config("spark.executor.memory", "8g") .config("spark.executor.cores", 4) .config("spark.task.cpus",1)

浏览 1提问于2021-10-16得票数 2

1回答

如何在插入仍在进行时检查插入到表中的行数

python、pandas、oracle

我有一个包含400万行和53列的dataframe。我正在尝试将数据写入到oracle表中。下面是我在python中的代码片段； import pandas as pd import cx_Oracle conn = (--------------) df = pd.read_sql(------) #write to oracle table df.to_sql(---) 这段代码已经运行了三天多了，遥遥无期。请问怎样才能得到插入的进度？ PS:我的连接运行良好，并且我已经确认"to_sql()“正在工作，因为我在一个10行的数据帧上尝试了它，并且它工作了。编辑：谢谢大家，帮了忙

浏览 4提问于2020-01-13得票数 0

1回答

使用Python的odo库从mysql数据库获取数据

python、pandas、sqlalchemy、odo

我需要使用Python中的库从MySQL数据库获取数据到Pandas dataframe中。Odo的文档只提供了传递表名以获取数据的信息，但是如何传递从数据库获取所需数据的SQL查询字符串呢？下面的代码可以工作：导入odo 将熊猫作为pd导入 data = odo('mysql+pymysql://username:{0}@localhost/dbname::{1}'.format('password'，'table_name')，pd.DataFrame) 但是如何传递SQL字符串而不是表名呢？因为我需要连接多个其他表来提取所需的数据。

浏览 8提问于2017-10-13得票数 0

2回答

当字形完全呈现时，如何调用JS函数或Python方法？

javascript、python、python-3.x、performance、bokeh

我正在使用bokeh作为服务器应用程序。当我在绘图中进行选择时，我会在python中执行一些操作，并更新一些源(CDS)。这种变化反映在情节中。是否有一种方法来检查符号何时被完全呈现(在更新之后)？我想调用一个JavaScript函数时，所有的都已完全加载？使用该函数，我想再次调用其他python方法来更新CDS。如果我不等待这个概要文件被呈现，那么应用程序可能会中断，这就是我想要避免的。实际上，我过去做过一些测试，为了使它正常工作，我不得不创建一个巨大的CDS，而不是几个较小的CDS。我的用例。我为什么要做这个？我有很多选项卡在我的布局，他们可以是10，例如。每个选项卡都有一些地块(3

浏览 1提问于2019-04-03得票数 1

回答已采纳

2回答

如何在RNN TensorFlow中使用超大数据集？

pandas、machine-learning、tensorflow、dataset、data-processing

我有一个非常大的数据集: 7.9 GB的CSV文件。其中80%作为训练数据，其余20%作为测试数据。当我加载训练数据(6.2 GB)时，我的MemoryError是在第80次迭代(第80个文件)。下面是我在加载数据时使用的脚本： import pandas as pd import os col_names = ['duration', 'service', 'src_bytes', 'dest_bytes', 'count', 'same_srv_rate', 'serr

浏览 1提问于2017-07-25得票数 6

回答已采纳

1回答

将特定数据读入Python中的数据

python、dataframe

你好，我想把这些数据转换成python中的dataframe。我想有4列名为:问题，语言，时间和大小。每一行应包含4个值。数据看起来如下:问题，语言，时间，大小， N体，C,2.13,1633，

浏览 4提问于2022-04-06得票数 0

2回答

如何存储数据-是否应直接复制

mysql、database、database-design、storage

我想存储各种机构的数据。我想存储的数据，允许该机构在其国家内的位置。因此，我需要存储每个机构的城市数据、县数据和国家数据。我分别有一个城镇、县和国家数据库，它们都链接在一起，例如，我可以搜索一个城镇，它的'county_id‘列与县表中的县的ID匹配，等等。我想知道从实际建立表中引用此数据的最佳方式。目前，在这个表中，我只有一个城镇、县和国家列，其中包含各自的数据。我的URL结构是website.com/country/country/country/country/name，所以有了这样的数据，我可以通过一个查询找到一个机构，而不需要连接等等。只有一个带有城镇ID的列，然

浏览 0提问于2012-10-05得票数 1

回答已采纳

3回答

在python pandas dataframe中将列数据从“姓氏，名字”改为“名字姓氏”

python、pandas、dataframe、split、reverse

我有python pandas dataframe，它由用于执行python脚本的power bi数据源转换支持，其中一列由lastname, firstname组成，我需要它由firstname lastname组成。我尝试了以下拆分、反转、连接方法，该方法适用于独立的字符串参数，但当我尝试对pandas数据帧中的列数据使用该方法时，会生成AttributeError: 'Series' object has no attribute 'split'。 name = 'LastName, FirstName' ' '.joi

浏览 62提问于2020-06-17得票数 2

回答已采纳

1回答

从另一个dataframe获取潜在多个匹配的值。

python、pandas、dataframe

如果df_out中相应的'my_ID‘包含在df_jira’reference_ID‘中，我想用'ID’填充df_sp中的‘reference’列。 import pandas as pd d_sp = {'ID': [1,2,3,4], 'my_ID': ["my_123", "my_234", "my_345", "my_456"], 'references':["","","2",""]} df_

浏览 6提问于2022-04-23得票数 0

回答已采纳

1回答

在python中创建具有曼哈顿距离的新数据帧

python、pandas、dataframe

我需要创建一个dataframe，其中包含具有相同列的两个dataframe之间的曼哈顿距离，并且我需要每个dataframe的索引作为索引和列名，例如，假设我有这两个dataframe： x_train : index a b c 11 2 5 7 23 4 2 0 312 2 2 2 x_test : index a b c 22 1 1 1 30 2 0 0 因此，列匹配，但大小和索引不匹配，预期的数据帧将如下所示： dist_dataframe: index 11 23 312 22 11 5 3 30 12 4 4 而我现在所拥有的是：

浏览 14提问于2020-12-22得票数 1

回答已采纳

1回答

Python -批量读取非常大的文本文件时的无限循环

python、python-3.x、loops、file

好了，我有一个很大的(8 GB+) txt文件，其中包含很可能来自大型机b/c的遗留数据。它是所有固定字段，必须逐行解析&逐个字符解析。逐行读取文件在小样本上工作得很好，但不会扩展到超过几百MB。从本质上讲，我希望分批读取txt文件，假设每批读取500万行，然后逐行处理每批。这就是我用Python编写的代码，但由于某些原因，当在较小的文件上进行测试时，下面的代码以无限循环结束。我有点困惑的是，中断实际上从来没有被触发过，快照总是被覆盖。你知道怎么解决这个问题吗？ # Python 3.x def convert_txt_to_csv(path_to_txt, path_to_s

浏览 21提问于2020-04-28得票数 0

1回答

如何从Codeforces中获得Pandas？

python、dataframe、api、analytics

我想将CODEFORCERS用于某些Analytics (在Python / SQL /甚至XLS.中)。我试图获得一个足够的Pandas，但是我得到了一个0行13644列的Dataframe。我不知道如何从API中获取可用的Dataframe。我想对数据做些什么:分析不同的方面，如分数/参与者/分数变化/回合. 只需将数据拖到XLS工作表/ SQL中就可以了。最好的，Kiki 我试过了从sklearn导入数据集作为pd导入熊猫 contest_list = pd.read_csv(") pd.DataFrame(contest_list) 但得到了0行×13644列的Dataf

浏览 10提问于2022-11-07得票数 0

2回答

python中处理大型多维时间序列数据的最有效方法

python、sql、pandas、dataframe、bigdata

我正在为一个视频游戏提供统计服务，在这个游戏中，我每小时挖掘一次游戏的主板，并创建图表等来跟踪玩家的进度。最初，我使用了一个MultiIndex DataFrame，它看起来类似于以下内容： import pandas as pd import numpy as np index_arrays = [np.array(["01.01.22"]*4+["02.01.22"]*4), np.array(["Name","Level","Money","Guild"]*2

浏览 6提问于2022-02-05得票数 0

3回答

利用PySpark在数据模型上应用sklearn训练模型

python、apache-spark、scikit-learn、pyspark

我用Python训练了一个随机森林算法，并希望用PySpark在一个大数据集上应用它。我首先加载了经过训练的sklearn模型(使用joblib)，将包含这些特性的数据加载到Spark数据框架中，然后添加了一个带有预测的列，该列具有用户定义的函数，如下所示： def predictClass(features): return rf.predict(features) udfFunction = udf(predictClass, StringType()) new_dataframe = dataframe.withColumn('prediction', udf

浏览 6提问于2017-05-31得票数 8

回答已采纳

1回答

在SQL中状态列的Varchar(10)或int

sql、sql-server、database

在创建表时，从搜索/速度的角度来看，哪一列类型更好？对于某些表，我遇到了一个名为Status的列的需要。我通常将这个int32存储在数据库中，然后在代码中使用类来引用它： public static int Published = 1; public static int Draft = 0; public static int Deleted = -1; 用这个列代替varchar有很大的速度差异吗？ public static string Published = "Published"; public static string Draft = "Dr

浏览 1提问于2014-09-08得票数 4

回答已采纳

1回答

通过变换实现熊猫群并行化/加速的有效方法

python、pandas、dataframe、parallel-processing、time-series

我试图加速一些用来计算熊猫时间延迟、索引数据格式的代码。dataframe包含由ID列标识的200 k时态序列。我试过达斯克，但没有得到任何改善(比熊猫本身花费的时间更长)。下面是一个可以生成具有可比较大小的虚拟数据的示例： import itertools as it import numpy as np import pandas as pd np.random.seed(1) #Series for ID ID_data = pd.Series(np.arange(0,200000), name='ID') #Array of data - create panda

浏览 2提问于2021-08-03得票数 0

回答已采纳

1回答

如何提高文本列索引插入速度

postgresql

我正在为我们的项目使用Postgresql数据库并做一些性能测试。我们需要插入数百万条带有索引列的记录。我们在表中有5列。我只在整数上创建了索引，然后性能很好，但是当我也在文本列上创建索引时，性能降低到了1/8倍。我的问题是，在文本列上使用索引插入数据时，如何提高性能？

浏览 1提问于2012-01-30得票数 1

1回答

在Windows7 (x64)上读取pandas数据帧中的大型SPSS文件的性能

python、pandas、spss

我有一个很大的SPSS文件(包含100多万条记录，列略低于150列)，我想将其转换为Pandas DataFrame。将文件转换为列表需要几分钟，将其转换为数据帧需要几分钟，设置列头也需要几分钟。有没有什么我遗漏的优化方案呢？ import pandas as pd import numpy as np import savReaderWriter as spss raw_data = spss.SavReader('largefile.sav', returnHeader = True) # This is fast raw_data_list = list(raw_d

浏览 2提问于2014-08-07得票数 4

1回答

如何使用SQL将非常大的.csv中的单元格和行拉到R中？

有没有一种方法可以使用SQL查询从csv读取一些数据并将这些数据传递到dataframe中？例如，将聚合函数SQL查询的结果放入新的数据帧中？通常我会读入并修改/使用整个csv，但它太大了。

浏览 0提问于2018-03-22得票数 0

2回答

如何使用readxl跳过第二行

r、excel、readxl

我得到了一个excel电子表格:列名在第一行，垃圾文本在第二行，实际数据从第三行开始。我希望使用readxl包将其读取到dataframe中，保留第一行的列名，但放弃第二行。简单地将所有行读入dataframe，然后删除第一行将无法工作，因为excel文件第二行中的垃圾将与列的数据类型不匹配。我想要一种不用手工编辑excel文件的方法。

浏览 1提问于2018-08-03得票数 6

回答已采纳

2回答

如果where子句已经修复，如何加快spark筛选器查询？

apache-spark、apache-spark-sql

在我的例子中，数据驻留在星火表中，这些表是通过调用dataframe上的createOrReplaceTempView API创建的。创建表后，将在表的顶部运行多个查询。大多数情况下，where查询将基于特定的列。有关列的名称已经知道。我想知道是否可以进行某种类型的优化来提高过滤器查询的性能。我试着探索索引的方法，但事实证明spark不支持索引一个特定的专栏。

浏览 3提问于2021-12-30得票数 -3

3回答

Python 3和Windows 64中的内存错误

python、windows、python-3.x、memory-management

我知道以前有人问过与内存错误相关的问题，例如、、、或。建议的解决方案总是切换到Python 3和/或窗口64位，或者在出现错误的情况下修复代码。然而，我已经在Python 3和赢64。我还可以从windows任务管理器中看到，当Python抛出内存错误时，64 GB内存中仍有几GB可用。我有大约15个日期索引，熊猫数据帧，每行14000行，平均5000列浮点数据，和大约40-50%的NaN值，我从硬盘中读取。我不能简单地放弃NaNs，因为不同的列在不同的日期都有NaNs。当我试图将它们与pd.concat()连接时，会发生内存错误。所以，这不是一个错误的代码或同时循环的问题。如果将某些数据帧

浏览 0提问于2018-03-07得票数 6

1回答

复制Google Sheets performance (handsontable)

jquery、performance、mongodb、spreadsheet、handsontable

我正在使用handsontable + jQuery 在网页中嵌入电子表格。虽然handsontable在处理更大的数据集方面做得很好，但对我来说，问题是试图一次从MongoDB中拉入100,000+行数据，并将它们插入到DOM中，这占用了太多的时间和内存。我想到了一个“无限滚动”的解决方案，一次只保留2000行，然后根据用户的垂直滚动加载下一个/或前一个2000行。但是这看起来有点笨拙，因为如果用户想要将整个数据集的“价格”列设置为19.99该怎么办…… 所以，最终我的问题是，其他人是如何处理这个问题的？谷歌工作表是做什么的？显然，最新版本支持2,000,000行数据对此有哪些高级解

浏览 2提问于2014-02-07得票数 1

2回答

使用松弛字典映射列中的值

python、string、pandas、dictionary、series

我想知道是否有人能帮我把一列字符串与python中一种轻松的字典相匹配。因此，我有以下python数据框架： String Colour 8392apple8309 8dbsfhorange9anld 38banananflks9 这本字典： _dict {'apple':'Red', 'orange':'Orange' 'banana':'Yellow'} 我写了这个函数： def fruitsearch(string): return [valu

浏览 4提问于2018-10-11得票数 3

回答已采纳

1回答

如何在解析Json文件中的数据时仅获取Python脚本中所需的列

python、arrays、json、pandas、dataframe

我正在试着写一个python脚本。根据要求，我大约有400列，这将是按照JSON文件中的多个数组。我使用的是Pandas库和python 3.6版。我可能会从JSON文件中获得比400列更多的列。如何限制不需要的列，并且只希望在python输出文件中获得指定的列。我使用下面的代码按照指定的列获取数据。问题:在我的输出文件中，除了列列表文件中提到的列之外，我还获得了其余的列。如何在输出中限制不需要的列并仅获取所需的列？ with open('Columns.txt') as c: columns_list = c.readlines() with open

浏览 26提问于2019-05-09得票数 1

回答已采纳

1回答

如何将多个字段的大型csv装载到火场

csv、apache-spark、pyspark

新年快乐！我知道这类类似的问题曾被问过/回答过，但我的问题却不同：我有100+字段和100MB+的大型csv，我想将它加载到Spark1.6进行分析，csv的头看起来像附加的 (只有一行数据)。非常感谢。更新1(2016.12.31.1:26pm EST)：我使用以下方法并能够加载数据(带有有限列的示例数据)，但是，我需要自动将头(从csv)指定为DataFrame中字段的名称，但是，DataFrame看起来如下：有人能告诉我怎么做吗？注意，任何手动方式都是我想要避免的。 >>> import csv >>> rdd = sc.textFi

浏览 1提问于2016-12-31得票数 3

2回答

在python中将datetime.date或字符串转换为时间戳

python、pandas、datetime、timestamp

我知道这个问题之前发布了更多的次数，但我几乎没有怀疑。我有一个datetime.date (例如mydate = date(2014,5,1))，我将其转换为字符串，然后在DB中另存为表中的列(dtype:object)。现在，我想在DB中将日期存储从文本更改为时间戳。我试过了，例如。我的桌子是tab1。我在python中将其读作dataframe df。 # datetime to timestamp df['X'] = pd.to_datetime(mydate) 当我在python编辑器df.info()中检查数据类型时，X的数据类型是datetime64ns，但当我

浏览 118提问于2020-10-15得票数 0

2回答

用于python多处理的硬件

python、pandas、multiprocessing、gpu、xeon-phi

我有一个任务，我需要运行相同的功能，对许多不同的熊猫数据。我将所有数据加载到一个列表中，然后使用Pool.map模块将其传递给multiprocessing。函数代码本身已经尽可能地向量化，包含了一些if/else子句和没有矩阵操作。我目前正在使用一个10核xeon，并希望加快速度，最好是从Pool(10)传递到Pool(xxx)。我认为有两种可能性： GPU处理不过，从我所读到的资料来看，我不确定我是否能实现我想要的，而且在任何情况下都需要进行大量的代码修改。西恩-菲。我知道它已经停用了，但据说代码修改更容易，如果真的是这样的话，我很乐意得到一个。我应该集中精力走哪条路

浏览 6提问于2019-04-08得票数 1

回答已采纳

3回答

excel、pandas、xlsb

我有大约50个excel工作表与.'xlsb‘扩展名。我想将一个特定的工作表连接到pandas DataFrame中(所有工作表的名称都相同)。我遇到的问题是，每个工作表中的列名称并不完全相同。我使用pandas编写了一段代码，但它的工作方式是将所有值连接到pandas数据框中的同一列中，但基于列的名称。所以举个例子:有时我有一列叫做: FgsNr，有时叫做FgNr --两列中的数据类型和含义完全相同，我希望把它们放在数据框中的同一列中，但是pandas创建来分离数据框中的列，并将那些列中列出的同名的值堆叠在一起。 files = glob(r'C:\Users\Folder

浏览 29提问于2021-08-10得票数 0

1回答

Octo.py仅使用了我的0%到3%的CPU

python-2.7、multiprocessing、cpu-usage

我一直在运行Python octo.py脚本来对一系列文件进行字数统计/创作。这个脚本运行得很好--我在一组有限的数据上进行了尝试，得到了正确的结果。但当我在完整的数据集上运行它时，它永远都需要花费很长的时间。我使用的是一台windows XP笔记本电脑，双核2.33 GHz，内存2 GB。我打开了我的CPU使用率，它显示处理器以最大值的0%-3%运行。如何才能强制Octo.py使用更多的CPU？谢谢。

浏览 3提问于2013-05-05得票数 0

回答已采纳

1回答

Pandas -将滚动应用于列速度

python、pandas、pandas-groupby

我有一个数据框架，其中我只取数字列的子集，计算每个数字列的5天滚动平均值，并将其作为新列添加到df中。这种方法有效，但目前需要相当长的时间(每列8秒)。我想知道是否有更好的方法来做这件事。我目前正在做的一个工作玩具示例： data = {'Group': ['A','A','A','A','A','A','B','B','B','B','B','C','C','

浏览 22提问于2019-02-18得票数 2

回答已采纳

1回答

基于在数据库中搜索整数或长字符串(唯一)的性能？

mysql、sql、sqlperformance

我在数据库的一个表中有5列，其中两列是唯一的(一个是整数，另一个是字符串)。整数类似于 1,5,6,7,9,0和string类似于http://exmaple.com/Book-on-the-self-no-2。现在应该使用哪一列来搜索行？它会对性能产生怎样的影响？数据库是sql还是mysql？谢谢..

浏览 1提问于2011-07-21得票数 1

回答已采纳

1回答

python多进程从磁盘读取数据

python、c、multithreading、multiprocessing、disk

这让我困惑了很长时间。我的程序有两个进程，都是从磁盘读取数据，磁盘最大读取速度为10M/s 如果两个进程都读取10M数据，两个进程花费的时间是否与一个进程读取两次的时间相同？如果两个进程都读取5M数据，两个进程读取数据花费1s，一个进程读取两次数据花费1s，我知道多进程可以从IO节省时间，但在IO上花费相同的时间，多进程如何节省时间？

浏览 0提问于2019-12-23得票数 0

1回答

导出带有希腊字符的CSV时databricks机制中的问题

csv、encoding、pyspark、databricks、azure-databricks

在azure-databricks中，我有一个在一些列中包含希腊字符的spark dataframe。当我显示数据帧时，字符显示正确。但是，当我选择从databricks UI下载带有数据帧的csv时，创建的csv文件不包含希腊字符，而是包含奇怪的符号和符号。encoding.Also似乎有问题，我尝试用以下python代码创建csv： df.write.csv("FileStore/data.csv",header=True) 但是同样的事情也会发生，因为没有编码选项。似乎我不能选择编码。此外，dataframe保存为一个字符串，行不会被换行符分隔。是否有解决此问题的方

浏览 19提问于2019-07-26得票数 0

1回答

省略数据框架中元素相同的行。

r、rcpp

假设我们有这样一个数据框架 DataFrame ref = DataFrame::create( Named("sender") = sender , Named("receiver") = receiver); 相应的R码如下： edge <- as.data.frame(edge) %>% set_colnames(c("time", "sender", "receiver")) edge <- rbind(c(0,0,0), edge) ref <- data.frame(sende

浏览 2提问于2020-05-14得票数 9

回答已采纳

2回答

Python3:读取Julia的JLD格式

python、python-3.x、pandas、julia

我已经从Julia的dataframe模块创建了一些JLD文件，现在我想将它们导入到Pandas dataframe中。在Julia中读写这些文件是非常容易的，但是在Python3中我没有找到简单的方法。我已经检查了jld文件的内容，它非常复杂，所以必须有一个包来读取数据帧，保留列类型和名称等。有一个用于Python的JLD包，但它似乎是针对Python2的，并且已经有8年没有更新过了，所以我想知道在Python中读取JLD文件的最新技术是什么。这是我发现的：

浏览 23提问于2017-07-18得票数 4

回答已采纳

4回答

为什么读取不是线程安全的？

c++、thread-safety

我想知道为什么从内存中读取数据不是线程安全的。到目前为止，在我所看到的问题中，从内存中读取似乎不是线程安全的。我用Python语言编写代码已经有一段时间了，现在开始使用C++。我从来没有听说过在Python中读取不是线程安全的。如果我错了，请纠正我，如果错了，请告诉我为什么从内存中读取不是线程安全的。

浏览 1提问于2012-07-25得票数 14

回答已采纳

1回答

Spark dataframe CSV vs Parquet

pyspark、spark-dataframe、pyspark-sql

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的显着性能差异。我正在使用以下命令加载数据，并针对它编写查询。 dataframe_csv = sqlcontext.read.format("csv").load() dataframe_parquet = sqlcontext.read.parquet() 请解释产生差异的原因。

浏览 2提问于2018-02-11得票数 1

2回答

python、csv、large-files

我一直在编写一段python代码，它读取一个有800多行和大约17000列的csv文件。我想检查csv文件中的每个条目，看看这个数字是否大于或小于一个值，如果是，我会分配一个默认值。我使用pandas并使用dataframes、apply和lambda函数。我花了172分钟浏览完csv文件中的所有条目。正常吗？有没有更快的方法来做这件事？我使用的是Python 2.7。我不知道它是否有用，但我是在32 10内存的windows10机器上运行它的。提前感谢你的帮助。代码附在下面。 def do_something(some_dataframe): col = get_req_colm(

浏览 0提问于2020-05-21得票数 1

2回答

重新排列mysql表

mysql、sql、database、database-administration

我有一个有62列的表就像这样 CREATE TABLE history_employees ( id INT NOT NULL, first_name VARCHAR(20), last_name VARCHAR(20), hire_date DATE NOT NULL, job_code INT NOT NULL, dept_id INT NOT NULL, . . . . ); 现在，我想要改变列的顺序，正确地排列数据，并使用select改进检索(如果列的排列顺序和select列表中的顺

浏览 0提问于2013-01-07得票数 0

4回答

创建具有不同列类型的DataFrame的有效方法

python、pandas、postgresql、dataframe、numpy

我需要读取数字Postgres表中的数据，并相应地创建DataFrame。 Pandas的默认方式是使用DataFrame.from_records df = DataFrame.from_records(data, columns=columns, coerce_float=coerce_float) 当data看起来像： [(0.16275345863180396, 0.16275346), (0.6356328878675244, 0.6356329)...] columns

浏览 18提问于2022-08-11得票数 3

1回答