pandas -在包含元组的列上合并_Pandas DataFrame列上的地图包含列表_如何查询包含元组的pandas列 - 腾讯云开发者社区

python、pandas、pivot、pivot-table、data-mining

如何在pandas pivot操作后重命名多级列？下面是一些生成测试数据的代码： import pandas as pd df = pd.DataFrame({ 'c0': ['A','A','B','C'], 'c01': ['A','A1','B','C'], 'c02': ['b','b','d','c'], '

浏览 4提问于2017-02-08得票数 16

回答已采纳

1回答

使用Apache光束`GroupByKey`，构造一个新的列-- Python

python、json、csv、apache-beam、apache-beam-io

通过这个问题：How to group data and construct a new column - python pandas?，我知道了如何使用pandas对多列进行分组并构造一个新的唯一id，但是如果我想在Python中使用Apache beam来实现该问题中描述的相同功能，我如何实现它，然后将新数据写入换行符分隔的JSON格式文件(每行都是一个unique_id，其中包含属于该unique_id的对象数组)？假设数据集存储在csv文件中。我是Apache beam的新手，这是我现在所拥有的： import pandas import apache_beam as beam

浏览 14提问于2021-08-15得票数 0

回答已采纳

1回答

使用合并的Excel列中的元组列名选择pandas列失败

python、excel、pandas、multi-index

我有一个数据帧，其中的列名是元组。这样做的原因是，数据帧是基于复杂的Excel电子表格，其中列标题由不同大小的合并单元格组成，因此在MultiIndex中，几乎每一列都有一个或多个级别的nan条目，这使得选择和写入数据变得困难。我在过去多次使用相同的解决方案，没有出现问题，例如，MultiIndex头('SCN', nan, nan, nan, nan)将被转换为元组('SCN',)，然后我们将MultiIndex更改为正常的元组索引。然而，由于奇怪的KeyErrors和TypeErrors，这一次我似乎不能对数据帧做太多事情： test.columns Out

浏览 3提问于2021-02-24得票数 1

1回答

星星之火:用另一列的值替换缺少的值

apache-spark、pyspark、apache-spark-sql

假设您有一个包含一些空值的，如果存在的话，您希望将一个列的值替换为来自另一个列的值。在Python/Pandas中，您可以使用Pandas()函数很好地完成这一任务： df = spark.createDataFrame([('a', 'b', 'c'),(None,'e', 'f'),(None,None,'i')], ['c1','c2','c3']) DF = df.toPandas() DF['c1'].fillna(DF[&#

浏览 1提问于2017-02-09得票数 4

回答已采纳

1回答

如何在Pandas merge中指定分层列？

python、pandas、dataframe、join、hierarchical-data

在对on在join中的工作方式产生了严重误解之后(剧透:与merge中的on非常不同)，下面是我的示例代码。 import pandas as pd index1 = pd.MultiIndex.from_product([["variables"], ["number", "fruit"]]) df1 = pd.DataFrame([["one", "apple"], ["two", "banana"]], columns=index1) index2 = pd.MultiI

浏览 12提问于2020-10-24得票数 0

回答已采纳

2回答

即使密钥存在，KeyError也是如此

pandas、merge、keyerror

我正在尝试使用pd.merge合并两个数据帧。如果两个dataframe中都存在公司名称，我想从dataframe 2添加'Phone‘列。每次运行代码时，我都会得到KeyError='Company‘，即使这是我要合并的列名。我尝试过的东西： pd.merge(northstar,julie['Phone'], on='Company') northstar.merge(julie['Phone'], on 'Company') pd.merge('Company','Title'

浏览 0提问于2019-07-30得票数 0

1回答

如何实现从pandas到postgresql的快速查询

python、sql、pandas、postgresql

我有一个CSV文件，我必须搜索数据库中有哪些行。例如，在我的CSV中，我必须使用姓名、姓氏和生日在数据库中查找大学名称。例如：从这个图像示例中，我应该发现XXX YYY在大学1学习，AAA BBB在大学2，TTT YYY没有结果。我的解决方案是跟随，这非常慢。CSV文件有50k行，DB 40M。我使用python pandas，并读取CSV文件，然后创建一个包含姓名、姓氏和生日的新列。来自新组合列的示例数据："XXX+YYYY+29-05-1953“ 然后，我从新的组合列中获得所有可能数据的列表。假设列表是：combine_list = data[new_co

浏览 13提问于2021-06-01得票数 0

3回答

使用pandas GroupBy.agg()对同一列进行多个聚合

python、pandas、dataframe、aggregate、pandas-groupby

pandas有没有一种内置的方法，可以在同一列df["returns"]上应用两个不同的聚合函数f1, f2，而不必多次调用agg()？示例数据帧： import pandas as pd import datetime as dt import numpy as np pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 *

浏览 0提问于2012-09-26得票数 190

回答已采纳

2回答

无法从Pandas DataFrame合并所有所需的列

python、pandas、merge

我是一个初学者，使用木星笔记本中的Pandas进行临床数据集的工作。我的数据中有一列包含普查域代码，我正在尝试将我的数据与一个大的传输数据文件合并，该文件中也有一个包含人口普查域代码的列。最初，我只想从那个传输文件中得到另外两个列，所以，在我下载了该文件之后，我删除了所有其他列，除了我想要添加到我的文件和人口普查栏中的两个列。这是我使用的代码： df_my_data = pd.read_excel("my_data.xlsx") df_transportation_data = pd.read_excel("transportation_data.xlsx

浏览 16提问于2022-07-31得票数 1

2回答

pandas合并多层次时间序列

python、pandas、time-series

我正在尝试用不同变量的pandas重新构建时间序列(当前第一次包含NaN步长的列)。因为在这里不容易查看打印出来的代码，所以我附加了一张图片。目标是在同一行中对齐不同变量的时间序列，而不是目前单独的时间序列。有谁可以帮助你实现这个目标吗？

浏览 0提问于2018-06-09得票数 1

2回答

从邻接列表创建邻接矩阵

python、pandas、adjacency-matrix、adjacency-list

我有下一个包含两列的DF。 A x A y A z B x B w C x C w C i 我想产生一个这样的邻接矩阵(计算交集) A B C A 0 1 2 B 1 0 2 C 2 2 0 我有下一段代码，但不能工作： import pandas as pd df = pd.read_csv('lista.csv') drugs = pd.read_csv('drugs.csv') drugs = drugs['Drug'].tolist() df = pd

浏览 18提问于2021-04-15得票数 0

回答已采纳

1回答

我如何基于一个公共的列，研究站点“名称”来组合2个熊猫数据帧？

python、pandas

我是Python和一般编程的新手。我正在尝试用python自动化一些地下水模型输出数据的处理。一个pandas数据帧测量了具有不同类型的多个列的数据流(左)，另一个对数据流进行了建模(右)。我尝试在列"Name“上使用pd.merge，以便将正确的建模输出值链接到相应的测量站点值。当我使用下面的脚本时，我得到相应的错误： left = measured_df right = modeled_df combined_df = pd.merge(left, right, on= 'Name') ValueError:列标签'Name‘不是唯一的。对于多索引，标签

浏览 8提问于2020-03-31得票数 2

回答已采纳

1回答

在pandas dataframe中从另一个数据框中获取列元素值的快速方法

python、pandas、dataframe、merge

我有以下数据帧： import pandas as pd df1 = pd.DataFrame({'Col_1': ('a', 'b', 'c'), 'Col_2': ('a', 'c', 'd')}) df2 = pd.DataFrame({'Col_3': ('a', 'b', 'c', 'd'), 'Val': (1, 2, 3, 4)}) df1: Col_1

浏览 0提问于2020-02-14得票数 1

1回答

将csv值的单个列存储为元组列表(不带逗号)的python代码是什么？

python、csv、tuples

我有一个csv文件，其中包含一行值。我想把它保存为像下面这样的元组列表。每当我尝试这样做时，它都会在每个元组中使用一个后缀逗号来存储它。我想要的： [('mdl_analytics_models'),('mdl_assignment_upgrade'), ('mdl_assignment'), ('mdl_user')] 而我得到的却是： [('mdl_analytics_models',), ('mdl_assignment_upgrade',), ('mdl_assignment

浏览 8提问于2022-05-28得票数 -1

回答已采纳

1回答

Pandas将Nan视为额外的最大垃圾桶

python、pandas、max、cut、bins

我有一个Pandas dataframe，其中我在两个two列上运行最大值。我希望max将nan (我将其替换为'NA')作为最大可能的bin。在对数据帧进行重新分类并添加此附加bin时，max没有正确地将新的NA视为新的最大值。我不确定是否有更好的方法在跨两个二进制列执行NaN时将空白和MAX值视为单独的最大bin。 import pandas as pd import numpy as np df = pd.DataFrame({ 'col1':[10, 22, 25], 'col2':[11,15,np.nan] })

浏览 22提问于2021-11-03得票数 0

1回答

merge_asof多列

python、pandas

我知道以前也有人问过类似的问题。不过，我的问题略有不同。我正在尝试跨多个列获得merge_asof的功能。以下是数据集： import pandas as pd left = pd.DataFrame({'a':[1,5,10]\ ,'business'['FRC','FRC','FRC']\ ,'left_val':['a','b','c']}) right = pd.D

浏览 0提问于2019-04-24得票数 1

回答已采纳

1回答

列表理解需要从单独的列表中获取函数输入的值，并具有多个返回值

python-3.x、pandas、dataframe、list-comprehension

我有两份名单。其中一个列表包含多个pandas.core.frame.DataFrame对象，名为X_train_frames，另一个包含名为y_train_frames的多个pandas.core.series.Series对象。 X_train_frames中的每个值都映射到y_train_frames中的一个标签，我想在函数中一起使用它们并返回一个列表。我试过： from imblearn.over_sampling import SMOTE smote = SMOTE(random_state = 1, sampling_strategy = 'minority')

浏览 3提问于2020-01-30得票数 0

回答已采纳

1回答

如何根据两列中的值查找和引入另一个数据帧中的值

python、pandas、dataframe、mapping、vlookup

我有两个数据帧。我需要从右侧(第二个)数据库中提取一个值，并基于两个数据帧中存在的另外两个列，将其作为列添加到左侧(第一个)数据帧中。这样做时，我需要在左边的dataframe中为这个列指定一个不同于在右边的dataframe中调用的名称。我排除了merge和join，因为dataframes有成百上千的列，我只需要带出一列，并且在这样做的时候还需要更改列名。相反，我正在尝试map它。例如： import pandas as pd emp_data = { 'Name':['Tom', 'Tom', 'Ste

浏览 6提问于2019-05-01得票数 1

1回答

如何组合两个pandas.DataFrames，其中的列表作为列？

python、pandas、dataframe

我问的问题类似于，但我需要一些不同的东西。我有两个pandas.DataFrames，我需要合并它们。这里是第一个df_1 id attr fruit_list --------------------------------------- 0 42 [orange, apple] 1 57 [lemon] 2 86 [kiwi] 3 33 [pineapple, pear] 4 11 [appl

浏览 2提问于2017-04-14得票数 2

回答已采纳

1回答

如何使用Pandas将共享数据的CSV的多行组合成一行？

python、excel、pandas、csv

我已经下载了，给了我一个太大而无法处理的CSV。我能够分割CSV来打开它的部分，问题是数据在它的默认格式中并不是非常有用的。每个歌曲标题都有与其相关联的3+行：第一行包括ASCAP在该歌曲中的%共享。其后的行包含一个字符代码(ROLE_TYPE)，该字符代码指示该行是否包含该歌曲的作者或表演者。每行的第一列都包含一个歌曲标题。这种结构使数据混淆，因为在列出%共享的行中，NAME列中有空单元格，因为该行没有与之关联的Writer/Performer。我想要做的是将这些数据从每首歌有3+行转换为拥有所有相关数据的每首歌1行。因此，与其：标题，ROLE_TYPE，名称，股票，注释我想将数

浏览 0提问于2019-06-08得票数 0

回答已采纳

1回答

熊猫圈，工作小数据挂在大型。

python、pandas

我正在使用邮政编码表为合唱图制作县表。当我给它一个小玩具示例时，我的代码工作得很好，但是当我给它数据帧时，它就挂断了。我不能共享数据，但是它是+/- 70000邮政编码，编码为字符串，值可以是正确的邮政编码、非数字字符串，或者不是正确的邮政编码的数字字符串，每个都是字符串格式。这是代码： # import libraries import numpy as np import pandas as pd # load customer email table df = pd.read_csv('customer_April2018.csv', encoding='lat

浏览 0提问于2018-05-21得票数 2

回答已采纳

2回答

Pandas，连接空值

python、sql、pandas、join

我正在尝试使用pandas复制SQL连接，但在连接键中使用空值时遇到了问题。例如，数据帧： df_1 = pd.DataFrame({'K1':[1,2,3, 2], 'K2':['a', 'b', 'c', np.nan], 'K3':'x y z y'.split()}) df_2 = pd.DataFrame({'Z1':[1, 2, 2, 3],

浏览 2提问于2020-08-18得票数 0

1回答

ValueError正在尝试从pandas数据帧中删除列表中的元素

python、python-3.x、pandas、dataframe

我正在尝试从一个pandas数据帧中删除包含a列的值的项，该列是列表的一部分。 import pandas as pd a = ['abc', 'def', 'ghi', 'jkl', 'mno', 'pqr', 'stu', 'vwx', 'yz'] b = [1,2,3,2,1,1,3,2,1] df = pd.DataFrame(zip(a, b), columns = ['a', 'b']) print(df

浏览 3提问于2021-04-30得票数 0

2回答

如何将序列号添加到元组列表

list、python-2.7、tuples

我有一个看起来很简单的问题，但到目前为止我还找不到一个可以接受的答案。它的变体似乎已经在这里被问了几次，但没有一个答案对我有帮助。这就是它：我有一个元组列表，如下所示： reflist = [("Author1", 1900, "Some reference"), ("Author2", 1901, "Another reference"), ("Author3", 1902, "Yet another reference")] 我想要的是向列表中的每个元组添加一个序列号，这样我就得到了： re

浏览 0提问于2015-12-03得票数 1

2回答

除了计算之外，使用现有数据帧选择性地构建新的数据帧

python、python-3.x、pandas、numpy、merge

填写下面的Pandas代码，创建一个新的名称为customer_spend的DataFrame，它包含以下列的顺序: customer_id、name和total_spend。total_spend是一个新列，其中包含特定客户下的所有订单的成本总和。我正在做一个与Python Pandas相关的在线课程。正如我在上面所写的，这段代码的目标是创建一个名为'customer_spend‘的新数据帧，其中包含customer_id、name和total_spend列。我遇到的问题是，只使用两个不同的现有数据帧的一部分来构建数据帧。我尝试了合并，但它占用了现有数据帧的每一列。此外，我在将

浏览 6提问于2019-01-07得票数 2

回答已采纳

1回答

通过搜索和使用顺序优先级在熊猫中插入一行

python、pandas

你好，我有以下数据： import pandas as pd #Create DF d = { 'EventNo-Name': ['2021-Normal-1-Joe','2021-Normal-2-Jack','2021-Normal-3-John','2021-Normal-4-James','2021-Normal-5-Jim'], 'Priority':[18,17,16,15,14], } df = pd.DataFram

浏览 1提问于2022-01-22得票数 2

1回答

熊猫多索引在给出一个元组时成功，但在列表中失败。

python、pandas、numpy、dataframe

我有一个列表数组的形式的数据，表单[['Manhattan', 142, 42], [...]]。我有一个包含多个索引的pd.DataFrame，其中包含一个名为VAC的列。下面引发一个ValueError for vac_bbl in vac_bbls: property_profiles['VAC'][vac_bbl] = None 回溯： --------------------------------------------------------------------------- ValueError

浏览 2提问于2016-07-11得票数 2

回答已采纳

1回答

显示两个表之间哪些行的状态已更改

powerbi、compare

PowerBI相对较新，所以如果这是一个愚蠢的问题/无法实现，我很抱歉，但我正在绞尽脑汁试图解决这个问题。我已经连接到两个数据源(‘Current’和‘Previous’)，每个数据源都包含从CRM系统中提取的项目，以及项目状态。如下所示： Project ID Status 1. Accepted 2. Closed 3. Closed 4. Accepted 我已经创建了一个表，显示每个源的每个状态的计数，如下所示，通过在Project ID上连接两个源： Status Current

浏览 15提问于2021-10-11得票数 0

回答已采纳

1回答

外键列可以引用父表中包含NULL的唯一列吗？

sql

在SQL中，可以设置允许null值唯一的列吗？如果表包含该列的空值的多行，会发生什么情况？如果在另一个表中指定该列的外键，而引用表中的元组包含外键的空值，则会发生什么情况？我只关心问题的最后一部分！谢谢

浏览 2提问于2017-03-08得票数 0

回答已采纳

1回答

Python: TypeError:当MongoDB查询时，不可访问的类型：'list‘

python、mongodb、pandas

为了让你更容易理解我的问题，我会在此做一个总结。 “今天，我只是查询以前从未访问过的平面文件，但相同的代码在同一MongoDB集合上的其他平面文件上工作。” 下面的细节，我有一个查询customer_id的列表，我的列表叫做alist [7068, 7116, 7154, 7342, 7379] 我在python上使用MongoDB和pymongo进行pandas查询。这是我的MongoDB查询，这是我导入的库 import pandas as pd from pymongo import MongoClient import datetime as dt 在此之后，我会给数据库凭证。这是证

浏览 0提问于2018-10-15得票数 1

回答已采纳

1回答

避免Pandas将None隐式转换为列元组中的NaN

python、pandas

我有一个Pandas DataFrame，它的列用Python tuples标记。这些列标签元组可以不包含任何内容。当我尝试使用以下任一方法向数据框添加列时，标记元组中的None被隐式转换为numpy.nan。方法1-使用dataframe[ NewColumn ] = ...语法添加列 >>> import pandas >>> df = pandas.DataFrame() >>> column_label = ( 'foo', None ) >>> df[column_label] = [ 1,

浏览 1提问于2016-01-05得票数 1

1回答

合并两只数据熊猫

python、pandas

我正在阅读2篇dfs文章，内容如下： extra = pd.read_csv('table1.txt', sep = '\s+') data = pd.read_csv('table2.dat', sep = '\s+') extra.info()的输出是： class 'pandas.core.frame.DataFrame'> Int64Index: 11528 entries, 0 to 11527 Data columns: a 11528 non-null values key 115

浏览 2提问于2015-10-04得票数 1

回答已采纳

4回答

元组列表(开始、结束)到索引范围(将pandas.IntervalArray转换为numpy数组？)

python、pandas、numpy、sequence、intervals

目标我有一个值数组和一个表示需要从该数组中选择哪些索引的元组列表。(想象一下表示音频数组的哪一部分是语音的元组。)我在考虑用一个选择面罩： import numpy as np # sample data arr = np.array([.3, .4, .5, -.2, -.1, .7, .9]) selection_idx = [(0, 3), (5,7)] # unknown: how to efficiently selection_idx -> mask? mask = [0, 1, 2, 5, 6] # or mask = [True, True, True, Fals

浏览 16提问于2020-03-03得票数 1

回答已采纳

1回答

使用多列抛出ValueError遍历数据帧

python、pandas、dataframe、multiple-columns、multi-index

我正在尝试申请一个Pandas数据帧内的循环，以便一次访问两列。我的这段代码可以很好地处理单个列。但是当应用于多个列时，它会抛出："ValueError :要解包的值太多(预期为2)“ 我的代码片段如下： <code>A0</code> 小问题是列名太大且无法控制，因为此数据帧具有多标头列，因此在合并后，它们会创建一些随机填充名称。因此有了".startswith“这个词。列名要大得多。我尝试基于列1和列2对列3执行groupby，如果列2不为null，则使用column1执行groupby。有人能告诉我我哪里错了吗，或者我遗漏了什么？

浏览 16提问于2021-06-14得票数 2

回答已采纳

1回答

加入复杂的pandas表

pandas、join

我正在尝试将来自statsmodels GLM的结果数据帧连接到一个数据帧，该数据帧设计用于在遍历模型时同时保存单变量数据和模型结果。我很难弄清楚如何以语法方式连接这两个数据集。我已经查阅了下面找到的熊猫文档，但没有找到： https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging 这很困难，因为与保存每个唯一变量的每个唯一级别的值的最终表相比，模型的输出比较大。使用下面的代码查看数据外观的示例：

浏览 2提问于2019-04-20得票数 0

回答已采纳

2回答

在使用read_csv函数时，是否有方法验证Pandas中的数据类型长度？

python、sql-server、pandas、dataframe

我试图使用Pandas对列进行某种长度验证。例如，假设我有一个名为test.csv的csv，其中包含以下数据： Column1,Column2,Column3 Data1,Data2,DataDataData3 Data1,Data2,Data3 现在，假设我有一个名为dbo.Test1的SQL表，其列数据类型和长度如下： CREATE TABLE [dbo].[Test1](Column1 VARCHAR(5),Column2 VARCHAR(5),Column3 VARCHAR(5)) 现在，这个场景--我尝试使用Pandas read_csv tp来获取这个test.csv，然后使用to

浏览 4提问于2022-04-18得票数 0

1回答

将数据匹配到两个excel工作表中，并存储匹配的数据。

python、python-3.x、pandas

假设我有两个excel工作表。命名为fruitsDetail和果实。 fruits.xlsx fruitsDetail.xlsx **Name** **Name height weight** circumference apple apple 25cm 50g 10cm banana

浏览 0提问于2019-08-19得票数 2

回答已采纳

1回答

python元组嵌套正在生成随机输出

python、nested、tuples

我是Python的新手。我创建了Tuple1，并希望在嵌套时使用Tuple2进行嵌套，如果不将最后一个字符包含在需要嵌套的元组中，则会给出不相关的输出，而不是嵌套2个元组请看一下下面的代码。请让我知道为什么它会这样做？这是预期的行为吗？ >>> tuple1 = 1, 2, 3, 'hello' >>> tuple1 (1, 2, 3, 'hello') >>> >>> tuple2 = tuple1, (4, 5, 'a', 6, 'b', 7 ,

浏览 2提问于2019-08-23得票数 0

1回答

根据另一个数据文件中的日期条件创建新列

pandas、numpy

我有两个数据-一个包含交易/订单信息，另一个包含时，从一个活动的电子邮件发送出去。 import pandas as pd email_data = {'Email' : ['test@gmail.com', 'test@gmail.com', 'test2@gmail.com', 'test2@gmail.com'], 'email_sent_date' : ['2019-08-05', '2019-08-01', '

浏览 0提问于2019-09-11得票数 2

回答已采纳

1回答

如何用if条件填充列

pandas、if-statement、conditional-statements、powerquery、fill

我希望了解如何使用PowerQuery或pandas (或SQL ?)填充(或向上)带有if条件的列。如您所见，我有一个带有空值的"string_values“。当实例相同(相同的数字)时，我希望填充字符串值。谢谢你的帮助！

浏览 2提问于2021-09-22得票数 0

回答已采纳

1回答

熊猫DataFrame显示单元格是字符串，但当我试图拆分单元时返回一个错误。

python、pandas、dataframe、split、tuples

我有一个Pandas DataFrame df，列df['auc_all']包含两个值的元组(例如(0.54, 0.044))。当我跑步时： type(df['auc_all'][0]) >>> str 然而，当我跑步时： def convert_str_into_tuple(self, string): splitted_tuple = string.split(',') value1 = float(splitted_tuple[0][1:]) value2 = float(splitted_tup

浏览 3提问于2021-11-30得票数 0

回答已采纳

1回答

多列主键还是唯一约束？

sql、indexing、primary-key

我有一个Country表，其中包括ID、Name和Code列。所有这三列都应该包含唯一的值，不能是NULL。我的问题是，我应该在ID列上创建一个主键，并为Name和Code列创建一个唯一的约束(我猜是在一个索引中)，还是只将Name和Code列与ID一起包含在主键中更好呢？为什么？拥有多列主键是否会产生潜在的缺点或复杂性？

浏览 0提问于2014-03-03得票数 1

回答已采纳

1回答

在有序列表中合并数据

python、pandas、concatenation

我有一个数据字典(opdict)，根据它的键值进行排序。这给了我一个元组列表(oplist)，其中的元组包含两个元素:索引0包含opdict的键值，索引1包含opdict的值(dataframes)。我的问题是，如何将oplist中的所有数据行合并为一个单独的dataframe (opdf)，即首先将所有数据的第一行叠加到oplist中，然后将所有数据的第二行叠加到oplist中，等等。我有一种感觉，pandas.concat或pandas.join是要走的路，但我不确定正确的代码。谢谢你的帮忙!

浏览 5提问于2020-02-15得票数 1

回答已采纳

1回答

如何将csv文件中的股票价格统一到一个数据中

python、pandas、dataframe、csv、yahoo-finance

因此，我从标准普尔500指数，从csv文件中收集数据。我的问题是，我如何创建一个大的数据，它有500列和所有的价格。该守则目前是： import pandas as pd import pandas_datareader as web import datetime as dt from datetime import date import numpy as np def get_data(): start = dt.datetime(2020, 5, 30) end = dt.datetime.now() csv_file = pd.read_csv(os.pa

浏览 2提问于2020-11-11得票数 1

回答已采纳

1回答

熊猫合并与布尔索引

python、join、pandas、merge

我在Python3.4中使用熊猫来识别两个数据帧之间的匹配。除了最后一列之外，匹配是基于严格相等的，在最后一列中，关闭匹配(+/- 5)很好。一个数据帧包含许多行，而在本例中，第二个数据帧只是一行。所需的结果是包含第一数据帧的子集的数据帧，如所述，该第一数据帧与该行匹配。我首先讨论了布尔索引的具体解决方案，但这需要一段时间才能完成所有的数据，所以我尝试了熊猫合并功能。但是，在我的测试数据上，合并的实现甚至更慢。它的运行速度比布尔索引慢2到4倍。下面是一个测试运行： import pandas as pd import random import time def make_lsts(l

浏览 3提问于2016-01-26得票数 1

回答已采纳

1回答

如何在CSV中查找引发错误的行："ValueError:未能将字符串转换为浮动“

python、pandas、csv

我使用以下命令将CSV导入到中： df=pandas.read_csv("import.csv", names=["Year", "Month", "Day", "Time", "ColA"], encoding='iso-8859-1') 但是，Pandas将ColA作为数据类型对象导入。我尝试使用它将该列转换为浮动： df['ColA'] = df['ColA'].astype(float) 但是，会引发此错误： ValueError: co

浏览 0提问于2018-02-19得票数 2

回答已采纳

1回答

如何将带有前导零的数据从Pandas导出到CSV，同时保留csv中的前导零

python-3.x、pandas、csv

我有一个pandas数据框，其中一列包含带有前导零的数据。我想通过保留前导零来导出CSV格式的数据框。所以我尝试了下面的代码 import numpy as np import pandas as pd import os os.chdir(path) x=np.array(['0134','0567','0012','0009']) df=pd.DataFrame(x,columns=['Test']) df.dtypes df.Test=df.Test.astype("str") df.to_

浏览 0提问于2019-06-11得票数 1

1回答

使用split()在python dataframe中拆分整个列中的值

string、csv、pandas、split

如图所示，我正试图清理一个包含垃圾的url列表。 /gradoffice/index.aspx( /涂鸦/索引- /gradoffice/index.aspxjavascript$ /涂鸦/索引. 我有一个csv文件，有超过190k个不同网址的记录。我试着将csv加载到一个熊猫数据中，并使用下面的语句将整个url列放入一个列表中。 str = df['csuristem'] 它清楚地给出了列中的所有值。当我使用下面的代码-它只是打印40k记录，它开始一些在中间的地方。我不知道哪里出了问题。这个程序运行得很好，但只显示了部分结果。任何帮助都将不胜感激。 i

浏览 14提问于2014-12-29得票数 1

回答已采纳

2回答

SQL "group by“like - grouping算法

sql、algorithm、group-by、jtable、grouping

我有一个超过2列的表(比方说A、B和C)。一列包含一些数字( C )，我想做一个类似分组的"group by“，将C中的数字相加，但我不知道这样做的算法。我尝试按每一列对表进行排序(从最后到第一，除了numbers列(C)，因此在本例中: sort(B)，然后sort(A))，然后，只要nth行包含与n-1th行相同的A和B中的值，我就将nth行到n-1th行(在C列中)的数字相加，然后删除nth行。否则，如果行n中的A或B值与第n-1行中的A或B值不同，我将直接移动到下一行。然后我重复这个算法，直到表中的最后一行。但不知何故，这并不总是有效的，特别是当有更多的列时(一些行仍然没有分

浏览 0提问于2012-09-20得票数 0

3回答

为什么pandas df.values要将元组转换为字符串

python、pandas

我有一个拥有4000多个数据的csv，其中每个单元格都包含一个包含特定坐标的元组。我想把它转换成一个numpy数组来使用。在调用df.values之前，我使用pandas将其转换为DataFrame。然而，在调用df.values之后，元组变成了一个字符串"(x,y)"。有没有可能防止这种情况的发生？谢谢。 df = pd.read_csv(sample_data) array = df.values

浏览 2提问于2018-06-27得票数 1