数据分析熊猫_如何从熊猫导出分析过的数据？_大熊猫月度RFM分析 - 腾讯云开发者社区

、、、

我对python中的数据分析非常陌生，所以这与特定的问题相比，更像是一个咨询意见。我有一些按类别分组的数据： print(df): Week Sales 1. 2. 3. 1 15. Apple. Orange. Pear. 1 5. Banana. Apple. Orange. 1 7. Banana. Orange. Pear. 1

浏览 5提问于2020-05-25得票数 1

回答已采纳

1回答

如何做特征分析:熊猫群()。均值

、、

我用一本指导性的书来分析卡格尔1的泰坦尼克号数据。在这本书中，关于Pclass数据与幸存数据之间关系的特性分析如下所示。 train_set = pd.read_csv('train_csv) fig = plt.figure(figsize=(12,4)) ax1 = fig.add_subplot(121) PclassPlot = train_set['Survived].groupby(train_set['Pclass]).mean() ax.bar(x=PClassPlot.index, height=PClassPlot.values) 你为什么需要使用

浏览 0提问于2018-12-30得票数 1

回答已采纳

1回答

熊猫，记录了连续的平均值

、、、、

我正在写一个程序，接收与时间相关的数据，如果每分钟有超过一个数据点，我希望能够对数据的值进行平均。数据点也有不同的设备，它们为其记录数据，不能混合。我使用的是pandas数据帧，并且传入的数据点几乎不会连续出现在同一列中，所以如果我想让它运行得更快，我不能在传入时将它们相加，并在稍后使用存储的计数器对它们进行平均。有没有什么办法可以让我的平均记录保持下去呢？ def add_data(self, x, whitelist, time_zone): y, mo, d, h, mi, s = self.parseDateTime(x['date'])

浏览 22提问于2021-07-15得票数 0

1回答

熊猫的用途是什么？

、、、、

关于是使用Pandas还是使用替代工具，我有一些具体的问题。使用Pandas而不是其他工具或数据结构的原因是什么？当记忆是一个问题时，潘达的成本有多大?更便宜的选择是什么？这更多是一个定性的问题。熊猫的目的是什么？我发现字典和列表完全符合我的需要。熊猫有什么好大惊小怪的？例如，如果有许多具有相同值的行，则可以使用更少的内存将该表存储在嵌套字典中： #key0 key1 value A 1 a A 1 b A 2 a A 2 b B 1

浏览 4提问于2017-03-22得票数 1

1回答

熊猫:计算最畅销的房屋数量

、、

我一直在分析卖方的数据，并试图获得洞察力。我写了一份团体声明，以求出每个销售商的平均售价。 for seller,seller_df in g: df=df.append({'Seller':seller,'AveragePrice':seller_df.Price.mean() }, ignore_index=True) print(seller) df.sort_values(by='AveragePrice',ascending=False,inplace=True) plt.figure(figsize=(15,30)) sns

浏览 0提问于2018-05-29得票数 3

1回答

熊猫记忆使用不一致

、、

当我使用Pandas DataFrame时，内存有一些不一致之处。下面是我的代码框架： import pandas as pd import numpy as np columns_dtype = {'A': np.int16, 'B': np.int8, ...} df = pd.read_csv('my_file.csv', dtype=columns_dtype) 这基本上就是用熊猫读取csv文件，同时控制列数据类型。但是，当我在寻找有多少内存分配给我的程序时，信息似乎不一致。信息1: df.info(memory_usage=

浏览 1提问于2018-09-04得票数 6

1回答

熊猫数据结构

、

我试图在一段时间内分析数据库性能并检测异常。数据库服务器由许多执行不同操作的线程组成。我运行一个查询来确定活动线程的数量和它们正在执行的操作。下面是一个样本数据集： 📷 我的目标:我需要分析一段时间，并确定什么是正常的，在给定的时间戳，并发现任何异常。例如，星期一上午10点，有10个活动线程；其中，有2个线程具有动作'Preparestatement‘，10个线程具有动作'Readtable’。任何其他线程操作都可能是异常。从上面的图像中可以看到，每个时间戳的操作(executestatement，Fetchcursor等)可能不同。我想了解的是，熊猫的结构是否符合我的目标

浏览 0提问于2019-07-16得票数 0

回答已采纳

1回答

用于循环迭代()和数据命名的熊猫

、

我有一个大数据，这个df的示例如下所示： etf_list = pd.DataFrame({'ISIN':['LU1737652583', 'IE00B44T3H88', 'IE0005042456', 'IE00B1FZS574', 'IE00BYMS5W68'], 'ETF_Vendor':['Amundi', 'HSBC', 'iShares', 'iShares', &#

浏览 1提问于2022-06-11得票数 1

回答已采纳

2回答

熊猫侧写没有显示输出

、、

早上好, 我有以下数据： print(df) Company ... Sales 0 Medi ltd. ... 4.16000 1 Pia ltd. ... 2.59907 [26958 rows x 15 columns] 但每当我跑： import pandas_profiling as pp pp.ProfileReport(df) 它只是输出，有着原始的情节或框架： Out[92]

浏览 3提问于2018-09-28得票数 2

回答已采纳

1回答

熊猫sort_values

、、、

在对Kaggle ( )的SF薪资数据进行数据分析时，我想知道基于年份和JobTitle的加班工资排名。我的解决办法是： df = df[['Year','JobTitle','OvertimePay']].copy() df2 = df.sort_values('OvertimePay', ascending= False) 。很明显，结果并不像我预料的那样。除了索引，排序似乎不恰当，因为173547.73应该后面跟着163477.81，等等。谢谢。

浏览 0提问于2019-03-15得票数 1

回答已采纳

1回答

从多行熊猫数据访问更新BigQuery表的最佳方法是什么？

、、

我在BigQuery上有一个数据集，其中有100行和10列。我还不断地向dataset添加新数据。我想要获取未处理的数据，处理这些数据并将其写回我的表。目前，我正在使用bigquery python库将它们获取到熊猫的数据，并使用熊猫进行处理。现在，我想用新的预处理数据更新表.一种使用SQL语句并调用bigquery.Client()类的bigquery.Client()函数的方法。或者使用像这样的工作。 bqclient = bigquery.Client( credentials=credentials, project=project_i

浏览 4提问于2020-07-02得票数 2

1回答

何时在熊猫中使用多重索引和x数组

、、、、

似乎通过使用多个索引来重新处理多个维度的数据： In [1]: import pandas as pd In [2]: import numpy as np In [3]: import pandas.util.testing as tm; tm.N = 3 In [4]: def unpivot(frame): ...: N, K = frame.shape ...: data = {'value' : frame.values.ravel('F'), ...: '

浏览 2提问于2017-03-18得票数 22

回答已采纳

4回答

熊猫数据平等测试

、

又一个潘达斯的问题！我正在编写一些单元测试，这些测试测试两个数据框架是否相等，但是，测试似乎没有查看数据帧的值，只查看结构： dates = pd.date_range('20130101', periods=6) df1 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD')) df2 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD')) print df1 p

浏览 2提问于2013-11-12得票数 28

回答已采纳

2回答

优化熊猫计算

、

我在一个名为sale_transactions的数据库表中有2200万行房产销售数据。我正在执行一项工作，从这个表读取信息，执行一些计算，并使用结果来创建一个新表的条目。这一过程如下： for index, row in zipcodes.iterrows(): # ~100k zipcodes sql_string = """SELECT * from sale_transactions WHERE zipcode = '{ZIPCODE}' """ sql_query = sql_string.format(Z

浏览 2提问于2017-07-28得票数 2

回答已采纳

1回答

用于ETL的熊猫DataFrame子类

、、、

我正在编写一个小型ETL，它从CSV加载数据，稍微清理每个表，然后将所有内容加载到PostgreSQL数据库中。我计划使用熊猫作为内置功能，但我想知道是要子类DataFrame，还是只做所有功能上的事情。子类DataFrame代码粘贴在下面。为了便于非开发人员维护，我有一个包含每种表和列类型信息的小YAML文件。 import pandas import numpy import yaml from os import path CFG = yaml.load(open('config.yaml', 'r')) class ETLDataTable(pan

浏览 0提问于2018-03-28得票数 4

回答已采纳

1回答

脚本导致的请求/熊猫/美汤抓取困难

、

我正在尝试从flightradar网站抓取数据，并希望将其保存为.csv文件。其他网站有表格，这使得通过panda.read_html(url)阅读它们变得很容易。在https://www.flightradar24.com/data/statistics上，我遇到了困难(可能是因为他们不想让人们刮掉他们的网站)。我遇到的第一个困难是一个403禁止的，我用一个头解决了它 url = "https://www.flightradar24.com/data/statistics" header = { "User-Agent": "Mozilla/

浏览 17提问于2021-01-10得票数 1

2回答

orderedDict对熊猫系列

、、、、

我还是新手，很抱歉我问了些很蠢的问题。Python有序字典和熊猫系列有什么区别？我能想到的唯一不同之处是，orderedDict可以在数据中有嵌套字典。就这些吗？这是真的吗？使用一种对另一种会有性能上的区别吗？我的项目是一个销售预测，大部分数据将类似于：{第一周: 400台，第二周: 550台}。也许一个有序的字典是多余的，因为与Week#相比，输入顺序是无关的？我再一次道歉，如果我的问题是愚蠢的，我只是试着彻底地学习。谢谢! -Stephen

浏览 4提问于2016-05-24得票数 5

回答已采纳

1回答

具有多索引数据的熊猫-ta

、、、

我想用熊猫。虽然这个库的大多数方面似乎更容易进行技术分析，但我只能使它在单个滴答数据格式上发挥作用。我想弄清楚如何让熊猫在多个索引数据中的多个标记上工作。我得到的数据使用：-股票来自csv的名单。 df = yf.download[stocks], '2021-1-1', interval='1d') 下面的熊猫-ta下载方法只创建一个单一的滴答数据，并且只在使用股票时迭代第一个滴答。 df.ta.ticker('GOOG', period = '1y', interval = "1h") 我目前的数据显示如下

浏览 3提问于2022-01-07得票数 0

回答已采纳

2回答

如何使用熊猫解析CSV文件？

、、、

现在我有了一个带有时间列的.csv文件，例如"20140203 00:00:03.132"，如何有效地删除秒部分(“：03.132”)？数据量很大，我试着用sed对数据进行预处理，但是太慢了！我现在正在尝试解析熊猫中的.csv文件。不管怎样，我能有效地处理这件事吗？除了熊猫以外的方法也是受欢迎的！

浏览 5提问于2016-02-07得票数 0

回答已采纳

2回答

添加在熊猫数据中具有相同列值的行

、、

我有一只熊猫的数据，日期和小时作为专栏。现在我想把相同日期的时间相加。例如，要做到这一点： 7-1-2016 | 4 7-1-2016 | 2 4-1-2016 | 5 这方面： 7-1-2016 | 6 4-1-2016 | 5 在大文件上有什么快速的方法吗？

浏览 2提问于2016-01-07得票数 5

回答已采纳

1回答

熊猫lambda函数中元素指数的求取

、

我有一个Pandas数据框架(称为df)，因此它的一个列名为“收入”。我只想使用lambda函数来修改本专栏的元素，如下所示，但是在访问元素的索引时遇到了问题： df['Revenue']=df['Revenue'].apply(lambda d: Output:(a function of index of d in Revenue) Conditional statement) 我需要将d的索引放在lambda函数中，但不知道如何这样做。

浏览 1提问于2022-07-20得票数 0

1回答

在甲骨文中插入熊猫数据极其缓慢

、、、

我正在研究pandas数据格式。我的应用程序的目标是对csv文件执行某些分析，一旦完成，就将这个csv文件插入到oracle数据库中。为了插入oracle数据库，我使用了pandas库的pandas命令。但是要插入30万行，我的代码大约需要2小时零10分钟。然而，当我使用MySQL数据库进行相同的分析和相同大小的输入数据时，只需90秒。我正在lubuntu中执行我的所有操作。作为参考，您可以在下面找到相关代码。 data_frame.to_sql(name='RSA_DATA', con=get_engine(), if_exists='append',

浏览 4提问于2016-09-19得票数 4

1回答

熊猫通过尝试优化几个步骤

我一直在尝试优化一个bokeh服务器，以便在Covid19上计算选定国家的实时统计数据。我发现自己重复了一个groupby函数来计算新列，并且想知道，在选择了groupby之后，我是否可以以类似的方式将它应用到多列上的.agg()？例如： dfall = pd.DataFrame(db("SELECT * FROM C19daily")) dfall.set_index(['geoId', 'date'], drop=False, inplace=True) dfall = dfall.sort_index(ascending=True) d

浏览 3提问于2020-05-16得票数 0

回答已采纳

1回答

StringIO和read_csv大熊猫的编码错误

、、

我正在使用API来获取一些数据。返回的数据是Unicode (不是字典/ json对象)。获取数据 data = [] for urls in api_call_list: data.append(requests.get(urls)) the data looks like this: >>> data[0].text u'Country;Celebrity;Song Volume;CPP;Index\r\nus;Taylor Swift;33100;0.83;0.20\r\n' >>> data[1].text u'

浏览 2提问于2017-04-24得票数 0

回答已采纳

1回答

如何在python函数方法中使用熊猫循环迭代()

、、、、

如何在python函数方法中使用循环迭代()，如果我调用内部函数就会抛出错误。属性错误:串联对象没有迭代行我也试过使用兰达。我有一个数据，数据有16列cust_id，order_id，value，date，jan，feb，mar，4月，5月.到12月，列都会在那里吗？对最近11个月值列的当前行和前一行使用组cust_id & order_id -我必须对其进行乘法和添加。如果前一个月的值不存在，则应将该月份视为0，与Ex相似:在日期栏中，第一行从12月12日开始，因此前一个月(11)的值为11月、10月、9月、8月、7月、在dataframe中不存在，因为该计算应该是0。 Fo

浏览 6提问于2022-10-05得票数 0

1回答

从CSV文件中获取指定行的Python熊猫

、、

我正在尝试使用python中的熊猫从CSV文件中读取一组非常大的数据。我需要将数据分解成几个部分来接受，因此我想先取一半行，然后再取另一半行。我看到在read_csv中有块状参数。然而，我似乎想不出如何在读取矩阵或稀疏矩阵后将其全部放入矩阵或稀疏矩阵中。 wow = pd.read_csv('TestingCSV.csv', sep=',', header='infer', low_memory=False, chunksize=10, usecols=(range(3, 5))) 它返回一个类型：<class 'pandas.i

浏览 2提问于2015-10-29得票数 0

回答已采纳

1回答

从文件夹循环读取熊猫中的.dat文件时出现问题

、、、、

我有个奇怪的问题。在我的文件夹中，我有来自实验室的CO2传感器的.dat数据和CO2值。来自实验4,5,6,7,8的数据，名字是CO2_4.dat，CO2_5.dat，CO2_6.dat，CO2_7.dat，CO2_8.dat，我知道如何手动读取它们。例如，对于读取CO2_4，这是可行的： dfCO2_4_manual = pd.read_csv(r'C:\data\CO2\co2_4.dat', sep=";", encoding= 'unicode_escape', header = 0, skiprows=[0], usecols=[0,

浏览 20提问于2021-01-03得票数 0

回答已采纳

3回答

“熊猫时间序列词典索引”

、、、

我试着用熊猫库来分析蟒蛇的时间序列。我的数据现在存储在字典列表中： mydata = [ { 'date': datetime.date(2013, 1, 1), 'snow_depth': 1.0, }, { 'date': datetime.date(2013, 1, 2), 'snow_depth': 2.5, }, { 'date': datetime.date(2013, 1, 3), 'snow_depth': 8.0, }, ] 我使用以

浏览 4提问于2014-07-17得票数 3

回答已采纳

2回答

在熊猫、OOP类和dicts之间进行选择(Python)

、、、、

我编写了一个程序来读取几个.csv文件(它们不是很大，每个文件有几千行)，我做了一些数据清理和争论，这是每个.csv文件的最终结构(只是为了说明假数据)。 import pandas as pd data = [[112233, 'Rob', 99], [445566, 'John', 88]] managers = pd.DataFrame(data) managers.columns = ['ManagerId', 'ManagerName', 'ShopId'] print managers Mana

浏览 1提问于2016-10-14得票数 11

回答已采纳

1回答

熊猫数据框架:绘制逗号分隔字符串的平均值

、

在我的数据集中，我有一个主题列，它是由昏迷分隔的字符串。 df = pd.DataFrame({'Stats': [3377, 1843, 15234], 'Topics': ["A, B, C, D", "A, B", "C, D"]}) 我需要的是绘制每个主题的平均统计数据(A，B，C，D)。就像这样：有人能建议一种聪明的方法吗？

浏览 1提问于2017-06-30得票数 1

回答已采纳

1回答

如何计算熊猫数据中含有最多元素的行数

、、

我有一个任务，在这个任务中，我必须计算每个州有多少个县，并以如下的数据显示拥有最多州的县： X = pd.DataFrame.from_dict({ "SUMLEV": [40, 50, 50, 50, 50], "REGION": [3, 3, 3, 3, 3], "DIVISION": [6, 6, 6, 6, 6], "STATE": [1, 1, 1, 1, 1], "COUNTY": [0, 1, 3, 5, 7], "STNAME": [&

浏览 3提问于2020-10-01得票数 0

回答已采纳

1回答

如何使用Python (最好是熊猫)从Javascript表中刮取数据？

、、、、

我用熊猫从网页上抓取一些冰球数据，如下所示： import pandas as pd url_goal = 'http://www.quanthockey.com/nhl/records/nhl-players-all-time-goals-per-game-leaders.html' df_goal = pd.read_html(url_goal, index_col=0, header=0)[0] 这很好，但问题是切换到主页上的stats表的第二页并不会更改url，所以我不能使用相同的方法来抓取超过前50名的玩家。表中有一个javascript地址，该地址会随着页码的切换

浏览 2提问于2014-11-25得票数 1

回答已采纳

1回答

当我执行熊猫分析包时，它不会返回最小值、最大值和平均值。

、、、、

当我使用pandas-profiling==2.8.0分析以下数据时，它不会返回最小值、最大值和平均值。 CSV数据 a，b，c 12,2.5,0 12,4.7,5 33,5,4 44,44.21,67 python代码 import json import pandas as pd from pandas_profiling import ProfileReport def profile_report(data): dataset = data.select_dtypes(include=['int64', 'float64'])

浏览 1提问于2020-08-26得票数 0

回答已采纳

1回答

熊猫Q-cut:用扩展窗口方法绑定数据

、、

这个问题有点类似于我在一个相同主题上发现的。我希望，如果我以更简单的方式提出这个问题，就会有人能找出一个简单的办法来解决我目前所面临的问题：我有一个名为"df“的timeseries dataframe，大致结构如下： V_1 V_2 V_3 V_4 1/1/2000 17 77 15 88 1/2/2000 85 78 6 59 1/3/2000 31 9 49 16 1/4/2000 81 55 28 33 1/5/2000 8 82 82

浏览 1提问于2020-03-11得票数 2

1回答

安装熊猫时，飞盘安装失败

、、、

昨天，我尝试将我的问题附加到一个关于同一主题的预先存在的查询中，但我无法发表评论，因此最终提出了一个新的问题。我试着单独安装轮子和phik，但是一直出现同样的错误，如下所示。我正在运行Windows 11，这有可能导致问题吗？所有的帮助都是感激的。*编辑:今天回滚到Windows 10，但结果仍然是相同的错误。 Building wheel for phik (pyproject.toml) did not run successfully. │ exit code: 1 ╰─> [118 lines of output] running bdist_wheel

浏览 7提问于2022-02-23得票数 0

3回答

高级描述熊猫

、、

是否有更高级的功能像熊猫的描述那样？一般情况下，我会继续说： r = pd.DataFrame(np.random.randn(1000), columns = ['A']) r.describe() 我会得到一个很好的summary.Like --这个： A count 1000.000000 mean 0.010230 std 0.982562 min -2.775969 25% -0.664840 50% 0.015452 75% 0.694440 max 3.

浏览 4提问于2014-05-30得票数 8

回答已采纳

1回答

对重复序列熊猫进行计数

、

我有一个数据以一种混乱的方式分散。 store_id period_id sales_volume 0 4186684 226 1004.60 1 5219836 226 989.00 2 4185865 226 827.45 3 4186186 226 708.40 4 4523929 226 690.75 5 4186441 226 59

浏览 18提问于2019-02-11得票数 0

2回答

熊猫:管理大csv文件:组+排序在新的文件？

、、、

我有一个非常大的csv文件要管理，通过这个过程：按3列对文件进行分组，对5列上的数据进行排序在csv文件中写入此数据这是我第一次尝试： file = pd.read_csv('file.csv') grouped = file.groupby([col1, col2, col3]) for key, df in grouped: name = 'key.csv' df = df.sort_values(by=[col4, col5, col6, col7, col8]) df.to_csv(name , index=False)

浏览 2提问于2020-02-26得票数 4

1回答

熊猫数据并行化操作速度慢

、、

我有一个数据，我执行一些操作，并打印出来。要做到这一点，我必须遍历每一行。 for count, row in final_df.iterrows(): x = row['param_a'] y = row['param_b'] # Perform operation # Write to output file 我决定使用python多处理模块将其并行化。 def write_site_files(row): x = row['param_a'] y = row['param_b'

浏览 1提问于2014-03-18得票数 2

回答已采纳

1回答

为熊猫设定价值的最快方法

、

In [118]: %timeit df['A'].ix[df['Id']=='000f00003'] = 3 10 loops, best of 3: 54.9 ms per loop In [119]: %timeit df.loc[df['Id']=='000f00003','A'] = 4 10 loops, best of 3: 55.4 ms per loop In [126]: %timeit df.ix[df['Id']=='000f00003',

浏览 1提问于2014-05-22得票数 1

1回答

如何将我的熊猫数据帧上传到salesforce中已有的报表

、、、、

我刚开始使用salesforce，但我随身带着一个熊猫数据帧，我还有一个现有的salesforce报告，我想将我的熊猫数据帧导出到我的salesforce报告中。我查看了许多示例和文档本身，但我并没有真正找到我想要的东西。任何代码和帮助将不胜感激。

浏览 24提问于2021-04-30得票数 0

1回答

为什么我不能将json文件加载到熊猫数据帧

、、

我的代码： import json import requests responseGBP=requests.get("https://public.opendatasoft.com/api/records/1.0/search/?dataset=euro-exchange-rates&sort=date&facet=currency&rows=30&facet=date&q=date:[2020-12-01+TO+2020-12-31]&refine.currency=GBP") response_jGBP=responseGB

浏览 4提问于2022-11-07得票数 -1

1回答

在熊猫DataFrame的每一组中获得最大的N行

、、、、

我有一份数据 val1 val1 distance 100 200 1.5 100 300 5.2 100 234 3.7 200 100 1.6 200 600 4.8 我想为每一个val1找到前2行距离。我是对于每一个val1，得到前2行的最小距离 val1 val2 distance 0 100 200 1.5 2 100 234 3.7 3 200 100 1.6 4 200 600

浏览 2提问于2017-12-27得票数 1

回答已采纳

1回答

大熊猫群的大小和独特之处

、、

这里的目标是查看我的数据库中有多少唯一的值。这是我写的代码： apps = pd.read_csv('ConcatOwned1_900.csv', sep='\t', usecols=['appid']) apps[('appid')] = apps[('appid')].astype(int) apps_list=apps['appid'].unique() b = apps.groupby('appid').size() blist = b.unique() print l

浏览 3提问于2015-12-07得票数 0

回答已采纳

5回答

熊猫数据在常规关系数据库中的优势

、

在“数据科学”中，许多人似乎正在使用熊猫数据存储作为数据存储。与常规的关系数据库(如MySQL )相比，熊猫的哪些特性使它成为一个优越的数据存储库，后者用于在许多其他编程领域存储数据？虽然熊猫确实为数据探索提供了一些有用的功能，但您不能使用SQL，您会失去查询优化或访问限制等功能。

浏览 0提问于2017-07-02得票数 14

回答已采纳

1回答

保存DateTimeIndex的熊猫数据格式

、、、

我对具有DateTime索引和多个索引的数据做了大量工作。将其保存和读取为.csv是很乏味的，因为每次我不得不将其命名为“reset_index”时，当我再次阅读时，我必须将日期转换回日期时间并设置索引。什么格式能帮我避免这种情况？我更喜欢开源的东西--例如，我认为SAS和Stata会这样做，但它们是专有的。

浏览 0提问于2018-05-31得票数 1

回答已采纳

2回答

在熊猫资料栏中找到前一行

、、

我的数据可以这样复制： import pandas as pd link = 'https://raw.githubusercontent.com/timothylombard/RSB/master/RSBdata.csv' df = pd.read_csv(link) df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) 这个数据帧的图片看起来是这样的- 我想做什么标识df‘’Connections‘值从上一行更改的

浏览 0提问于2019-08-05得票数 1

回答已采纳

3回答

Python的大熊猫/matplotlib/海运带来了Tableau没有的东西？

、、、

我花了一年时间学习Python。作为一个认为编码不可能为CS/IT领域之外的人学习的人，我显然被几行Python代码的强大功能所吸引！总的来说，我已经达到了一个中等水平，我为自己感到骄傲，因为与Excel相比，它极大地扩展了我在数据分析和可视化方面的可能性(除了Python的其他数百万用途之外)。纯粹在数据分析和可视化方面：使用pandas/matplotlib/seaborn/numpy处理相同的数据集会给表带来什么，而不是使用Tableau? (sidenote:我非常失望地看到我所有辛苦挣来的Python数据争论技能都可以在这样一个用户友好的GUI.:'( )

浏览 0提问于2020-03-29得票数 13

回答已采纳

2回答

熊猫数据的静态类型/模式

、

有没有一种方法可以“静态地”提示熊猫DataFrame的模式，以便在编码过程中获得代码完成、静态类型检查和一般可预测性？我不介意在代码和类型注释中复制模式信息，这样才能工作。因此，也许类似于mypy注释类型的注释： df = pd.DataFrame({'a': [1.0, 2.4, 4.5], 'B': [1,2,3]}) # pd.schema: ('a': np.dtype(float)), ('B': np.dtype(int)) (或者更好的方法是在某些外部JSON文件中指定模式) 然后，您可以想象df.在将编码为

浏览 0提问于2019-04-21得票数 13

1回答