根据复制SAS的第一个和最后一个功能，使用pandas创建不同的数据帧_使用pandas和plotly访问时间序列数据帧中的最后一个值_使用不同的列名和值数从JSON对象创建pandas数据帧 - 腾讯云开发者社区

python-3.x、pandas、temporary-files

我有一台有两个磁盘的电脑： 110 SSD 1TB HDD 在SSD中有大约18 in的免费。当我运行下面的python代码时，它“使用”了我的SSD中的所有空间(我最后只有1GB的空闲空间)。此代码迭代文件夹中的所有SAS文件，按操作执行组，并将每个文件的结果附加到一个大数据帧中。 import pandas as pd import os import datetime import numpy as np #The function GetDailyPricePoints does the following: #1. Imports file #2. Creates

浏览 5提问于2017-11-20得票数 0

1回答

pandas.read_sas可以加载SAS列标签

python、pandas

我想将一个SAS7BDAT文件加载到pandas数据帧中，然后加载到数据库中。我知道允许加载SAS7BDAT，但我也想检索SAS列标签并将其存储在数据库中。(注意--这与列名不同，通常是列的详细文本描述)。是否可以使用Pandas为每一列加载SAS文本标签？

浏览 0提问于2017-04-04得票数 1

2回答

如何遍历pandas数据帧集合？

python、pandas、dataframe、sas

我有几十个SAS数据集，我想导出到pandas dataframe。saspy模块有一个用于此目的的方法。我遇到的问题是由SO 描述的，它有一些链接，解释了为什么在执行代码时字符串不能被替换并用作变量名。我定义了mk_df函数来调用sd2fd方法，然后使用字典来传递键/值对。 import os import glob from pathlib import Path import saspy import pandas as pd p = Path('/home/trb/sasdata/export_2_df') sas_datasets = [] df_names

浏览 0提问于2019-07-21得票数 2

2回答

将pandas数据帧导出为SAS sas7bdat格式

pandas、sas

我心目中的流程是：从SAS导出sas7bdat 使用pd.read_sas将该文件导入python，然后在中将pandas数据帧导出为sas7bdat (或其他SAS二进制文件格式)。我以为pd.to_sas会存在，但它没有在SAS中打开这个新文件，并在它上面做了更多的事情上面的第三点有解决方案吗？在我看来，我唯一的选择是csv或一些SQL数据库。这不是一个真正的编程问题。希望这不会成为一个问题。

浏览 12提问于2018-03-12得票数 9

回答已采纳

2回答

Pandas序列字符串在行上匹配，并获得最佳匹配行ids

python、python-3.x、pandas

假设我们有以下pandas数据帧 import pandas as pd data_dic = { "values": ['jk4', '293','814' ,'er b3', '1', " sas", '<', '37', '/',3, '5651 + sdfv 84083', '+', '814 gfj67 340f', "sas " ,'293

浏览 18提问于2019-07-11得票数 1

回答已采纳

2回答

pandas vs sasdataset，值完全正确

python、pandas、numpy、sas

在读取pandas之前，数据将在sasdataset中使用。我的数据看起来像 SNYDJCM--integer 740.19999981 在读取到pandas之后，我的数据发生了如下变化 SNYDJCM--converting to float 740.200000 如何在读取pandas数据帧后获得相同的值，步骤如下： 1) import pandas as pd 2) pd.read_sas(path,format='sas7bdat',encoding='iso-8859-1') 需要你的帮助

浏览 20提问于2020-01-14得票数 0

1回答

使用pd.read_sas()方法导入sav文件的尝试失败

pandas、python-3.6

我试图作为熊猫数据导入一个sav文件。文件的来源是皮尤研究中心()，并且是公开的。我的代码如下： import pandas as pd data = pd.read_sas('Pew_Research_Global_Attitudes_Spring_2017_Dataset_WEB_FINAL.sav') --------------------------------------------------------------------------- AttributeError Traceback (most r

浏览 2提问于2019-01-25得票数 0

回答已采纳

2回答

重复将多个Panda数据名导出到多个csv文件的任务

pandas、dataframe、csv、for-loop

我对Pandas/Python有些陌生(更深入地了解SAS)，但我的任务如下:我有四个Pandas数据帧，我想将它们分别导出到一个单独的csv文件中。csv的名称应与原始数据帧(forsyning.csv、inntak.csv等)相同。到目前为止，我已经用数据帧的名称创建了一个列表，然后尝试将该列表放入一个for循环，以便生成一个接一个的csv。但我只做了一半。到目前为止我的代码如下： df_list = ['forsyning', 'inntak', 'behandling', 'transport'] for i in

浏览 8提问于2021-01-27得票数 2

回答已采纳

1回答

为什么read_sas要将字符串转换为浮动？

python-3.x、pandas、sas

我正在尝试使用.sas7bdat读取一个pandas文件，而且我遇到了困难，因为pandas正在将看起来像数字的字符串值转换成浮点数。例如，如果我有一个类似于'348386789'的电话号码，并且我用以下代码读取它： import pandas as pd df = pd.read_sas('test.sas7bdat', format='sas7bdat', encoding='utf-8') 输出将是348386789.0！我可以用类似于df['number'].astype(int).astype(st

浏览 0提问于2019-07-15得票数 0

2回答

在Python/Pandas dataframe中创建新列时，有没有办法避免键入dataframe名称、括号和引号？

python、pandas、dataframe、sas

假设我有一个名为df1的Python/Pandas数据帧，其中包含列a和b，每个列只有一条记录(a =1和b= 2)。我想创建第三列c，它的值等于a+b或3。使用Pandas，我会写道： df1['c'] = df1['a'] + df1['b'] 我更喜欢写一些更简单、更容易阅读的东西，比如下面这样： with df1: c = a + b SAS允许在其“数据步骤”中使用这种更简单的语法。如果Python/Pandas有类似的东西，我会很高兴的。非常感谢!肖恩

浏览 13提问于2018-01-20得票数 3

回答已采纳

2回答

将pandas dataframe传入类

python、class、pandas

我想从csv创建的pandas数据帧创建一个类。最好的方法是使用@staticmethod吗？这样我就不必为每个对象单独读入数据帧

浏览 0提问于2014-11-16得票数 9

回答已采纳

3回答

如何在使用read_sas后从pandas对象类型中的b' Text‘获取文本？

python、object、pandas、dataframe

我正在尝试使用pandas函数read_sas从SAS的.sas7bdat格式读取数据： import pandas as pd df = pd.read_sas('D:/input/houses.sas7bdat', format = 'sas7bdat') df.head() 我在df dataframe中有两种数据类型-- float64和object。我对float64数据类型完全满意，所以我可以自由地将其转换为整数、字符串等。问题出在object数据类型上，我可以在df数据帧中看到如下所示： b'Text' 或者像这样： b'1

浏览 0提问于2016-08-13得票数 18

回答已采纳

2回答

替换SAS中的特殊字符

sas

我在SAS中创建了一个数据集，可以逐行读取文本文件。因此，当我读取数据集中的这些行时，我希望从特定行的开头和结尾删除*、%、-、；等特殊字符。我应该使用什么函数？字符可以以任何顺序出现，我必须用空格替换它们。请帮帮我！

浏览 1提问于2015-07-17得票数 1

1回答

将函数应用于所有数据帧

r、dataframe、sas

我使用SAS文件(sas7bdat =dataframe)和SAS格式(sas7bcat)。我的数据文件在一个“sas7bdat”文件中，所以我可以在object files_names中获得一个列表。下面是我的代码的第一部分，运行良好 files_names <- list.files(here("data")) nb_files <- length(files_names) data_names <- vector("list",length=nb_files) for (i in 1 : nb_files) { data_names

浏览 7提问于2020-05-11得票数 0

回答已采纳

1回答

将sas7bdat表头加载到Python或R

python、r、sas

我有一个从SAS导出的sas7bdat格式的表，但我没有SAS。需要检查包含预期变量和数据类型的这些表。要做到这一点，我只需要将这些数据帧中的一小部分加载到R或Python中。对于较小的表，我使用 client_ft_lremm = pandas.read_sas("C:/Users/USER/Documents/client_ft_lremm.sas7bdat").head(10) 但它仍然加载整个帧，然后选择前10名。原因是一些表的大小(超过17 so )超过了我的RAM，因此它超载并丢失。是否有可能加载SAS7BDAT表的前10行而不将整个表加载到内存中？谢谢

浏览 0提问于2017-09-12得票数 0

2回答

将数据帧写入SQL的函数

python、sql、pandas

我有一个函数，它接收数据帧并将其作为表写入SQL。 def insert(df): with connection.cursor as cur: cur.execute('''create tablaexyz.xyz (ID integer, first_name varchar(100), last_name varchar(100))''') d

浏览 17提问于2021-04-07得票数 0

2回答

熊猫散点图

python、pandas

我是Python和Pandas的新手，但我有一个包含多个列的CSV文件，我已经将其读入到一个数据帧中。我想画一张数据和y=‘x=Index’的散点图。其中索引是数据帧的索引，是日期。谢谢堆，杰森

浏览 0提问于2012-12-18得票数 8

回答已采纳

1回答

使用pandas数据帧修改csv中的数据

python、pandas、csv

我有一个这样的结构；用来创建一个pandas数据帧： my_dict = { 'name' : ["joe", "jack", "jill", "joan", "jesse","jacob", "jonas"], 'age' : [20,27, 35, 55, 18, 21, 35], 'designation': ["VP", "CEO

浏览 6提问于2019-07-15得票数 0

回答已采纳

1回答

如何在数据帧中选择一个(或多个)日期

python、pandas

下面是我的数据帧信息。我想创建另一个数据帧，只选择日期=1997-5。在SAS中，这可以使用"where“命令来完成...你能帮帮忙吗？ <class 'pandas.core.frame.DataFrame'> RangeIndex: 264 entries, 0 to 263 Data columns (total 8 columns): Dates 264 non-null datetime64[ns] 我试着这样做： may_97=returns_full[returns_full['Dates']='1997

浏览 17提问于2019-05-25得票数 0

1回答

Pandas数据帧和字典的深度副本

python、pandas、dictionary、copy

我正在创建一个小的Pandas数据帧： df = pd.DataFrame(data={'colA': [["a", "b", "c"]]}) 我把那个df拷贝了一遍。我使用的不是Pandas方法，而是通用Python，对吧？ import copy df_copy = copy.deepcopy(df) 一个df_copy.head()提供以下内容： ? 然后我将这些值放入字典中： mydict = df_copy.to_dict() 字典看起来是这样的： ? 最后，我删除了列表中的一项： mydict['colA&#

浏览 42提问于2020-01-10得票数 3

回答已采纳

3回答

任务:我正在尝试从字典列表中创建一个pandas数据帧。问题:这会为每个字典项创建一个数据帧

python、pandas、dataframe、dictionary

我正在尝试从三个列表创建一个dataframe，这三个列表是我使用网络抓取的数据生成的。但是，当我尝试将这些列表转换为字典，然后使用它们来构建我的pandas数据帧时，它会为每个字典项(行)输出一个数据帧，而不是将所有这些项都作为行包含在数据帧中的一个数据帧。我认为问题出在我用来网络抓取数据的for循环中。我知道在这个问题上也有人问过类似的问题，包括这里的Pandas DataFrame created for each row和这里的Take multiple lists into dataframe，但我已经尝试了这些解决方案，但没有任何乐趣。我相信网络刮擦循环增加了一个细微的差别，使

浏览 24提问于2020-08-19得票数 0

1回答

在使用熊猫的数据帧中只保留一条带有给定ID的记录

python、pandas

我使用pandas将两个CSV文件组合成一个由名为ProjectID的列索引的文件。当这项工作完成后，仍有许多重复的记录。我只想保持其中的最新(他们是按日期排序，从最少到最近)。到目前为止，我的代码是： merged_df = pandas.merge(df1, df2, on="ProjectID", how="left") 我遇到麻烦的地方是如何只保留一个项目的多个版本的最后一行。有什么内置到pandas中的东西可以帮助解决这个问题吗？编辑以添加示例数据当前数据 ProjectID Value Date 1 54

浏览 4提问于2013-04-26得票数 1

回答已采纳

2回答

重新命名数据帧输出给python中的类提供输入参数

python、class、pandas

我已经成功地完成了我的第一个类，其中包含了两个方法，其中一个方法使用Pandas功能，在输入数据上执行一组派生，这是相当简单的python代码。我用4个参数调用类及其粘贴方法。我想要的是这个类的输出，一个Pandas数据帧，根据一个输入参数命名--一个string对象。这是因为派生是在输入数据中的单个数据列上进行的，并且将输出数据帧命名为与输入参数(即数据帧变量)相同以供以后使用是切实可行的。下面给出了类(和代码)结构的一个粗略示例： class tool_swoe_iv: "docstring" def __init__(self,data_in):

浏览 2提问于2016-01-15得票数 0

回答已采纳

1回答

pandas在csv上提高OutOfBoundsDatetime，而不是在sql上

python、python-3.x、pandas、csv、sqlalchemy

我有一个运行pandas版本0.25.2的服务。此服务从数据库读取数据并将快照存储为csv df = pd.read_sql_query(sql_cmd, oracle) 查询的结果是一个包含一些非常大的日期时间值的数据帧。(如3000-01-02 00:00:00)之后，我使用df.to_csv(index=False)创建csv快照并将其写入文件在安装了pandas 0.25.3的不同机器上，我将csv文件的内容读入数据帧，并尝试将date列的数据类型更改为datetime。这将导致OutOfBoundsDatetime异常 df = pd.read_csv("xy.csv

浏览 18提问于2019-11-08得票数 1

回答已采纳

1回答

Pandas使列可单击并排序

python、pandas、clickable

我按照这篇文章的How to create a table with clickable hyperlink in pandas & Jupyter Notebook在数据帧中创建了一个可点击的链接。然而，似乎每当我对数据帧进行排序时，超链接都会消失。 df = pd.DataFrame(['http://google.com', 'http://duckduckgo.com'], columns=["a"]) def make_clickable(val): return '<a href="{}

浏览 17提问于2020-06-17得票数 1

1回答

从现有数据帧的子集自动创建数据帧

python、pandas、dataframe、for-loop、automation

我正在使用kaggle New York City Airbnb Open Data，该数据可在此处获得：https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data 该数据包含一列“neighbourhood _groups”和“neighbourhood”，前者由纽约市的5个区组成，后者由每个邻居组中的邻区组成。我用以下代码创建了曼哈顿社区的一个子集： airbnb_manhattan = airbnb[airbnb['neighbourhood_group'] == 'Manhattan'

浏览 20提问于2020-08-20得票数 0

2回答

将文件从不同目录复制到一个文件夹

python、pandas、directory、subdirectory、file-search

我又卡住了！我的故事是：我需要找到存在于目录中不同文件夹中的名为"tv.sas7bdat“的文件，并将所有文件的内容保存到桌面上的单个excel文件中。使用我的实际代码，我可以获得该文件的所有路径，并将它们的内容传输到dataframe。但是，我不能将所有的数据添加到一个Excel文件中。在我的excel中，我只找到了最后的数据！这是我的密码 import pandas as pd from sas7bdat import SAS7BDAT import os path = "\\" newpath = "\\" files = [] # r=

浏览 0提问于2019-07-08得票数 1

回答已采纳

6回答

熊猫中的大而持久的DataFrame

python、pandas、sas

作为SAS的长期用户，我正在尝试切换到python和pandas。然而，当今天运行一些测试时，我很惊讶在尝试pandas.read_csv()一个128mb的csv文件时，python耗尽了内存。它有大约200,000行和200列，主要是数字数据。使用SAS，我可以将csv文件导入到SAS数据集中，其大小可以和我的硬盘一样大。在pandas中有类似的东西吗？我经常处理大文件，无法访问分布式计算网络。

浏览 6提问于2012-07-24得票数 96

回答已采纳

2回答

蜂巢等价于第一和最后

hadoop、hive、sas、hiveql

我有一张三栏的桌子： table1: ID, CODE, RESULT, RESULT2, RESULT3 我有这个SAS代码： data table1 set table1; BY ID, CODE; IF FIRST.CODE and RESULT='A' THEN OUTPUT; ELSE IF LAST.CODE and RESULT NE 'A' THEN OUTPUT; RUN; 因此，我们将按ID和代码对数据进行分组，如果满足某些条件，则将其写入数据集。我想编写一个蜂巢查询来复制这一点。这就是我所拥有的： proc sql;

浏览 5提问于2015-08-12得票数 1

2回答

SPSS:根据文件B中的数据为宏变量赋值；稍后可以在文件A的程序中调用和使用该值

spss

我需要能够首先计算商品(TGC)和坏货(TBC)的总数。其次，将该值存储在一个单独的数据集(文件B)中，有效地将一个观察值与两个变量(TGC，TBC)一起存储。然后，我需要能够在文件A的计算中使用保存的变量(TGC和TBC)。我已经设法在SAS中做到了这一点，方法是将TGC和TBC值分配给宏变量，以便稍后在程序中使用。我如何在SPSS中做到这一点？对于第一部分，我可以使用一个简单的聚合来创建TGC和TBC值。然而，我没有设法找到一种创建宏变量来存储这些值的方法。有人能帮上忙吗？谢谢。

浏览 2提问于2013-06-13得票数 0

1回答

什么是熊猫‘`groupby`’的xtensor等价物？

c++、pandas、dataframe、xtensor

什么是等同于pandas groupby的C++ xtensor库？或者，如何使用C++ xtensor库轻松地对数据帧进行分组？

浏览 19提问于2020-12-02得票数 1

2回答

在pandas dataframe列中使用字典键

python、pandas

我编写了以下代码，在其中创建了pandas数据帧字典： import pandas as pd import numpy as np classification = pd.read_csv('classification.csv') thresholdRange = np.arange(0, 70, 0.5).tolist() classificationDict = {} for t in thresholdRange: classificationDict[t] = classification for k, v in classificationDic

浏览 1提问于2017-03-19得票数 0

3回答

根据复制SAS的第一个和最后一个功能，使用pandas创建不同的数据帧

python、pandas、sas、pandas-groupby

下面是通过在python (LINK)中复制first和last函数来创建新变量的数据。我的样本数据： df = pd.DataFrame({"col": ['D1986','D1986','H1946','H1946','I1978','I1978','S1987','S1987', 'D1974','L1977'], "ANOTHER_COL1":['

浏览 29提问于2021-07-23得票数 0

回答已采纳

1回答

从zipfile中将sas7bdat读取为pandas数据帧

python、python-3.x、pandas、sas

我有一个名为myfile.zip的压缩文件，其中包含一个文件mysasfile.sas7bdat，我希望将其作为pandas数据帧读取。我尝试了一些不起作用的方法，但以下是我目前的方法： import zipfile zipfile = zipfile.ZipFile('myfile.zip', 'r') sasfile = zipfile.open('mysasfile.sas7bdat') df = pd.read_sas(sasfile) 错误： ---------------------------------------------

浏览 0提问于2019-08-28得票数 1

2回答

在pandas数据帧中插入sklearn CountVectorizer的结果

python、pandas、machine-learning、scikit-learn

我有一堆14784个文本文档，我正在尝试对它们进行矢量化，这样我就可以运行一些分析。我使用sklearn中的CountVectorizer将文档转换为特征向量。我这样做是通过调用： vectorizer = CountVectorizer features = vectorizer.fit_transform(examples) 其中examples是所有文本文档的数组现在，我正在尝试使用其他功能。为此，我将这些特性存储在一个pandas数据帧中。目前，我的pandas数据帧(不插入文本特征)具有形状(14784, 5)。我的特征向量的形状是(14784, 21343)。将矢量化的特征插入

浏览 0提问于2016-11-02得票数 14

2回答

高效使用RPy (或其他方式)将数据从Pandas移动到R

python、r、dataframe、rpy2

我在Pandas中有一个dataframe，我想使用R函数对它做一些统计。没问题!RPy使得将数据从Pandas发送到R很容易： import pandas as pd df = pd.DataFrame(index=range(100000),columns=range(100)) from rpy2 import robjects as ro ro.globalenv['df'] = df 如果我们在IPython： %load_ext rmagic %R -i df 由于某些原因，ro.globalenv路由比rmagic路由稍慢，但没关系。重要的是:我最终要使用的数据格

浏览 4提问于2015-05-03得票数 9

回答已采纳

2回答

如何在使用pandas.read_sas()时保留列的数据类型？

python、pandas、csv

当从读取到熊猫数据时，所有的列类型都被转换为(列类型没有保留)。下面是Python代码： import os import pandas as pd data_dir = os.getcwd() sas_file = os.path.join(data_dir, 'airline.sas7bdat') iter_sas = pd.read_sas(sas_file, iterator=True, chunksize=1000) for chunk in iter_sas: print(chunk.head()) 输出以下内容： YEAR

浏览 0提问于2018-06-23得票数 0

1回答

如何减小Python创建的txt文件的大小？

python、pandas、io、pyodbc、netezza

我在Netezza服务器上的一个表中有大约2M行x 70列的数字和分类数据，我想使用Python将其转储到一个.txt文件中。我以前用SAS做过这件事，在我的测试用例中，我得到了一个价值450MB的txt文件。我使用了Python，并尝试了几种方法。 # One line at a time startTime = datetime.datetime.now().replace(microsecond=0) cnxn = pyodbc.connect('DSN=NZ_LAB') cursor = cnxn.cursor() c = cursor.execute("&

浏览 2提问于2015-09-23得票数 3

2回答

python pandas数据帧线程安全吗？

python、thread-safety、pandas

我正在使用多线程来访问和删除我的pandas数据帧中的数据。正因为如此，我想知道熊猫的数据帧是线程安全的吗？

浏览 1提问于2012-11-28得票数 19

回答已采纳

2回答

python dataframe .duplicated返回同一值的多个匹配项

python、pandas、dataframe、duplicates

给定以下数据帧： import pandas as pd df = pd.DataFrame({'month': [2, 2, 1, 1, 2, 10], 'year': [2017, 2017, 2020, 2020, 2018, 2019], 'sale': [60, 45, 90, 20, 28, 36], 'title': ['Ones', 'Twoes', 'Thr

浏览 18提问于2021-07-06得票数 0

回答已采纳

2回答

在python中读取庞大的sas数据集

python-3.x、pandas、sas

我有一个50 gb的SAS数据集。我想在pandas dataframe中阅读它。快速读取sas数据集的最佳方法是什么？我使用了下面的代码，它太慢了： import pandas as pd df = pd.read_sas("xxxx.sas7bdat", chunksize = 10000000) dfs = [] for chunk in df: dfs.append(chunk) df_final = pd.concat(dfs) 有没有更快的方法来读取python中的大型数据集？可以并行运行这个进程吗？

浏览 1提问于2019-10-30得票数 2

1回答

在Python pandas Dataframe中导入SAS中的日期字段

python、pandas、dataframe、import、sas

我已经使用Pandas read_sas(path)函数在python dataframe中导入了一个SAS数据集。REPORT_MONTH是在sas数据集中定义并保存为DATE9的列。格式。此字段在dataframe中作为float64数据类型导入，并且具有数字，该数字基本上是用于在sas数据集中存储日期的sas内部数字。现在，我想知道如何在dataframe中将最初的日期字段转换为日期字段？

浏览 0提问于2016-07-22得票数 0

4回答

有人能帮我写一个R数据帧作为SAS数据集吗？

r、sas、dataset

在R中，我使用了来自外部库的函数，以便将数据帧编写为一个SAS数据集。 write.foreign(df = test.df, datafile = 'test.sas7bdat', codefile = 'test.txt', package = "SAS") SAS数据文件是编写的，但是当我试图在SAS Viewer 9.1 (Windows )中打开它时，我会收到以下消息--“不支持SAS数据集文件格式”。注:我一般都不熟悉SAS，所以如果有一个答案会被一个普通的SAS用户所知道，请原谅我的无知。

浏览 3提问于2011-03-29得票数 11

回答已采纳

2回答

读取SAS文件时，Pandas会因数据类型正确而失败

python、pandas、types、sas

我有一个，当我运行它时，我在SAS上得到了以下输出：我还有下面的Python代码，它获取.sas7bdat文件并显示输出，即这里的前五个观察值。 import pandas as pd file_name = "cars.sas7bdat" my_df = pd.read_sas(file_name) my_df = my_df.head() print(my_df) 正如您所看到的，当涉及到整数数据类型时，它不能正确工作。CYL和WGT变量是整数，但如果我使用pandas的，它们就不能正确显示。你知道这到底是怎么回事吗？

浏览 26提问于2018-03-02得票数 1

1回答

Pandas :替换特定的第n个字符

python、replace、pandas

我是一个初学者，正在学习python。虽然我对SAS很熟悉，但是Python语言和SAS是不同的，所以，我一直在通过搜索语法和其他方法来逐步学习python语言。我想知道如何将子串替换为pandas，就像SAS中的'SUBSTR‘一样。具体地说，我希望将YYYYMM(年-月形式)转换为YYYYQ(年-季度形式)。i.e 201102 --> 20111 201106 --> 20112 201110 --> 20114 为此，我应该每隔5~6个2个字符替换1个字符。通过搜索这个主题，我已经了解了replace()的基本语法。但我不能适用于我的具体问题。

浏览 0提问于2014-05-29得票数 0

1回答

获取任意列包含特定值的行的子集

python、pandas、sas、statistics

我有一个非常大的数据文件(foo.sas7bdat)，我希望在不将整个数据文件加载到内存的情况下过滤其中的行。例如，我可以通过执行以下操作来打印数据集的前20行，而无需将整个文件加载到内存中： import pandas import itertools with pandas.read_sas('foo.sas7bdat') as f: for row in itertools.islice(f,20): print(row) 但是，我不清楚如何只打印(或者最好放在新文件中)包含任何包含数字123.1的列的行。我该怎么做呢？

浏览 46提问于2018-06-04得票数 0

1回答

基于pyspark的均值漂移聚类

python、pandas、pyspark、pandas-groupby、user-defined-functions

我们正在尝试将一个普通的python代码库迁移到pyspark。议程是对数据帧(以前是pandas，现在是spark)进行一些过滤，然后按user-ids对其进行分组，最后在顶部应用meanshift集群。我在分组数据上使用pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)。但现在，最终输出的表示方式出现了问题。假设我们在输入数据帧中有两列：user-id和location。对于每个用户，我们需要获取所有集群(在location上)，只保留最大的一个，然后返回其属性，这是一个3维向量。让我们假设3元组的列是col-1、col-2和col-3。

浏览 11提问于2019-05-14得票数 0

回答已采纳

1回答

在PyCharm中执行部分脚本，并将数据帧等保存在内存中

python、python-3.x、pycharm

我知道。不幸的是，如果执行的代码选择依赖于以前的代码(例如，从csv文件创建的数据框)，则这不起作用。如何执行脚本的某些部分并将数据帧保存在内存中(会话？)类似于R或甚至SAS。谢谢。

浏览 0提问于2018-08-15得票数 1

1回答

如何获取pandas数据框中列的子集？

python、pandas、dataframe

我得到了一个具有多列的pandas数据帧和一个具有列索引(0，1，...，n)的列表，该列表索引数据帧的列的子集。如何创建恰好包含这个列子集的新数据框？

浏览 3提问于2021-11-30得票数 0

1回答

Web抓取数据，然后在数据帧上显示和更新数据

python、pandas、dataframe

我正在尝试创建一个数据帧，它可以显示和更新数据帧上的数据。我发现这个方法创建一个循环并输出数据，它看起来像这样： from bs4 import BeautifulSoup import requests import pandas as pd def priceTracker(): url = 'https://finance.yahoo.com/quote/AAPL' response = requests.get(url) soup = BeautifulSoup(response.text,'lxml') price

浏览 9提问于2021-04-02得票数 0