首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI办公自动化:Excel表格数据批量整理分列

\AI_Industry_Analysis - 副本.xlsx"" 读取A单元格内容,删除单元格内容后面的数字,比如:单元格内容“公司公告,国海证券研究所 61”,删除“61”; 对单元格内容进行分...”; 单元格分完成后,把所有分拆出去的单元格内容追加到A列当前内容的后面; 然后对A数据进行分类汇总,汇总方式计数,分类汇总结果保存到Excel文件:F:\AI自媒体内容\AI行业数据分析\AI行业数据来源...# 读取Excel文件 http://logging.info(f"读取 Excel 文件: {input_file}") df = pd.read_excel(input_file) # 检查列名找到第一...DataFrame 用于存储拆分后的内容 split_df = pd.DataFrame(split_data) # 将拆分后的内容合并回第一 http://logging.info("合并拆分后的内容到第一...http://logging.info("将拆分后的内容追加到第一当前内容的后面") df_expanded = pd.DataFrame() df_expanded[first_column_name

7810

懂Excel就能轻松入门Python数据分析包pandas(七):分列

pandas 分列 pandas 对文本进行分列,非常简单: - DataFrame.str.split() ,对文本分列,第一参数指定分隔符 - 此外,参数 expand ,表示是否扩展成...,若设置 True ,则分割后的每个元素都成为单独一。...如下: - 同时把科目和成绩分割扩展到行 直接看 pandas 怎么解决: - 先对 科目 与 成绩 分别进行 split 后,再进行 explode - 然后通过 concat,与原来的 性名...编程语言的灵活性在此可以充分体现,我们把逻辑封装成一个函数 hp_explode ,以后需要使用时,简单调用即可: - hp_explode() ,可自动识别内容是 list 的进行扩展 > hp_explode...当然也支持: - 一句搞定 总结 - Series.str.split() ,对文本分割 - expand 参数指定是否扩展 - DataFrame.explode() ,对序列的扩展成行

2.5K30
您找到你想要的搜索结果了吗?
是的
没有找到

用 Pandas 进行数据处理系列 二

('a',inplace=True,ascending=True) , inplace 表示排序的时候是否生成一个dataFrame , ascending=True 表示升序,默认为升序,如果存在缺失的补...b’].dtype某一的格式df.isnull()是否df....df.loc[(df['city'] == 'beijing') & (df['pr'] >= 4000), 'sign'] = 1 对 category 字段的依次进行分列创建数据表,索引...loc函数按标签进行提取iloc按位置进行提取ix可以同时按标签和位置进行提取 具体的使用见下: df.loc[3]按索引提取单行的数值df.iloc[0:5]按索引提取区域行数据df.reset_index...([‘beijing’])判断 city 的是否北京df.loc[df[‘city’].isin([‘beijing’,‘shanghai’])]判断 city 是否包含 beijing 和 shanghai

8.1K30

懂Excel就能轻松入门Python数据分析包pandas(七):分列

pandas 分列 pandas 对文本进行分列,非常简单: - DataFrame.str.split() ,对文本分列,第一参数指定分隔符 - 此外,参数 expand ,表示是否扩展成...,若设置 True ,则分割后的每个元素都成为单独一。...如下: - 同时把科目和成绩分割扩展到行 直接看 pandas 怎么解决: - 先对 科目 与 成绩 分别进行 split 后,再进行 explode - 然后通过 concat,与原来的 性名...编程语言的灵活性在此可以充分体现,我们把逻辑封装成一个函数 hp_explode ,以后需要使用时,简单调用即可: - hp_explode() ,可自动识别内容是 list 的进行扩展 > hp_explode...当然也支持: - 一句搞定 总结 - Series.str.split() ,对文本分割 - expand 参数指定是否扩展 - DataFrame.explode() ,对序列的扩展成行

1.3K10

Pandas实现列表分列与字典分列的三个实例

首先,我们先导包设置Pandas显示参数: import pandas as pd pd.set_option("display.max_colwidth", 100) 正则提取分列 需求: ?...当然如果索引存在名称时还可以传入名称字符串,可参考官网文档: df = pd.DataFrame([ ... [1, 2, 3, 4], ... [5, 6, 7, 8], ......fillna表示填充缺失,传入""表示将缺失填充空字符串。 下面重命名一下列名: _.rename(columns=lambda x: f"得分{x+1}") 结果: ?...发现结果中有一,不是整数,所以还原成整数(总分100分,8位足够存储): _.astype({"得分1":"int8"}) 结果: ? 解析json字符串字典分列 需求: ?...而result["counts"] = df.counts则将原始数据的counts添加到结果中。

1.8K10

从Excel到Python:最常用的36个Pandas函数

使用merge函数对两个数据表进行合并,合并的方式inner,将 两个数据表中共有的数据匹配到一起生成的数据表。命名为 df_inner。...在Python中使用split函数实现分列在数据表中category中的数据包含有两个信息,前面的数字类别id,后面的字母size。中间以连字符进行连接。...#对category字段的依次进行分列创建数据表,索引df_inner的索引,列名称为category和size pd.DataFrame((x.split('-') for x in df_inner...4.按条件提取(区域和条件) 使用loc和isin两个函数配合使用,按指定条件对数据进行提取 #判断city是否beijing df_inner['city'].isin(['beijing'...这里我们把判断条件改为city是否beijing和shanghai。如果是就把这条数据提取出来。 #先判断city是否包含beijing和shanghai,然后将复合条件的数据提取出来。

11.4K31

一道基础题,多种解题思路,引出Pandas多个知识点

然后再看看这个explode函数,它是pandas 0.25版本才出现的函数,只有一个参数可以传入列名,然后该函数就可以把该的列表每个元素扩展到多行上。...---- 列表的extend方法是将可迭代对象的每个元素都添加到列表中,而append方法只能添加单个元素。...不过这样会丢失原本的"a",我们可以先将"a"设置索引,再进行Series分列操作: df.set_index("a")["b"].apply(pd.Series) 或者把结果设置成原本的"a"...直接对Datafream进行列表分列 如果我们希望直接使用Datafream实现分列可以借助agg方法,因为agg方法是对每一的Series对象操作: df.agg({"a": lambda x: x...然后删除第二,再删除空行,再将数值转换为整数类型就搞定。

1.1K20

python df 替换_如何用Python做数据分析,没有比这篇文章更详细的了(图文详情)...

在 python 中使用 split 函数实现分列。  数据分列  在数据表中 category 中的数据包含有两个信息,前面的数字类别 id,后面的字母 size 。中间以连字符进行连接。...1#对 category 字段的依次进行分列创建数据表,索引 df_inner 的索引,列名称为 category 和 size  2pd.DataFrame((x.split('-') for...使用 isin 函数对 city 中的是否 beijing 进行判断。  ...1#判断 city 是否 beijing  2df_inner['city'].isin(['beijing'])  3  4date  52013-01-02 True  62013-01-05...这里我们把判断条件改为 city 是否 beijing 和 shanghai。如果是就把这条数据提取出来。

4.4K00

我用Python展示Excel中常用的20个操

Pandas 在Pandas中可以结合NumPy生成由指定随机数(均匀分布、正态分布等)生成的矩阵,例如同样生成10*2的0—1均匀分布随机数矩阵,使用一行代码即可:pd.DataFrame(np.random.rand...数据插入 说明:在指定位置插入指定数据 Excel 在Excel中我们可以将光标放在指定位置右键增加一行/,当然也可以添加时对数据进行一些计算,比如我们就可以使用IF函数(=IF(G2>10000...数据去重 说明:对重复按照指定要求处理 Excel 在Excel中可以通过点击数据—>删除重复按钮选择需要去重的即可,例如对示例数据按照创建时间进行去重,可以发现去掉了196 个重复,保留了...数据合并 说明:将两或多数据合并成一 Excel 在Excel中可以使用公式也可以使用Ctrl+E快捷键完成多合并,以公式例,合并示例数据中的地址+岗位列步骤如下 ?...Pandas 在Pandas中可以使用.split来完成分列,但是在分列完毕后需要使用merge来将分列完的数据添加至原DataFrame,对于分列完的数据含有[]字符,我们可以使用正则或者字符串lstrip

5.5K10

如何漂亮打印Pandas DataFrames 和 Series

默认情况下,当打印出DataFrame且具有相当多的时,仅的子集显示到标准输出。显示的甚至可以多行打印出来。...display.max_rows的,则输出DataFrame可能不完整,如下所示。...仅显示一部分列(缺少第4和第5),而其余以多行方式打印。 ? 尽管输出仍可读取,但绝对不建议保留或将其打印在多行中。...display.expand_frame_repr 默认:True 是否跨多行打印宽数据的完整DataFrame可以考虑使用max_columns,但是如果宽度超过display.width,...另外,您可以更改display.max_rows的,而不是将expand_frame_repr设置False: pd.set_option(‘display.max_rows’, False) 如果仍打印在多页中

2.4K30

看了这个例子,一辈子记住这个有趣的函数,以后给内容配对就有思路了

有朋友在微信公众号的后台发消息提问:怎么同时对两合并的文本进行逆透视?...所以,首先第一步,不管怎么着,先把给拆分了,但是,这里不好用拆分列的功能来做,为什么?...1、不能拆分到行:因为要分别对两的内容进行拆分且找配对关系,先任何一都会使配对关系丢失; 2、不能拆分到:因为要拆分的内容的项数是不固定的。...- 1 - 拆分内容 Step 01:用函数拆分列 同样拆分“序号”,得到结果如下(现在先讲分步解法,怎么综合各步骤函数一条公式搞定的事情等会儿再讲): - 2 - 内容配对...Step 02:添加自定义,把两拆分出来的内容直接拉到一起 内容配对好后,就可以层层展开了…… - 3 - 内容展开 Step 03:第一次展开,扩展到行(因为不同的配对内容是要拆到多个行的

92640

数据科学 IPython 笔记本 7.13 向量化字符串操作

我们的目标是,将食谱数据解析分列表,这样我们就可以根据手头的一些成分,快速找到配方。...用于编译它的脚本可以在 https://github.com/fictivekin/openrecipes 找到,同时可以找到当前版本数据库的链接。...250 个字符,最小 0,最多为 10,000 个字符!...虽然概念上很简单,但由于数据的异质性,任务变得复杂:例如,从每一行中提取干净的成分列表并不容易。 所以我们用一些手段:我们先从一系列常见成分开始,然后仅仅搜索它们是否在每个配方的成分列表中。...', 'tarragon', 'thyme', 'paprika', 'cumin'] 然后我们可以构建一个由True和False组成的布尔DataFrame,指示该成分是否出现在列表中: import

1.6K20

Pandas的apply, map, transform介绍和性能测试

arg可以是一个函数——就像apply可以取的一样——也可以是一个字典或一个Series。 na_action是指定序列的NaN如何处理。当设置"ignore "时,arg将不会应用于NaN。...所以无论自定义聚合器是如何实现的,结果都将是传递给它的每一的单个。 来看看一个简单的聚合——计算每个组在得分列上的平均值。  ...我们还可以构建自定义聚合器,对每一执行多个特定的聚合,例如计算一的平均值和另一的中值。 性能对比 就性能而言,agg比apply稍微快一些,至少对于简单的聚合是这样。...当整个中只有一个组时,就会发生这种情况。在这种情况下,即使 apply 函数预期返回一个Series,但最终会产生一个DataFrame。 结果类似于额外的栈操作。我们这里尝试重现它。...我们将使用我们的原始数据框添加一个城市。假设我们的三个学生 John、James 和 Jennifer 都来自波士顿。

1.9K30

Pandas知识点-统计运算函数

为了使数据简洁一点,只保留数据中的部分列和前100行,设置“日期”索引。 ? 读取的原始数据如上图,本文使用这些数据来介绍统计运算函数。 二、最大和最小 ? max(): 返回数据的最大。...使用DataFrame数据调用max()函数,返回结果DataFrame中每一的最大,即使数据是字符串或object也可以返回最大。...min(): 返回数据的最小。使用DataFrame数据调用min()函数,返回结果DataFrame中每一的最小,即使数据是字符串或object也可以返回最小。...使用DataFrame数据调用median()函数,返回结果DataFrame中每一的中位数,median()也不能计算字符串或object的中位数,会自动将不能计算的省略。 ?...describe(): 综合统计函数,可以同时返回数据中的数据量、均值、标准差、最小、最大,以及上四分位数、中位数、下四分位数。可以一次返回数据的多个统计属性,使用起来很方便。

2.1K20

python读取json文件转化为list_利用Python解析json文件

易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。 用人话来说,json就是一种长得像嵌套字典的字符串。 数据被“{}”和“[]”层层包裹,需要“包”才能拿到我们需要的数据。...我们可以先把它拆掉,然后转化成一个DataFrame: load_dict = load_dict['mainData'] #第一层花括号 data_raw = pd.DataFrame(columns...(col_name,axis=1,inplace=True) # 删除原始 return df ### 遍历整个dataframe,处理所有类型dict的 def json_parse(df):...={}: df=json_to_columns(df,i) #调用上面的函数 return df ### 处理类型list的,转换为dict def list_parse(df): for i in...,就可以把json里所有的内容都展开:字典的key变成列名,value变成: 至此,json就成功地转化成了DataFrame格式。

7.1K30
领券