首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

单列文本拆分为多列,Python可以自动化

为了自动化这些手工操作,本文将展示如何在Python数据框架中将文本拆分为列。...示例文件包含两列,一个人的姓名和出生日期。 图2 我们的任务如下: 1.把名字和姓氏分开 2.将出生日期拆分为年、月和日 让我们将数据加载到Python中。...对于了解Excel并且倾向于使用公式来解决此问题的人,第一反应可能是:好的,我将创建一个可能包含FIND函数和LEFT函数或MID函数等的公式,然后向下拖动以将其应用于所有单元格。...矢量化操作(在表面上)相当于Excel的“分列”按钮或Power Query的“拆分列”,我们在其中选择一列并对整个列执行某些操作。...让我们在“姓名”列中尝试一下,以获得名字和姓氏。 图7 拆分是成功的,但是当我们检查数据类型时,它似乎是一个pandas系列,每行是包含两个单词的列表。

7.1K10

经常被人忽视的:Pandas 文本数据处理!

如果将微信id这列的文本数据,全部转换为小写,在Pandas中可以这样操作。 df["微信"] = df["微信"].str.lower() df 我们可以通过组合姓氏和名字,来创建姓名这列。...df.insert(2, "姓名", df["姓"].str.cat(df["名"], sep="")) df 对字符串的一个常见操作是拆分,当文本数据包含多条信息时...例如,户籍地址这列包括省份和城市,我们可以通过拆分此列来提取城市的信息。...startswith() 和endswith() 这两个函数,是分别基于字符串的第一个或最后一个字母进行筛选。...df[df["姓名"].str.startswith("王")] 注意:startswith() 和endswith() 这两个函数,还可以通过设置参数,既能检测多个字符,又能设置字符串检测的起始和结束位置

1.3K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python学习手册--第五部分(函数)

    full_name.title() name = dealName('jimi', 'hendrix') print(name) 该程序段将传递过去的姓氏和名字进行一个简单的拼接,并返回给调用者,...,当我们同时提供姓氏、名字和中间名时,程序正常运行。...然而并不是所有人都是有中间名的,但如果你只传入姓氏和名字的话,显然程序会报错,那该怎么办呢?...由于人都有名和姓,因此在函数定义中首先列出了这两个形参。中间名是可选的,因此在函数定义中最后列出该形参,并将其默认值设置为空字符串。 在函数体中,我们检查是否提供了中间名。...如果提供了中间名,就将名、中间名和姓合并为姓名,然后将其修改为首字母大写格式,并返回到函数调用行。在函数调用行,将返回的值存储在变量name 中;然后将这个变量的值打印出来。

    72420

    14个pandas神操作,手把手教你写代码

    01 Pandas是什么 很多初学者可能有这样一个疑问:“我想学的是Python数据分析,为什么经常会被引导到Pandas上去?”虽然这两个东西都是以P开头的,但它们并不是同一个层面的东西。...03 Pandas的基本功能 Pandas常用的基本功能如下: 从Excel、CSV、网页、SQL、剪贴板等文件或工具中读取数据; 合并多个文件或者电子表格中的数据,将数据拆分为独立文件; 数据清洗,如去重...列,所以我们需要使它成为索引: df.set_index('name', inplace=True) # 建立索引并生效 其中可选参数inplace=True会将指定好索引的数据再赋值给df使索引生效..., y]是一个非常强大的数据选择函数,其中x代表行,y代表列,行和列都支持条件表达式,也支持类似列表那样的切片(如果要用自然索引,需要用df.iloc[])。...df.iloc[:10,:] # 前10个 (3)指定行和列 同时给定行和列的显示范围: df.loc['Ben', 'Q1':'Q4'] # 只看Ben的四个季度成绩 df.loc['Eorge

    3.4K20

    R语言使用特征工程泰坦尼克号数据分析应用案例

    为了提取这些标题以创建新变量,我们需要在训练集和测试集上执行相同的操作,以便这些功能可用于增长我们的决策树,并对看不见的测试数据进行预测。在两个数据集上同时执行相同过程的简单方法是合并它们。...很好,我们看到人名后面有一个逗号,并且在他们的头衔之后有一个句号。我们可以很容易地使用函数strsplit(代表字符串拆分)来区分这两个符号的原始名称。...所有这些字符串拆分的结果都被组合成一个向量作为sapply函数的输出,然后我们将其存储到原始数据帧中的一个新列,称为Title。 最后,我们可能希望从标题的开头剥离这些空格。...所以在这里我们将两个标题“Mme”和“Mlle”组合成一个新的临时向量,使用c()运算符并查看整个Title列中的任何现有标题是否与它们中的任何一个匹配。然后我们用“Mlle”替换任何一场比赛。...这被存储到一个名为FamilyID的新列中。但是那三个单身的约翰逊人都拥有相同的家庭ID。鉴于我们最初假设大家庭可能难以在恐慌中坚持到一起,让我们将任何两个或更少的家庭大小淘汰,称之为“小”家庭。

    6.6K30

    (数据科学学习手札92)利用query()与eval()优化pandas代码

    本文就将带大家学习如何在pandas中化繁为简,利用query()和eval()来实现高效简洁的数据查询与运算。 ?...通过上面的小例子我们认识到query()的强大之处,下面我们就来学习query()的常用特性: 2.1 直接解析字段名 query()最核心的特性就是可以直接根据传入的查询表达式,将字段名解析为对应的列...图12 3 基于eval()的高效运算   而eval()类似Python的eval()函数,可以将字符串形式的命令直接解析并执行。   ...同样从实际例子出发,同样针对netflix数据,我们按照一定的计算方法为其新增两列数据,对基于assign()的方式和基于eval()的方式进行比较,其中最后一列是False是因为日期转换使用coerce...,一直链式下去,延续上面的例子,当我们新增了这两列数据之后,接下来我们按顺序进行按月统计影片数量、字段重命名、新增当月数量在全部记录排名字段、排序,其中关键的是新增当月数量在全部记录排名字段,如果不用eval

    1.7K20

    利用query()与eval()优化pandas代码

    本文就将带大家学习如何在pandas中化繁为简,利用query()和eval()来实现高效简洁的数据查询与运算。...通过上面的小例子我们认识到query()的强大之处,下面我们就来学习query()的常用特性: 2.1 直接解析字段名 query()最核心的特性就是可以直接根据传入的查询表达式,将字段名解析为对应的列...而pandas中的eval()有两种,一种是top-level级别的eval()函数,而另一种是针对数据框的DataFrame.eval(),我们接下来要介绍的是后者,其与query()有很多相同之处,...同样从实际例子出发,同样针对「netflix」数据,我们按照一定的计算方法为其新增两列数据,对基于assign()的方式和基于eval()的方式进行比较,其中最后一列是False是因为日期转换使用coerce...,一直链式下去,延续上面的例子,当我们新增了这两列数据之后,接下来我们按顺序进行按月统计影片数量、字段重命名、新增当月数量在全部记录排名字段、排序,其中关键的是「新增当月数量在全部记录排名字段」,如果不用

    1.5K30

    Python 办公小助手:修改 PDF 中的表格

    并且由最终转化得到的数据格式也可以看出,此模块也依赖 pandas 和 numpy,需要自行导入。...根据目测分析,批号位于第二列,所以提取第二列名字: ? 5. 通过 DataFrame["列名称"] 来定位到该列具体数据: ? 6....这里直接采用的是 "批号" in 字符串 的语法,倘若数据字符串中含有“批号”二字就会被筛选出,最终我们也如愿拿到了“批号数据”并赋值给 target 变量。 7....接下来采用正则表达式,按照批号数据格式中只包含大写字母、数字以及中间会夹杂空格,制定匹配模式进行匹配提取: ? 最终我们拿到了批号数据串赋值给 result 变量。 8....,将批号数据赋值给 new_name new_name = get_target(item) # 如果不为空,即获取到了批号数据

    2.1K20

    自学 Python 只需要这3步

    1.必须知道的两组Python基础术语 A.变量和赋值 Python可以直接定义变量名字并进行赋值的,例如我们写出a = 4时,Python解释器干了两件事情: 在内存中创建了一个值为4的整型数据 在内存中创建了一个名为...比如当我们想看单周票房第一的排名分别都是哪些电影时,可以使用pandas工具库中常用的方法,筛选出周票房为第一名的所有数据,并保留相同电影中周票房最高的数据进行分析整理: import pandas as...“电影名”和“周票房”两列数据 dataTop1_week = dataTop1_week.groupby( 电影名 ).max()[ 周票房 ].reset_index() #用“电影名”来分组数据...] del dataTop1_week[ 电影名 ] #整理index列,使之变为电影名,并删掉原来的电影名列 dataTop1_week #查看数据 ?...orange ) name=pf+ top20分析 plt.title(name) #根据函数变量名出图 定义函数后,批量出图so easy: ?

    1.4K50

    2组语法,1个函数,教你学会用Python做数据分析!

    1.必须知道的两组Python基础术语 A.变量和赋值 Python可以直接定义变量名字并进行赋值的,例如我们写出a = 4时,Python解释器干了两件事情: 在内存中创建了一个值为4的整型数据 在内存中创建了一个名为...比如当我们想看单周票房第一的排名分别都是哪些电影时,可以使用pandas工具库中常用的方法,筛选出周票房为第一名的所有数据,并保留相同电影中周票房最高的数据进行分析整理: import pandas as...“电影名”和“周票房”两列数据 dataTop1_week = dataTop1_week.groupby('电影名').max()['周票房'].reset_index() #用“电影名”来分组数据...] del dataTop1_week['电影名'] #整理index列,使之变为电影名,并删掉原来的电影名列 dataTop1_week #查看数据 ?...'orange') name=pf+'top20分析' plt.title(name) #根据函数变量名出图 定义函数后,批量出图so easy: ?

    1.2K50

    手把手教你用PyTorch创建首个神经网络

    导入语句和数据集 在这个简单的范例中将用到几个库: Pandas:用于数据加载和处理 Scikit-learn: 用于拆分训练集和测试集 Matplotlib: 用于数据可视化处理 PyTorch: 用于模型训练...以下是说明: 首先,需要将Iris 数据集划分为“特征”和“ 标签集” ——或者是x 和y。Name列是因变量而其余的则是“特征”(或者说是自变量)。...除此之外还将使用ReLU 作为激活函数。下面展示如何在代码里执行这个激活函数。 class ANN(nn.Module): def __init__(self): super()....接着创建一个模型实例,并验证其架构是否与上文所指的架构相匹配: model = ANN() model 干得漂亮。...可以用下列三个值构建一个Pandas DataFrame。

    2.1K00

    手把手教你用Python爬中国电影票房数据

    1.必须知道的两组Python基础术语 A.变量和赋值 Python可以直接定义变量名字并进行赋值的,例如我们写出a = 4时,Python解释器干了两件事情: 在内存中创建了一个值为4的整型数据 在内存中创建了一个名为...比如当我们想看单周票房第一的排名分别都是哪些电影时,可以使用pandas工具库中常用的方法,筛选出周票房为第一名的所有数据,并保留相同电影中周票房最高的数据进行分析整理: import pandas as...“电影名”和“周票房”两列数据 dataTop1_week = dataTop1_week.groupby('电影名').max()['周票房'].reset_index() #用“电影名”来分组数据...] del dataTop1_week['电影名'] #整理index列,使之变为电影名,并删掉原来的电影名列 dataTop1_week #查看数据 ?...'orange') name=pf+'top20分析' plt.title(name) #根据函数变量名出图 定义函数后,批量出图so easy: ?

    1.8K10

    1小时学Python,看这篇就够了

    必须知道的两组Python基础术语 A.变量和赋值 Python可以直接定义变量名字并进行赋值的,例如我们写出 a = 4 时,Python解释器干了两件事情: 在内存中创建了一个值为4的整型数据 在内存中创建了一个名为...a 的变量,并把它指向4 用一张示意图表示 Python变量和赋值的重点 : 例如下图代码,“=”的作用就是赋值,同时Python会自动识别数据类型: a=4 #整型数据 b=2 #整型数据c=“...':'name'})#给姓名加上字段名 和excel一样,DataFrame的任何一列或任何一行都可以单独选出进行分析。...]del dataTop1_week['电影名']#整理index列,使之变为电影名,并删掉原来的电影名列dataTop1_week#查看数据 9行代码,我们完成了Excel里的透视表、拖动、排序等鼠标点击动作...top20分析'    plt.title(name)#根据函数变量名出图 定义函数后,批量出图so easy: 学会函数的构建,一个数据分析师才算真正能够告别Excel的鼠标点击模式,迈入高效分析的领域

    1.3K40

    Pandas图鉴(三):DataFrames

    读取和写入CSV文件 构建DataFrame的一个常见方法是通过读取CSV(逗号分隔的值)文件,如该图所示: pd.read_csv()函数是一个完全自动化的、可以疯狂定制的工具。...如下图所示: 要为索引列指定一个名字,可以写df.index.name = 'city_name'或者使用pd.DataFrame(..., index=pd.Index(['Oslo', 'Vienna...s.iloc[0],只有在没有找到时才会引发异常;同时,它也是唯一一个支持赋值的:df[...].iloc[0] = 100,但当你想修改所有匹配时,肯定不需要它:df[...] = 100。...比如说: 一个解决方案是使用ignore_index=True,它告诉concat在连接后重置行名: 在这种情况下,可以将名字列设置为索引。但是对于更复杂的过滤器来说,这就没有什么用了。...首先,你可以只用一个名字来指定要分组的列,如下图所示: 如果没有as_index=False,Pandas会把进行分组的那一列作为索引列。

    44420

    【如何在 Pandas DataFrame 中插入一列】

    前言:解决在Pandas DataFrame中插入一列的问题 Pandas是Python中重要的数据处理和分析库,它提供了强大的数据结构和函数,尤其是DataFrame,使数据处理变得更加高效和便捷。...然而,对于新手来说,在DataFrame中插入一列可能是一个令人困惑的问题。在本文中,我们将分享如何解决这个问题的方法,并帮助读者更好地利用Pandas进行数据处理。...不同的插入方法: 在Pandas中,插入列并不仅仅是简单地将数据赋值给一个新列。...# 定义一个函数,将年龄加上5 def add_five(age): return age + 5 # 使用apply函数将函数应用到'Age'列,并创建新列'Adjusted_Age' df...在实际应用中,我们可以根据具体需求使用不同的方法,如直接赋值或使用assign()方法。 Pandas是Python中必备的数据处理和分析库,熟练地使用它能够极大地提高数据处理和分析的效率。

    1.1K10

    从pandas中的这几个函数,我看懂了道家“一生二、二生三、三生万物”

    导读 pandas是用python进行数据分析最好用的工具包,没有之一!从数据读写到预处理、从数据分析到可视化,pandas提供了一站式服务。...例如想同时统计各班每门课程的选修人数和平均分,语句如下: ?...普通聚合函数mean和agg的用法区别是,前者适用于单一的聚合需求,例如对所有列求均值或对所有列求和等;而后者适用于差异化需求,例如A列求和、B列求最值、C列求均值等等。...另外,groupby的分组字段和聚合函数都还存在很多其他用法:分组依据可以是一个传入的序列(例如某个字段的一种变形),聚合函数agg内部的写法还有列表和元组等多种不同实现。...例如,这里想以学生姓氏进行分组统计课程平均分,语句如下: ? 05 pivot_table pivot_table是pandas中用于实现数据透视表功能的函数,与Excel中相关用法如出一辙。

    2.5K10

    使用R或者Python编程语言完成Excel的基础操作

    宏和VBA:对于更高级的用户,可以学习如何录制宏和编写VBA代码来自动化重复性任务。 函数学习:逐渐学习更多的内置函数,如逻辑函数、文本函数、统计函数等。...公式和函数 数组公式:对一系列数据进行复杂的计算。 查找和引用函数:如VLOOKUP、HLOOKUP、INDEX和MATCH等。 统计函数:如AVERAGE、MEDIAN、STDEV等。...文本处理 文本分列:将一列数据根据分隔符分成多列。 合并文本:使用CONCATENATE函数或“&”运算符将多个单元格的文本合并为一个。 宏和VBA编程 录制宏:自动记录一系列操作,以便重复执行。...在Python编程语言中 处理表格数据通常使用Pandas库,它提供了非常强大的数据结构和数据分析工具。以下是如何在Python中使用Pandas完成类似于R语言中的操作,以及一个实战案例。...import pandas as pd data = pd.read_csv('path_to_file.csv') 增加列:通过直接赋值增加新列。

    23810

    数据科学的原理与技巧 三、处理表格数据

    索引、切片和排序 让我们使用pandas来回答以下问题: 2016 年的五个最受欢迎的婴儿名字是? 拆分问题 我们可以将这个问题分解成以下更简单的表格操作: 分割出 2016 年的行。...我们再次将这个问题分解成更简单的表格操作。 将baby表按'Year'和'Sex'分组。 对于每一组,计算最流行的名称。 认识到每个问题需要哪种操作,有时很棘手。...例如,如果我们没有立即意识到需要分组,我们可能会编写如下步骤: 遍历每个特定的年份。 对于每一年,遍历每个特定的性别。 对于每一个特定年份和性别,找到最常见的名字。...现在让我们使用多列分组,来计算每年和每个性别的最流行的名称。 由于数据已按照年和性别的递减顺序排序,因此我们可以定义一个聚合函数,该函数返回每个序列中的第一个值。...19015 274 行 × 2 列 总结 我们现在有了数据集中每个性别和年份的最受欢迎的婴儿名称,并学会了在pandas中表达以下操作: 操作 pandas 分组 df.groupby(label)

    4.6K10

    Python写入Excel文件-多种实现方式(测试成功,附代码)

    简介 示例:写入excel openpyxl库储存数据到excel 示例:写入excel 更多 打开已有文件 根据数字得到字母,根据字母得到数字 删除工作表 查看表名和选择表(sheet...A1" % ("要关联的工作表表名"), string="超链接显示的名字") 插入图表 workbook.add_chartsheet(type="") 参数中的type指的是图表类型,图表类型示例如下...pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。 pandas有两个主要数据结构:Series和DataFrame。...DataFrame DataFrame是一个表格型的数据类型,每列值类型可以不同,是最常用的pandas对象。...wb.remove(sheet) # 方式二 del wb[sheet] 查看表名和选择表(sheet) # 显示所有表名 print(wb.sheetnames) ['Sheet2', 'New

    4.3K10
    领券