首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通过匹配字典列表中的子字符串来映射pandas列

,可以使用pandas的map()函数。该函数可以将字典列表中的键值对应到pandas列中的值,实现映射关系。

具体步骤如下:

  1. 首先,定义一个字典列表,每个字典包含子字符串与对应映射值的键值对。例如:
代码语言:txt
复制
mapping = [
    {'sub_str': 'apple', 'map_value': 'fruit'},
    {'sub_str': 'carrot', 'map_value': 'vegetable'}
]
  1. 然后,创建一个pandas的DataFrame,并包含需要映射的列。例如:
代码语言:txt
复制
import pandas as pd

data = {'text': ['I love apple', 'I eat carrot']}
df = pd.DataFrame(data)
  1. 接下来,使用map()函数将字典列表中的子字符串映射到pandas列中的值。例如:
代码语言:txt
复制
df['category'] = df['text'].map({item['sub_str']: item['map_value'] for item in mapping})
  1. 最后,可以查看映射结果:
代码语言:txt
复制
print(df)

输出:

代码语言:txt
复制
             text   category
0   I love apple      fruit
1     I eat carrot  vegetable

这种方法适用于通过匹配字典列表中的子字符串来映射pandas列的场景,可以方便地实现数据的映射和转换。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • 《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

    在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具,可以让你轻松地将数据规变为想要的格式。 如果你发现了一种本书或pandas库中没有的数据操作方式,请尽管

    09

    python期末复习笔记(2)

    1.lstrip()—— 去掉字符串左边的空格或指定字符 2.rstrip()——去掉字符串末尾的指定字符,默认为空格,根据提供的函数对指定的序列做映射 3.str.format()格式化数字 4.find()——方法检测字符串里面是否包含子字符串,包含返回对应的索引值,不包含返回-1 5.split()——通过指定的分隔符对函数进行切片,如果指定num有参数,则分隔num+1个字符串,返回以[‘’,’’,] 6.replace()——替换指定字符,如果指定替换的参数,替换不超过参数+1个 7.isalnum()——检验字符串是否由数字和字母组成 8.isalnum()——检验字符串是否只由字母组成 9.isdigit()——检验字符串是否只由数字组成 10.endswith()——判断字符串是否以指定后缀结尾 11.strip()——移除字符串头尾指定的字符 12.rindex()——返回指定字符在字符串中最后一次出现的位置 13.rfind()——返回字符串最后一次出现的位置,如果没有匹配则返回-1 14.count()——统计字符串中某个字符出现的次数 15.find()——检测字符串是否包含子字符串,如果包含则则返回开始的索引值,反之返回-1 16.upper()——转化为大写字母 17.lower()——转化为小写字母 18.swapcase()——用于对字符串的大小写字母进行转换 19.startswith()——检验字符串是否以指定字符串开头 beg-指定位置是否为该字符 20.translate()——方法根据参数table给出的表,转换相应的字符 21.round()——返回浮点数x的四舍五入值 22.abs()——求绝对值 23.复数—求值开根号 24.查看变量内存的地址——id() 25.callable()——检查一个函数是否可以被调用 26.len()——可以返回列表,元组,字典,集合,字符串,以及range对象中的元素(项目)个数 27.max()——返回序列中的最大元素 28.min()——返回序列中的最小元素 29.sum()——返回数值型序列中所有元素之和 30.random模块中-shuffle()——将列表中的元素随机乱序 31.choice——从序列表随机选择一个元素 32.sample(seq,k)——从序列中选择不重复的K个元素 33.标准库math中-sqrt——开平方——返回的几点0的小数形式 34.import——引库 35.流控制的三种基本结构——顺序结构-循环结构-选择结构 36.python内建异常类的基类是——BaseException 37.elif表示-if和else两个单词的缩写 38.break提前结束本层循环 39.continue提前进入下一次循环 40.列表、元组、字符串、是有序序列 41.集合、字典是无序的 42.add()——给集合添加元素-如果要添加的元素已经存在,在不执行任何操作 43.集合比较大小看是否为子集,为另一方的子集的小 44.pow()——幂的运算 45.^——按位异或运算符,当两对应的二进位相异时,结果为1 46.^在两个集合中间时,相同的元素舍弃,保留两个集合各自与对方不同的字符 47.|——按位或运算符,只要对应的二个二进位有一个为1是,结果就为 48.|在两个集合中间时,将两个集合合并到一起,有两个的保留一个 49.&——按位与运算符,参与运算的两个值,如果两个相应位都为1,则该位的结果为1,否则为0 50.&在两个集合中间时,只保留相同的元素 51.集合相减——减去相同的元素 52.set——是一个无序且不重复的元素集合 53.sort()——对可进行迭代的对象进行排序操作 54.map()——根据提供的函数对指定序列做映射 55.range()——创建一个整数列表 56.del命令既可以删除列表中的一个元素,也可以删除整个列表 57.append()——在列表结尾添加元素,如果加入列表,则会将整个列表加入进去,即有[XX] 58.extend()——如果加入列表,则会把列表中的元素加入进去 59.insert()——用于将指定对象插入列表的指定位置,(谁的前面)(,)逗号前面为位置,后面为要插入的元素 60.sort()——对原列表进行排序,默认为升序, reverse = True-降序 61.pop()——默认删除最后一个元素,加入所以定位击杀 62.remove()——用于移除列表中某个值得第一个匹配项(移除哪个东西-不是索引值) 63.index()——查找某个元素在列表中的索引值 64.reverse()——反向列表中的元素,不是按照大小,是按照顺序 65.sort排列列表有=输出N

    01

    Python学习笔记整理(一)pytho

    Python对象类型 说明:python程序可以分解成模块,语句,表达式以及对象。 1)、程序由模块构成 2)、模块包含语句 3)、语句包含表达式 4)、表达式建立并处理对象 一、使用内置类型 除非有内置类型无法提供的特殊对象需要处理,最好总是使用内置对象而不是使用自己的实现。 二、python的核心数据类型 对象类型     例子 常量/创建 数字        1234,3.1414,999L,3+4j,Decimal 字符串        'diege',"diege's" 列表        [1,[2,'three'],4] 字典        {'food':'spam','taste':'yum'} 元组(序列)    (1,‘span',4,'u') 文件        myfile=open('eggs'.'r') 其他类型    集合,类型,None,布尔型 还有模式对象,套接字对象等等。。其他的类型的对象都是通过导入或者使用模块来建立的。 由字符组成的字符串,由任意类型的元素组成的列表。这两种类型的不同之处在于,列表中的元素能够被修改,而字符串中的字符则不能被修改。换句话说,字符串的值是固定的,列表的值是可变的。元组的数据类型,它和列表比较相近,只是它的元素的值是固定的。列表和字典都可以嵌套,可以随需求扩展和删减。并能包含任意类型的对象。 Python中没有类型声明,运行的表达式,决定了建立和使用对象的类型。同等重要的是,一旦创建了一个对象。它就和操作结合绑定了--只可以对字符串进行字符串相关操作。对列表进行相关操作。Python是动态类型(它自动地跟踪你的类型而不是要求声明代码),但是它也是强类型语言(只能对一个对象性有效操作). 三、数字 整数,浮点,长整型等 支持一般的数学运算:+,- * % **(乘方) 5L,当需要有额外的精度时,自动将整型变化提升为长整型。 除表达式,python还有一些常用的数学模块和随机数模块 >>>import math >>> dir(math) >>> math.log(1) 0.0 >>> import random >>> dir(random) 四、字符串 1、是一个个单个字符的字符串的序列。 >>> s[1] 'i 第一个字符的序列是0 >>> s[0] 'd 通过字符找到索引编号 >>> S.index('a') 0 除了简单的从位置进行索引,序列也支持一种所谓分片的操作。 >>> s='diege' >>> s[1:3] 'ie'包括左边的位置不包括右边的位置 >>> s[:3] 'die' 开头到第三个(不包括第3个) >>> s[3:] 'ge' 第三个到最后(包括第3个) >>> s[:] 'diege' 所有 >>> s[-1] 'e' 倒数第1个 2、序列可以通过len()函数获取长度 >>> s='diege' >>> len(s) 5 可以根据序列定位字符串里的字符,序列从0开始 >>> s[0] 'd 可以使用反向索引 >>> s[-1] 'e' >>> s[len(s)-1]    'e'

    02

    30 分钟轻松搞定正则表达式基础

    提起正则表达式,可能大家的第一印象是:既强大好用但也晦涩难懂。正则表达式在文本处理中相当重要,各大编程语言中均有支持(跟 Linux 三剑客结合更是神兵利器)。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。(来自百度百科) 个人理解如下:某个大佬为了从字符串中匹配或找出符合特定规律(如手机号、身份证号)的子字符串,先定义了一些通用符号来表示字符串中各个类型的元素(如数字用 \d 表示),再将它们组合起来得到了一个模板(如:\d\d模板就是指代两个数字),拿这个模板去字符串中比对,找出符合该模板的子字符串。 由几个例子去进一步理解,比如现在有一个字符串为: 1.test是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它既可以匹配tester中的test,又可以匹配第二个test。正则表达式中的test就代表test这个单词本身。 2.\btest\b是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它只能匹配第二个test。因为\b具有特殊意义,指代的是单词的开头或结尾。故tester中的test就不符合该模式。 3.test\w*是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它匹配出了tester,也匹配出了第二个test。其中\w的意思是匹配字母数字下划线,表示的是数量,指有0个或多个\w。所以这个正则表达是的意思就是匹配开头为test,后续跟着0个及以上字母数字下划线的子字符串 4.test\w+是一个正则表达式,它的匹配情况:I am a tester, and My job is to test some software. 它只匹配了tester。因为+与不同,+的意思是1个或多个,所以该正则表达式匹配的是开头为test,后续跟着1个及以上字母数字下划线的字符串。 通过上述几个例子,应该可以看出正则表达式的工作方式,正则表达式由一般字符和元字符组成,一般字符就是例子中的‘test’,其指代的意思就是字符本身,t匹配的就是字母t;元字符就是例子中有特殊含义的字符,如\w, \b, *, +等。后续介绍一些基础的元字符。 元字符有很多,不同元字符有不同的作用,大致可以分为如下几类。 有些元字符专门用来指代字符串中的元素类型,常用的如下:

    02
    领券