首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从Dataframe列的逗号分隔字符串中提取数据库名和表名到两列

从Dataframe列的逗号分隔字符串中提取数据库名和表名到两列的方法如下:

  1. 首先,使用pandas库加载数据并创建一个Dataframe对象。
代码语言:txt
复制
import pandas as pd

# 创建Dataframe对象
df = pd.DataFrame({'column_name': ['database1.table1, database2.table2, database3.table3']})
  1. 接下来,使用apply方法和lambda函数来处理每个字符串,并将提取的数据库名和表名存储到新的列中。
代码语言:txt
复制
# 定义函数来提取数据库名和表名
def extract_names(row):
    names = row.split(',')  # 使用逗号分隔字符串
    db_names = []
    table_names = []
    for name in names:
        name_parts = name.strip().split('.')  # 使用点号分隔数据库名和表名
        if len(name_parts) == 2:
            db_names.append(name_parts[0])
            table_names.append(name_parts[1])
        else:
            db_names.append('')
            table_names.append('')
    return pd.Series({'database_name': ','.join(db_names), 'table_name': ','.join(table_names)})

# 应用函数到Dataframe的列中
df[['database_name', 'table_name']] = df['column_name'].apply(lambda x: extract_names(x))
  1. 最后,可以查看提取结果。
代码语言:txt
复制
print(df)

输出结果:

代码语言:txt
复制
                                     column_name  database_name        table_name
0  database1.table1, database2.table2, database3.table3  database1,database2,database3  table1,table2,table3

这样,我们成功从Dataframe列的逗号分隔字符串中提取了数据库名和表名,并将它们存储到了两个新的列中。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

干货:手把手教你用Python读写CSV、JSON、Excel及解析HTML

另外,你会学到如何HTML文件检索信息。...01 用Python读写CSV/TSV文件 CSVTSV是种特定文本格式:前者使用逗号分隔数据,后者使用\t符。这赋予它们可移植性,易于在不同平台上共享数据。 1....例如,range(0, 3)生成序列是0,1,2. 存储数据Excel文件也很简单。仅需调用.to_excel(...)方法,第一个参数传你要保存数据文件,第二个参数传工作名字。...工作簿中提取所有工作名字,并存入sheets变量。这里我们工作簿只有一个工作,所以sheets变量就等于'Sacramento'。...本技法会介绍如何网页获取数据。 1. 准备 要实践这个技巧,你要先装好pandasre模块。re是Python正则表达式模块,我们用它来清理列名。

8.3K20

Python与Excel协同应用初学者指南

为数据科学保存数据集最常用扩展是.csv.txt(作为制表符分隔文本文件),甚至是.xml。根据选择保存选项,数据集字段由制表符或逗号分隔,这将构成数据集“字段分隔符”。...了解文件扩展很重要,因为加载Excel存储数据时,Python库需要明确知道它是逗号分隔文件还是制表符分隔文件。...下面是一个如何使用此函数示例: 图4 pd.read_csv()函数有一个sep参数,充当此函数将考虑分隔逗号或制表符,默认情况下设置为逗号,但如果需要,可以指定另一个分隔符。...这种单元格中提取方法在本质上与通过索引位置NumPy数组Pandas数据框架中选择提取值非常相似。...可以使用Pandas包DataFrame()函数将工作值放入数据框架(DataFrame),然后使用所有数据框架函数分析处理数据: 图18 如果要指定标题索引,可以传递带有标题索引列表为

17.3K20

Day5:R语言课程(数据框、矩阵、列表取子集)

学习目标 演示如何现有的数据结构取子集,合并及创建新数据集。 导出数据图以供在R环境以外使用。...1.数据框 数据框(矩阵)有2个维度(行),要想从中提取部分特定数据,就需要指定“坐标”。向量一样,使用方括号,但是需要个索引。在方括号内,首先是行号,然后是号(二者用逗号分隔)。...metadata列表组件中提取celltypecelltype值仅选择最后5个值。 ---- 为列表组件命名有助于识别每个列表组件包含内容,也更容易列表组件中提取值。...random列表中提取向量 age第三个元素。 random列表数据框 metadata中提取基因型信息。 ---- 3.导出文件 到目前为止只修改了R数据; 文件保持不变。...要以逗号分隔格式(.csv)将矩阵导出为文件,可以使用write.csv函数。有个必需参数:要导出数据结构变量名称,以及要导出到路径和文件

17.5K30

2021年大数据Spark(三十二):SparkSQLExternal DataSource

例如,ParquetORC等柱状格式使子集中提取值变得更加容易。 基于行存储格式(如Avro)可有效地序列化存储提供存储优势数据。然而,这些优点通常以灵活性为代价。...,需要解析提取字段值。...2)、使用textFile加载数据,对每条JSON格式字符串数据,使用SparkSQL函数库functions自带get_json_obejct函数提取字段:id、type、publiccreated_at...MySQL数据通过JdbcRDD来读取,在SparkSQL模块中提供对应接口,提供三种方式读取数据:  方式一:单分区模式  方式二:多分区模式,可以设置名称,作为分区字段及值范围分区数目...RDBMS读取数据,需要设置连接数据库相关信息,基本属性选项如下: 演示代码如下: // 连接数据库三要素信息         val url: String = "jdbc:mysql://

2.3K20

学习小组day5笔记-R语言基础2

昨天刚好把“R数据、逻辑函数”这块儿空出来了,今天填进去✌今日份思维导图:图片实操过程1.给向量赋值&向量中提取元素x<- c(1,2,3) #常用向量写法,意为将x定义为由元素1,2,3组成向量...它以 DataFrame 形式导入数据。相关参数:file: 包含要导入 R 数据文件路径。header: 逻辑值。...sep: 字段分隔符dec: 文件中用于小数点字符。图片read.table,用于文本文件读取数据。它以表格形式返回数据。...X1 X21 A 12 B NA3 C NA4 D 35 E NAwrite.table(X,file = "yu.txt",sep = ",",quote=F)#分隔符改为逗号字符串不加双引号...X[x,y] #第x行第yX[x,] #第x行X[,y] #第yX[y] #也是第yX[a:b] #第a列到第bX[c(a,b)] #第a第bX$列名 #也可以提取(优秀写法,而且这个命令还优秀不用写括号地步

76210

python数据分析——数据选择运算

它们能够帮助我们海量数据中提取出有价值信息,并通过适当运算处理,得出有指导意义结论。 数据选择,是指在原始数据集中筛选出符合特定条件数据子集。这通常涉及对数据筛选、排序分组等操作。...关键技术:多维数组索引与一维数组索引相似,但索引语言更为自然,只需要使用[ ]运算符逗号分隔符即可,具体程序代码如下所示: arr = np.array([[1,2,3],[4,5,6]]) arr...数据获取 ①索引取值 使用单个值或序列,可以DataFrame索引出一个或多个。...类似于sqlon用法。可以不指定,默认以2中共同字段进行关联。 left_onright_on:个表里没有完全一致列名,但是有信息一致,需要指定以哪个字段作为主键。...代码输出结果如下所示: (3)使用“how”参数合并 关键技术:how参数指定如何确定结果包含哪些键。如果左或右中都没有出现组合键,则联接值将为NA。

12810

Python数据分析数据导入导出

前言 数据分析数据导入导出是数据分析流程至关重要个环节,它们直接影响数据分析准确性效率。在数据导入阶段,首先要确保数据来源可靠、格式统一,并且能够满足分析需求。...sep(可选,默认为逗号):指定csv文件数据分隔符。 delimiter(可选,默认为None):与sep参数功能相同,用于指定分隔符。...返回值:返回一个DataFrame对象,表示读取表格数据。 示例 导入(爬取)网络数据 在Python数据分析,除了可以导入文件和数据库数据,还有一类非常重要数据就是网络数据。...read_html()函数是pandas库一个功能,它可以用于HTML文件或URL读取表格数据并将其转换为DataFrame对象。...', errors='strict') 参数说明: path_or_buf:保存CSV文件路径或文件对象(文件、文件路径、文件描述符等) sep:指定数据字段之间分隔符,默认为逗号(,) na_rep

13610

Sqoop工具模块之sqoop-import 原

--hive-table :设置导入Hive时要使用。 --hive-drop-import-delims:导入Hive时,字符串字段删除\n、\r\01。...该方式将每个基于字符串表示形式记录写入分割文件,在各个行之间使用分隔符进行行列划分。分隔符可以是逗号、制表符或其他字符。...默认情况下,Sqoop将识别主键(如果存在)并将其用作拆分列。分割低值高值数据库检索,并且mapper任务在总范围大小均匀分量上进行操作。     ...--map-column-hive :指定SQL配置Hive类型映射。     Sqoop以 = 形式逗号分隔映射列表。     ...3.指定分隔符     如果数据库数据内容包含Hive缺省行分隔符(\n\r字符)或分隔符(\01字符)字符串字段,则使用Sqoop将数据导入Hive时会遇到问题。

5.6K20

Pandas必会方法汇总,建议收藏!

,还有时间序列等,比如:我们通过爬虫获取到了存储在数据库数据。...举例:按索引提取单行数值 df_inner.loc[3] 四、DataFrame选取重新组合数据方法 序号 方法 说明 1 df[val] DataFrame选取单列或一组;在特殊情况下比较便利...通过行标签选取单一值 举例:使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #冒号前后数字不再是索引标签名称,而是数据所在位置,0开始,前三行,前。...() 计算均值 20 .quantile() 计算分位数(01) 21 .isin() 用于判断矢量化集合成员资格,可用于过滤SeriesDataFrame数据子集 22 .unique(...默认分隔符为逗号 2 read_table 文件、URL、文件型对象中加载带分隔数据。

4.7K40

pandas.DataFrame.to_csv函数入门

其中,to_csv函数是pandas库中非常常用一个函数,用于将DataFrame对象数据保存为CSV(逗号分隔值)文件。...如果不指定,数据将被返回作为字符串。sep:指定保存CSV文件字段分隔符,默认为逗号(,)。na_rep:指定表示缺失值字符串,默认为空字符串。columns:选择要被保存。...文件,每个字段使用逗号进行分隔。...此外,不同国家和地区使用不同标准来定义CSV文件分隔符,使用默认逗号分隔符在不同环境可能不具备可移植性。...pandas.DataFrame.to_sql​​:该函数可以将DataFrame数据存储SQL数据库,支持各种常见数据库,如MySQL、PostgreSQL等。​​

57930

day5-数据结构

read.table二、向量1、变量变量分为标量(一个数字或字符串向量(多个数字或字符串)表格称为数据框2、赋值3、向量中提取元素注意不要忘记在【】前输入x三、数据框(表格显示)1、读取本地数据...header=0,3,意为将第0行第3行读取为列名,第1,2行被舍弃,第4行开始读取为数据。...(X,file = "yu.txt",sep = ",",quote=F)#分隔符改为逗号字符串不加双引号(默认格式带由双引号)变量保存与重新加载 save.image(file="bioinfoplanet.RData...X,y#第yXy #也是第yXa:b#第a列到第bXc(a,b)#第a第bX$列名#也可以提取(优秀写法,而且这个命令还优秀不用写括号地步,并且支持Tab自动补全哦,不过只能提取)...提取列作散点图: plot(iris$Sepal.Length,iris$Sepal.Width)5、脚本使用保存

13310

Python骚操作,提取pdf文件表格数据!

那么如何才能高效提取出pdf文件表格数据呢? Python提供了许多可用于pdf表格识别的库,如camelot、tabula、pdfplumber等。...在此基础上,我们详细介绍如何pdf文件中提取表格数据。...其中一种思路便是将提取列表视为一个字符串,结合Python正则表达式re模块进行字符串处理后,将其保存为以标准英文逗号分隔、可被Excel识别的csv格式文件,即进行如下操作: Python骚操作...DataFrame基本构造函数如下: DataFrame([data,index, columns]) 三个参数data、indexcolumns分别代表创建对象、行索引索引。...其中,table[1:]表示选定整个表格进行DataFrame对象创建,columns=table[0]表示将表格第一行元素作为变量,且不创建行索引。

7K10

Python pandas读取Excel文件

Sheet_name可以是字符串或整数,代表想要pandas读取工作。 header通常是一个整数,用于告诉要将工作哪一行用作数据框架标题。 names通常是可以用作标题名称列表。...usecols可以是整数、字符串或列表,用于指示pandas仅从Excel文件中提取某些。...header 如果由于某种原因,Excel工作数据不是第1行开始,你可以使用header告诉Panda“嘿,此数据标题在第X行”。示例Excel文件第四个工作第4行开始。...在没有特别指示情况下阅读该,pandas会认为我们数据没有列名。 图2:非标准标题,数据不是第1行开始 这并不好,数据框架需要一些清理。...CSV代表“逗号分隔值”,因此.CSV文件基本上是一个文本文件,其值由逗号分隔。这意味着还可以使用此方法将任何.txt文件读入Python。

4.4K40

统计师Python日记【第5天:Pandas,露手】

上一集开始学习了Pandas数据结构(SeriesDataFrame),以及DataFrame一些基本操作:改变索引、增加一、删除一、排序。 今天我将继续学习Pandas。...一、描述性统计 想拿一个简单数据试试手,翻到了一份我国2012-2015年季度GDP数据,如下表(单位:万亿), ? 想整理到DataFrame如何处理?...得到了一张非常清爽DataFrame数据。 现在我要对这张进行简单描述性统计: 1. 加总 .sum()是将数据纵向加总(每一加总) ?...数据透视 大家都用过excel数据透视,把行标签标签随意布局,pandas也可以这么实施,使用 .unstack() 即可: ? 四、数据导入导出 1....我多年统计师从业经验来看,学会了如何跳过行,也要学如何读取某些行,使用 nrows=n 可以指定要读取前n行,以数据 ? 为例: ? 2.

3K70

R||R语言基础(二)_数据结构

01向量 向量与标量 元素:指数字或者字符串(用chr表示)等,根据它可以区分个词:标量与向量。...2次 重复以上操作,最后x会被赋值为最后一次操作 向量中提取元素 1.根据元素位置 x<- 1:10 #1-10之间所有的整数 x[4] #x第4个元素 x[-4] #排除法,除了第4个元素之外剩余元素...,如read.table默认分隔符是空格,而read.csv默认分隔符是逗号 read.table()函数可以将1个或多个空格、tab制表符、换行符或回车符作为分隔符 4)quote 用于对有特殊字符字符串划定接线字符串...5)dec 用于指明数据文件中小数小数点 6)row.names 保存行向量 以向量形式给出每行,或读取包含行名称序号 df <- read.csv('example.csv',...X[x,y] #第x行第y X[x,] #第x行 X[,y] #第y X[y] #第y X[a:b] #第a列到第b X[c(a,b)] #第a第b X$列名 #提取 报错 我在使用

1.6K20

Pandas必会方法汇总,数据分析必备!

,我们数据除了数值之外,还有字符串,还有时间序列等,比如:我们通过爬虫获取到了存储在数据库数据。...举例:按索引提取单行数值 df_inner.loc[3] 四、DataFrame选取重新组合数据方法 序号 方法 说明 1 df[val] DataFrame选取单列或一组;在特殊情况下比较便利...[:3,:2] #冒号前后数字不再是索引标签名称,而是数据所在位置,0开始,前三行,前。...() 计算均值 20 .quantile() 计算分位数(01) 21 .isin() 用于判断矢量化集合成员资格,可用于过滤SeriesDataFrame数据子集 22 .unique(...默认分隔符为逗号 2 read_table 文件、URL、文件型对象中加载带分隔数据。

5.9K20

Day——5 数据结构

使用sep =“,”来读取被逗号","分隔文件,使用sep =“\t”来读取制表符分隔文件 col.names 如果数据文件第一行不包含变量(header = FALSE),则可以使用col.names...如果数据中有五以上,则第六重新colClasses第一个numeric开始 quote 用于分隔包含特殊字符字符串字符。...处理大型文本文件时,设置stringsAsFactors = FALSE可以加快处理速度 text 指定要处理文本字符串字符串 comment.char 关闭注释 ************ (2)设置行列名...(3)数据框导出 write.table(X,file = "yu.txt",sep = ",",quote=F)#分隔符改为逗号字符串不加双引号(默认格式带由双引号) (4)变量保存与重新加载...X$列名#也可以提取(优秀写法,而且这个命令还优秀不用写括号地步,并且支持Tab自动补全哦,不过只能提取) (6)直接使用数据框变量 plot(iris$Sepal.Length,iris

16030

Pandas 25 式

~ 按行 用多个文件建立 DataFrame ~ 按 剪贴板创建 DataFrameDataFrame 分割为个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...操控缺失值 把字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与 重塑多重索引 Series 创建透视...第一步是只读取切实所需,这里需要指定 usecols 参数。 ? 只选择以后,DataFrame 对内存占用减少 13.7 KB。...把字符串分割为多 创建一个 DataFrame 示例。 ? 把姓名列分为姓与,用 str.split() 方法,按空格分割,并用 expand 关键字,生成一个新 DataFrame。 ?...年龄列有 1 位小数,票价列有 4 位小数,如何将这显示小数位数标准化? 用以下代码让这只显示 2 位小数。 ? 第一个参数是要设置选项名称,第二个参数是 Python 字符串格式。

8.4K00

python数据分析——数据分析数据导入导出

数据分析数据导入导出 前言 数据分析数据导入导出是数据分析流程至关重要个环节,它们直接影响数据分析准确性效率。...总之,数据分析数据导入导出是数据分析流程不可或缺个环节。它们不仅关系到数据分析准确性效率,还直接影响数据分析价值意义。...这种格式文件都可以用PythonPandas模块read_excel方法导入。read_excel方法返回结果是DataFrame, DataFrame对应着Excel。...read_csv方法sep参数表示要导入csv文件分隔符,默认值是半角逗号。encoding参数用来指定CSV文件编码,常用有utf-8gbk。...对于Pandas库to_excel()方法,有下列参数说明: sheet_name:字符串,默认值为"Sheet1",指包含DataFrame数据名称。

11410
领券