首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第五章 正则表达式&字符处理

第五章 正则表达式&字符处理 5.1 正则表达式 5.1.1正则表达式概念 正则表达式即是规范字符书写格式,是使用特殊符号,实现文字、字符格式规定。...命令组合应用:tail -n +3 f1 | head -n 3 ---显示3-5行 2)grep抓取命令 grep命令可以文档中抓取显示包含指定字符行,在日常使用中比较常用。...AAA bbb 222 BBB 则每行文字中各空格数不同,在用cut时,是用第一个空格作为分隔符,第二个空格则被视为第二,一次类推,因此,在截取指定时十分不便。...6)awk命令 awk命令功能十分强大,可根据需要抓取、截取指定或行。...awk '/data/ {print $2}' f1 ---抓取包含指定字符行,再进行截取 awk '$4 ~ /data/ ' f1 ---抓取第4包含指定字符行 awk '$4

2.1K20

手把手教学:提取PDF各种表格文本数据(附代码)

来源:量化投资与机器学习(ID:Lhtz_Jqxx) 本文首发于量化投资与机器学习 还在为抓取各种PDF格式财务、数据报表而烦恼吗? 还在为自己手工操作导致效率低下而烦恼吗?...获取全部代码,见文末 关于PDFPlumbe PDFPlumb最适合提取电脑生成PDF,而不是扫描PDF。 它是在pdfminer和pdfmine.six基础设计。....extract_table() table[:3] 使用pandas将列表呈现为一个DataFrame,并在某些日期内删除多余空格。...案例二:PDF中提取图形数据 import pdfplumber report = pdfplumber.open(".....通过这样做,我们可以看到报表主体每一行都有相同宽度,并且每个字段都填充了空格(“”)字符。这意味着我们可以像解析标准固定宽度数据文件一样解析这些行。

3.2K50
您找到你想要的搜索结果了吗?
是的
没有找到

最全Excel 快捷键总结,告别鼠标!

F11:创建当前范围内数据图表。(重要) Ctrl组合键常用推荐 Ctrl+PgUp:在工作表选项卡之间左至右进行切换。(重要) Ctrl+PgDn:在工作表选项卡之间右至左进行切换。...最全Ctrl组合键整理 Ctrl+PgUp:在工作表选项卡之间左至右进行切换。 Ctrl+PgDn:在工作表选项卡之间右至左进行切换。...Ctrl+T显示“创建表”对话框。 Ctrl+U应用或取消下划线。 Ctrl+V在插入点处插入剪贴板内容,并替换任何所选内容。只有在剪切或复制了对象、文本或单元格内容之后,才能使用此快捷键。...第三次按 Ctrl+Shift+空格键可选择整个工作表。 当某个对象处于选定状态时,按 Ctrl+Shift+空格键可选择工作表所有对象。...当菜单或子菜单处于可见状态时,End 也可选择菜单最后一个命令。 按 Ctrl+End 可移至工作表最后一个单元格,即所使用最下面一行与所使用最右边一交汇单元格。

7.2K60

cut 命令基本概念、进阶使用技巧和输出重定向符号使用方法

本文将介绍 cut 命令基本概念、进阶使用技巧和输出重定向符号使用方法。2. 基本概念cut 命令用于文件中剪切指定或字符,并将结果输出到屏幕。...它语法如下:cut [OPTIONS] [FILE]其中,OPTIONS 表示 cut 命令选项,例如 -d、-f 等,用于指定要剪切或字符;FILE 表示要进行处理文件名。...例如,假设我们有一个名为 sample.txt 文件,其中每行数据用空格分隔:Tom 20 MaleJerry 18 FemaleMary 21 Female要提取第一和第三内容,可以使用以下命令...例如,假设我们有一个名为 sample.txt 文件,其中每行数据用空格分隔:Tom 20 MaleJerry 18 FemaleMary 21 Female如果要排除第二并提取其余所有内容,可以使用以下命令...为了在处理文本数据时能够更加高效地进行后续分析和处理,我们还需要掌握输出重定向符号使用方法。输出重定向符号可以将程序或命令输出结果保存到文件中,而不是直接输出到屏幕

68310

Corel VideoStudio会声会影2023视频编辑软件

2023版本,特意为大家准备了会声会影2023徐号,你就可以免费使用!...zoneid=48266二.软件功能变形过渡:变换单个图像,形状或序列,并在场景之间进行剪切或过渡,并合并视频,以便没有可辨别的开头或结尾。...标题编辑器:用风格介绍和讲述你故事。在增强标题编辑器中创建具有动画,文本和图形精美标题。多相机视频编辑器:多个角度讲述您故事。...会声会影软件特性2023专业版:1.无缝转场:只需对齐相似的颜色或对象,即可在图像之间创建平滑而巧妙过渡效果。模板化过渡中选择即时结果,或深入深入并创建自定义无缝过渡。...轻松移动颜色,并在每种颜色基础提高饱和度和亮度,微调每个颜色开关HSL调谐,色调曲线,波形范围,查找表(LUT)配置文件等。2.动态分屏视频模板制作:屏幕是分屏视频限制。

1.4K00

生信人自我修养:Linux 命令速查手册(全文引用)

,当只有一个文件时,相当于显示所有文件内容 cat file1 file2 # 合并file1和file2内容,并在屏幕输出 cat R1.fq.gz R2.fq.gz # 可以合并gzip...cut - 剪切文件 cut -f 1 file # 剪切文件第1 cut -f 1,2 # 剪切文件第1,2 cut -f 3- # 剪切第3及之后所有 cut...-d ' ' -f 1 file # 剪切第1,但以空格作为之间分隔符。...# 默认按字典序对文件进行排序 sort -k2,2 -k3,3 file # 先按第2排序,第2相同,再按第3排序 sort -k2,2n file # 按第2排序,且第2是数字,...但是很多时候文件是 Windows 或 Mac 系统上传到 Linux 服务器,这可能导致文件格式不兼容,原因是不同平台生成文本文件换行符不一样。

3.9K40

生信人自我修养:Linux 命令速查手册

,当只有一个文件时,相当于显示所有文件内容 cat file1 file2 # 合并file1和file2内容,并在屏幕输出 cat R1.fq.gz R2.fq.gz # 可以合并gzip...cut - 剪切文件 cut -f 1 file # 剪切文件第1 cut -f 1,2 # 剪切文件第1,2 cut -f 3- # 剪切第3及之后所有 cut...-d ' ' -f 1 file # 剪切第1,但以空格作为之间分隔符。...# 默认按字典序对文件进行排序 sort -k2,2 -k3,3 file # 先按第2排序,第2相同,再按第3排序 sort -k2,2n file # 按第2排序,且第2是数字,...但是很多时候文件是 Windows 或 Mac 系统上传到 Linux 服务器,这可能导致文件格式不兼容,原因是不同平台生成文本文件换行符不一样。

7.3K21

Python处理PDF——PyMuPDF安装与使用

它以精确到像素几分之一内度量和间距呈现文本,以在屏幕再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。...特别有趣的当然是布局保存,它生成文本尽可能接近原始物理布局,周围有图像区域,或者在表格和多文本中复制文本。 2、安装 PyMuPDF可以源码安装,也可以wheels安装。...也可以内存数据打开文档,或创建PDF。您还可以将文档用作上下文管理器。 3....无格式、无文字位置详细信息、无图像- "blocks":生成文本块(段落)列表- "words":生成单词列表(不包含空格字符串)- "html":创建页面的完整视觉版本,包括任何图像。...此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。 b. 连接和拆分PDF文档 方法Document.insert_pdf()在不同pdf文档之间复制页面。

6.3K10

Python处理PDF——PyMuPDF安装与使用

它以精确到像素几分之一内度量和间距呈现文本,以在屏幕再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。...特别有趣的当然是布局保存,它生成文本尽可能接近原始物理布局,周围有图像区域,或者在表格和多文本中复制文本。 2、安装 PyMuPDF可以源码安装,也可以wheels安装。...也可以内存数据打开文档,或创建PDF。您还可以将文档用作上下文管理器。 3....无格式、无文字位置详细信息、无图像- "blocks":生成文本块(段落)列表- "words":生成单词列表(不包含空格字符串)- "html":创建页面的完整视觉版本,包括任何图像。...此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。 b. 连接和拆分PDF文档 方法Document.insert_pdf()在不同pdf文档之间复制页面。

7.2K30

kettle转换组件

在数据质量规范使用非常多,比如很多系统对应性别gender字段定义不同。 ? 4、增加常量就是在本身数据流里面添加一数据,该数据都是相同值。 ?...6、字段选择,是数据流中选择字段、改变名称、修改数据类型。 ? 可以选择要移除字段。 ? 可以选择要改变元数据信息。 ?...7、计算器是一个函数集合来创建字段,还可以设置字段是否移除(临时字段)。 ? 8、剪切字符串,是指定输入流字段裁剪位置剪切出新字段。 ?...9、字符串替换,是指定搜索内容和替换内容,如果输入流字段匹配上搜索内容就进行替换生成新字段。 ? 10、字符串操作是去除字符串两端空格和大小写切换,并生成新字段。 ?...15、拆分为多行就是把指定分隔符字段进行拆分为多行。 ? 16、转行就是如果数据一有相同值,按照指定字段,把多行数据转换为一行数据。去除一些原来列名,把一数据变为字段。

1.9K20

vim安装到熟练,这篇文章就够了

表示对于以一个空格和xyz开头行执行normal模式下dd命令。 关于range规定为: 如果不指定range,则表示当前行。 m,n: m行到n行。 0: 最开始一行(可能是这样)。...gJ 同 J ,不过合并后不留空格。...7.2 拼写检查 :set spell-开启拼写检查功能 :set nospell-关闭拼写检查功能 ]s-移到下一个拼写错误单词 [s-作用与一命令类似,但它是相反方向进行搜索 z=-...n ctrl+w _ -- 当前窗口高度设定为n行。 ctrl+w < --当前窗口减少一。也可以用n减少n。 ctrl+w > --当前窗口增宽一。也可以用n增宽n。...折叠 zf -- 创建折叠命令,可以在一个可视区域使用该命令; zd -- 删除当前行折叠; zD -- 删除当前行折叠; zfap -- 折叠光标所在段; zo -- 打开折叠文本

4.6K10

2023最全vim编辑器教程(详细、完整)-编辑器之神

/键盘ctrl+f,向下翻屏 语法7:数字G //键盘输入数字+字母G,光标移动到指定行(数字对应行数) 语法8:数字+键盘方向键/下 //键盘输入数字+键盘方向键/下,光标以光标所在行为准向上/...,光标所在行下面行会上移填补剪切行 语法2:数字dd //键盘输入数字+字母dd,光标所在行起向下剪切指定行(数字对应行数,包括了光标所在行),后面行会上移填补剪切部分 语法3:D //键盘输入字母...D,剪切光标所在行但后面行不会上移填补剪切行,剪切行变空 删除语法:删除即剪切后不复制,删除操作使用剪切语法 4.撤销与恢复 撤销语法::u //键盘输入符号:和字母u再回车(属于末行模式),撤销一步操作...+空格+文件名再回车,切换到其他打开文件进行操作 语法3::bn //键盘输入英文符号:+字母bn再回车,切换到下一个打开文件 语法4::bp //键盘输入英文符号:+字母bn再回车,切换到上一个操作文件...)来执行自己创建指令,这就是别名机制;在映射文件中按特定格式加入自己指令即可执行自己创建指令; 上图中, vim打开.baserc文件,找到上图内容处可按格式加入自己创建指令,如最后一行是我加

2.2K50

Python高阶项目(转发请告知)

在这里,我将下载一个音频文件,就像我们网络抓取数据一样: 安装Pydub 就像Python Pydub中所有其他模块一样,也可以使用简单命令–pip install pydub轻松安装。...在这里,我将下载一个音频文件,就像我们网络抓取数据一样: 加载音频后,现在我们可以执行各种类型音频处理,让我们从重复音频文件一些必要步骤开始: 上面我们只是简单地重复了音频,现在让我们划分并混合不同等级音频片段...我将基于坐立不安微调器创建一个非常简单游戏。游戏逻辑是,按空格键时转弯数将保持增加,并且转弯速度将降低,并在您停止按空格键时停止。 (因此上传不了视频。请关注我公众号:CoXie带你学编程。...我将使用该库逐页拆分pdf文件,然后阅读每页文本,然后将文本发送到使用Python创建有声读物过程下一步。 pyttsx3库,能够重新将文本转换为语音。...,估计,我将创建一个新函数: 首先,我将创建一个列出pdf文件和一个Docx文件列表,因为这两种类型是最常用pdf文件类型: 我们终于可以PDF文件中提取文本了。

4.3K10

Python 处理 PDF —— PyMuPDF 安装与使用!

它以精确到像素几分之一内度量和间距呈现文本,以在屏幕再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。...脚本fitzcliy .py通过子命令“gettext”提供不同格式文本提取。特别有趣的当然是布局保存,它生成文本尽可能接近原始物理布局,周围有图像区域,或者在表格和多文本中复制文本。...打开文档 doc = fitz.open(filename) 这将创建Document对象doc。文件名必须是一个已经存在文件python字符串。 也可以内存数据打开文档,或创建PDF。...无格式、无文字位置详细信息、无图像 "blocks":生成文本块(段落)列表 "words":生成单词列表(不包含空格字符串) "html":创建页面的完整视觉版本,包括任何图像。...此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。 b. 连接和拆分PDF文档 方法Document.insert_pdf()在不同pdf文档之间复制页面。

1.9K10

Python处理PDF——PyMuPDF安装与使用!

它以精确到像素几分之一内度量和间距呈现文本,以在屏幕再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。...特别有趣的当然是布局保存,它生成文本尽可能接近原始物理布局,周围有图像区域,或者在表格和多文本中复制文本。 2、安装 PyMuPDF可以源码安装,也可以wheels安装。...打开文档 doc = fitz.open(filename) 这将创建Document对象doc。文件名必须是一个已经存在文件python字符串。也可以内存数据打开文档,或创建PDF。...无格式、无文字位置详细信息、无图像- "blocks":生成文本块(段落)列表- "words":生成单词列表(不包含空格字符串)- "html":创建页面的完整视觉版本,包括任何图像。...此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。 b. 连接和拆分PDF文档 方法Document.insert_pdf()在不同pdf文档之间复制页面。

3.9K10

Linux学习笔记之vim操作指令大全

: 第num行开始; vim +/string file: 打开file,并将光标停留在第一个找到string。...h或退格: 左移一个字符; l或空格: 右移一个字符; j: 下移一行; k: 移一行; gj: 移动到一段内下一行; gk: 移动到一段内一行; +或Enter: 把光标移至下一行第一个非空白字符...表示对于以一个空格和xyz开头行执行normal模式下dd命令。 关于range规定为: 如果不指定range,则表示当前行。 m,n: m行到n行。 0: 最开始一行(可能是这样)。...8.2 拼写检查 :set spell-开启拼写检查功能 :set nospell-关闭拼写检查功能 ]s-移到下一个拼写错误单词 [s-作用与一命令类似,但它是相反方向进行搜索 z=-显示一个有关拼写错误单词列表...13.9 折叠 zf – 创建折叠命令,可以在一个可视区域使用该命令; zd – 删除当前行折叠; zD – 删除当前行折叠; zfap – 折叠光标所在段; zo – 打开折叠文本; zc

2.7K20

Python 处理 PDF 神器 -- PyMuPDF

它以精确到像素几分之一内度量和间距呈现文本,以在屏幕再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。...脚本fitzcliy .py通过子命令“gettext”提供不同格式文本提取。特别有趣的当然是布局保存,它生成文本尽可能接近原始物理布局,周围有图像区域,或者在表格和多文本中复制文本。...打开文档 doc = fitz.open(filename) 这将创建Document对象doc。文件名必须是一个已经存在文件python字符串。 也可以内存数据打开文档,或创建PDF。...无格式、无文字位置详细信息、无图像 "blocks":生成文本块(段落)列表 "words":生成单词列表(不包含空格字符串) "html":创建页面的完整视觉版本,包括任何图像。...此外,页面本身可以通过一系列方法进行修改(例如页面旋转、注释和链接维护、文本和图像插入)。 b. 连接和拆分PDF文档 方法Document.insert_pdf()在不同pdf文档之间复制页面。

3.1K31

带有实际示例Linux Cut命令

cut命令用于Linux和Unix系统中,文件每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。...剪切选项: -f:通过指定字段进行提取。cut命令使用“ TAB”作为默认字段分隔符。 -d:'Tab'是默认分隔符,使用此选项可以使用特定分隔符。 -b:通过指定一个字节来提取。...在下面的示例中,我们使用空格(“”)作为分隔符,并从名为'content.txt'文件中删除了第一个字段。...要将第二个字符提取到最后一个字符: $ cut -c2- content.txt buntu Linux icrosoft Windows sX El Capitan nix reeBSD 要从第一个字符到第四个字符提取...可以通过管道传递一个或多个过滤器以进行其他文本处理。 cut命令局限性之一是它不支持指定多个字符作为分隔符。多个空格会被计为多个字段分隔符,必须在剪切前使用tr命令才能获得所需输出。

3.5K20
领券