开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

用Python2.7从HTML字符串中提取文件名

从HTML字符串中提取文件名可以使用Python的正则表达式模块re来实现。下面是一个完善且全面的答案：

在Python 2.7中，可以使用正则表达式模块re来从HTML字符串中提取文件名。首先，需要导入re模块：

import re

然后，可以使用re模块的findall函数来匹配HTML字符串中的文件名。假设HTML字符串的格式为<a href="文件链接">文件名</a>，可以使用以下正则表达式来匹配文件名：

pattern = r'<a href=".*?">(.*?)</a>'

其中，.*?表示非贪婪匹配，(.*?)表示将匹配的文件名作为一个分组。

接下来，可以使用re模块的findall函数来提取所有匹配的文件名：

html_string = '<a href="file1.txt">File 1</a><a href="file2.txt">File 2</a>'
file_names = re.findall(pattern, html_string)

最后，可以打印提取到的文件名：

for file_name in file_names:
    print(file_name)

这样就可以从HTML字符串中提取出所有的文件名。

关于Python 2.7的更多信息，可以参考官方文档：Python 2.7 Documentation

关于正则表达式的更多信息，可以参考Python官方文档：re — Regular expression operations

如果你想了解更多关于腾讯云的产品和服务，可以访问腾讯云官方网站：腾讯云

相关搜索:用子字符串方法从html中提取文本用HTML字符串提取HTML表格-- Python / Beautiful Soup 从html字符串中提取数字用BeautifulSoup/Python从html文件中提取文本从字符串中的html标签中提取值？用bs4从HTML中提取特定值用BS4从HTML文件中提取整数从Python2.7中嵌套的json中提取字段(从json响应中)如何在PHP中从HTML字符串中提取数据从PowerShell中的文件名中提取数据如何从链接python中仅提取文件名从Pandas dataframe中按文件名提取列用xpath从html中提取列表，带换行符如何从Javascript中的文件名字符串中提取扩展名？在python中从excel文件名中提取日期如何从pandas中的文件名中提取标签对从HTML中提取的字符串进行切片 Qt Regexp从Html字符串中提取<p>标签尝试从HTML块中提取文本字符串用XPath表达式从HTML span元素中提取全文

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python输入输出（IO）[通俗易懂]

程序会有输入和输出，输入可以从标准输入或是从一个文件读入数据，程序的输出可以以一种友好可读的方式（human-readable）打印出来，或是写进一个文件，而标准输入和标准输出（键盘和显示器）在程序的角度也是文件，所以程序的输入输出就是文件读写。

02

Python操作小结(mysql、txt

有段时间没有使用python了，对它的语法有点生疏，花了几个小时熟悉，期间发现很多小细节不清楚。为了下次能快速上手，避免重复犯错，我将python使用过程中的一些问题在这篇博文中记录小结一下，主要内容涉及到python操作mysql数据库，python发送http请求，解析txt文本，解析JSON字符串，crontab执行python脚本，等等。（注：我用的是python2.7版本）

01

Django项目如何用富文本编辑器DjangoUeditor

Ueditor HTML编辑器是百度开源的在线HTML编辑器,功能非常强大，像表格可以直接拖动调整单元格大小等， DjangoUeditor是把此编辑器集成为可以在django项目中直接使用的app，让django项目可以方便的使用这个编辑器。

02

python学习总结一（快速入门）

新的一年了，对于去年的半年是在不满意，后半年是在没什么提高。新的一年当然有新的打算不能那么平行线的走了，要让自己坡度上升。新的一年当然有新的计划了，一直说学开发的自己耽误了那么久了，去年的事情拖到了现在。最终确定了学习python。好吧学习新东西当然有自己的总结了。看书吧，修炼吧。。提升自己了。

01

Python学习笔记整理(十三)Pyth

一、模块模块是Pyhon最高级别的程序组织单元，它将程序代码和数据封装起来以便重用。实际的角度，模块往往对应Python程序文件。每个文件都是一个模块，并且模块导入其他模块之后就可以使用导入模块定义的变量名。模块可以由两个语句和一个重要的内置函数进行处理。 import: 使客户端（导入者）以一个整体获取一个模块。 from:容许客户端从一个模块文件中获取特定的变量名。 reload:在不中止Python程序的情况下，提供了一个重新载入模块文件代码的方法。在一个模块文件的顶层定义的所有变量名都成为了被导入的模块对象的属性。模块至少有三个角色：代码重用：模块还是定义变量名的空间，被认作是属性。可以被多个外部的客户端应用。系统命名空间的划分：现实共享服务和数据： 1、python程序构架一个ptyhon程序包括了多个含有Python语句的文件。程序是作为一个主体的，顶层的文件来构造的，配合有零个或多个支持文件，在Python中这些文件称作模块。标准模块：python自带了200多个使用的模块、成为标准连接库 import如何工作执行三个步骤 1）、找到模块文件 2）、编译成位码（需要时） 3）、执行模块的代码来创建其所定义的对象。在之后导入相同的模块时候，会跳过这三个步骤，而只提取内存中已加载模块对象。搜索模块导入模块时，不带模块的后缀名，比如.py Python搜索模块的路径： 1)、程序的主目录 2)、PTYHONPATH目录（如果已经进行了设置） 3)、标准连接库目录（一般在/usr/local/lib/python2.X/） 4)、任何的.pth文件的内容（如果存在的话）.新功能，允许用户把有效果的目录添加到模块搜索路径中去 .pth后缀的文本文件中一行一行的地列出目录。这四个组建组合起来就变成了sys.path了， >>> import sys >>> sys.path 导入时，Python会自动由左到右搜索这个列表中每个目录。第1，第3元素是自动定义的，第2，第4可以用于扩展路径，从而包括自己的源码目录。 import b的形式可能加载源码文件b.py 字节码文件.pyc 目录b 编译扩展模块，比如linux的b.so 用C编写的编译好的内置模块，并通过静态连接至Python ZIP文件组件，导入时自动解压压缩。 java类型，在Jython版本的python中。 .NET组件，在IronPython版本中的Python中脚本中随处可见 object.attribute这里表达式法：多数对象都有一些可用的属性。可以通过"."运算符取出。有些是可调用的对象。例如，函数。第三方工具：distutils 第三方扩展，通常使用标准连接库中的distutils工具来自动安装。使用distutils的系统一般附带setup.py脚本命令空间是一种独立完备的变量包，而变量就是命名空间对象的属性。模块的命令空间包含了代码在模块文件顶层赋值的所有变量名（也就是没有嵌套与def和class语句中）二、模块代码编写基础 1、模块的创建和使用。创建模块后缀.py文本文件，模块顶层指定的所有变量名都会变成其属性。定义一个module.py模块 name='diege' age=18 def printer(x): print x 使用模块 import全部导入 >>> import module 属性 >>> module.name 'diege' 函数 >>> module.printer('hi') hi >>> module.printer('9') 9 from语句 from将获取（复制）模块特定变量名 from 模块名 import 需要复制的属性 from 模块名 import 需要复制的属性 as 新的属性名 from会把变量名赋值到另一个作用域，所以它就可以让我们直接在脚本中使用复制后的变量名，而不是通过模块 >>> from module import name >>> name 'diege >>> from module import name as myname >>> myname 'diege' >>> from module import printer as PR >>> PR('hi python') hi python >>> PR('99') 99 from * 语句 from 模块名 import * 取得模块顶层所有赋了值的变量名的拷贝。模块只导入一次，因为该操作开销大 import和from是赋值语句,是可执行

05

Python 简单沙盒绕过

题目中过滤了 h、'、"和(，最终目的是要给一个QQ bot发送自己的代码让它执行，执行成功就可以得到flag

01

Python黑帽编程1.3 Python运行时与包管理工具

Python黑帽编程1.3 Python运行时与包管理工具 0.1 本系列教程说明本系列教程，采用的大纲母本为《Understanding Network Hacks Attack and Defense with Python》一书，为了解决很多同学对英文书的恐惧，解决看书之后实战过程中遇到的问题而作。由于原书很多地方过于简略，笔者根据实际测试情况和最新的技术发展对内容做了大量的变更，当然最重要的是个人偏好。教程同时提供图文和视频教程两种方式，供不同喜好的同学选择。 0.2 前言前两节里，我们完成

自建 Anki 同步服务器遇到的坑

一直以来都想着拯救我的 broken English，好准备接下来的六级考试。前段时间在 V2EX 看到一位大神分享了一份实用的英语学习指导 https://github.com/byoungd/English-level-up-tips-for-Chinese，遂被种草。同时我也认识到了自己单词量的匮乏，想通过背单词的方式把基础的词汇攒起来。恰好教程提供了一份「麦克米伦7000高频词」的 Anki 牌组，便打算从这里开始。

01

Python的Distutils模块

Distutils可以用来在Python环境中构建和安装额外的模块。新的模块可以是纯Python的，也可以是用C/C++写的扩展模块，或者可以是Python包，包中包含了由C和Python编写的模块。

04

from bs4 import BeautifulSoup 报错

Python 2.7.14 (default, Sep 17 2017, 18:50:44) [GCC 7.2.0] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> from bs4 import BeautifulSoup Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/lib/python2.7/dist-packages/bs4/__init__.py", line 30, in <module> from .builder import builder_registry, ParserRejectedMarkup File "/usr/local/lib/python2.7/dist-packages/bs4/builder/__init__.py", line 311, in <module> from . import _html5lib File "/usr/local/lib/python2.7/dist-packages/bs4/builder/_html5lib.py", line 57, in <module> class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: 'module' object has no attribute '_base' >>>

01

几行代码抓取百度首页

python中源码位置(以urllib为例): python中自带的模块: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) python的第三方模块: /usr/local/lib/python2.7/site-packages/ 注意:关于urllib模块,python3中的导入方法为import urllib.request.方法名

01

通过PubTator进行PubMed文本挖掘

有许多可以从 PubMed 的文章摘要中提取信息的文本挖掘脚本，包括： NLTK ， TextBlob ， gensim ， spaCy ， IBM Whatson NLU ， PubTator ， LitVar ， NegBio ， OpenNLP 和 BioCreative 等¹。这里介绍一下 PubTator Central (PTC) ²。

02

Linux中的软链接、硬链接：都用在哪些场合？

最近，看到很多文章都在介绍 Linux 中的文件系统，其中就包括：inode 节点、软链接、硬链接等重要的概念。

07

ubuntu sublime text3

sudo add-apt-repository ppa:webupd8team/sublime-text-3 #添加sublime text 3的仓库

02

使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号

不知道大家过年都是怎么过的，反正栏主是在家睡了一天，醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码，想起之前练手的时候写过一个抓取百度贴吧发帖记录中的邮箱与手机号的爬虫，于是开源分享给大家学习与参考。

02

FastDFS客户端(Python版)指

最近做了一个分布式的项目用到了FastDFS，关于FastDFS这里就不阐述了，有兴趣了解的小伙伴，请到官网：http://bbs.chinaunix.net/forum-240-1.html。这里着重介绍FastDFS客户端(Python版)，此版客户端已经用于实际项目，目前运行稳定。项目托管于git，地址：https://github.com/cosysun/FastDFSClient_Python.git。

01

技术学习：Python（18）｜爬虫篇｜解析器BeautifulSoup4（一）

上一个章节，跟着老师博文学习lxml模块和Xpath，这一章节，从Python的解析器BeautifulSoup4来做解析。

02

独家 | 手把手教你如何用Python从PDF文件中导出数据（附链接）

有很多时候你会想用Python从PDF中提取数据，然后将其导出成其他格式。不幸的是，并没有多少Python包可以很好的执行这部分工作。在这篇贴子中，我们将探讨多个不同的Python包，并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案，你还是应该能够运用这里的技能开始上手。提取出想要的数据之后，我们还将研究如何将数据导出成其他格式。

03

Python爬虫库-Beautiful Soup的使用

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

03

关于Python病毒样本的分析方法

近年来，Python语言凭借其入门简单、功能强大和开发效率高等特性逐渐成为最受欢迎的开发语言，与此同时，Python在安全领域的应用也渐趋广泛，开始被用在黑客和渗透测试的各个领域。

01

Python爬虫库-BeautifulSoup的使用

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

03

Python爬虫库-BeautifulSoup的使用

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

00

委内瑞拉军方遭受Machete组织攻击

Machete是一个由西班牙语组织开发的网络间谍工具集，自2010年以来一直处于活动之中。该组织持续为其恶意软件开发新功能。他们长期攻击的重点在拉丁美洲国家，多年来一直收集目标国家情报并改进他们的攻击策略。近期研究人员发现了一项持续的，针对性很强的攻击活动，其中大多数目标都是军事组织。

02

Python 爬虫网页，解析工具lxml.html(一)

狭义上讲，爬虫只负责抓取，也就是下载网页。而实际上，爬虫还要负责从下载的网页中提取我们想要的数据，即对非结构化的数据（网页）进行解析提取出结构化的数据（有用数据）。比如，我们要抓取了一个新闻页面的网页（html）下来，但我们想要的是这个网页中关于新闻的结构化数据：新闻的标题、新闻的发布时间、新闻的正文等。

03

2018-12-3python笔记(2.

python的强大之处在于它有很多的模块和方法比如 string os sys 模块

03

一个小破网站，居然比 Python 官网还牛逼

前两天，我发现有个前同事写的 Shell 脚本经常在出问题，考虑这个脚本一直挺不稳定的，维护起来也挺头疼，原因是 Shell 脚本写稍微复杂一点的逻辑，代码就变得十分臃肿，对比 Python 真的太差劲了。

02

一个小破网站，居然比 Python 官网还牛逼

前两天，我发现有个前同事写的 Shell 脚本经常在出问题，考虑这个脚本一直挺不稳定的，维护起来也挺头疼，原因是 Shell 脚本写稍微复杂一点的逻辑，代码就变得十分臃肿，对比 Python 真的太差劲了。

02

一个小破网站，居然比 Python 官网还牛逼

前两天，我发现有个前同事写的 Shell 脚本经常在出问题，考虑这个脚本一直挺不稳定的，维护起来也挺头疼，原因是 Shell 脚本写稍微复杂一点的逻辑，代码就变得十分臃肿，对比 Python 真的太差劲了。

03

python module manage

python模块就是python的程序模块顶层文件模块文件1 模块文件2 可以将代码量较大的程序分割成多个有组织的、彼此独立但又能互相交互的代码片段，这些自我包含的有组织的代码段就是模块。模块在物理形式上表现为以.py结尾的代码文件。一个文件被看作一个独立的模块，一个模块也可以被看作是一个文件。模块的文件名就是模块的名字加上扩展名.py。每个模块都有自己的名称空间。 python允许“导入”其它模块以实现代码重用，从而也实现了将独立的代码文件组织成更大的程序系统。python中，模块也是对象；在一个模块顶层定义的所有变量都在被导入时成为了被导入模块的属性。 python的程序架构一个python程序通常包括一个顶层程序文件和其它的模块文件(0个、1个或多个) 顶层文件：包含了程序的主要控制流程模块文件：为顶层文件或其它模块提供各种功能性组件。模块首次导入(或重载)时，python会立即执行模块文件的顶层程序代码(不在函数内的代码)，而位于函数主体内的代码直到函数被调用后才会执行。python也自带了很多模块，可以使用help(module)查看，这些被称为python标准库文件。模块的执行环境模块是被导入的(import)，但模块也可以导入和使用其它模块，这些模块可以用python或其它编程语言写成。模块可内含变量、函数以及类来进行其工作，而函数和类可以包含变量和其它元素。建议：在顶层文件可以出现大量的控制流语句，而其它的被调用文件仅包含变量、函数及类，这样程序在执行时效率才会高。 python导入模块在导入模块时只能使用模块名，而不能使用带.py后缀的模块文件名 import语句：导入指定的整个模块，包括生成一个以模块名命名的名称空间 import module1[, module2[, ... moduleN ]] 建议一个import语句只导入一个模块 import module as module_alias from-import语句：常用于只导入指定模拟的部分属性至当前名称空间。 from module import name1[, name2[, ... nameN ]] 例：from random import choice,randint,random 建议：在顶层文件可以出现大量的控制流语句，而其它的被调用文件仅包含变量、函数及类，这样程序在执行时效率才会高。 import 和 from - import是赋值语句 import和from 是可执行语句，类似于def，因此，它们可以嵌套在if测试中，出现于def中等等 python执行到这些语句时才会对其进行解析，这意味着，所有来自模块的属性仅在import语句执行后才能使用。 import 和from 都是隐性赋值语句 import 将整个模块对象赋值给一个变量名；from将一个或多个变量名赋值给导入此模块的模块中的同名对象模块就是名称空间：模块的名称空间可以通过属性__dict__或dir(M)获取；模块属性可通过点号(.)运算符获取，格式为M.attr；模块是一个独立的作用域(本地变量就是全局变量) import的工作机制 import语句导入指定的模块时会执行三个步骤： (1) 找到模块文件：在指定的路径下搜索模块文件 (2) 编译成字节码：文件导入时就会编译，因此顶层文件的.pyc字节码文件在内部使用后会被丢弃，只有被导入的文件才会留下.pyc文件。 (3) 执行模块的代码来创建其所有定义的对象：模块文件中的所有语句会依次执行，从头至尾，而此步骤中任何对变量名的赋值运算，都会产生所得到的模块文件的属性。注意：模块只在第一次导入时才会执行如上步骤。后续的导入操作只不过是提取内存中已加载的模块对象。reload可用于重新加载模块。模块搜索： python解释器在import模块时必须先找到对应的模块文件程序的主目录；PYTHONPATH目录(如果设置了些变量)；标准链接库目录；任何.pth文件的内容(如果存在.pth文件) 这四个组件组合起来即为sys.path所包含的路径，而python会选择"在搜索路径中的第一个符合导入文件名"的文件。 import sys sys.path 返回一个路径列表，该路径列表是python解释器需要搜索的路径顺序列表

01

python day six

一、利用递归实现阶乘实例 #利用递归实现阶乘实例（实际就是函数调用函数） #实现 1*2*3*4*5*6*7*8*9 def func(num): if num == 1: return 1 return num * func(num - 1) a = func(9) print (a) #输出：362880 二、反射 #反射：（利用字符串的形式去对象（或模块）中操作（寻找/检查/删除/设置）成员。） ''' #例1: #如一个web框架的路由系统 #定义一个comm

02

我的python学习--第三天

2、后面跟上for循环，可以有多个for循环，也可以在for循环后面再加个if条件

01

常用Python标准库

众所周知，Python有庞大的库资源，有官方标准库以及第三方的扩展库。每个库都一把利器，能帮助我们快速处理某方面的问题。作为一名python的初学者，当把基本的语法、列表和元组、字典、迭代器、异常处理、I/O操作、抽象等知识点学完之后。我建议把官方常用的标准库也随便学下来。讲真的，你知道这些库之后，你会有种相见恨晚的感觉。

03

C/C++与Python双剑合璧

python作为一门动态语言，语法的灵活性和强大的模块支持使得开发效率大大提升，传统C/C++程序员可以借助python来实现业务逻辑来减少开发成本。而另一方面，python灵活的语言特性带来的代价是性能的降低，在一些密集计算型任务面前显得力不从心，但这个问题可以由C/C++来解决，将对性能要求较高的部分用C语言来实现即可，而且对于一些加密解密算法，还可以保持源码的私密性。而本文正是针对两者的双剑合璧，对C/C++与python相互调用的讲解。

02

python基础1

如果同时安装 python2.7 和python3.5 要在python3.5的安装路径下将python.exe改名

01

通用操作系统服务(四)、os模块

python中os.walk是一个简单易用的文件、目录遍历器，可以帮助我们高效的处理文件、目录方面的事情。os.walk的函数声明为:

01

Python快速学习第八天

本文内容全部出自《Python基础教程》第二版 10.1 模块现在你已经知道如何创建和执行自己的程序(或脚本)了，也学会了怎么用import从外部模块获取函数并且为自己的程序所用： >>> import math >>> math.sin(0) 0.0 让我们来看看怎样编写自己的模块。 10.1.1 模块是程序任何Python程序都可以作为模块导入。假设你写了一个代码清单10-1所示的程序，并且将它保存为hello.py文件(名字很重要)。代码清单10-1 一个简单的模块 # he

06

Python 获取当前路径的方法

模块搜索路径的字符串列表。由环境变量PYTHONPATH初始化得到。 sys.path[0]是调用Python解释器的当前脚本所在的目录。

01

[爬虫]scrapy框架

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

03

Python | Python学习之unicode和utf8

在很久很久以前，美国人发明了计算机，计算机只能处理数字也就是把文字转换为8个bit也就是一个字节，8个bit最大能表示的数字为255，而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个，所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号)，正好也满足了美国人的需求。

06

地平线初体验.下

我土狗了，一开始是使用的USB网络，话说我上次插线插错了，TX，RX，GND才对。。。

01

Window下安装Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。

01

一篇文章教小白会Python 绘制Android CPU和内存增长曲线

在做性能监控的时候，如果能把监控的CPU和内存增长变化用图表展示出来会比较直观，花了点时间用Python实现了下，来看下怎么用Python绘制Android CPU和内存变化曲线，生成增长曲线图表的PNG图片。

02

再探C/C++扩展Python

上篇博文是初用c/c++扩展Python，只是简单的举个例子，有兴趣的可以去上篇博文里看看那个例子的代码，代码如下：

03

Scrapy笔记零环境搭建与五大组件架构

环境搭建上参看官方说明文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html

03

HTML解析大法|牛逼的Beautiful Soup！

今天给大家来讲讲强大牛逼的HTML解析库---Beautiful Soup，面对html的解析毫无压力，有多强？下面给大家慢慢道来！

02

Python tips

0、Python Enhancement Proposal。（PEP，Python增强建议书）

02

Python sys模块的使用

sys模块是Python中的标准库，是与Python的解释器交互的库，可以通过sys来获取Python解释器的信息。

04

[922]python from future import unicode_literals的作用

① Python的每个新版本都会增加一些新的功能，或者对原来的功能作一些改动。有些改动是不兼容旧版本的，也就是在当前版本运行正常的代码，到下一个版本运行就可能不正常了

02

恶意软件分析101之文件类型与指纹识别

冰封三尺非一日之寒，本篇先交付恶意软件前置知识的文件类型与指纹识别，来帮助大家打基础。

02

简单的Python 使用（一）

Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭