首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用python从html中更改captchas

如何使用python从html中更改captchas
EN

Stack Overflow用户
提问于 2018-02-17 22:03:28
回答 2查看 74关注 0票数 0

我一直在尝试使用条带()从HTML文件中获取文本,但这对我来说没有用,我不知道如何使用python从一个长的html页面中获取文本?

例:

代码语言:javascript
运行
复制
import urllib.request
import sys
with urllib.request.urlopen('http://ctf.slothparadise.com/walled_garden.php?name=BMX') as response:
    html= response.read()
    html = str(html)

而我需要得到的上限,以完成挑战,并得到关键,请帮助:D谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-02-17 22:19:12

您需要一个HTML,对于python,我强烈推荐美汤

美丽的Soup是一个Python库,用于从HTML和XML文件中提取数据。它与您最喜欢的解析器一起工作,提供导航、搜索和修改解析树的惯用方法。它通常可以节省程序员的工作时间或天数。

安装:

代码语言:javascript
运行
复制
pip install bs4

用法:

代码语言:javascript
运行
复制
from bs4 import BeautifulSoup

html_string = "<html><head><title>This is a title</title></head><body></body></html>"
soup = BeautifulSoup(html_string, 'html.parser')
print soup.title # => "This is a title"
票数 0
EN

Stack Overflow用户

发布于 2018-02-17 22:23:16

如前所述,我建议使用BeautifulSoup。但是,如果您想要快速修复解决方案,那么只需使用regex来查找captcha。

代码语言:javascript
运行
复制
import urllib.request
import sys
import re
with urllib.request.urlopen('http://ctf.slothparadise.com/walled_garden.php?
name=BMX') as response:
    html= response.read()
    html = str(html)
    #get the captcha
    print(re.findall(r'<pre>(.*?)</pre>', html))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48846379

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档