文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python和请求从嵌入在网页中的pdf中提取一些信息

问使用python和请求从嵌入在网页中的pdf中提取一些信息
EN

Stack Overflow用户

提问于 2022-03-04 14:37:21

回答 1查看 358关注 0票数 0

我正试图使用python和请求在一个嵌入到网页中的pdf中提取一些信息，而这正是我想要到达的那个句子“Sciences de la vie et de l‘’environnement”。

图像

下面是您编写的代码：

import time
import requests  
from bs4 import BeautifulSoup

# website to scrap
url = "https://fs.uit.ac.ma/avis-de-soutenance-dune-these-de-doctorat-mme-achachi-hind/"

with requests.session() as s:
    # get the url from requests get method
    html_content = s.get(url, verify=False)
    # Parse the html content
    soup = BeautifulSoup(html_content.content, "html.parser")
    url2 = soup.iframe["src"]
    html_doc = s.get(url2, verify=False).text
    print(html_doc)

这是一些什么打印(Html_doc)，

打印结果

在比较这两张照片时，我看不出最后一张图片里面是什么：

<div id="viewer" class="pdfViewer"></div>

在这一行里面是我想要的文字：

我想打的电话

python-requests

html-content-extraction

python

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-04 14:58:59

您可以手动访问PDF (https://fs.uit.ac.ma/wp-content/uploads/2022/02/AVIS-DE-SOUTENANCE-ACHACHI-HIND.pdf)。在iframe和请求中有网址。如果无法从源代码中获取url，则必须对请求进行抓取(例如。(用BrowserMob)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71352976

复制

相似问题

问使用python和请求从嵌入在网页中的pdf中提取一些信息
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python和请求从嵌入在网页中的pdf中提取一些信息EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python和请求从嵌入在网页中的pdf中提取一些信息
EN