首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Web抓取-如何提取URL中的链接类型?

Web抓取-如何提取URL中的链接类型?
EN

Stack Overflow用户
提问于 2019-06-20 07:24:36
回答 1查看 2.7K关注 0票数 0

我有一个URL列表,我必须从每个URL中提取链接,并为每个链接提取该链接的类型(表单,跟踪码,同一网站上的另一个页面,外部网站等)。

我的问题是:您认为这在Python库中可行吗?如果是,你能给我一个起点吗?

致以问候。

EN

回答 1

Stack Overflow用户

发布于 2019-06-20 08:39:17

为了正确地抓取页面,

  1. 如果您还不熟悉,您需要对不同的html和css标签以及它们的逻辑有一定程度的了解。

  1. 你需要对你要抓取的页面的DOM有一些了解,因为每个页面都有不同的结构。为此,请打开页面,点击F12 (如果使用Chrome),然后选择页面的任意部分,右键单击,然后选择inspect element。

  1. 一旦您对页面的结构有了一定的了解,您就可以使用get浏览器、请求和bs4 python库来获取您想要的内容。

如果您还不熟悉使用https://automatetheboringstuff.com/chapter11/进行网络抓取,我强烈推荐这本在线书籍:

  1. 一些示例代码,说明如何直接打开一些输入文本的谷歌热门搜索结果:

#程序打开提供的多个顶级谷歌搜索结果页面以及谷歌页面导入sys、webbrowser、bs4、请求if len(sys.argv) > 1: number_of_pages = int(sys.argv1) if len(sys.argv) > 2: search = "/search?q="+'+'.join(sys.argv2:) else: search="“webbrowser.open("https://www.google.com"+search) google_result_page = requests.get("https://www.google.com"+search) google_soup = bs4.BeautifulSoup(google_result_page.text) elems = google_soup.select(".r a”“) number_of_pages = min(number_of_pages,len(elems))代表范围内的i(Number_of_pages):webbrowser.open("http://www.google.com"+elems[i].get('href'))

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56677119

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档