问Web抓取-如何提取URL中的链接类型？
EN

Stack Overflow用户

提问于 2019-06-20 07:24:36

回答 1查看 2.7K关注 0票数 0

我有一个URL列表，我必须从每个URL中提取链接，并为每个链接提取该链接的类型(表单，跟踪码，同一网站上的另一个页面，外部网站等)。

我的问题是:您认为这在Python库中可行吗？如果是，你能给我一个起点吗？

致以问候。

python

web-scraping

回答 1

Stack Overflow用户

发布于 2019-06-20 08:39:17

为了正确地抓取页面，

如果您还不熟悉，您需要对不同的html和css标签以及它们的逻辑有一定程度的了解。

你需要对你要抓取的页面的DOM有一些了解，因为每个页面都有不同的结构。为此，请打开页面，点击F12 (如果使用Chrome)，然后选择页面的任意部分，右键单击，然后选择inspect element。

一旦您对页面的结构有了一定的了解，您就可以使用get浏览器、请求和bs4 python库来获取您想要的内容。

如果您还不熟悉使用https://automatetheboringstuff.com/chapter11/进行网络抓取，我强烈推荐这本在线书籍：

一些示例代码，说明如何直接打开一些输入文本的谷歌热门搜索结果：

#程序打开提供的多个顶级谷歌搜索结果页面以及谷歌页面导入sys、webbrowser、bs4、请求if len(sys.argv) > 1: number_of_pages = int(sys.argv1) if len(sys.argv) > 2: search = "/search?q="+'+'.join(sys.argv2:) else: search="“webbrowser.open("https://www.google.com"+search) google_result_page = requests.get("https://www.google.com"+search) google_soup = bs4.BeautifulSoup(google_result_page.text) elems = google_soup.select(".r a”“) number_of_pages = min(number_of_pages，len(elems))代表范围内的i(Number_of_pages)：webbrowser.open("http://www.google.com"+elems[i].get('href'))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56677119

复制

相似问题

问Web抓取-如何提取URL中的链接类型？
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web抓取-如何提取URL中的链接类型？EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Web抓取-如何提取URL中的链接类型？
EN