我有一个URL列表,我必须从每个URL中提取链接,并为每个链接提取该链接的类型(表单,跟踪码,同一网站上的另一个页面,外部网站等)。
我的问题是:您认为这在Python库中可行吗?如果是,你能给我一个起点吗?
致以问候。
发布于 2019-06-20 08:39:17
为了正确地抓取页面,
如果您还不熟悉使用https://automatetheboringstuff.com/chapter11/进行网络抓取,我强烈推荐这本在线书籍:
#程序打开提供的多个顶级谷歌搜索结果页面以及谷歌页面导入sys、webbrowser、bs4、请求if len(sys.argv) > 1: number_of_pages = int(sys.argv1) if len(sys.argv) > 2: search = "/search?q="+'+'.join(sys.argv2:) else: search="“webbrowser.open("https://www.google.com"+search) google_result_page = requests.get("https://www.google.com"+search) google_soup = bs4.BeautifulSoup(google_result_page.text) elems = google_soup.select(".r a”“) number_of_pages = min(number_of_pages,len(elems))代表范围内的i(Number_of_pages):webbrowser.open("http://www.google.com"+elems[i].get('href'))
https://stackoverflow.com/questions/56677119
复制相似问题