我在这方面是个新手,我正在尝试找出一种自动查找网站列表的方法。我有一个非常大的公司列表,基本上我想让算法在Google中输入公司,单击第一个链接(最有可能是公司网站),并找出公司是否与目标行业(冰激凌分销商)匹配或与行业有关。我想要检查的方法是查看主页是否包含给定字典中的任何关键字(比方说,‘巧克力,香草,冰激凌等’)。如果能帮上忙我会很感激的--非常感谢。
发布于 2014-09-30 12:08:35
我建议结合使用request和lxml。要实现这一点,您可以执行类似的操作。从lxml.cssselect导入请求从lxml导入CSSSelector
使用requests
或grequests
从所有页面获取html。
queries = ['cats', 'dogs']
queries = [requests.get(x) for x in queries]
data = [x.text for x in queries]
使用lxml
解析html并提取每个页面上的第一个链接。
data = [html.document_fromstring(x) for x in data]
sel = CSSSelector('h3.r a')
links = [sel(x)[0] for x in data]
最后,从所有第一个结果中获取html。
pages = [requests.get(a.attrib['href'] for a in links]
这将为您提供一个html字符串,每个您想要的页面。从那里你应该能够简单地在页面html中搜索你想要的单词。您可能会发现counter
很有帮助。
https://stackoverflow.com/questions/26111828
复制相似问题