首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >生成web查询列表

生成web查询列表
EN

Stack Overflow用户
提问于 2014-09-30 10:29:52
回答 1查看 29关注 0票数 0

我在这方面是个新手,我正在尝试找出一种自动查找网站列表的方法。我有一个非常大的公司列表,基本上我想让算法在Google中输入公司,单击第一个链接(最有可能是公司网站),并找出公司是否与目标行业(冰激凌分销商)匹配或与行业有关。我想要检查的方法是查看主页是否包含给定字典中的任何关键字(比方说,‘巧克力,香草,冰激凌等’)。如果能帮上忙我会很感激的--非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2014-09-30 12:08:35

我建议结合使用request和lxml。要实现这一点,您可以执行类似的操作。从lxml.cssselect导入请求从lxml导入CSSSelector

使用requestsgrequests从所有页面获取html。

代码语言:javascript
运行
复制
queries = ['cats', 'dogs']
queries = [requests.get(x) for x in queries]
data = [x.text for x in queries]

使用lxml解析html并提取每个页面上的第一个链接。

代码语言:javascript
运行
复制
data = [html.document_fromstring(x) for x in data]
sel = CSSSelector('h3.r a')
links = [sel(x)[0] for x in data]

最后,从所有第一个结果中获取html。

代码语言:javascript
运行
复制
pages = [requests.get(a.attrib['href'] for a in links]

这将为您提供一个html字符串,每个您想要的页面。从那里你应该能够简单地在页面html中搜索你想要的单词。您可能会发现counter很有帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26111828

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档