根据Scrapy的响应,我遇到了一个问题,在这个问题中,我试图使用他们的XPath选择的元素不存在。然而,当我在Google上查看同一个页面时,元素确实存在。
这个问题发生在使用LinkedIn高级搜索和获取结果页面之后的LinkedIn抓取上。我想刮掉结果容器中的链接。
例如:在搜索"John“的结果页面上,根据Google上的检查元素,应该有一个带有id=”结果-容器“的div元素。当我使用Scrapy response.xpath('//div@id="results-container'),时,没有返回选择器。
发布于 2015-07-09 05:40:30
您是否尝试在浏览器的私有会话窗口(有时称为匿名模式)中查找您提供的URL?
如果您这样做,您将看到您得到了LinkedIn的登记表。
正如alecxe在他的评论中所建议的,尝试使用XML (它是REST),您可以获得LinkedIn响应,您可以解析这些响应来收集所需的信息。
或者,您可以尝试使用Scrapy登录,并存储身份验证凭据并重复您的请求(但无论如何我还是会使用API )。
https://stackoverflow.com/questions/31300026
复制相似问题