我刚开始做,已经做了一两个星期了。我只是使用互联网来帮助我,但是现在我已经到了无法理解或者我的问题在其他地方找不到的地步。如果你不理解我的程序,我想要抓取数据,然后单击一个按钮,然后抓取数据,直到我抓取已经收集的数据。然后转到列表中的下一页。我找到了前8个数据,但是我找不到点击“查看更多!”的方法。按钮。我知道我应该使用Selenium和按钮的Xpath。不管怎样,下面是我的代码:
class KickstarterSpider(scrapy.Spider):
name = 'kickstarter'
allowed_domains = ['kickstarter.co
我使用SimpleHTMLDOM从其他网页抓取东西,但我有一个问题,如何才能在图像ancor标记内获得urls,因为该网页包含链接锚标记以及图像锚标记!但是我只想在图片锚标签的边上得到href的值!
<a href="I DO NOT NEED THIS VALUE"><a/>
<a href="I NEED THIS VALUE"><img src="xxxx"><a/>
但是当调用DOM时,它会返回所有的href URL,包括链接锚URL!我只需要在图像锚标签内的网址!
我使用这
我正在制作一个书签,这个书签可以抓取一个网页,并构造一个URL列表,这些URL是我想要播放的,而不是当前的网页。如何创建临时网页并在浏览器中查看?
到目前为止,这就是我所得到的:
var urls = myUrlScraper(window.location.pathname);
var tempPage = "<html>" + urls + "</html>";
window.location = tempPageUrl; // How to do this?
我有一个网络爬虫,抓取新闻故事在网页上。
我知道如何使用XpathSelector从页面中的元素中抓取某些信息。
但是,我似乎不知道如何存储刚刚爬行的页面的URL。
class spidey(CrawlSpider):
name = 'spidey'
start_urls = ['http://nytimes.com'] # urls from which the spider will start crawling
rules = [Rule(SgmlLinkExtractor(allow=[r'page/\d+']),
我尝试使用json格式的文件作为输入。下面是示例数据片段。
[
{
id: 1671349531,
name: "A Wild Restaurant Expansion",
blurb: "We are looking to expand from our current location to a new and better facility. One that will be available for our our followers!",
goal: 17000,
pledged: 0,
state: "live",
slug:
如果current_url已经在列表中,我会尝试跳过它,但会遇到一条错误消息。
我的目标是抓取一个页面,将该网页添加到文本文件中,然后当我重新开始抓取时,我希望将要抓取的网页与列表中的网页进行比较。当网页在中时,我想跳过它。
但是这个问题突然出现,它无法将current_url与列表进行比较:这段代码:
if cur_url in visited_urls:
完整代码:
打开文本文件
visited_urls = 'C:/webdrivers/visited_p_urls_test.txt' # This specific the location of the text fi
我有two表,我想要取得的是从Photos表中获取一个PhotoEmbed代码,这样我就可以使用它在网页上显示一张照片--每次重新加载网页时,它都会显示一张新的图片。但我不想继续展示同样的图片!我想显示一个新的图片,每个time...So,我已经设置了下面的表,但不知道如何运行一个查询来实际抓取SELECT PhotoEmbed FROM Photos WHERE **CURRENT UserID** FROM Seen WHERE Seen **IS NOT EQUAL TO 1**
如果Seen等于1,那么再次运行查询并找到一个新的PhotoEmbed代码。您是通过查询还是只使用selec
我试图从以下链接:中删除数据,但是在执行以下代码时:
import urllib
from bs4 import BeautifulSoup
import xml.etree.ElementTree as ET
url= "https://www.kickstarter.com/projects/298226251/subform-a-modern-tool-for-digital-product-designer"
html=urllib.urlopen(url).read()
soup=BeautifulSoup(html,"html.parser")