抓取包含广告信息的href_信息抓取的实现_Python Web抓取:在href中只读取那些包含"http“的值 - 腾讯云开发者社区

flash、actionscript、clicktag

我正在建设一个闪光横幅广告，其中包含了美国各州的下拉列表。一旦列表被点击，我想将状态代码传递到广告的url末尾。我曾经可以使用actionscript，但那是几年前的事了，我想知道是否有可能让广告从父<a href>抓取URL，然后将州代码添加到它上面。我想这就是clickTags的工作方式吧？ on (release) { if (clickTAG.substr(0,5) == "http:") { getURL(clickTAG, "_top"); } } 有没有人能就如何最好地做到这一点提供一些建议？我很好建立实际的广告，它

浏览 0提问于2010-11-16得票数 0

回答已采纳

1回答

在python中创建一个新的生成器实例

python、generator、yield-keyword

我试图刮一个页面，其中有许多链接的网页，其中包含广告。我目前正在做的导航它是转到第一页与广告列表，并获得个别广告的链接。在那之后，我会检查以确保我没有通过从数据库中提取数据来抓取任何链接。下面的代码基本上获取了所有的href属性，并将它们连接为一个列表。之后，我将它与我存储在数据库中的链接列表进行交叉检查，这些链接是我已经抓取的页面。所以基本上它会返回一个我还没有抓取的链接列表。 @staticmethod def _scrape_home_urls(driver): home_url_list = list(home_tab.find_element_by_tag_name('

浏览 9提问于2016-10-16得票数 0

4回答

点击javascript发送通知？

php、jquery、redirect、notifications、query-string

假设我有这段代码 <a href="www.yourdomain.com"><img src="http://www.image.com/image.jpg" /></a> 超级简单的代码。现在，假设我将此代码作为B事务提供给我的用户。他们可以把这段代码放在任何地方。他们的网站，他们购买的广告空间，等等，有什么javascript代码，我可以附加到它(或链接到一个php页面，并抓取引用，然后可能重发？)这样我就能得到某种通知了？所以当人们点击他的广告版本时，我会收到某种通知吗？所以如果我能做到 <a href=

浏览 7提问于2012-07-17得票数 1

回答已采纳

1回答

NodeJS Xray无法爬行到多个站点来抓取数据

javascript、node.js、web-scraping、x-ray

因此，我需要将房地产广告抓取到一个nidax.json文件中。我转到所有广告页面，并使用指向单个广告的链接来获取我需要的数据。我正在使用NodeJS的x射线刮板，但由于某些原因，它不能工作。有时它什么也不返回，有时只返回单个广告的链接。 var Xray = require('x-ray'); var x= Xray(); x('http://nidax-nekretnine.rs/nekretnine/','div.kutija-veca_dno > div.read-more` span ',[{ url: 'a@hr

浏览 0提问于2016-07-08得票数 0

2回答

在网页中加载更多内容，并发出写入文件的问题

python、python-2.7、csv、web-scraping、beautifulsoup

我正在进行一个网络抓取项目，它涉及到从一个基于搜索词的网站中抓取URL，将它们存储在一个CSV文件中(在一个列下)，最后从这些链接中抓取信息并将它们存储在一个文本文件中。我目前被困在两个问题。只有前几个链接被刮掉。我无法从其他网页提取链接(网站包含加载更多的按钮)。我不知道如何在代码中使用XHR对象。代码的后半部分只读取最后一个链接(存储在csv文件中)，抓取相应的信息并将其存储在文本文件中。它并不是从一开始就贯穿所有的环节。我无法找出在文件处理和f.seek(0)方面出错的地方。从pprint导入pprint导入csv从bs4 bs4 BeautifulSoup def ge

浏览 8提问于2017-07-19得票数 0

回答已采纳

1回答

Scrapy:如何检查之前抓取的页面是否已被删除？

python、database、csv、web-scraping、scrapy

我做了一个简单的抓取我所在城市房价广告的Scrapy爬虫。它收集以下数据:广告标题、价格和URL。然后输出CSV文件。每周我运行爬虫程序，我想让它将最新的CSV文件与之前的文件进行比较，以检查是否有广告被删除。如果有，我希望在CSV文件输出的最后一列中包含今天的日期。我不知道这是否可以用CSV文件来完成，或者这项工作是否需要一个数据库。我也不知道是否需要创建一个项目管道。这是我目前的爬虫代码。 import scrapy class ExampleSpider(scrapy.Spider): name = 'example' start_urls

浏览 9提问于2017-02-22得票数 2

回答已采纳

1回答

刮伤:跟随分页链接无法工作。

python、pagination、scrapy

设置我正在使用给出的示例来抓取住房广告。在我的情况下，我遵循链接到住房广告页，而不是作者页，并随后废弃住房广告页的信息。问题我的代码成功地遵循链接到住房广告网页和刮每一个广告的信息。但是，它只对初始页这样做，即它不遵循分页链接。代码到目前为止 class RoomsSpider(scrapy.Spider): name = 'rooms' start_urls = ['https://www.spareroom.co.uk/flatshare/london'] def parse(self, respon

浏览 0提问于2017-04-19得票数 0

回答已采纳

1回答

Webscraping -无法用R获取页面的全部内容

web-scraping、rvest

我试着在网上刮这个页面上的招聘广告：然而，我无法从个人招聘广告中获得信息。我尝试了rvest，xml2和V8，但是我是一个网络抓取的初学者，无法解决这个问题。该链接似乎不包含有关单个招聘广告的信息，因此使用xPath导航时不能正常工作。有谁知道怎么解决这个问题吗？谢谢:)

浏览 2提问于2020-08-17得票数 1

3回答

如何构建一个web爬虫来查找特定的广告，它位于由Javascript加载的iframe中。

javascript、iframe、web-crawler

我试图在网站上找到广告的所有实例。广告位于由javascript加载的iframe中(如果javascript被关闭，它根本不会出现)。检测广告本身是非常简单的，闪存文件的名称和href的目标总是包含一个特定的字符串。实现这一目标的最佳“起点”是什么？目前，我正在考虑一个Adobe应用程序，它可以抓取站点并检查DOM以查找广告，并运行javascript并加载iframe的内容。我能想到的另一个选择是使用火狐作为平台(可能使用GreaseMonkey或Selenium？)我不知道如何像这样利用Firefox )。有没有人知道有什么适合构建这个程序，或者对使用Firefox来做它有什么建议？

浏览 1提问于2010-02-26得票数 2

回答已采纳

2回答

当Rselenium返回错误"NoSuchElement“时继续循环搜索

我用Rselenium从网站上抓取广告中的“租金”信息。然而，似乎并不是每个广告都包含租金信息。因此，当我的循环运行到那些没有租金信息的人时，它将面临错误。'NoSuchElement‘和循环停止。我想： 1/在没有租金资料的情况下填写"NA“值；及 2/继续循环以抓取租金信息。我已经尝试过"tryCatch“函数，但是它似乎不起作用。R仍然抛出一个错误，即“错误:摘要: NoSuchElement详细信息:无法使用给定的搜索参数在页面上定位元素。进一步的详细信息:运行errorDetails方法”。我的代码在下面。我感谢你的时间和帮助。 #add url url

浏览 0提问于2019-03-10得票数 0

回答已采纳

1回答

使用mootools操作时，iframe内容会消失

javascript、iframe、mootools

我有一个第三方(mootools)库创建标签，我有谷歌双击出版商(dfp)创建广告。dfp在iframe中创建广告，然后tabs脚本抓取iframe的锚点并“搞乱”它来创建标签。iframe的内容会在此过程中丢失。我正在寻找一种方法来解决这个问题(尝试在加载选项卡后触发dfp内容，但随后google脚本崩溃)。 iframe来自与父窗口不同的域，因此任何试图对iframe中的元素执行操作的操作都将失败。 addTab: function(text, title, content) { var grab = $(content); var container = (grab |

浏览 0提问于2011-12-09得票数 6

回答已采纳

2回答

使用Beautiful soup抓取网站会因为网页中的广告而留出很多空白

python、web-scraping、beautifulsoup

这是我试图抓取的链接作为一个例子：Livemint news 以下是尝试实现它的函数： t = [] try: temp = [] data = bs.find_all(class_=['contentSec']) # logging.info(data) for i in data: temp = temp + (i.find_all('p')) for i in temp: t.append(i.get_text()) except Exception as e: pr

浏览 13提问于2019-03-07得票数 0

回答已采纳

1回答

抓取包含广告信息的href

python、selenium、web-scraping、beautifulsoup、selenium-chromedriver

我想数一下这个网站有多少个广告：https://www.lastampa.it/?refresh_ce 我正在使用BeautifulSoup来做这件事。我需要以下内容中的额外信息： <a id="aw0" target="_blank" href="https://googleads.g.doubleclick.net/pcs/click?xai=AKAOjssYz5VxTdwhxCBCrbtSi0dfGqGd25s7Ub6CCjsHLqd__OqfDKLyOWi6bKE3CL4XIJ0xDHy3ey-PGjm3_yVqTe0_IZ1g9AsvZ

浏览 24提问于2020-07-22得票数 0

回答已采纳

2回答

Python :使用regex将字符串替换为超链接

python、regex、pandas、replace、hyperlink

初学者的问题。我正在用BS4抓取住房广告，然后用Pandas分析后续的数据。我有一个包含几个列的DataFrame。这个问题只考虑其中一个列，看起来， district | ... | ---------------- A | ... | B | ... | C | ... | ... | ... | 我有一份与地区有关的链接清单。例如，对于A区，链接看起来像www.site.com/city/district-A/。我想替换列中的每个地区名称。"A")加上<a href="www.site.com/cit

浏览 1提问于2017-03-16得票数 3

回答已采纳

4回答

检索广告URL

python

我正在寻找一种方法来检索这个网站的广告网址。我想要做的可能是编写一个脚本来持续刷新页面并抓取广告URL。有什么建议吗？

浏览 2提问于2012-11-05得票数 0

1回答

在抓取器加载页面后更改AJAX链接？

ajax、seo

我正在构建一个AJAX应用程序，它动态地在内容中动画。由于所有链接都是hashtag，我想在Google之外的其他引擎上索引我的页面，我的想法是：在编写链接时，使用物理本地urls (即，href="/foo/bar.php")On页面加载，用hashtag替换所有链接，即，href="#foo/bar") ) 这样做的想法是，如果访问者是爬虫或禁用JS，内容将从/foo/bar.php加载。否则，它将加载通过AJAX，以便我可以动画它等。 Google和其他搜索引擎是否能够抓取我的页面，因为当他们读取链接时，他们会指向物理位置(或从db加载数据的php页面)

浏览 1提问于2012-03-29得票数 0

回答已采纳

0回答

Scrapy + Splash:抓取内部html中的元素

xpath、scrapy、scrapy-splash

我正在使用Scrapy + Splash抓取网页，并试图从google广告横幅和其他广告中提取数据，但我很难让scrapy跟随xpath进入它们。我使用google来渲染页面，以便加载他们的脚本和图像并截图，但似乎广告横幅是由JS脚本创建的，然后将其内容插入到网页中iframe中的新html文档中，如下所示： Splash确保呈现代码，这样我就不会遇到scrapy经常遇到的脚本问题--它读取脚本的内容，而不是生成的html --但我似乎找不到一种方法来指明访问所需元素节点所需的XPath (ad的href链接)。如果我在google中检查元素并复制它的xpath，它只会给我//*[@

浏览 11提问于2017-06-20得票数 1

回答已采纳

1回答

有没有一种(简单的)方法可以用Python计算网页中广告所占的百分比(物理)空间？

python、html、selenium、web-scraping

问题陈述是这样的:找出网页上广告的实际占有率。例如：假设我有一个URL，打开时有它的内容和3个广告-一个是图像广告，另外2个是‘图像和文本’广告。(我已经得到了许多这样的URL，广告数量不详)。我计算了基于bin类的广告数量，其中包含'ad‘或’赞助商‘，因此我知道它的页面上有3个广告。现在，我需要找出这些广告的占有率占整个网页的百分比，也就是说，所有三个广告加起来占据了页面的20%。我该怎么做呢？我知道元素在不同的浏览器中不会呈现相同的效果，实际上我并不关心这一点。我只需要一个粗略的百分比基于Chrome (或Firefox -任何东西都可以)。早在2013年，一个类似的问题就

浏览 0提问于2021-07-20得票数 1

1回答

木偶剧演员会加载广告吗？

node.js、web-scraping、puppeteer

我目前正在为一个网站建立一个网络刮板。然而，我有道德上的顾虑:这个网站提供免费的服务，他们通过广告赚钱。因此，让抓取的内容在没有广告的情况下可见会伤害我正在抓取的网站的经济性。puppeteer是否会像普通浏览器一样加载广告，从而为网站提供商带来收入？

浏览 22提问于2020-03-06得票数 0

回答已采纳

1回答

使用apache nutch对solr中的结构进行索引

json、apache、solr、web-crawler、nutch

在一个二手车销售商网站上有成千上万的汽车广告，这是一个典型的广告-> 如果我抓取所有这些广告页面，所有不同的汽车，我索引所有这些我不想要的无用文本，我想只抓取像这样的东西标题，描述，汽车里程，电源简历(Hp)，而不是整个页面，我使用nutch，因为它与solr有很好的集成，但nutch已经准备好抓取一切，在插件方面没有找到一个好的来解决我的问题。已经使用nutch-custom search不起作用。你知道如何解决我的问题吗?我只是想抓取特定网站的页面，以及页面的特定部分，并将其索引到solr 也许是另一个与solr集成良好的爬虫？ Ty

浏览 0提问于2016-08-02得票数 0

2回答

我如何从抓地者那里获得域名而不付费呢？

domains、domain-registrar、domain-grabbing

可能重复: 从域棚户区购买域一个域名抓取者注册了一个我想要的域名。他们在网站上做的只是展示广告。我如何在不支付他们勒索费的情况下获得域名？

浏览 0提问于2011-02-01得票数 4

回答已采纳

2回答

使用RVEST对<dl> <dt> <dd> html标记进行网络抓取

html、r、web-scraping、rvest

我正在尝试使用rvest从二手车广告中提取一些数据。但是，我无法使用html_nodes()函数抓取构成< dl >、< dt >或< dd > html标记的数据。更具体地说，我想在下面的数据框中抓取下面汽车广告的图像中的特征。有谁能帮帮我吗？谢谢!阿恩

浏览 2提问于2020-05-07得票数 0

1回答

抓取链接中的隐藏值

c#、web-scraping、html-agility-pack

我正在抓取一个网站的内容。我注意到我想要抓取的字段并不包含我需要的确切信息。用户需要单击它才能显示正确的值例如，在屏幕上，用户可以看到“发送电子邮件”。单击发送电子邮件后，它将更改为support@company.com。现在，我想刮掉"support@company.com“。一种有效的策略是解析链接的节点。我使用了string.IndexOf和string.Substring) <a href="#" onclick="displayEmail(this, 'support@company.com');......>Sen

浏览 2提问于2012-10-17得票数 0

2回答

如何通过两个函数-回调传递url

python、callback、scrapy、yield

设置我在用刮擦刮房屋广告:每一个住房广告我刮几个住房的特点。刮刮房屋的特性很好。问题除了房屋的特点，我想刮一个图像每广告。我有以下代码： class ApartmentSpider(scrapy.Spider): name = 'apartments' start_urls = [ 'http://www.jaap.nl/huurhuizen/noord+holland/groot-amsterdam/amsterdam' ] def parse(self, response): for href in resp

浏览 2提问于2017-06-13得票数 1

1回答

抓取在一个引号内包含href的链接

scrapy、web-crawler

我使用Scrapy抓取一些网站，我有问题的链接，href的有一个引号href=' '，而不是双引号href=" "。当我允许用allow()抓取所有链接时，结果将只包含由双引号组成的链接。我该如何克服这个问题呢？

浏览 1提问于2012-01-16得票数 0

1回答

Scrapy:直接从start解析一个变量的数据，在跟踪start中的所有href之后为其他变量解析数据？

python、web-scraping、scrapy、scrapy-shell

如何从start直接解析一个变量的数据，以及在跟踪start中的所有href之后为其他变量解析数据？我想抓取的网页上有一个包含“类别”、“标题”、“内容”、“作者”和“日期”数据的文章列表。为了抓取数据，我在start url上跟踪了所有的"href“，这些”href“重定向到整篇文章，并对数据进行了解析。但是，当某个文章从start url中的"href“打开/跟随时，”类别“数据并不总是可用的，因此它最终会丢失一些观察的数据。现在，我正试图从start url中直接抓取“类别”数据，它包含所有文章列表的“类别”数据(没有缺失的数据)。我应该如何解析“类别”数据？我应该如何处

浏览 13提问于2022-10-17得票数 -2

1回答

如何通过AdMob获取Custome广告？

admob

问题状况：我有一个临时广告，里面有支持折叠的文件。 .HTML .JS .CSS 通过AdMob仪表板上的房屋广告创建广告：执行步骤：.Successfully通过货币化和凸轮部分创建广告。.Checked预览广告和我的添加正在被抓取。.Copy应用程序ID和Ad单元ID 由于谷歌的广告宣传策略，这则广告被否决了。谁能建议，我需要做什么设置，以使我的广告获得批准。第二，如果没有，我们是否可以通过AdMob显示定制广告。注意：，这是我的测试应用程序。请有人对此提出建议。

浏览 1提问于2017-05-17得票数 0

4回答

php函数将结果保存在数组中

php、arrays、function

您好，我想创建返回数据的函数，例如，当我有广告函数时，我想让它每次显示我需要的内容，我有表id，sub_id，名称，日期，我想创建一个函数，每次我需要广告(Id)，广告(名称)，我想让它显示我需要的每一次，我想把我所有的结果保存在数组中，每次抓取我想要的行 <?php function advert($data){ $id = $_GET['id']; $query = mysql_query("SELECT *FROM advertisement WHERE id = $id"); while($row = mysql_

浏览 0提问于2013-03-25得票数 0

1回答

谷歌广告前/以上文章在Wordpress: SEO问题？

seo、google、wordpress、google-adsense、web-crawlers

在我的Wordpress文章/内容之前，我在single.php上设置了一个横幅。如果我们从SEO的角度来看，这会不会是个问题呢？这样Google就不能抓取我的文章或者因为这个广告而变得不那么好了？

浏览 0提问于2013-07-07得票数 2

回答已采纳

1回答

使用ImportXML拉取网址和锚点

xpath、web-scraping、google-sheets、google-sheets-importxml

我的目标是抓取一个包含单词“苹果”或单词“梨”的链接，对于每个抓取的链接，我需要抓取锚点。目前，我正在使用以下内容： =IMPORTXML(A1,"//a/@href[contains(., 'apple')]") 不幸的是，我只能抓取包含苹果的链接。仍然需要添加另一个条件-“梨”和刮锚。谢谢你的帮助。

浏览 19提问于2020-09-06得票数 2

回答已采纳

1回答

Java jSoup元素替换缺失的元素

java、replace、jsoup、element、elements

我正在使用jSoup爬行一个网站，以便从它显示的广告中获取信息。大多数广告包含共同的元素，但对一些人来说，它们是缺失的。我试图抓取所有的广告，虽然包括那些不共享共同元素的广告，但我正在努力。以下是我所掌握的基础知识： Elements gene = doc.select("div.item"); for (Element c : gene) { Elements monk1 = c.select("li.cool"); Elements monk2 = c.get

浏览 0提问于2015-05-18得票数 0

1回答

无法访问Google返回的安全文件的内容

javascript、iframe、cross-domain

我在adtech公司工作，当我试图访问由google adx返回的安全文件时，我遇到了问题。我需要得到一个href或img在安全范围内，以检查广告是否即将到来或似乎没有找到任何东西正在到来或没有广告被发送。当我尝试访问safeframe的内容时，会发现错误：- Uncaught :未能从‘HTMLIFrameElement’中读取'contentDocument‘属性:阻止具有原点"“的帧访问跨源帧。在这种情况下，我应该做些什么，因为如果没有广告或广告回来，这在商业意义上是很重要的。

浏览 4提问于2017-02-10得票数 1

回答已采纳

2回答

不能使用Xpath获取TD数据低于TH数据。

xpath、selenium

对于我的生活，我不明白为什么我不能抓住td文本低于th。我已经尝试过这个(‘//th(包含( text ()，"Text我需要的是后面的文本“)]’)，它确实抓取了它想要抓取的实际行，但是我试图抓取的是td/a下面的链接中的文本。附加(‘//th(包含(Text()，"Text我需要的文本在此之后“)]/td/a’)或仅(‘//th(包含(Text()，"Text需要的文本在此之后”)]/td’)没有找到任何匹配项。这是HTML <tr class=""> <th scope="row" style

浏览 7提问于2013-01-06得票数 0

回答已采纳

1回答

亚马逊是否提供任何API来获取产品列表，而不是广告API

amazon-product-api

我将开发亚马逊产品的产品价格比较应用程序。亚马逊是否提供任何API来获取产品列表，无论他们在自己的网站上显示什么。亚马逊提供的广告API的最低限度的数据，如产品名称和评论链接，详细页面链接。但我想把它们作为数据，而不是链接。是否有可用的API。像这样的例子(www.91mobiles.com)我想做。91mobile是否在抓取数据？

浏览 9提问于2017-02-16得票数 1

回答已采纳

1回答

Postgresql中的反向搜索

postgresql

我想知道Postgresql是否能够处理下面的usecase？我们有一个应用程序，可以从不同的平台抓取广告。用户可以使用关键字和其他过滤器属性(价格、位置等)添加搜索。当我们收到一个新的广告，我们希望找到与广告细节匹配的所有搜索。每次收到广告时，我都需要检查这些查询(搜索)中哪一个与广告对象匹配。这基本上是反向搜索。更新示例：我有这个searches table +----+-------------------+------------+----------+ | Id | keyword | startPrice | endPrice | +----+---

浏览 2提问于2018-10-02得票数 2

回答已采纳

1回答

如何在可点击的闪光灯横幅上使用谷歌分析_trackEvent？

javascript、flash、google-analytics、actionscript-2、event-tracking

目前，我在我的jpg横幅周围使用以下href标签来跟踪何时有人点击它们： <a href="#" onClick="_gaq.push(['_trackEvent', 'Banner Ads','Zwanger Pesiri', 'Skyscraper']);" target="_blank"></a> 我现在有一个Flash广告，我需要以同样的方式使用，但我对Actionscript或Javascript都不是很擅长。我的Flash横幅有以下Actionsc

浏览 6提问于2014-02-21得票数 1

1回答

使用jsoup来抓取google广告

java、web-scraping、jsoup、google-search

几个月前，我用jsoup抓取了所有的谷歌搜索结果，不包括广告。现在的工作正好相反，我需要从谷歌结果中获得所有的广告。问题是我在我的文档中找不到它们。问题肯定是一个错误的标签... Elements elements = doc.select("div[class=*What do i need to put here?*]"); for (Element link : elements) { position++; Elements tem

浏览 0提问于2016-06-07得票数 0

1回答

爬网完成后运行自定义代码(scrapy)

python、scrapy

我需要在抓取完成后测试所有抓取的数据(某些字段的可用性百分比等)。数据包含在csv文件中，因此为了测试，我决定使用Pandas。在scrapy告诉我爬行已经完成之后，有没有办法启动代码来测试Scrapy爬行器中的.csv文件？我尝试过使用扩展，但是不能让它工作。Thx class Spider(scrapy.Spider): name = 'scrapyspider' allowed_domains = ['www.example.com'] start_urls = ['https://www.example.com/1/

浏览 0提问于2019-01-17得票数 1

1回答

如何抓取用unicode伪装的href(例如\u003ca href=\)

python-3.x、web-scraping、beautifulsoup

我正在尝试抓取hrefs中包含的相对路径，但它们除了主要的汤拉之外并没有出现在任何地方。如果我尝试拉取特定的href或链接，我希望抓取的内容不会显示出来，但我知道它们就在那里。 \u003ca href=\"/model/ford-1200\" \u003ca href=\"/model/ford-1300\" \u003ca href=\"/model/ford-1400\" 有没有办法在页面上创建一个包含大约20个"u003ca href“的列表？我正在查找引用中的部分(例如/model/ford-1200、/model/ford-

浏览 33提问于2021-04-20得票数 0

1回答

抓取:网页下一步按钮使用WebForm_DoPostBackWithOptions()

python、asp.net、scrapy

我是个新手，正在尝试抓取此网页使用具有以下内容的href： href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("ctl00$Content$rptPaging$ctl02$lbPaging", "", true, "", "", false, true))" 数据是动态加载的。我正在尝试查找要加载的数据的源(API调用，如果有)，但找不到任何源。如何使用Scrapy导航到下一页并抓取数据。

浏览 3提问于2020-08-12得票数 1

1回答

将广告排除在社交分享缩略图选项之外

facebook、facebook-like、thumbnails、reddit

不久前，我注意到像Reddit、StumbleUpon和Facebook这样的社交链接网站经常会抓取在我的网站上运行的广告，作为共享页面的缩略图。显然，我不希望这种情况发生，所以我在标题中添加了一个默认的图像链接：<link rel="image_src" href="http://gapersblock.com/gfx/default_thumb.jpg"/> 问题半途而废。现在默认的图片是唯一的图片共享网站看到，是否有其他图片在页面上或没有。我希望读者能够从页面中选择其他图片，如果他们愿意的话。有什么代码我可以包装我们的广告调用代码，以“隐藏”它

浏览 2提问于2011-09-28得票数 2

1回答

从MySQL表中删除不同的链接

mysql

如何删除多行MySQL字段中的不同链接？我找不到这方面的查询。我对MySQL没有太多的经验，理想的解决方案应该是以某样东西开始，以某种东西结束。例如:在“广告”表上，我有一个名为“描述”的字段，其中包含广告描述文本。我有描述内的链接，我想删除他们的全部，但这些链接有不同的网址从广告到广告。我不想删除链接的文本，只想删除链接本身<a class="something" href="http://someurl.com">Link text</a>

浏览 4提问于2015-05-22得票数 0

回答已采纳

1回答

使用scrapy进行web抓取数据的难度

python、python-3.x、web-scraping、scrapy

我正在尝试从https://www.ta.com/portfolio/business-services中使用scrapy抓取数据，但是响应为空。我正在寻找抓取href在div.tiles js-portfolio-tiles中使用代码response.css("div.tiles.js-portfolio-tiles a::attr(href)").extract()我认为这与之前出现的::before有关，但可能不是。如何解压这个文件？website HTML

浏览 10提问于2020-01-17得票数 0

回答已采纳

1回答

在Python中使用Beautiful Soup抓取多个同名的div类

python、for-loop、web-scraping、beautifulsoup

我已经成功地抓取了一个网页的图像和标题(代码中的URL)。我想为这个页面上的所有电影做这件事。'movie_list‘包含了所有这些信息，但只抓取了第一个电影信息。我尝试将.find更改为.find_all，但结果显示错误。 url = 'https://5movies.to/movie/' content = session.get(url, verify=False).content soup = BeautifulSoup(content, "html.parser") movie_list = soup.find_all('div

浏览 27提问于2020-02-15得票数 0

回答已采纳

1回答

如何获取正确的广告urls？

python、web-scraping

我正在尝试抓取"Marktplaats"网站上广告的urls (链接如下)。如你所见，我正在寻找30个URL。这些URL放在'href'字段中，并且都以"/a/auto-s/"开头。不幸的是，我只得到了前几个URL。我发现在这个网站上所有的数据都在"<li class = "mp-Listing mp-Listing--list-item"> ... </li>"中。有谁知道怎么解决这个问题吗？(您可以看到，当您运行我的代码时，您不会找到广告的所有URL) 链接： https://www.

浏览 0提问于2019-09-17得票数 0

1回答

在哪里向谷歌申请更多"URL Fetch calls“配额

google-apps-script

我在Adwords脚本中使用URL fetch调用来抓取各种资源，大多数是我自己的网页。我发现自己受到20000个请求/24小时的配额的限制。。我可以在哪里申请更大的配额？我有相当大的广告帐户。我的客户经理和Adwords支持人员不知道答案，最后把我送到Adwords API支持团队。Adwords API支持把我送到了stackoverflow。感谢您的任何意见。

浏览 0提问于2017-03-29得票数 0

2回答

如何处理在页面加载后添加的脚本中的document.write？

javascript、html、dom

我处于需要动态添加广告脚本标记的情况下。广告本身只是一个简单的脚本标记，带有指向广告服务器的src属性。然后运行的实际代码是两个步骤的磨难：首先，有一个document.write()，如下所示： document.write("<iframe id='lctopti2017041855' src='about:blank' style='visibility: hidden;' onload=\"this.style.visibility='visible';\" style='bord

浏览 0提问于2012-12-08得票数 10

回答已采纳

4回答

用于抓取和挖掘网站的最佳开源库或应用程序

web-crawler、data-mining、extraction、text-extraction

我想知道什么是最好的电子开源库爬行和分析网站。一个例子是爬虫财产代理，我想要从许多网站抓取信息，并将它们聚合到我自己的网站中。为此，我需要抓取网站和提取物业广告。

浏览 0提问于2009-04-17得票数 3

回答已采纳

2回答

使用httr包中的Post()在R中捕获href

javascript、r、rvest、httr

目前，我正在尝试捕获在特定页面列出的不同事件的href。此页面的内容由JavaScript生成，有两个页面。抓取和处理第一个页面没什么大不了的，但我无法抓取第二个页面。我已经尝试使用httr中的post()方法，但是爬行的数据仍然是第一页中的内容。这是我的代码： library(rvest) library(tidyverse) library(stringr) library(httr) library(dplyr) res <- POST("http://www.pg-sanderau.de/aktuelles---termine/#page2", enco

浏览 2提问于2018-05-30得票数 0

1回答

将动态参数传递给Doubleclick上的自定义广告标签

ads、google-dfp

我有一个来自广告网络的广告标签，它的结构如下 <div class="ad_container"> <script type="text/javascript"> api_key = X; param1 = Y; param2 = Z; ... </script> <script src="path_to_ad_network_js" type="text/javascript"> </script> <div

浏览 0提问于2013-11-14得票数 3