这是我试图抓取的链接作为一个例子:Livemint news 以下是尝试实现它的函数: t = []
try:
temp = []
data = bs.find_all(class_=['contentSec'])
# logging.info(data)
for i in data:
temp = temp + (i.find_all('p'))
for i in temp:
t.append(i.get_text())
except Exception as e:
pr
我正在使用jSoup爬行一个网站,以便从它显示的广告中获取信息。大多数广告包含共同的元素,但对一些人来说,它们是缺失的。我试图抓取所有的广告,虽然包括那些不共享共同元素的广告,但我正在努力。以下是我所掌握的基础知识:
Elements gene = doc.select("div.item");
for (Element c : gene) {
Elements monk1 = c.select("li.cool");
Elements monk2 = c.get
几个月前,我用jsoup抓取了所有的谷歌搜索结果,不包括广告。现在的工作正好相反,我需要从谷歌结果中获得所有的广告。问题是我在我的文档中找不到它们。
问题肯定是一个错误的标签...
Elements elements = doc.select("div[class=*What do i need to put here?*]");
for (Element link : elements) {
position++;
Elements tem
我正在尝试从https://www.ta.com/portfolio/business-services中使用scrapy抓取数据,但是响应为空。我正在寻找抓取href在div.tiles js-portfolio-tiles中使用代码response.css("div.tiles.js-portfolio-tiles a::attr(href)").extract()我认为这与之前出现的::before有关,但可能不是。如何解压这个文件?website HTML