首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >从无限加载的新闻网站抓取标题

从无限加载的新闻网站抓取标题
EN

Stack Overflow用户
提问于 2020-12-02 07:56:55
回答 1查看 149关注 0票数 5

我想从这个网站上抓取头条新闻:https://www.marketwatch.com/latest-news?mod=top_nav

我需要加载更早的新闻,所以点击蓝色按钮“查看更多”是必要的。

我创建了这段代码,但没有运行:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from bs4 import BeautifulSoup
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
u = 'https://www.marketwatch.com/latest-news?mod=top_nav' #US Business


driver = webdriver.Chrome(executable_path=r"C:/chromedriver.exe")
driver.maximize_window()
driver.get(u)
time.sleep(10)
WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.CLASS_NAME,'close-btn'))).click()
time.sleep(10)

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
for i in range(3):
        element =WebDriverWait(driver, 20).until(EC.element_to_be_clickable((By.CSS_SELECTOR,'component.component--module.more-headlines div.group.group--buttons.cover > a.btn.btn--secondary.js--more-headlines)))
        driver.execute_script("arguments[0].scrollIntoView();", element)
        element.click()
        time.sleep(5)
        driver.execute_script("arguments[0].scrollIntoView();", element)

        print(f'click {i} done')
soup = BeautifulSoup(driver.page_source, 'html.parser')

driver.quit()

它返回以下错误:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
raise TimeoutException(message, screen, stacktrace)
selenium.common.exceptions.TimeoutException: Message:
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-12-09 06:18:48

像这样的东西会更可靠:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
for i in range(3):
  driver.execute_script('''
    document.querySelector('a.js--more-headlines').click()
  ''')
  time.sleep(1)

注意:当您从javascript单击时,不必滚动到视图中

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65104175

复制
相关文章
新闻抓取全面解析
本文全面解析了新闻抓取的个中门道,包括新闻抓取的好处和用例,以及如何使用Python创建新闻报道抓取工具。
用户7850017
2022/01/11
1.7K0
新闻抓取全面解析
如何使用Puppeteer进行新闻网站数据抓取和聚合
Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。
jackcode
2023/08/30
4590
如何使用Puppeteer进行新闻网站数据抓取和聚合
Python 系列文章 —— 新闻抓取
demo import newspaper # 词频统计库 import collections # numpy库 import numpy as np # 结巴分词 import jieba # 词云展示库 import wordcloud # 图像处理库 from PIL import Image # 图像展示库 import matplotlib.pyplot as plt # 获取文章 article = newspaper.Article('https://news.sina.com.cn/o/
玩转编程
2022/01/15
6250
使用Newspaper框架抓取新闻
推荐安装Python3版本:pip3 install newspaper3k (pip install newspaper是Python2版本)
SeanCheney
2019/01/28
1.3K0
使用Newspaper框架抓取新闻
小程序无限加载
企鹅号小编
2018/01/04
2.7K0
小程序无限加载
js滚动加载(无限加载)(转)
clientHeight比较好理解,是视窗的高度,就是我们在浏览器中所能看到内容的高度;
山河木马
2019/03/05
17.6K0
js滚动加载(无限加载)(转)
网站抓取频率是什么,如何提高网站抓取的频率?
网站抓取频率是什么,如何提高网站抓取的频率? 每天都有数以万计的URL被搜索引擎爬行、抓取。这些URL透过相互链接,构成了我们现存的互联网关系。它在SEO日常工作中,扮演着重要的角色,并且给网站优化,
开心分享
2020/08/06
1.6K0
网站抓取频率是什么,如何提高网站抓取的频率?
网站抓取频率是什么,如何提高网站抓取的频率? 每天都有数以万计的URL被搜索引擎爬行、抓取。这些URL透过相互链接,构成了我们现存的互联网关系。它在SEO日常工作中,扮演着重要的角色,并且给网站优化,
小唐同学.
2022/02/23
2.4K0
爬取腾讯新闻首页资讯标题
终于进入到我们的实战内容篇了,因为是第一篇,所以找一个简单的例子给大家介绍爬取的详细过程,这既是对基础篇知识的运用,也是增强大家往后学习的动力。
啃饼思录
2018/10/15
2.2K0
如何使用PYTHON抓取新闻文章
在本文中,我们将讨论如何使用Python抓取新闻报道。这可以使用方便的报纸包装来完成。
用户7466307
2020/09/14
2.4K0
如何使用PYTHON抓取新闻文章
[Java] Java多线程的探索 -获取新闻标题
最近研究了Java多线程的几种实现方式,写了这个项目用于练手。实现了通过多线程的方式获取人民日报的新闻标题(其实同时存了内容,但是我后续懒得处理了,毕竟这个项目的主题是多线程的实现)
泰坦HW
2020/07/22
8600
[Java] Java多线程的探索 -获取新闻标题
怎样来写网站标题
网站标题对于网站来说是非常重要的,不论对于网页,还是大连网站优化都很重要。那么,写网站标题需要注意哪些问题呢?我们就一起来了解一下吧!
大金SEO
2019/07/17
1.7K0
怎样来写网站标题
无限滚动加载最佳实践
无限滚动(Infinite scrolling),有时候被称为无尽滚动(endless scrolling),这种技术允许用户在大量内容上滚动,眼中看不到结束的地方。这种技术很简单,就是页面往下滚动的时候保持刷新。
疯狂的技术宅
2019/03/27
4.3K0
无限滚动加载最佳实践
javascript图片无限懒加载
知识点:for循环语句,DOM概念,元素获取,动态布局,基本算法,节点操作,JQ与JS的关系与区别,JS的重要性,如何学习JS。 html代码: <div id="box"><!--id="自定义的名称" 命名规范(见名知义:用有语义的英文单词)--> <ul><!--无序列表标签--> <!--img图片四要素:src width height alt(解释说明)--> <li></li> <li></li>
IT架构圈
2018/06/01
1.7K0
百度新闻热搜词及其对应新闻的抓取 原
转载请注明出处:Gaussic(一个致力于AI研究却不得不兼顾项目的研究生)。 代码已放到Github:Gaussic Github 1、关键词来源 百度新闻的首页显示了当前的热搜新闻词:
Gaussic
2018/08/17
1.5K0
百度新闻热搜词及其对应新闻的抓取
                                                                            原
让Typecho无限滚动加载的方法
据统计,据媒体报道,据各种经验之谈:用户不喜欢点击,更爱滚动!所以,之前挺流行的文章分页没有了,沿用了几百年的“下一页”也被无限load取代。瀑布流和Twitter更是推动了无限load的普及。
泽泽社长
2023/04/17
1.7K0
让Typecho无限滚动加载的方法
移动新闻网站,掌上移动新闻,移动新闻客户端,jQuery Mobile移动新闻网站,移动新闻网站demo,新闻阅读器开发
我们坐在地铁上,常常拿出手机查看新浪移动新闻,腾讯新闻,或者刷微信看新闻等等功能。你们有没有想过他们是如何实现的。移动互联网,越来越热闹了。
业余草
2019/01/21
5.3K0
移动新闻网站,掌上移动新闻,移动新闻客户端,jQuery Mobile移动新闻网站,移动新闻网站demo,新闻阅读器开发
「网站优化」网站优化宝典中的标题优化
一个搜索引擎在判断某个网站加权时,这个页面的标题则成为其中一个关键性,所以写好每个页面的标题。
大脸猫
2019/10/23
1.3K0
「网站优化」网站优化宝典中的标题优化
数据集 | 金融新闻标题数据集
该数据集包含从路透社抓取的金融版面头版新闻,数据包括标题、发布日期和文章的预览文本。每天的头条新闻反映了过去一年到两年间的美国经济和股市的大体情况。
数据科学人工智能
2022/03/30
5990
数据集 | 金融新闻标题数据集
网站建设标题栏下拉怎么设置 网站设置标题栏的作用
网站设置标题来可以吸引更多的访客,让访客清楚地知道网站中的各个信息都在哪一个板块当中。不仅能够提升访客的体验感,还能够让网站整体看上去更加的清楚整洁。那么网站建设标题栏下拉怎么设置?网站设置标题栏的话有哪些作用?接下来就带大家一一介绍一下。
用户8715145
2021/12/11
1.9K0

相似问题

从网站上抓取新闻标题的问题

110

从新闻网站上抓取新闻标题

14

无法从黑客新闻中抓取新闻标题

12

从rss抓取新闻网站

12

用BeautifulSoup从新闻网站主页中抓取新闻标题

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文