首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Java爬虫(3)——拼接url抓取“加载更多内容

上期我们说到phantomjs可模拟点击按钮行为,通过点击完所有”加载更多”按钮来抓所有内容。...比如这个网页http://e.vnexpress.net/news/news 我们要抓取红线所标注的超链接,将url入库,点击“view more stories”会出现更多列表,然而有些网页是,点到所有隐藏内容都出现后...当从下至上获取的第一个url就与数据库中的url重复时,说明已经获取整张网页的所有内容,可停止模拟点击行为……“。...打开控制台的network模块, 点击“view more stories”按钮,出现以下网络请求,注意这个type为xhr的网络请求,这正是向后台请求更多列表项的。...cate_id=1003894&page=4 得到了13个列表项,但是点击加载更多按钮,新增的却是15个,也只是少了两个列表项,不怎么影响整体抓的效果,就采用此方式来抓了,拼到什么时候为止呢??

1.4K31

基于 Vue.js 的移动端组件库mint-ui实现无限滚动加载更多

通过多次爬坑,发现了这些监听滚动来加载更多的组件的共同点, 因为这些加载更多的方法是绑定在需要加载更多内容的元素上的, 所以是进入页面则直接触发一次,当监听到滚动事件之后,继续加载更多, 所以对于无限滚动加载不需要写首次载入列表的函数...item.commentCount}} vue.js...this.loading = false; } }, 这里重要的是判断,当当前页面为0的时候,即第一页的时候,不需要setTimeout定时器,直接请求加载...,当加载更多的时候可以加个定时器。...网上找到很多mint-ui 的loadmore组件来实现上拉加载更多,由于上拉触发相应的加载更多事件,所以当进入页面的时候应该不会自动载入数据,则这里可以加一个获取第一页数据的函数。

2.6K50

js爬虫,正则

大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看! 抓取目标 ?...今天我们的目标是上图红框部分,首先我们确定这部分内容不在网页源代码中,属于js加载的部分,点击翻页后也没有json数据传输! ?...但是发现有个js的请求,点击请求,是一行js函数代码,我们将其复制到json的视图查看器中,然后格式化一下,看看结果 ? ?...发现里面有可能存在我们需要的内容,比如url、title、intro这3个参数,猜测就是对应的新闻URL、标题、简介 ?...解码用了eval函数,内容为u“ + unicode编码内容 + “的形式即可解码! 这样,就取出了本页的所有新闻和URL的相关内容,在外层加上循环,即可抓取所有的新闻页,任务完成!

7.6K20

Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看! 抓取目标 ?...今天我们的目标是上图红框部分,首先我们确定这部分内容不在网页源代码中,属于js加载的部分,点击翻页后也没有json数据传输! ?...但是发现有个js的请求,点击请求,是一行js函数代码,我们将其复制到json的视图查看器中,然后格式化一下,看看结果 ? ?...解码用了eval函数,内容为u'unicode编码内容'的形式即可解码! 这样,就取出了本页的所有新闻和URL的相关内容,在外层加上循环,即可抓取所有的新闻页,任务完成! ?...后记 新浪新闻的页面js函数比较简单,可以直接抓到数据,如果是比较复杂的函数的话,就需要深入理解前端知识了,这也是为什么学爬虫,需要学习前端知识的原因!

3.5K10

Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看!...抓取目标 今天我们的目标是上图红框部分,首先我们确定这部分内容不在网页源代码中,属于js加载的部分,点击翻页后也没有json数据传输!...但是发现有个js的请求,点击请求,是一行js函数代码,我们将其复制到json的视图查看器中,然后格式化一下,看看结果 发现里面有可能存在我们需要的内容,比如url、title、intro这3个参数,...这样,就取出了本页的所有新闻和URL的相关内容,在外层加上循环,即可抓取所有的新闻页,任务完成!...后记 新浪新闻的页面js函数比较简单,可以直接抓到数据,如果是比较复杂的函数的话,就需要深入理解前端知识了,这也是为什么学爬虫,需要学习前端知识的原因!

3.7K20

python3 selenium + f

一、 分析: 抓取动态页面js加载的人民日报里面的新闻详情 https://wap.peopleapp.com/news/1 先打开,然后查看网页源码,发现是一堆js,并没有具体的每个新闻的url详情...,于是第一反应,肯定是js动态加载拼接的url。...然后点击具体的某一个新闻详情页面,查看url,把这个url的 后面两个数字其中一个拿到访问主页的时候,f12 抓包结果里面去查找,发现一个url,点击这个url,发现preview里面有好多数据,我第一反应...但这个抓到的url只加载了10条,我于是想改改里面的 show_num值,发现请求失败,仔细看这个url,有个securitykey 这个应该是js根据具体算法算出来的,看了一下那个拼接成url的js,...三、 python 脚本读取fiddler日志,对最新的url进行获取内容,提取id拼接成新的新闻详情url 准备工作: 我这里用的是python3 先pip3 install selenium 安装模块

94730

iOS新闻类App内容页技术探索

新闻资讯作为内容页的主体,逐渐增加了更多的文字样式、内容形式、富媒体、以及广告、投票等更为丰富的元素。 内容页需要更多扩展区域来提高使用时长及用户黏性。...加载速度: WKWebView通过JIT大幅优化了JS的执行速度,但是对于新闻类App内容页的使用场景来说,简单的进入、退出页面,且单纯的加载渲染HTML字符串,WKWebView比UIWebView慢了很多...扩展性: WKWebView具有更加丰富的接口、更多HTML和CSS的支持、以及更加友好的JS交互。同时Api的持续更新和社区的活跃,从长远使用的角度看有着极大的优势。 2....同时对于内容页的使用场景,精简了嵌套滚动的使用,扩展上拉加载更多及下拉刷新逻辑,使整个方案实现简单、灵活扩展。 3....整体优化方法 综上,从一个内容页在列表上的点击,到WebView渲染结束,最后到用户的滚动操作,按照时间的顺序,全部的优化策略如下图: 插播广告 —— 几十行代码完成新闻类App多种形式内容页 HybridPageKit

2.8K00

广州地震了!地震到底离我们有多近,Python 爬虫带你了解

先来看一个新闻,来自新浪微博官方用户:中国地震台网速报的微博内容,在七夕前一天8月6号10点49分广东广州增城发生2.7级地震,震源深度3千米。...试着点击第二页,第三页或尾页,我们可以发现网站的URL是固定不变的,我们大概率可以确定这些数据的加载来源都是通过后台js加载得到的,我门进行再次验证。...我们f12进入谷歌开发者模式,查看选择第二页对应的Elements模块的内容,可以看出 href="javascript:void (0)",很明显是通过js加载的。...比如,我们点一下这个插件便签然后再刷新网站试试,根据页面显示内容足以证明我们的猜想。 接下来,我们就需要找到它的加载js内容文件或者使用最直接的selenium进行实现。...可以基本确定,这就是我们需要的,点击进去查看,Response有需要的内容,把链接复制到浏览器打开查看。

69040

听说广州地震了!地震到底离我们有多近,Python 爬虫带你了解

先来看一个新闻,来自新浪微博官方用户:中国地震台网速报的微博内容,在七夕前一天8月6号10点49分广东广州增城发生2.7级地震,震源深度3千米。...试着点击第二页,第三页或尾页,我们可以发现网站的URL是固定不变的,我们大概率可以确定这些数据的加载来源都是通过后台js加载得到的,我门进行再次验证。...我们f12进入谷歌开发者模式,查看选择第二页对应的Elements模块的内容,可以看出 href="javascript:void (0)",很明显是通过js加载的。...比如,我们点一下这个插件便签然后再刷新网站试试,根据页面显示内容足以证明我们的猜想。 接下来,我们就需要找到它的加载js内容文件或者使用最直接的selenium进行实现。...可以基本确定,这就是我们需要的,点击进去查看,Response有需要的内容,把链接复制到浏览器打开查看。

86720

广州地震了!地震到底离我们有多近,Python 爬虫带你了解

先来看一个新闻,来自新浪微博官方用户:中国地震台网速报的微博内容,在七夕前一天8月6号10点49分广东广州增城发生2.7级地震,震源深度3千米。...试着点击第二页,第三页或尾页,我们可以发现网站的URL是固定不变的,我们大概率可以确定这些数据的加载来源都是通过后台js加载得到的,我门进行再次验证。...我们f12进入谷歌开发者模式,查看选择第二页对应的Elements模块的内容,可以看出 href="javascript:void (0)",很明显是通过js加载的。...比如,我们点一下这个插件便签然后再刷新网站试试,根据页面显示内容足以证明我们的猜想。 接下来,我们就需要找到它的加载js内容文件或者使用最直接的selenium进行实现。...可以基本确定,这就是我们需要的,点击进去查看,Response有需要的内容,把链接复制到浏览器打开查看。

61910

程序断点

Resume script execution恢复断点调试、常用在一个方法调用多个js文件(适用冗长js代码使用)、点击这个会直接跳转到下一个断点(逐过程执行)?...暂停断点Pause on exceptions 彩蛋:在控制台中输入$(this),即可得到我们所点击的对象——加载更多按钮元素。...法一 1.在227行打上断点 2.点击加载更多按钮 3.单击一次“逐语句执行“按钮,js代码执行到228行 4.用鼠标选中i++ 5.选中以后,鼠标悬浮在目标上方,你就看到上图的结果。?...6、断点调试实战小程序断点调试实例(重点介绍--打断点的思路) 1.首先看动态效果图、发现一个规律:第一次点击新闻详情没问题,控制台正常输出对应的index,但是点击的第二个却会报错 。...,那么点击另外一条新闻之前postsCollected就已经为真了。

2.2K20
领券