使用selenium+phantomJS实现网页爬取

有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取。之前一直使用的selenium操作Firefox浏览器进行爬取,但是需要安装并打开firefox浏览器,实际操作中不方便配置且占用大量内存。今日发现网上介绍可以采用phantomJS(无界面浏览器),经测试,果然可以达到目的,只是会出现一个控制台,并不影响整体效果,所以将其记录下来,以方便以后使用。

第一步:下载selenium-dotnet,选择相应的版本并引用。

第二步:下载phantomjs-2.1.1-windows.zip(http://phantomjs.org/download.html),解压下载的文件,将phantomjs.exe文件拷贝到系统目录或者项目的exe目录下。

第三步:通过调用phantomjs爬取网页信息,代码如下:

1、创建driver实例

static IWebDriver GetPhantomJSDriver()
{
     return new OpenQA.Selenium.PhantomJS.PhantomJSDriver();
}

2、跳转到URL

/// <summary>
/// 跳转URL
/// </summary>
/// <param name="url"></param>
static bool Navigate(string url)
{
	try
	{
		driver = driver ?? GetPhantomJSDriver();
		if (driver == null)
		{
			return false;
		}
	}
	catch (WebDriverException e)
	{
		return false;
	}
	driver .Navigate().GoToUrl(url);
	return true;
}

 3、之后就可以解析获取想要的信息。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

点进来,这里告诉你:爬虫学习之一个简单的网络爬虫

###概述 这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据。有了数据...

501140
来自专栏PPV课数据科学社区

【热点】爬了3000万QQ用户数据,挖出了花千骨赵丽颖的QQ号

文|.NET程序猿小伍 两周前,做的一个项目需要模拟一批用户评价数据,如果想让数据看着真实点,那就得使用随机的用户昵称和头像啊。要是头像或者昵称全都差不多,那别...

40370
来自专栏PPV课数据科学社区

你的爬虫会送老板进监狱么

各互金公司CTO们请看好你们家的爬虫,要不然一不小心就会把老板(法人代表)送进监狱,不是闹着玩的,按2017年6月1日,《网络安全法》以及最新刑事司法解释: -...

42460
来自专栏PPV课数据科学社区

RCurl爬虫和Shiny包在游戏行业的应用(附PDF下载)

PDF链接:http://www.ppvke.com/Answer/file/download/file_name-UkN1cmzniKzomavlkoxTaG...

30950
来自专栏PPV课数据科学社区

【学习】利用爬虫技术能做到哪些很酷、很有趣、很有用的事情?

分析篇 先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下 sleep 这个词在 Twitter 上出现的频率。 看来很多人喜欢在睡前会说一声我睡了。那...

56270
来自专栏木子昭的博客

《进击的虫师》爬取豆瓣电影海报(Top250)

有人想学一点编程, 但是一直没有找到感兴趣的切入点,可以简单的爬虫入手! 几十行代码, 轻松爬取豆瓣Top250电影数据,即刻体会编程的乐趣... ? ...

70840
来自专栏数据猿

淘宝卖家贩卖58同城全国简历数据,微信首次开发大数据能力,上线“微信指数” | 大数据周周看

数据猿导读 微信首度开放大数据能力,上线最新功能“微信指数”;超2亿个iCloud账号数据泄露,黑客威胁苹果索要7.5万美元赎金;旅游大数据服务商“天标科技”正...

47740
来自专栏PPV课数据科学社区

pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面

在上两篇教程【pyspider 爬虫教程 (1):HTML 和 CSS 选择、pyspider 爬虫教程(2):AJAX 和 HTTP】中,我们学习了怎么从 H...

51970
来自专栏PPV课数据科学社区

【入门】怎么培养数据分析的能力?

一些个人的工作经验,希望对后来人有帮助。首先总结下平时数据分析的一般步骤。 第一步:数据准备:(70%时间) 获取数据(爬虫,数据仓库) 验证数据 数据清理(缺...

29460
来自专栏PPV课数据科学社区

小数据分析:微博前端大战

最近前端针对某些问题展开了非常激烈的讨论,作为一名围观了全过程的前端新手表示,从中学习到了很多东西。 围观之余,想尝试理性地通过数据分析进行舆论统计,从机器的角...

33650

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励