MasiMaro 的技术博文-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

MasiMaro 的技术博文

专栏成员

247

文章

296415

阅读量

35

订阅数

Facebook 爬虫

爬虫 python scrapy java 数据库

title: Facebook 爬虫 tags: [python3, facebook, scrapy, splash, 爬虫] date: 2018-06-02 09:42:06 categories: python keywords: python3, facebook, scrapy, splash, 爬虫 --- 初次接触到scrapy是公司要求编写一个能够解析JavaScript的爬虫爬取链接的时候听过过，当时我当时觉得它并不适合这个项目所以放弃这个方案，时隔一年多公司有了爬取Facebook用户信息的需求，这样才让我正式接触并使用到scrapy

2018-08-31

3.6K1

ghost.py在代用JavaScript时的超时问题

java 爬虫 github python

在写爬虫的时候，关于JavaScript的解析问题，我在网上找到的一个解决方案是使用ghost.py这个模块，他是一个基于webkit封装的一个客户端，可以用来解析动态页面。它的使用非常简单，它从2.x版本开始，变化就有点大了，在这我主要是针对他的1.0版本。首先在GitHub上克隆它，然后在对应的文件中执行python setup.py install命令，这样就可以安装了，注意在这不要直接使用pip，使用pip会默认安装2.x版本。安装完成后，可以编写如下代码来加载一个网页:

2018-08-31

8540

使用MSHTML解析HTML页面

html 爬虫 java gui

最近在写一个爬虫项目，本来打算用C/C++来实现，在网上查找有关资料的时候发现了微软的这个MSHTML库，最后发现在解析动态页面的时候它的表现实在是太差：在项目中需要像浏览器那样，执行JavaScript等脚本然后形成静态的HTML页面，最后才分析这个静态页面。但是MSHTML在执行JavaScript等脚本时需要配合WebBroswer这个ActiveX控件，这个控件又必须在GUI程序中使用，但是我做的这个功能最终是嵌入到公司产品中发布，不可能为它专门生成一个GUI页面，所以这个方案就作废了。虽然最终没有采用这个方案，但是我在开始学习MSHTML并写Demo的过程中还是收益匪浅，所以在这记录下我的成果

2018-08-31

3.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态