首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Java 网络爬虫,该怎么学?

在后面的几年工作中,也参与了好几个爬虫项目,但是大多数都是使用 Python ,抛开语言不谈,爬虫也是有一套思想的。这些年写爬虫程序,对我个人的技术成长帮助非常大,因为在爬虫的过程中,会遇到各种各样的问题,其实做网络爬虫还是非常考验技术的,除了保证自己的采集程序可用之外,还会遇到被爬网站各种奇奇怪怪的问题,比如整个 HTML 页面有没一个 class 或者 id 属性,你要在这种页面提取表格数据,并且做到优雅的提取,这就是非常考验你的想象力以及技术啦。非常有幸在刚入行的时候就接触到了网络爬虫这一块,它加快了我对互联网的理解和认知,扩宽了我的视野。

06

【K哥爬虫普法】孤注一掷的爬虫er,究竟还要误入歧途多远?

2018 年 8、9 月间,被告人谢财安、林建华预谋窃取公民个人信息售卖获取利益。后二人通过网络联系被告人杨杭,被告人杨杭明知二被告人从事非法活动仍向被告人林建华、谢财安提供 “smarttool”(用于爬取京东商户订单信息)等软件并收取费用。被告人林建华、谢财安利用该软件通过技术手段非法侵入京东商城 “WIS 旗舰店” 等商户的账户维护后台,窃取公民交易类个人信息予以售卖并获利。经鉴定,本案涉及公民个人信息共计 297313 条,内容信息包含有 “店铺名称”、“购买产品”、“金额”、“ID”、“姓名”、“电话”、“地址” 等,经对该文件中每条个人信息的电话号码为标准进行统计剔除重复数据后,获取到信息共 240372 条。

03
领券