如果买房,尤其是在北京的首套,可能二手房是选择之一,那我就针对二手房研究一下。
虽然网上有很多数据源或者教程,但我还是打算重新抓一遍,一是保持数据是最新的,而是练手不犯懒。...上图是某家二手房展示页面其中一套房的信息,我需要提取它的:位置、几室几厅、平米数、朝向、装修风格、层数、建造年份、建筑形式、售价。...columns = ['小区', '地区', '厅','平米数','方向','状态','层','build-year','形式','钱','单位','网址','推荐语']
# 如果文件由第一行,就不用了...把提取的信息写入刚刚说的csv文件
5. 为了方便知道进度,在每页结尾加上打印,知道进度
6. 为了防止"给链家服务器带来压力“选择每页隔几秒再切换下页
7....可以看到,小区名、地点、房型、平米数、方向、层数、建造年代、楼房形式、售价、对应详情页网址就都有啦~
如何利用这些数据进行数据分析?
见本公众号另一篇文章。