我需要网络抓取一个特定的网站,但它不允许网络抓取(403错误)。我正在考虑复制我需要的网站的html数据,并将其放入txt文档中,这样我就可以把它当做一个网页来抓取。这是可能的吗,还是有更好的方法来做这件事?
发布于 2018-07-19 08:01:48
如果你有linux/unix,你可以使用wget/curl来下载网页。这会将html源代码复制到根目录下的一个文件中。例如,您可以使用
wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document
获取此网页的源代码。
要处理它并去掉一些标记,可以使用vim/nano将以下代码复制到一个新文件中,并使用./script.sh filename
运行它(在执行chmod +x文件名之后)。您还可以添加其他sed命令来删除其他标记。
cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |
https://stackoverflow.com/questions/51412042
复制相似问题