如何抓取html文本文档?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (133)

我需要网页抓取一个特定的网站,但它不允许网页抓取(403错误)。我正在考虑复制我需要的网站html数据并将其放入txt文档中,我可以将其废弃,就像它是一个网页一样。有没有更好的方法来解决这个问题?

提问于
用户回答回答于

如果你有linux / unix,可以使用wget / curl下载网页。这会将html源代码复制到根目录中的文件中。例如,您可以使用

wget https://stackoverflow.com/questions/51412042/scraping-a-html-text-document 

若要获取此网页的源代码,请执行以下操作。

要处理这个并删除一些标记,可以使用vim / nano将以下内容复制到新文件中并通过使用./script.sh filename运行它(在执行chmod + x filename之后)。还可以添加其他sed命令以删除其他标记。

cat $1 |
sed "s/<html>//g" |
sed "s/</html>//g" |
sed "s/<head>//g" |
sed "s/</head>//g" |

扫码关注云+社区

领取腾讯云代金券