我正在为Alexa世界排名第一的网站进行网络抓取和数据挖掘。
我是用node.js,Axios (用于HTTP请求),在Windows机器上(特别是在was上)这样做的。在运行前500或1000个网站之后,我开始从Windows上的安全软件(Norton security)获得一些恶意攻击、安全问题通知。

我不认为使用一个像样的抓取/ web请求库来进行网络抓取是安全上的问题,这也是第一次对这么大的URL列表进行web抓取,我很惊讶我通过这个程序受到了攻击。
发布于 2020-12-26 09:45:31
我很惊讶我通过这个项目得到了攻击。
“攻击”这个词在这里可能有点夸张。可能你只是访问了一个网站,它的声誉很低,并且在过去曾使用过恶意软件。消息中的“恶意域”。没有什么能主动攻击你的。
对这样一个随机大的URLs列表进行web抓取是安全的,还是攻击通知是可以忽略的?
这在很大程度上取决于你正在做什么细节。如果您只发出HTTP请求和响应,并使用一些简单的程序跟踪链接,那么它很可能会被忽略。如果您后处理数据,如转换图像等,这可能是一个更大的问题,因为这可能会触发复杂库中的安全问题。当然,这假定您的代码或使用的库中的编程错误没有新引入的安全问题,即来自internet的数据应始终被视为不受信任的数据,并且不应在未经明确验证的情况下对其内容和格式作出任何假设。
https://security.stackexchange.com/questions/242570
复制相似问题