我试图使用wget从多篇Pubmed论文中获取文本,但NCBI网站似乎不允许这样做。有其他选择吗?
Bernardos-MacBook-Pro:pangenome_papers_pubmed_result bernardo$ wget -i ./url.txt
--2016-05-04 10:49:34-- http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4560400/
Resolving www.ncbi.nlm.nih.gov... 130.14.29.110, 2607:f220:41e:4290::110
Connecting to www.ncbi.nlm.nih.gov|130.14.29.110|:80... connected.
HTTP request sent, awaiting response... 403 Forbidden
2016-05-04 10:49:34 ERROR 403: Forbidden.
--2016-05-04 10:49:34-- http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4547177/
Reusing existing connection to www.ncbi.nlm.nih.gov:80.
HTTP request sent, awaiting response... 403 Forbidden
2016-05-04 10:49:34 ERROR 403: Forbidden.
发布于 2016-05-04 16:06:49
如下所示设置自定义用户代理:
wget --user-agent="Mozilla" http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4560400/
发布于 2020-06-03 23:02:36
当我试图用wget从Github下载文件时,我得到了“错误403:禁止的”(实际上是重定向到s3.amazonaws.com )。但只有在使用时才会发生这种情况:
wget -N / --timestamping
这将尝试下载远程文件-仅当该文件比文件的本地副本更新时。
显然,时间戳检查是被亚马逊网络服务S3禁止的。删除-N标志已经解决了这个问题。
请注意,您还可以通过使用-O / --output-document=FILE
或使用-P / --directory-prefix=PREFIX
下载到另一个目录(该目录还不包括该文件)来避免时间戳检查。
发布于 2022-02-10 03:24:53
也许您应该尝试用双引号将url链接括起来,例如
wget "your_url"
https://stackoverflow.com/questions/37021799
复制相似问题