我正在尝试做一个WARC文件的一个非常大的链接列表的几个领域,如:
wget --no-check-certificate \
--no-verbose \
--execute robots=off \
--delete-after \
--no-directories \
--page-requisites \
--mirror \
--no-warc-keep-log \
--output-file=out/15M.log \
--warc-cdx \
--span-hosts \
/*
* 提示:该行代码过长,系统自动注释不进行高亮。一键复制会移除系统注释
* --domains=15hack.tomalaplaza.net,15m20.tomalaplaza.net,15oct.takethesquare.net,actasmadrid.tomalaplaza.net,alcala.tomalaplaza.net,alcorcon.tomalosbarrios.net,alcosanse.tomalosbarrios.net,alicante.tomalaplaza.net,aluche.tomalosbarrios.net,andorra.tomalaplaza.net,antibanks.takethesquare.net,aragon.tomalaplaza.net,aravaca.tomalosbarrios.net,arganzuela.tomalosbarrios.net,arroyomolinos.tomalosbarrios.net,asambleademostoles.tomalosbarrios.net,asambleaplayasalicante.tomalosbarrios.net,asamblea-sanlorenzo-escorial.tomalosbarrios.net,austrias.tomalosbarrios.net,aviles.tomalaplaza.net,barajas.tomalosbarrios.net,barcelona.tomalaplaza.net,barriodelpilar.tomalosbarrios.net,barriosdelsur.tomalosbarrios.net,batan.tomalosbarrios.net,becerril.tomalosbarrios.net,benicarlo.tomalaplaza.net,berlinbienal.tomalaplaza.net,bilbao.tomalaplaza.net,boadilladelmonte.tomalosbarrios.net,boalo.tomalosbarrios.net,burgos.tomalaplaza.net,caceres.tomalaplaza.net,cadiz.tomalaplaza.net,canadareal.tomalosbarrios.net,castellon.tomalaplaza.net,cercedilla.tomalosbarrios.net,chamartin.tomalosbarrios.net,chapineria.tomalosbarrios.net,chiclana.tomalaplaza.net,chueca.tomalosbarrios.net,ciempozuelos.tomalosbarrios.net,ciudadlineal.tomalosbarrios.net,colladomediano.tomalosbarrios.net,colladovillalba.tomalosbarrios.net,colmenarejo.tomalosbarrios.net,colmenarviejo.tomalosbarrios.net,compostela.tomalaplaza.net,comunicacionestatal15m.tomalaplaza.net,contralaviolenciadegenero.tomalaplaza.net,cordoba.tomalaplaza.net,coslada.tomalosbarrios.net,daganzodearriba.tomalosbarrios.net,debatedelpueblo.tomalosbarrios.net,debatepopular.tomalosbarrios.net,dec10.takethesquare.net,desmontandomentiras.tomalaplaza.net,donostia.tomalaplaza.net,dosdemayo.tomalosbarrios.net,economia.tomalaplaza.net,elalamo.tomalosbarrios.net,elche.tomalaplaza.net,elejido.tomalosbarrios.net,enbustarviejo.tomalosbarrios.net,encuentro15m.tomalaplaza.net,foro.tomalosbarrios.net,fuencarral.tomalosbarrios.net,fuenlabrada.tomalosbarrios.net,galapagar.tomalosbarrios.net,gamonal.tomalosbarrios.net,gasteiz.tomalaplaza.net,getafe.tomalosbarrios.net,granada.tomalaplaza.net,grancanaria.tomalosbarrios.net,guadalixdelasierra.tomalosbarrios.net,guadarrama.tomalosbarrios.net,guindalera.tomalosbarrios.net,hacksol.tomalaplaza.net,hortaleza.tomalosbarrios.net,howtocamp.takethesquare.net,hoyodemanzanares.tomalosbarrios.net,ibiza.tomalaplaza.net,jerez.tomalaplaza.net,jitsi.tomalaplaza.net,laconce.tomalosbarrios.net,laelipa.tomalosbarrios.net,lasmatas.tomalosbarrios.net,laspalmas.tomalaplaza.net,lasrozas.tomalosbarrios.net,lastablassanchinarro.tomalosbarrios.net,lavapies.tomalosbarrios.net,leganes.tomalosbarrios.net,leon.tomalaplaza.net,letras.tomalosbarrios.net,listas.tomalaplaza.net,listas.tomalosbarrios.net,lists.takethesquare.net,lleida.tomalaplaza.net,logrono.tomalaplaza.net,lucero.tomalosbarrios.net,madrid15m.org,madridocm.tomalaplaza.net,madridsur.tomalosbarrios.net,madrid.tomalaplaza.net,madrid.tomalosbarrios.net,majadahonda.tomalosbarrios.net,malaga.tomalaplaza.net,marchestobrussels.takethesquare.net,mataro.tomalosbarrios.net,mayo2013.tomalaplaza.net,mejoradadelcampo.tomalosbarrios.net,menorca.tomalaplaza.net,miraflores.tomalosbarrios.net,montecarmelo.tomalosbarrios.net,moralzarzal.tomalosbarrios.net,mumble.tomalaplaza.net,navalafuente.tomalosbarrios.net,nudomanoteras.tomalosbarrios.net,nuevobaztan.tomalosbarrios.net,ocmdaganzo.tomalaplaza.net,optt.tomalaplaza.net,ourense.tomalaplaza.net,oviedo.tomalaplaza.net,pads.tomalaplaza.net,pamplona.tomalaplaza.net,paracuellos.tomalosbarrios.net,parla.tomalosbarrios.net,parlaverde.tomalosbarrios.net,paseoextremadura.tomalosbarrios.net,pedrezuela.tomalosbarrios.net,pedriza.tomalosbarrios.net,piedragrande.tomalosbarrios.net,pinto.tomalosbarrios.net,plazadali.tomalosbarrios.net,pontevedra.tomalaplaza.net,pozuelo.tomalosbarrios.net,prosperidad.tomalosbarrios.net,pueblonuevo.tomalosbarrios.net,pve.tomalaplaza.net,radio.takethesquare.net,retiro.tomalosbarrios.net,rivas.tomalosbarrios.net,ronda.tomalaplaza.net,salamanca.tomalaplaza.net,sanblas.tomalosbarrios.net,sanfernandodehenares.tomalosbarrios.net,sanmartindelavega.tomalosbarrios.net,santiago.tomalaplaza.net,segovia.tomalaplaza.net,sesena.tomalosbarrios.net,sevilla.tomalaplaza.net,sevilla.tomalosbarrios.net,sierranorte.tomalosbarrios.net,smvaldeiglesias.tomalosbarrios.net,soria.tomalaplaza.net,soto.tomalosbarrios.net,stamariadelaalameda.tomalosbarrios.net,stats.tomalaplaza.net,takethesquare.net,talavera.tomalaplaza.net,tcj.tomalaplaza.net,teruel.tomalaplaza.net,tetuan.tomalosbarrios.net,toledo.tomalaplaza.net,tomalaplaza.net,tomalosbarrios.net,torrejon.tomalosbarrios.net,torrelaguna.tomalosbarrios.net,torrelodones.tomalosbarrios.net,torresalameda.tomalosbarrios.net,transitionday.takethesquare.net,trescantos.tomalosbarrios.net,usera.tomalosbarrios.net,valdemorilloynavalagamella.tomalosbarrios.net,valdemoro.tomalosbarrios.net,valencia.tomalaplaza.net,vdelacanada.tomalosbarrios.net,vegadeltajuna.tomalaplaza.net,velilla.tomalosbarrios.net,vemail.tomalaplaza.net,vicalvaro.tomalosbarrios.net,vigo.tomalaplaza.net,villadevallecas.tomalosbarrios.net,villaverde.tomalosbarrios.net,wiki.tomalaplaza.net,www.tomalatele.tv,zamora.tomalaplaza.net,zaragoza.tomalaplaza.net,zaragoza.tomalosbarrios.net,zarzalejo.tomalosbarrios.net \
*/
--warc-file=out/15M \
https://15hack.github.io/web-backup/out/links.html
我在一个命令中这样做,因为我认为生成一个warc压缩比对每个域执行不同的warc要好。
另一点,拥有一切在一个单一的warc,它是能够跟踪链接从一个网站到另一个。
但是这个工作花费了18天,并生成了一个19 GB的warc文件。另外,我在一些应用程序中打开这个warc也有问题。我想是因为文件的大小。
另外,我刚刚在生态系统中读到,warc文件应该达到1GB。
所以我的问题是:
谢谢
发布于 2022-03-07 13:41:03
但这份工作花了18天
如果这是您的问题,那么考虑准备命令,准备每个域的一个文件,并并行运行它们。请注意,如果您仍然有空闲的连接容量(即服务器没有提供足够的数据来使用所有或几乎所有的连接容量),这可能会但不一定会有所帮助。
另外,我刚刚在生态系统中读到,warc文件应该达到1GB。
如果您必须遵守这样的要求,那么您可以使用以下wget
选项
--warc-max-size=size
Set the maximum size of the WARC files to size.
有什么wget的参数可以用来改善性能和压缩吗?
我建议阅读带WARC输出的Wget中的选项,我怀疑--no-warc-keep-log
可能给出最小的较小的文件大小,如果您能够以更快的写入/读取速度使用磁盘上的目录,也可以尝试使用--warc-tempdir=DIRECTORY
。
如果我做了几次warc (例如,每个域一次),我如何使用warcs从一个站点跟踪链接到另一个站点?
WARC有一个名为CDX的附带文件格式,它用于索引或以普通的文字保存主要存储给定URL的WARC文件数据的信息。CDX文件的每一行描述了WARC文件中的一些记录,字段被裁剪,其中之一是URL。因此,您应该能够使用有趣的行查找行,例如使用grep
,然后读取存储WARC文件的行。
https://stackoverflow.com/questions/71372743
复制相似问题