Automatizza il salvataggio giornaliero del webarchive?

3

È possibile automatizzare il salvataggio di una pagina Web (utilizzando il formato .webarchive ) utilizzando Automator (in un processo in background) o utilizzando Terminal?

    
posta JFW 07.01.2014 - 11:02
fonte

2 risposte

2

Download e amp; salvataggio come webarchive

Uno strumento da riga di comando denominato webarchiver scaricherà gli URL e li salverà in formato .webarchive . Puoi installare questo strumento tramite MacPorts (ahimè, non homebrew!) O compilarlo con XCode. Sono un manichino XCode, ma sono riuscito con le istruzioni trovate qui .

Come operare:

webarchiver 0.5
Usage: webarchiver -url URL -output FILE 
Example: webarchiver -url http://www.google.com -output google.webarchive
-url    http:// or path to local file
-output File to write webarchive to

Nomi di file piacevoli

Questo liner unico per terminale consente di configurare l'URL desiderato e di scaricare un file di archivio Web con prefisso YYYY-MM-DD:

URL="www.nytimes.com"; ./webarchiver -url "http://$URL" -output "/Users/<your username>/Desktop/$(date +"%Y-%m-%d-$URL.webarchive")"

Ciò salverà un webarchive sul desktop:

2014-02-10-www.nytimes.com.webarchive

Se non sei sicuro di cosa sia <your username> , inserisci whoami in Terminal.app (e premi invio, ovviamente).

Cron

Preferisco usare launchd , poiché " l'uso di cron su OS X è scoraggiato ". C'è un bel editor di launchd chiamato Lingon . Buon divertimento!

    
risposta data 10.02.2014 - 18:50
fonte
2

Sì è la risposta semplice con entrambi.

Sono sul mio iPad al mo. Ma puoi usare il comando unix arricciare per scaricare il pagina web e collegarlo al comando unix textutil che può inviarlo a un file webarchive.

Se avrò la possibilità, posterò un esempio.

Ecco un piccolo esempio (veloce) di ciò che stavo pensando. Scritto in Applescript eseguendo i comandi di shell script.

  property agent : "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3"

property outPutFormat : "rtf"
property saveDIR : "/Users/USERNAME/Desktop/"
property fileName : "test2"

set theData to do shell script "curl " & " -A" & space & quoted form of agent & space & "http://weather.yahoo.com/france/auvergne/france-29332634/" as string


do shell script "echo " & quoted form of theData & "|textutil -format html -convert" & space & outPutFormat & space & "-stdin -output " & space & saveDIR & fileName & "." & outPutFormat

Anche se funziona. Non sono molto soddisfatto dei risultati. Ciò è dovuto al fatto che arriccia e textutil elaborano solo il codice html ma non le risorse.

Quindi sto lavorando su qualcos'altro che salverà un webArchive in un modo molto migliore. Il 90% c'è ma ci vorrà un po 'più tempo per scrivere

    
risposta data 07.01.2014 - 14:02
fonte

Leggi altre domande sui tag