Quale programma dovrei usare per trasferire i dati da 20TB attraverso la rete?

11

Ho bisogno di copiare 20 TB di dati su un array Thunderbolt. La casella in cui i dati esistono non ha una connessione a fulmine, quindi per questo dovrò utilizzare la rete locale da 1 GB. (Sì, ci vorrà per sempre).

Ho provato a usare Filezilla / sftp, ma si è bloccato quando la coda è diventata molto grande. Rsync o scp la strada da percorrere?

    
posta lacinda 03.10.2014 - 18:54
fonte

5 risposte

17

rsync è un buon modo per andare (scp è praticamente lo stesso con meno funzioni). Potresti voler usare l'opzione -Z , che abiliterà la compressione zlib. A seconda della velocità delle unità / computer, potrebbe essere più veloce dell'invio non compresso, vale a dire se il tuo collegamento di rete è saturo. Potresti anche volere l'opzione della modalità di archiviazione, -a che preserverà i collegamenti simbolici, le autorizzazioni e i tempi di creazione / modifica, nonché copiare le directory in modo ricorsivo. A seconda di ciò che stai copiando, potresti volere -E che preservi gli attributi estesi e i fork delle risorse mac. Infine, --progress ti mostrerà le informazioni sullo stato di avanzamento.

    
risposta data 03.10.2014 - 20:03
fonte
6

Pur non essendo onnipresente come rsync, in passato ho utilizzato un tool chiamato "mpscp" - link

Da Sandia National Labs, è uno strumento per copiare file su SSH appositamente ottimizzato per saturare le reti ad alta velocità tra sistemi chiusi (come la copia di terabyte di dati tra due supercomputer nello stesso sito, collegati tramite 10Gb + o Infiniband ). Funziona bene, ma può essere un po 'difficile da configurare. Durante i test, ho visto facilmente eseguire 2x-3x più velocemente di rsync.

    
risposta data 04.10.2014 - 04:07
fonte
3

Usa rsync e considera di usarlo con rsyncd. Se usi rsync senza rsyncd, sei bloccato usando ssh, il che significa usare un qualche tipo di crittografia. Probabilmente stai copiando i dati da un vecchio computer a un nuovo computer e il vecchio computer potrebbe non avere il grugnito della CPU per crittografare i dati per una trasmissione abbastanza veloce da mantenere saturo un collegamento Ethernet gigabit. Verifica il trasferimento di batch di file utilizzando entrambi i metodi e scopri in quale direzione è più veloce.

Per lo stesso motivo, consiglierei di testare l'uso dell'opzione di compressione di rsync prima di usarla. La compressione è un'altra attività a uso intensivo della CPU che potrebbe non essere in grado di tenere il passo con le velocità Gigabit Ethernet quando viene tentata su hardware precedente. rsync è un programma di quindici anni, scritto quando la maggior parte delle persone, anche nei paesi del primo mondo, accede a Internet tramite modem dialup. La larghezza di banda della rete rispetto ai compromessi della CPU erano molto diversi allora.

    
risposta data 04.10.2014 - 02:00
fonte
3

Questo pacchetto da 20 TB è contenuto in un piccolo numero di file di grandi dimensioni (come video, database dei mostri) o milioni di file più piccoli?

Se un sacco di piccoli file andrei con rsync per restartability o un flusso tar saturato per efficienza (una connessione di rete per il lotto, ricominciare dall'inizio se fallisce)

tar -cf - * | ( cd newhome; tar -xf - )

la cartella remota deve essere montata.

Potresti collegare direttamente il nuovo array con un'interfaccia diversa? Rsync locale non usa ssh in modo da rimuovere quel punto di errore. Sì, Firewire 800 è più lento di Gigabit Ethernet ma non è possibile caricare Ethernet al 100% - potrebbe essere più veloce con firewire. Per tua informazione puoi anche collegare in rete firewire se le scatole sono abbastanza vicine. Aggiungi l'interfaccia nelle preferenze di sistema - > di rete.

    
risposta data 04.10.2014 - 03:06
fonte
0

Un'altra opzione potrebbe essere quella di provare Bittorrent Sync ( link ). L'ho usato per sincronizzare foto di famiglia e video tra membri della nostra famiglia attraverso la WAN, ma non c'è ragione per cui non funzioni per la rete locale. Utilizza le connessioni peer-to-peer in modo che i dati non passino attraverso un server come se si tentasse di utilizzare qualcosa come dropbox (non penso che tu abbia 20 TB di spazio su Dropbox o vuoi aspettare così a lungo per caricare così tanto dati!)

È supportato anche su più piattaforme, quindi ha una maggiore flessibilità rispetto a rsync e tar.

    
risposta data 07.10.2014 - 16:03
fonte

Leggi altre domande sui tag