Perché i cluster HDFS hanno un solo NameNode?

4

Sto cercando di capire meglio come funziona Hadoop e sto leggendo

The NameNode is a Single Point of Failure for the HDFS Cluster. HDFS is not currently a High Availability system. When the NameNode goes down, the file system goes offline. There is an optional SecondaryNameNode that can be hosted on a separate machine. It only creates checkpoints of the namespace by merging the edits file into the fsimage file and does not provide any real redundancy. Hadoop 0.21+ has a BackupNameNode that is part of a plan to have an HA name service, but it needs active contributions from the people who want it (i.e. you) to make it Highly Available.

dal link

Quindi perché il NameNode è un singolo punto di errore? Che cosa è male o difficile avere un duplicato completo del NameNode in esecuzione?

    
posta grautur 04.04.2012 - 05:07
fonte

3 risposte

2

Perché il design di HDFS ha un nodo con un singolo nome? Semplicità. In base al link :

The existence of a single NameNode in a cluster greatly simplifies the architecture of the system. The NameNode is the arbitrator and repository for all HDFS metadata.

Puoi avere un nodo del nome secondario che può subentrare quando il primario fallisce (vedi link ) e ci sono proposte di design per nodi di nomi distribuiti ma, per quanto ne so, nessuno è implementato in modo affidabile in questo momento.

    
risposta data 01.09.2012 - 10:10
fonte
1

Aggiornamento:

C'è un'opzione Alta disponibilità ora.

The HDFS High Availability feature addresses the SPOF problem by providing the option of running two redundant NameNodes in the same cluster in an Active/Passive configuration with a hot standby.

This allows a fast failover to a new NameNode in the case that a machine crashes, or a graceful administrator-initiated failover for the purpose of planned maintenance.

    
risposta data 23.12.2013 - 16:26
fonte
-1

Il NameNode tiene traccia di quali dati sono memorizzati dove. Se scende, i dati esistono ancora, ma è impossibile trovarli. È un singolo punto di errore perché Hadoop non supporta il fatto che due di questi siano in esecuzione in modo cooperativo. Il solo fatto che un NameNode secondario in esecuzione non sia sufficiente per fornire un'elevata disponibilità perché non c'è modo di garantire l'uniformità quando quello principale scende (al NameNode secondario potrebbero mancare modifiche recenti).

    
risposta data 04.04.2012 - 06:06
fonte

Leggi altre domande sui tag