Voglio eseguire la scansione dei siti Web e scrivere l'output su Solr con la mia applicazione. Il mio crawler utilizza Kafka per mettere l'oggetto del sito Web sottoposto a scansione su un argomento e Flume reindirizzerà l'output su Solr. Esistono più crawler che producono dati in Kafka.
Il mio problema è questo: quando un crawler vuole eseguire la scansione di un sito Web, altri crawler non devono provare a eseguirne la scansione. Come posso comunicarli in un ambiente distribuito?