Qual è il metodo attuale per identificare e indicizzare separatamente fino a 10 persone diverse per frame? Supponiamo che io abbia 1,5 secondi per catturare il maggior numero possibile di immagini di un umano da quattro telecamere.
Attualmente ho un haar cascade che indicizza le coordinate xey per una cattura facciale, cambierò la selezione xml in una cattura del corpo per catturare l'umano.
Questo identificherà gli umani, tuttavia dalla mia comprensione Haar Cascades può identificare oggetti di una forma ma non il "tipo" di oggetto.
Ho preso in considerazione la caputurazione di una porzione di un umano "haar cascade index", e quindi l'analisi del risultato in una CNN che può classificare sottosezioni di immagini, tuttavia ho la sensazione che il tempo di esecuzione di ciascuna classificazione spingerà il modello oltre attuale computabilità.
Esiste uno standard di settore per classificare i "tipi" di una classificazione di un oggetto (ad esempio individui dalle persone, tipi di mele da una "mela" generica)?