Doppia architettura di rete neurale per attività di programmazione di IA a stella

4

Dai un'occhiata a questa proposta di architettura del sistema AI:

Comepuoivedere,questoèunsistemaAImulti-agenteperlaguerradeinididistellecheutilizza framework BWAPI AI , e ho proposto questo idea per l'architettura dell'infrastruttura bot che consiste in due reti neurali primarie in cui ognuna di queste è posizionata in uno specifico compito di gestione.

Quindi ecco la domanda per voi ragazzi: quel tipo di architettura ha senso? È utile dividere il processo decisionale su due campi specifici?

Se sì, come posso creare il ciclo di feedback per queste due reti neurali, in modo che possano funzionare efficacemente insieme.

    
posta Nylithius 18.12.2016 - 11:58
fonte

1 risposta

2

Questo è un progetto molto interessante che intraprendi. Ma sarà anche molto impegnativo

Architettura multi-agente

Hai iniziato a progettare un sistema multi-agente , con due agenti attivi: l'agente strategico e il agente tattico.

Entrambi alimentano l'API di controllo del gioco da soli con i comandi. C'è un "ciclo di feedback" in cui gli agenti inviano un input all'altro.

Intuitivamente, penso che manchi un agente di coordinamento, per dare la priorità ai comandi dati al gioco, come farebbe un giocatore.

Ciò che manca è anche il coordinamento nei piani. Per esempio, cosa succede se i tuoi agenti tattici vogliono un paio di unità per eseguire qualche azione, ma il tuo agente strategico determina che perderai il gioco prima che le unità siano pronte? La pianificazione di più agenti potrebbe richiedere più agenti rispetto ai due che hai previsto.

Il vantaggio di un sistema multi-agente è che è possibile aggiungere agenti aggiuntivi, una volta implementato un meccanismo di comunicazione. Ogni agente può avere il proprio paradigma, in modo da poter combinare la rete neurale, basata su regole, potatura alfa-beta , e altri a contribuire al piano o alla sua valutazione.

Reti neurali

Non c'è magia in reti neurali : devi addestrarli attraverso un ciclo di apprendimento. Nei sistemi sperimentali, è facile per attività semplici come riconoscere una configurazione e attivare un'azione. Oppure scegliere tra diverse azioni a seconda di un modello di input. È tuttavia meno facile per un piano a più piani: in primo luogo non vi è alcun tempismo nella catena di output. E poi puoi scoprire se una tattica è stata buona solo dopo diversi round e diverse mosse. Se fallisce non sapresti se tutte le mosse fossero cattive o solo una (e quale?). Quindi, come rinforzare positivamente o negativamente le mosse prese?

Quindi forse cogli l'opportunità del multi-agente, per combinare la capacità della rete neurale di riconoscere i modelli con altre tecniche.

    
risposta data 19.12.2016 - 22:31
fonte