fbpx

Apple deve ancora chiarire apertamente ciò che sta conducendo dietro le quinte nell’ambito della guida autonoma, anche se si tratta di un segreto di pulcinella. Un team di circa 5000 impiegati, compresi una parte di quelli in precedenza al lavoro presso Drive.ai, startup che Apple ha acquisito lo scorso anno, sono coinvolti in quello che ormai è noto con il nome interno di Project Titan, volto allo sviluppo di sistemi per vetture autonome e bus navetta. Un nuovo documento sembra ora svelare qualche dettaglio in più: il ricercatore Ychuan Charlie Tang e il suo team spiegano un approccio AI che crea progressivamente ambienti via via differenti per scenari di guida che prevedono veicoli in immissione sulla corsia di percorrenza.

Abbiamo dimostrato la nostra tecnica un una simulazione multi-agente con traffico in immissione, dove gli agenti devono interagire e negoziare tra loro al fine di potersi immettere con successo in una corsia o abbandonarla. Mentre l’ambiente parte con l’essere semplice, andiamo ad incrementare la sua complessità aggiungendo in modo iterativo un sempre differente insieme di agenti al sistema, via via che l’allenamento progredisce. Qualitativamente abbiamo scoperto che tramite l’auto-play le nostre politiche automaticamente apprendono comportamenti interessanti come la guida conservativa, il sorpasso, la precedenza e l’uso degli indicatori luminosi per comunicare le intenzioni agli altri agenti” spiega Tang.

I ricercatori continuano poi a spiegare che nel mondo della guida autonoma i comportamenti di immissione sono considerati complessi poiché richiedono che si riesca a predire con accuratezza le intenzioni perché si possa reagire adeguatamente alla situazione. Le soluzioni tradizionali compiono ipotesi e si basano su comportamenti pre-codificiati manualmente, ma questo approccio spesso conduce a politiche limitate e farraginose che difficilmente riescono a gestire casi in cui più di un veicolo vogliono cercare di immettersi sulla stessa corsia.

In contrapposizione ai sistemi basati su regole, l’apprendimento rafforzativo – tecnica AI che prevere ricompense per orientare le politiche decisionali verso l’obiettivo – riesce a imparare le regole tramite interazioni ripetute con un ambiente.

Tang e il suo team hanno implementato uno schema di allenamento self-play all’interno di una simulazione bidimensionale di traffico su una strada con una geometria reale annotata tramite l’allineamento con immagini satellitari. Questo mondo virtuale è stato poi popolato con agenti capaci di compiere cambi di corsia e di mantenere la marcia rispettando la corsia, che nel corso del tempo hanno imparato come rallentare, quando accelerare, quando e come sfruttare lo spazio lasciato libero da un altro agente per immettersi in una corsia, gli obiettivi latenti e le convinzioni di altri agenti e come comunicare le loro intenzioni con gli indicatori di direzione o altri comportamenti osservabili.

Ciascuna simulazione prende il via con un agente controllato dall’AI e circondato da una serie di agenti basati su regole che procedono mantenendo la propria corsia utilizzando un sistema di cruise control adattivo. Gli agenti basati su regole sono stati poi gradualmente sostituiti da quelli AI, che vengono penalizzati nel caso in cui finiscano con l’adottare comportamenti non desiderati, come ad esempio sviare dal centro della corsia, uscire dal tracciato o entrare in collisione con altri agenti, mentre invece vengono ricompensati se ad esempio riescono a completare un’immissione e a viaggiare a qualsiasi velocità fino a 15 metri al secondo (poco più di 50km/h).

Per ogni iterazione simulativa – 32 delle quali operate in parallelo su schede grafiche NVIDIA Titan X – sono stati lanciati 10 agenti con destinazioni casuali: l’iterazione termina dopo 1000 timestep, dopo una collisione o dopo l’arrivo a destinazione. Si è trattato di un processo in tre fasi: nella prima le regole AI sono state allenate in presenza di soli agenti basati su regole, nella seconda fase il self-play è stato allenato in presenza del 30% di agenti IDM, 30% di agenti della fase 1 e 30% di agenti controllati dalle attuali regole AI, nella fase 3 vengono aggiunti gli agenti della fase due.

I ricercatori si sono concentrati in maniera particolare sulle immissioni doppie che sono considerate difficili perché il guidatore sulla corsia di sinistra tipicamente intende immettersi a destra, mentre viceversa chi sta a destra vuole immettersi a sinistra. I segnali e piccoli indizi sono utilizzati per negoziare chi debba agire per primo e quale spazio occupare, e la pianificazione deve essere condotta in un brevissimo periodo di tempo e in una breve distanza.

I ricercatori hanno osservato che nello spazio di 10 milioni di iterazioni simulative – che corrispondono a 278 ore di esperienza reale – gli agenti AI hanno avuto la tendenza a sfruttare il comportamento degli agenti basati su regole per un loro guadagno individuale. Per esempio gli agenti basati su regole con la tendenza a fernare improvvisamente si sono trovati a “soccombere” contro gli agenti AI “ultra-aggressivi” che non hanno mai concesso la precedenza. Ciò detto, gli agenti basati su regole hanno spesso avuto la “colpa” nelle collisioni che hanno coinvolto loro e gli agenti basati sull’AI.

Per poter valutare il loro approccio, i ricercatori hanno condotto oltre 250 prove casuali senza aggiungere agenti. Rispetto agli agenti basati su regole, che raccolgono una percentuale di successo del 63%, gli agenti AI allenati a lungo riescono ad ottenere un successo del 98%. L’algoritmo ovviamente non è ancora perfetto – gli agenti AI talvolta causano collisioni quando tentano di frenare e sterzare verso destra in caso di una frenata d’emergenza, ma i ricercatori e i colleghi affermano che questo lavoro rappresenta un punto di partenza che potrà consentire di portare speranzosamente a zero il tasso di collisione.

%d blogger hanno fatto clic su Mi Piace per questo: