Post-embodied AI

Autore: Ben Goertzel (traduzione di: Emanuele Ratti)

da: Divenire 5, Futurologia ()

L'intelligenza umana è difficilmente separabile dal suo essere corporeo (embodied). Impariamo a pensare da bambini in buona parte durante il periodo in cui impariamo a usare il nostro corpo. Anche se la maggior parte dei nostri obiettivi sembrano astratti, in realtà possono essere visti come versioni sublimate dei nostri obiettivi "corporei". Molti nostri pattern cognitivi e forme linguistiche possono essere fatti risalire a percezioni o a metafore di azioni – dalle visualizzazioni interne attraverso cui molti di noi si rappresentano la conoscenza astratta, alle relazioni spaziali implicite in parole come "sopra", "da" o "attraverso".

Una domanda ovvia a questo punto è: che dire dell'embodiment (incorporazione, personificazione, incarnazione 1 ) nell'intelligenza artificiale? Più precisamente: che dire dell'embodiment e dell'Artificial General Intelligence (AGI)? È ovvio che alcune capacità cognitive considerate a pieno titolo appartenenti al campo dell'AI – ad esempio il gioco degli scacchi – possono essere svolte anche da software non-embodied. Ma questi sono programmi 'narrow AI'. Cosa succede se consideriamo programmi come Novamente e ciò che ci si aspetta che siano – programmi che possono imparare autonomamente circa nuovi problemi e dominii, creare nuove invenzioni, strategie di problem-solving, riflettere e comunicare spontaneamente. Supponiamo che uno accetti la tesi della Strong AI – cioè che alcuni software, in linea di principio, possono raggiungere gli obiettivi sopra citati. Il problema rimane: questi livelli di performance possono essere raggiunti da software non-embodied, o hanno bisogno di essere incarnati in robots ugualmente o più sofisticati dei corpi umani?

C'è ogni genere di opinione sull'embodiment nel campo dell'AI. Alcuni tra i più importanti teorici o tecnici nel campo dell'AI ritengono che l'embodiment sia assolutamente non necessario per l'AI; altri ritengono che sia un punto cruciale, e che qualsiasi AI system che non sia incarnato non possa raggiungere determinati scopi considerati necessari per la Strong AI.

Nel mio progetto Novamente 2 , ho optato per un embodiment in una simulazione 3d (AGISim), e credo che in futuro opterò per un embodiment in un robot. Tuttavia ho fatto questa scelta non perché ritenga necessario l'embodiment per l'AGI, ma più che altro per convenienza. Inoltre non viene fatta alcuna assunzione teorica cruciale nello sfruttare un embodiment simulato come modo di inserire conoscenza all'interno del sistema. Se appropriato, siamo disposti a fornire i vari database di informazione direttamente dentro l'AtomTable di Novamente. E' un approccio che io chiamo semi-embodiment. Questo scritto è in sostanza una descrizione particolareggiata (e una difesa) di questa strategia di semi-embodiment, con qualche riferimento a Novamente ma il tutto in un quadro più generale.

Fornirò una dettagliata analisi del perché l'embodiment sia incredibilmente utile per l'AGI. Tuttavia, sosterrò la tesi che un esclusivo ed ossessivo impegno solo in questa direzione è controproducente per l'AGI. Infatti molte tecnologie sviluppate dalla "fazione" anti-embodiment sono estremamente utili per l'AGI se integrate nel modo corretto. Questo rilievo mi ha portato alla nozione di post-embodied mind – un'intelligenza che possiede uno o più corpi, ma che possiede anche una conoscenza che non deriva dai "sensi" e dalle capacità del suo corpo.

Gli esseri umani non sono un caso di post-embodied mind, ma ritengo che questo sia un approccio all'intelligenza più interessante rispetto al nostro. Inoltre, potrebbe anche essere la condizione verso cui stiamo evolvendo. Un essere umano con un chip nel cervello che lo connette a Internet – questo potrebbe essere un post-embodied human.

Embodiment: necessario o irrilevante per l'AGI?

Ora fornirò una veloce "overview" delle opinioni altrui circa l'incarnazione e l'AI. Non ho pretese di completezza – semplicemente segnalo le opinioni più rilevanti dando qualche esempio.

Fra quelli che sostengono che l'incarnazione non sia necessaria, vi sono opinioni diverse. La crew "knowledge encoding" ritiene che sia possibile scrivere una lunga lista di tutti i fatti di senso comune sul mondo che ogni essere umano impara grazie al suo "embodiment", e fornendo di questa lista un AI system sarebbe come averla acquisita attraverso un embodiment human-like. Vi sono molte scuole di pensiero circa il modo in cui inserire questa "lista". Alcuni, come per esempio Douglas Lenat e i suoi cyclist (il team Cyc: www.cyc.com ), ritengono che tutto il lavoro dovrebbe essere fatto usando il linguaggio matematico come quello della logica dei predicati. Altri, tra cui Chris McKinstry (fondatore di mindpixel.com), ritengono che l'operazione vada fatta usando un linguaggio naturale come l'inglese.

Vi sono invece ricercatori che pensano che il knowledge encoding esplicito del senso comune non sia necessario, che un'AI system possa conoscere sul mondo tutto ciò che gli è necessario tramite mezzi linguistici – come ad esempio delle conversazioni con esseri umani. Il progetto HAL di Jason Hutchens ( www.a-i.com ) va in questa direzione.

Hubert Dreyfus è sicuramente l'esempio più famoso e articolato di difesa della tesi secondo cui l'embodiment sia cruciale per l'AI. Dreyfus approfondisce la conoscenza della filosofia cosiddetta "continentale" per affermare che l'intelligenza umana è fondamentalmente "situata" nel corpo, e che considerare l' intelligenza come separata dall'embodiment è come considerare la cognizione separata dalla memoria. Dreyfus ritiene che la separazione tra intelligenza ed embodiment sia una distinzione artificiale elaborata da programmi di ricerca mal pianificati, senza basi reali. Nel libro The Embodied Mind (Varela: 1992) Francisco Varela e i suoi collaboratori approfondiscono le critiche di Dreyfus legandole alle filosofie della mente orientali.

In termini di ricerca pratica, l'approccio all'embodiment nell'AI è legato alla robotica. Rodney Brooks (Brooks: 1999) e Hugo de Garis (De Garis and Korkin: 2002) sono tipici esempi di ricercatori molto capaci nel campo della robotica il cui obiettivo è di iniziare con robots molto semplici che portano a termine cognizioni "embodied" molto semplici, per poi gradualmente rendere più complessi i robot e le cognizioni stesse.

Una strategia alternativa è quella di lavorare con sistemi AI che controllano corpi simulati. Al momento gli ambienti simulati non hanno la ricchezza e le diversità tipiche del mondo fisico. Tuttavia negli ambienti simulati è molto più semplice fare ricerca.

Come ho già accennato, la mia opinione sta nel mezzo. Come è tipico nell'AI, la verità si trova più o meno nel mezzo tra due estremi. Ovviamente l'embodiment non è realmente necessario per l'AGI, almeno in senso teoretico. Ma è ugualmente fuori discussione che l'embodiment rende più semplice insegnare molte cose a un proto-AGI. Questo è talmente vero che in un senso strettamente pratico sarebbe una follia costruire un'AGI totalmente unembodied.

Ma cosa significa "insegnare a un proto-AGI system"? Generalmente divido il lavoro di creazione di un'AGI in due parti: creare il software iniziale del sistema, e in seguito insegnare a questa "baby-mind" come ragionare, pensare, sentire etc. Il proto-AGI è il software iniziale.

Questa bipartizione è generalmente considerata valida per la maggior parte dei sistemi AGI – ma non proprio per tutti. In alcuni approcci all'AGI la prima parte è ritenuta futile, perché si assume che un'architettura molto semplice possa dare origine all'intelligenza reiterandosi e automodificandosi (Schmidhuber: 2004). Tuttavia sono casi rari. In generale entrambe le fasi sono sostanziali e importanti, e il software iniziale precedente al training ha più o meno la stessa struttura e dinamiche che il software avrà dopo la fase successiva. Col tempo certamente un AGI system potrebbe imparare abbastanza da riscrivere tutto il suo codice sorgente e diventare differente da come il suo creatore lo ha progettato. Tuttavia nella maggior parte degli approcci all'AGI si assume che questa auto-modificazione sarebbe possibile solo dopo che il sistema ha raggiunto un livello sofisticato di intelligenza usando la sua architettura originale. In tale contesto, intendo con proto-AGI un software system che ha tutte le strutture e le dinamiche necessarie per arrivare a un livello sufficiente di general intelligence – ma che non ha la conoscenza specifica che è necessaria per muoversi nel mondo, e non ha le strutture di controllo necessarie per operare in situazioni differenti (pratiche e cognitive).

Come è possibile rendere una proto-AGI una genuina AGI? Quanto è cruciale l'embodiment in questo processo?

Knowledge encoding e linguaggio naturale

Ritengo che l'approccio "knowledge encoding" – preso di per sé senza essere integrato con niente altro – sia intrinsecamente problematico. Cyc per esempio ha una conoscenza di circa un milione di relazioni di logica dei predicati, ognuna rappresentante un pezzo di conoscenza di senso comune, ma non è minimamente paragonabile alla conoscenza presente nella mente di un bambino. Secondo la computer science, la logica dei predicati ha una potenza espressiva universale – così se le possibilità della conoscenza umana sono finite allora è possibile, in linea di principio, codificare tutta la conoscenza umana nella logica dei predicati. Tuttavia questa osservazione "in linea di principio" non dice nulla su come muoverci circa il modo attraverso cui codificare tutta la conoscenza umana in termini di logica dei predicati. Potrebbe essere che molta della nostra conoscenza di senso comune sia implicita, nel senso che "noi" (in senso cosciente) in realtà non conosciamo tutte le informazioni di cui siamo in possesso. In questo caso sarebbe possibile produrre una conoscenza di senso comune completa solo nel momento in cui le neuroscienze saranno in grado di sondare il cervello umano con estrema precisione. Probabilmente tale tecnologia sarà disponibile fra qualche decennio (Kurzweil: 1999), ma non è sicuro.

Invece insegnare a un AI system la conoscenza di senso comune attraverso il processo della conversazione non è un'idea di per sé sbagliata. Attraverso la conversazione potrebbe essere possibile insegnare sia la conoscenza esplicita che quella implicita – spesso noi diciamo molto di più di quello che stiamo esplicitamente dicendo. Tuttavia ho il sospetto che sia un metodo tremendamente lento per un proto-AGI system. Un modo per velocizzare il processo di teaching-by-talking sarebbe quello di fare un buon uso della conoscenza codificata formalmente. I database costruiti attraverso la codificazione formale della conoscenza possono essere molto utili per un AI system nel momento in cui devono sostenere delle conversazioni – fornire knowledge encoding per aiutarlo ad "ancorare" la conoscenza esplicita ed implicita che si ottiene dalle conversazioni. Per questo scopo, sembra che la commonsense knowledge costruita usando il linguaggio naturale sarebbe probabilmente più utile rispetto alla conoscenza resa nel modo di Cyc, creata usando la logica formale. La ragione sta nel fatto che un AI system, per applicare il database di conoscenza nel contesto della conservazione, deve controllare l'informazione derivata dalla conversazione con il suo database. Se il database è nella forma simile all'informazione derivata, questa operazione risulta più semplice e non richiede un grosso sforzo computazionale.

Questo è un problema che io e i miei collaboratori abbiamo incontrato nel lavorare su Novamente. C'è una componente del sistema che traduce le sentences del linguaggio naturale nella rappresentazione interna della conoscenza specifica di Novamente (Novamente nodes and links). Possiamo anche caricare la conoscenza di altri sistemi come Cyc ad esempio, traducendoli nel linguaggio di Novamente. Tuttavia il problema di controllare la conoscenza formata con il linguaggio naturale servendosi di una conoscenza derivata dal database è risultato più irritante di quanto ci si aspettasse.

Supponiamo che uno dica a Novamente una sentence molto semplice del tipo "Ben ha appena dato a Izabela una palla rossa". Novamente, appena dopo questa operazione, dovrebbe essere in grado di concludere che Izabela ha la palla rossa. Per compiere questo tipo di inferenza, Novamente richiede la commonsense knowledge del tipo "Dopo che X dà Y a Z, allora subito dopo questo, Z ha Y". Questo tipo di commonsense knowledge è implicito in Cyc, SUMO e altri famosi database. Tuttavia estrarre questa conoscenza implicita da uno qualsiasi di quei database in una maniera tale da fornire un valore per la comprensione del linguaggio richiede una quantità sostanziale di inferenza logica – e Novamente non può fare niente di tutto ciò. Tuttavia se forniamo Novamente della commonsense knowledge rilevante inserendo la sentence "Dopo che X dà a Z, allora subito dopo Z ha Y", allora Novamente "mapperà" automaticamente questa sentence nei suoi nodes e links in una maniera tale che mapperà allo stesso modo "Ben ha appena dato a Izabel la palla rossa".

La conoscenza ordinaria, ovvero basata sul senso comune, troverà una corrispondenza nella conoscenza linguistica discorsiva, rendendo l'abbinamento tra le due forme di conoscenza quasi immediato, come dovrebbe in effetti essere. Per questa ragione, nel progetto Novamente, avremmo un maggiore uso di un compendio di tipo Cyc, in semplice inglese, rispetto allo stesso Cyc. Ora, si potrebbe obiettare che un compendio di tipo Cyc in inglese non è necessario, perché tutta l'informazione è implicita nella massa sterminata di testi già presenti in Internet. Ma, anche se questo è vero, è anche vero che estrarre conoscenza ordinaria da testi generici richiede una comprensione linguistica sofisticata – e una comprensione linguistica sofisticata, come suggeriscono recenti lavori in linguistica computazionale, richiede conoscenza ordinaria.

Quindi abbiamo il tipico problema se viene prima l'uovo o la gallina (o del gatto che si morde la coda), che può essere risolto codificando (encoding) formalmente conoscenza ordinaria in semplice inglese. Il sistema Novamente "comprende" già l'inglese semplice (nel senso che è in grado di mapparlo con successo in nodi interni e collegamenti, utilizzando una interfaccia user interattiva che permette ad un aiutante umano di correggere i suoi errori), così può comprendere un semplice database (archivio dati) in inglese. Questa conoscenza ordinaria può poi aiutarlo ad espandere la sua conoscenza dell'inglese, che a sua volta lo abilita a comprendere meglio testi generici, i quali contribuiscono ulteriormente a costruire la sua conoscenza ordinaria, ecc.

Symbol grounding

Una delle ragioni spesso date per sostenere la tesi l'embodiment nell'AI è la necessità del cosiddetto symbol grounding: affrontare il problema della comprensione del linguaggio. L'idea è che, per un sistema privo di sensori o attuatori, la parola "mela" è definita solamente dalle sue relazioni con altre parole ed entità astratte del database. Invece un sistema con un corpo può vedere, odorare, gustare etc. le "mele" e questo fa sì che la parola "mela" possa essere associata ad un grande numero di patterns anche non-linguistici. In altre parole, la parola "mela" può essere grounded (Harnad: 1990). Questo grounding consiste in molti commonsense facts sulle mele – non solo fatti astratti, ma anche specifici e concreti. In linea di principio, tutti questi fatti possono essere codificati in una knowledge base usando la logica dei predicati o il linguaggio naturale, ma sarebbe un lavoro molto duro – e questo perché molti di questi fatti sono impliciti nella mente umana. La maggior parte di essi sono cose che emergono in modo naturale e pre-verbale in qualsiasi sistema di pattern-recognition abbastanza potente fornito di un grande numero di esempi di applicazioni, e vengono resi in una forma linguistica o facilmente comunicabile solo con grandi difficoltà e in modo goffo.

Creare un sistema AI capace di compiere questa azione di grounding su termini concreti come "mela" non è una cosa così incredibilmente difficile. Allo stadio attuale, dato lo stato avanzato di varie ricerche di narrow-AI, è sostanzialmente un esercizio di integrazione di system-design e di statistica: sarebbero da prendere una componente della percezione e una componente linguistica e collegarle attraverso un qualche genere di componente cognitiva che sia in grado di riconoscere le correlazioni tra parole e patterns all'interno delle percezioni. Non c'è nulla qui che metta a dura prova la tecnologia disponibile oggi. Progetti di ricerca come il Robot Brain Project (MacDorman et al: 2001) vanno in questa direzione.

Ma la domanda più importante è: come è possibile affermare con sicurezza che un certo AI system ha compiuto quell'operazione di grounding sulla mela? Non è abbastanza saper distinguere le mele dalle non-mele. Bisognerebbe capire se il sistema sia capace di delineare conclusioni utili sulle mele – e anche su altre cose, usando le mele come metafora – con la stessa facilità di un essere umano. Ancora più sottile è il grounding di alcune parole come le preposizioni. Parole come "per", "su" e "vicino" hanno in sé dei patterns di relazioni spaziali molto sottili, che sono difficili per gli esseri umani da articolare anche se facili da manipolare implicitamente. La semantica di queste parole è un caso classico di "conoscenza implicita". Cyc è abbastanza debole in questo campo nonostante dia molti e differenti sensi per ognuna di queste preposizioni. Cyc dà 14 differenti significati di "in", ognuno definito da differenti espressioni logiche, ma il significato "essenziale" di "in" non sembra essere contenuto esattamente in nessuna di queste definizioni – è un tipo più "sfumato" (fuzzier) di conoscenza implicita. Non è che la real definition di "in" non possa, in linea di principio, essere espressa in forma logica – certamente può. Il problema è che la real definition è un misto di concetti formali astratti come quelli presenti in Cyc, con annessi degli esempi specifici, che sono a noi familiari, e un insieme di patterns percettivi e attivi astratti da questi specifici esempi.

Enumerare tutti questi casi per un sistema che non ha esperienze embodied nella sua mente può risultare estremamente difficile. Invece per un sistema dotato in tal senso è più facile: ci sono migliaia di esempi di "in-ness" nella sua memoria, e molti patterns su livelli differenti di astrazione emergenti da questi. Una nuova "in-ness" può essere compresa dal referente da quegli esempi, e dei patterns possono essere astratti, non solamente dai patterns più astratti tra questi esempi che sono catturati nello stile formale tipico di Cyc.

Ovviamente non sto dicendo le definizioni astratte tipiche di Cyc non esistano nella mente umana, e nemmeno sto dicendo che non dovrebbero esistere in una mente AI. Il punto è che queste definizioni, in una mente embodied, sono solo al vertice della piramide di patterns astratti emergenti dai dati sensoriali e motori. A volte certi problemi sono risolti meglio al vertice della piramide, altre volte da patterns che si trovano più in basso, e a volte solo al livello sensoriale e motorio./p>

Il mondo reale come addestramento per learning cognitive heuristic

Abbiamo quindi messo in luce un altro problema per un'unembodied AI. La rete di patterns nei vari livelli di astrazione che emerge in un embodied system dal sensorimotor data, non è solo utile direttamente a una mente, ma è anche utile come metafora per pensare le cose non-directly- sensoritmor-related – e come training ground per insegnare ai sistemi come manipolare le reti di patterns gerarchiche/eterarchiche – aka dual network.

Circa la questione della "metafora" possiamo dire che non è una coincidenza che così tante preposizioni siano metafore spaziali – per molte cose l'apprendimento passa attraverso l'imparare a pensare al mondo spazio-temporale che ci circonda. Ma non è solamente che noi esseri umani impariamo il significato di throug riferendoci al database di esempi esperiti di through-ness, ma anche che impariamo come manipolare e connettere le loro concrete instanziazioni nel mondo percepito. Senza questo playground per imparare come connettere queste relazioni, sarebbe difficile per un AI system apprendere tale abilità. Certamente non sarebbe im- possibile, ma sarebbe comunque molto difficile.

La cognizione richiede parecchia euristica, molta della quale è troppo sottile e implicita per noi da programmare esplicitamente in un AI system. Ragionare sul tempo e lo spazio, sulle altre menti, sui nostri obiettivi e le nostre azioni, sulla pianificazione a breve e a lungo termine, e su altre cose importanti – tutte questi tipi di ragionamento implicano metodi generici di inferenza, ma anche euristiche di inferenze specifiche, che devono essere apprese dall'esperienza o sostituite da un qualche genere molto particolare di scienza cognitiva o computing science che ancora non esiste. Vi sono molte AI che si occupano di queste cose, ma non sono paragonabili a ciò che un bambino può fare. Certi AI systems, ad esempio, superano le performances di esseri umani adulti nel pianificare le operazioni di una fabbrica quando tutti i fattori e le condizioni sono ben definite – ma sono molto più inefficaci dei bambini nel pianificare la risoluzione di problemi dove la situazione considerata non è chiarita nei minimi dettagli.

L'esempio della pianificazione ci porta ad altri punti importanti. L'embodiment non riguarda semplicemente il problema di creare un vasto campo di sensorimotor data per il grounding, ma riguarda anche il problema di avere un corpo in grado di spostarsi e di controllarlo. Il processo di controllare un corpo in relazione a certi scopi che si hanno in mente è un eccellente training per imparare come raggiungere determinati obiettivi controllando dei sistemi nel contesto di una ricchezza di "data" diversificata circa i patterns su livelli diversi. Inoltre il processo di modellare il sé fisico di qualcuno (o qualcosa) è una pratica eccellente per modellare il sé mentale – e modellare quest'ultimo aspetto è cruciale.

In nessuno di questi casi è strettamente necessario l'embodiment per imparare a pensare. Il punto è che l'embodiment fornisce un modo efficace di imparare tutte queste cose e in una maniera riccamente interconnessa.

Embodiment umano vs embodiment non umano

Un altro punto cruciale è che, poiché siamo embodied, abbiamo intuizioni ragionevoli sui vari modi in cui imparano gli embodied systems. Se un puro meccanismo di apprendimento non-embodied è plausibile, questo ci risulterebbe estraneo, e sarebbe molto più difficile per noi capire come monitorarlo e metterlo a punto. In realtà, anche un'AGI embodied in un corpo sul modello di quello umano ci sarebbe particolarmente estranea a causa della diversa architettura cognitiva. Dato l'attuale stato della tecnologia robotica, il caso più tipico di cui siamo a conoscenza è quello di un'AGI embodied in un corpo non particolarmente modellato su quello umano – il che implica una psicologia molto differente dalla nostra, ma si spera abbastanza simile per costruire una vera connessione psicologica tra esso e i suoi "insegnanti" umani.

Un modo per capire che è un errore equiparare l'embodiment tout-court con l'embodiment umano è pensare al caso di Hellen Keller – una donna cieca, sorda e con un limitato senso dell'odorato. Questa donna faceva esperienza del mondo principalmente con il tatto, e il suo "insegnante" comunicava con lei tracciando delle forme di lettere sulla sua mano. Hellen Keller era intelligente ed eloquente e, si ipotizza, sviluppò una completa comprensione del mondo. Certamente il tatto – insieme alla cinestesia e ad altre percezioni interiori come la fame, il dolore, la sessualità, ecc. – fornisce molti dati. Ma questo non è minimamente paragonabile alla complessità dei dati provenienti dalla vista. E' necessario sottolineare che il tatto è il senso che più di ogni altro fornisce il senso dell'embodiment. La pelle divide il proprio sé da quello degli altri, e ci permette di dire quando si sta toccando un altro oggetto, di sentire la natura dell'ambiente in cui siamo immersi ecc. Per dare un embodiment a un'AI dovrei avere una Hellen Keller digitale – un corpo con pelle e sensazioni di tutto ciò che lo circonda – piuttosto che un tipico robot mobile con una videocamera al posto degli occhi.

Ci sono due aspetti dell' "imparare a pensare" che sono difficilmente distinguibili l'uno dall'altro: imparare a pensare in generale, e imparare a pensare come un essere umano. Tutti gli esseri umani condividono (fino ad un certo punto) un modello di mondo comune. Parte di questo modello può essere esplicitamente immagazzinato nel cervello fetale, a un livello astratto, ma non credo che questo sia un fattore significativo. Ho il sospetto che gran parte di questo modello di mondo venga dalle relazioni tra il nostro in-built human drives e le sensazioni: fame, sete, dolore, sessualità, movimento, freddo, ecc. Parte del resto viene dalle relazioni tra i sensori e gli attuatori – per esempio, una mente con un sonar tenderà a costruire modelli diversi di mondo, ecc. Ancora, ciò che rimane viene dalle relazioni sociali. Per riuscire a condividere un modello di mondo tipicamente umano, un'AI dovrebbe avere un corpo come quello degli esseri umani. Chiaramente Hellen Keller era in grado di farlo perché aveva un corpo come il nostro.

I patterns umani della cognizione sono strettamente collegati al modello umano di mondo, non semplicemente all'embodiment. Per questo motivo un'embodied AGI, a meno che non abbia un corpo uguale al nostro, non penserà mai come noi – anche se la sua testa fosse piena di commonsense knowledge sullo stile di Cyc. La nostra AGI prenderebbe il commonsense umano e lo integrerebbe con le sue esperience embodied in modo non umano e il risultato sarebbe qualcosa di profondamente diverso da quello che elaboreremmo noi. Più l'embodiment è modellato sul nostro, più è facile per noi guidare l'AGI a imparare a pensare.

La nozione di human world-mode è descritta da Eric Baum (Baum: 2004), da un punto di vista di computational-learning-theory, come una bias induttiva: una predisposizione a riconoscere certi tipi di patterns nel mondo. Per esempio è dimostrato empiricamente che, nonostante il cervello umano non abbia delle conoscenze linguistiche specifiche alla nascita, gli esseri umani hanno in sé delle biases per riconoscere certi tipi di patterns linguistici (Pinker 2000; Calvin e Bickerton, 2000). Se creassimo un'AGI senza una conoscenza di tipo linguistico e senza biases linguistic-pattern-oriented, e poi tentassimo di insegnare il linguaggio umano, la metteremmo in una situazione particolarmente scomoda nei confronti degli esseri umani – anche se la nostra AGI avesse un corpo perfettamente modellato sul nostro! Per questo motivo Baum afferma che una vera AGI non è possibile al momento: egli ritiene che dobbiamo aspettare ancora la neuroscienza per interpretare completamente il cervello, per poter così leggere le biases induttive e programmarle in un'AI system. Tuttavia ritengo che possiamo lavorare sul problema della bias induttiva attraverso un approccio creativo, integrativo che io chiamo post-embodied.

Post-embodied AI

Ritengo che esista un argomento molto forte per creare la embodied AI rispetto a quello che sostiene un approccio totalmente unembodied. Tuttavia non sono un sostenitore dell'approccio "l'intelligenza artificiale deve essere guidata interamente dalla robotica". Sto infatti lavorando a molti progetti che trattano ad esempio di unembodied natural language processing che probabilmente i più entusiasti della embodied-mind riterrebbero di nessun valore.

Il fatto pratico è che, allo stato attuale dell'arte, gli embodied AI systems sono troppo difficili da realizzare. In più la moderna tecnologia della robotica si sta impegnando in cose come la vision processing e il movimento degli arti, che non sono molto rilevanti ai fini di un'intelligenza embodied. Per questi motivi ritengo che sia necessario andare avanti con metodi unembodied e integrarli con metodi embodied solo dove ignorare questi significhi andare incontro ad assurde inefficienze. A partire da queste considerazioni di solito distinguo due approcci all'embodied AI: il puro embodiment, in cui l'AI conosce solamente attraverso il corpo (e chiaramente vi sono predisposizioni a un certo tipo di conoscenza) un embodiment impuro in cui l'AI ha uno o più corpi ma ha anche altre importanti fonti di conoscenza. Io difendo questo secondo approccio, che chiamo post-embodiment.

Il post-embodiment è un approccio pragmatico – ma guarda molto più in là rispetto al classico approccio embodied mind (ed è questa la ragione della scelta del nome). Noi esseri umani siamo embodied, e le nostre menti esemplificano l'utilità dell'embodiment per la cognizione – ma noi esseri umani siamo lontano dai sistemi intelligenti ottimali. Mano a mano che la cultura e la tecnologia avanza, noi ci allontaniamo sempre più dai nostri corpi, e acquisiamo conoscenza da remote regioni del mondo esterno. Non passerà molto tempo prima che saremmo in grado di trapiantare chips di computer dentro il nostro cervello e immettervi interi database di vario tipo – in questo modo si ottengono informazioni che non hanno un legame diretto con i nostri corpi: le informazioni arrivano direttamente al cervello senza passare dai sensi. In più, la tecnologia della realtà virtuale in poco tempo si svilupperà e ci permetterà di avere la sensazione di occupare più corpi in più posti. Insomma, c'è un argomento che dice che l'intelligenza umana diventerà via via sempre meno embodied mano a mano che la tecnologia avanza. E questo chiaramente è un potenziamento dell'intelligenza piuttosto che una regressione.

Il post-embodiment per gli esseri umani è un'ipotesi futuristica, ma per l'AGI può essere la condizione iniziale. L'AGI dovrebbe avere dei corpi, perché l'embodiment fornisce un utilissimo medium per imparare molte cose utili in maniera interconnessa. Tuttavia, l'AGI dovrebbe anche usare altri mezzi di acquisizione di conoscenza.

Cosa significa in pratica tutto ciò? La direzione dell'AGI dovrebbe essere triplice:

  1. si dovrebbe organizzare l'embodiment del proto-AGI system in uno o più mondi per far sì che abbia un'esperienza sensoriale e motoria più ricca. I mondi simulati possono essere utili per il grounding di vari concetti relazionali, e per l'apprendimento del self-control e del self-modeling. Tuttavia, data la semplicità dei mondi simulati disponibili oggi, i dati percepiti dal mondo reale sembrano di maggior valore, a causa della loro ricchezza;
  2. si dovrebbe conversare con un proto-AGI system di qualsiasi cosa, incluso quello che sente e fa nei mondi con cui interagisce;
  3. si dovrebbe "nutrire" un proto-AGI system di più conoscenza preparata possibile – preferibilmente in linguaggio naturale semplice, ma anche in forma di data quantitativa, relazionale e logica.

Se viene detto a un post-embodied AI system "Ben ha dato a Izabela la palla" allora questo potrebbe sapere che poco dopo Izabela ha la palla, per due ragioni. Potrebbe conoscere questo perché esplicitamente gli si dice che "se X dà Y a Z, allora in seguito Z ha Y". Oppure potrebbe conoscere il fatto perché osserva un certo numero di istanze di interazioni del mondo reale associate con la parola "dare", e nota questo come un pattern in diversi casi di X, Y e Z. La presenza di conoscenza di commonsense formalmente data può essere molto utile, ma con il tempo l'apprendimento basato sull'esperienza deve andare oltre. Ad esempio, come può il sistema sapere che, dopo aver dato la palla, Ben non ha più la palla? Questo non è parte del "dare", perché se Ben attacca a sua moglie il raffreddore, lui avrà ancora il raffreddore; se una moglie dà al marito un bambino, quella avrà ancora un bambino. Ancora una volta, sembrerebbe che l'AI system deve avere un'esplicita conoscenza del tipo "le palle sono oggetti solidi" e "se X dà Y a Z, e Y è un oggetto solido allora subito dopo Z ha Y e X non ha più Y". Può anche essere che il sistema impari questo "pattern" semplicemente osservando una certa quantità di situazioni con dei reali X, Y e Z. In qualsiasi situazione particolare, si può retroattivamente dire: "Se il sistema ha questo e quel pezzo di commonsense knowledge immesso esplicitamente in esso, potrebbe riuscire a capire". Il problema è che ci sono troppi esempi, ed estrarre tutta questa conoscenza implicita dalla mente umana è un lavoro troppo lungo e difficile.

La via di mezzo che propongo può essere illustrata con un esempio semplicissimo. Un approccio puramente embodied non fornisce al sistema alcuna esplicita conoscenza di background, e fa sì che l'AI system impari cose come le relazioni tra il dare e l'avere da sé, nel momento in cui impara altre cose importanti come la sintassi linguistica, il movimento del proprio corpo, e così via. Un approccio puramente unembodied cerca di codificare qualsiasi cosa come regola formale. Un approccio di tipo post-embodied cerca di avere, metaforicamente, la botte piena e la moglie ubriaca – nell'esempio considerato si cercherebbe di codificare esplicitamente "Se X dà Y a Z, allora poco dopo Z ha Y" e si lascerebbe al sistema il compito di capire grazie all'esperienza "Se X dà Y a Z, e Y è un oggetto solido, allora poco dopo Z ha Y e X non ha più Y". Notare che in questo approccio il problema dell'apprendimento dall'esperienza è molto più semplice da risolvere rispetto a un approccio puramente embodied, e questo perché tutto ciò di cui il sistema ha bisogno di apprendere è una modificazione di un pattern già esistente. Il punto non è capire dove finisce la conoscenza immessa inizialmente e dove inizia quella basata sull'esperienza. Il punto è che entrambi i tipi di conoscenza esistono e in modo sinergico si completano a vicenda.

Consideriamo un altro esempio: in Cyc la parola "in" assume quattordici significati – i quali, ovviamente, non sono sufficienti a fornire una comprensione sul tipo di quella umana della in-ness. In un approccio meramente embodied, l'AI system apprenderebbe dei sensi rudimentali della parola grazie all'esperienza. In un approccio unembodied, qualora i quattordici significati risultassero inadeguati, se ne potrebbero aggiungere altri direttamente. Nell'approccio post-embodied, è possibile partire dalle nozioni di "in" fornite da database come quello di Cyc o dai dizionari, e far sì che vengano elaborate attraverso l'interazione con il mondo. E' chiaro che l'approccio post-embodied, se mai lo si realizzasse, fornirebbe una modalità migliore di apprendimento, in quanto porta più rapidamente una maggiore quantità di informazione nella mente dell'AGI.

Questo approccio è "impuro" perché non richiede che il proto-AGI impari tutto dall'esperienza. Piuttosto, assume che un sistema proto-AGI abbia una rappresentazione della conoscenza abbastanza flessibile, e un insieme sufficientemente potente di dinamiche cognitive, che sia in grado di integrare diverse forme di conoscenza (formale, empirica e linguistica) e di usare ciascuna di queste forme per aiutare altre forme ad una migliore comprensione. In particolare questo approccio assume che il modulo della percezione di un proto-AGI system sia configurato in una maniera tale che i patterns emergenti che lo formano possano facilmente armonizzarsi con i pattern che si formano nel sistema sulle interpretazioni delle espressioni linguistiche.

Una obiezione ragionevole a questo approccio integrativo potrebbe essere la grande difficoltà di armonizzare i patterns emergenti dalla percezione con quelli linguistici e di comprensione. In una mente meramente embodied, i patterns linguistici e di comprensione emergono per la quasi totalità dai patterns della percezione, e quindi l'armonizzarsi viene di conseguenza. In una mente post-embodied questa armonizzazione non è garantita.

Credo che le rappresentazioni e le dinamiche nel sistema Novamente siano adeguate per questo compito – e questa mia credenza verrà verificata nei prossimi anni.

L'approccio che ho descritto circa l'embodiment può sembrare molto controverso se considerato nel contesto della teoria contemporanea sull'AI. Tuttavia lo considero come common sense, ma non è sicuramente sterile – infatti nel contesto di Novamente mi ha portato ad alcune considerazioni interessanti sull'utilità della fusione di conoscenza formale, linguistica e percettiva. Così le idee esposte qui costituiscono una prospettiva concettuale che è servita a fornire linee guida pratiche almeno per un proto-AGI system.

Ma la cosa importante non è Novamente – è invece l'approccio generale, il concetto di post-embodied AI. L'embodiment è importante; è incredibilmente utile come meccanismo di apprendimento per la mente – ma da questo non ci è possibile affermare che tutti i meccanismi non-embodied per immettere informazione in un'AI siano da buttare. Piuttosto, in una struttura di AGI sufficientemente flessibile, è possibile avere l'embodiment e in più utilizzare gli approcci tipicamente associati alle filosofie anti-embodiment.

Bibliografia

  • Baum, Eric (2004). What Is Thought?, Cambridge MA: MIT Press.
  • Brooks, Rodney (1999). Cambrian Intelligence, Cambridge MA: MIT Press.
  • Calvin, William and Bickerton, Derek (2000). Lingua ex Machina, MIT Press.
  • De Garis, Hugo and Korkin, Michael (2002). The Cam-Brain Machine (CBM): An FPGA Based Hardware Tool which Evolves a 1000 Neuron Net Circuit Module in Seconds and Updates a 75 Million Neuron Artificial Brain for Real Time Robot Control. Neurocomputing, Elsevier, Vol. 42, Issue 1-4.
  • Goertzel, Ben and Pennachin, Cassio (2005). The Novamente AI Engine. Artificial General Intelligence, ed. by Ben Goertzel and Cassio Pennachin, New York: Springer-Verlag.
  • Harnad, S. (1990). The Symbol Grounding Problem. Physica D, 42, pp 335-346.
  • Kurzweil, Ray (1999). The Age of Spiritual Machine, New York: Penguin.
  • MacDorman, K.F., Ishiguro, H. & Kuniyoshi, Y. (2001). Cognitive Developmental Robotics as a New Paradigm for the Design of Humanoid Robots. Robotics and Automation, 37, 185-193.
  • Pinker, Steven (2000). The Language Instinct, New York: Bantam.
  • Schmidhuber, J. (2004). Optimal Ordered Problem Solver. Machine Learning, 54, pp 211-254.
  • Varela, Francisco J.; Thompson, Evan; Rosch, Eleanor (1991). The Embodied Mind: Cognitive Science and Human Experience. Cambridge MA: MIT Press.

Note

  • 1 In realtà il termine "embodiment" difficilmente può essere tradotto in italiano in quanto ormai rappresenta un termine tecnico della filosofia e delle scienze cognitive al pari di "grounding" (N.d.T)
  • 2 novamente.net. Il lettore può anche consultare Goertzel, Ben and Pennachin, Cassio (2005), "The Novamente AI Engine", in Artificial General Intelligence, ed. by Ben Goertzel and Cassio Pennachin, New York: Springer-Verlag