La psicologia della Gestalt
Questa mattina scorrevo annoiato le ultime news sul telefono quando, con la coda dell’occhio, scorgo un articoletto targatto “chedonna.it” che richiama la mia attenzione. L’articolo è accompagnato da una seducente immagine di due gatti speculari ammantanti il nudo corpo di una donna callipigia.
L’articolo pretendeva di sezionare la psiche del lettore in ragione della relazione temporale con cui l’osservatore avesse individuato l’una o l’altra immagine.
E’ appena il caso di sottolineare la vacuità di una simile pretesa, sicché l’unico, reale intendimento del sito era ottenere un po’ di visibilità.
La psicologia della Gestalt
La mia primissima esperienza con immagini di tal fatta risale ai primissimi anni della mia infanzia. Nel cassettone della camera da letto dei miei genitori era riposto un minuscolo cartoncino giallo raffigurante il viso di un uomo corrucciato. L’aspetto peculiare era che, rovesciando il cartoncino, l’uomo cambiava totalmente espressione, esibendo un sorriso sgargiante.
Ero inconsciamente attratto da quella immagine.
Tanto l’uomo dal viso ambivalente, quanto l’immagine raffigurante la donna e i gatti, pertengono alla cosidetta psicologia della Gestalt.
L’interrogativo che Edgar Rubin e numerosi altri studiosi a lui coevi si ponevano era tutto sommato semplice: cosa percepisce la mente? Cosa è davvero raffigurato, un gatto o una donna?
Trama
Proporrò entro breve una soluzione al problema che si basi sui principi di funzionamento di una rete neurale. Occorre all’uopo precisare le ipotesi a supporto delle considerazioni che seguono.
Ipotesi 1: l’attività dell’io è seriale. Non è possibile intenzionare due enti differenti a un tempo.
Ipotesi 2: l’attività di riconoscimento degli enti nel cervello umano è isomorfo a quella in una macchina.
Stanti le due ipotesi, è facile inferire che l’immagine riportata dall’oramai famigerato chedonna.it non raffiguri né i felini né la donna. Più rigorosamente, essa non raffigura esattamente nulla.
In effetti, ciascun oggetto di cui possa aversi esperienza è pura sintassi prima che l’osservatore ne offra una interpretazione.
Il ruolo della IA
Nell’anno domini 2021 le reti neurali convoluzionali hanno trovato largo impiego negli algoritmi di intelligenza artificiale. Esse permettono di estrarre frammenti semantici da contesti per loro natura prevalentemente sintattici.
E’ infatti possibile insegnare alla macchina a riconoscere un certo oggetto all’interno di un dato contesto: cani, sedie, rape, calzini spaiati, quale che sia l’ente, il computer può imparare a riconoscerlo. Inutile entrare nella complessità ricorsiva degli algoritmi, purché il lettore sia informato che questi scimmiottano parvamente la complessità biologica di un encefalo umano.
Le reti neurali possono essere multisemantiche. Si ipotizzi che in una data rappresentazione figurino sia un gatto che una sedia, e che il gatto sia appisolato sulla sedia. La rete neurale è stata addestrata a riconsocere tanto i gatti quanto le sedie. Quale output produrrà prima?
La risposta non è affatto scontata, ma in linea di massima attribuirà maggiore rilevanza all’oggetto che essa riconosce meglio.
Reti polisemantiche
Si supponga che la rete neurale convoluzionale sia stata addestrata a riconoscere 5 oggetti diversi. Essa è altresì programmata per rispondere con una quintupla di reali il cui valore in ogni posto del vettore indica l’intervallo di confidenza nel riconoscimento di ciascuno dei cinque enti.
Si ponga ad esempio il vettore (0.96, 0, 0, 0.2, 0)
Esso fornisce la sostanziale indicazione che il primo dei cinque oggetti di cui il dizionario semantico dell’intelligenza artificiale si compone è stato individuato nel contesto. Gli oggetti due, tre e cinque non sono presenti, mentre per l’oggetto quattro sussite una minuscola incertezza.
Qualunque programmatore minimamente accorto programmerebbe il proprio software affinché l’input finale sia “Oggetto numero 1”. L’intelligenza artificiale sta intenzionando un oggetto.
Gedankenexperiment
Diamo ora in pasto alla rete neurale una scena che contenga ben due degli oggetti che questa è indiziata a riconoscere. L’output sarà un vettore simile a (0.965, 0.005, 0.01, 0.1, 0.982).
La rete neurale ha pertanto riconosciuto gli enti uno e cinque come facenti parte della scena.
Quale affermerà di avere riconosciuto? Il programmatore ha due scelte. Può definire una soglia di threshold oltre la quale l’oggetto può dirsi riconosciuto oppure selezionare l’oggetto la cui confidenza è la più elevata possibile. Nel caso di specie i due possibili output sarebbero:
– Oggetto numero 1 e oggetto numero 5, in quanto 0.965 e 0.982 > 0.9 (soglia di threshold)
– Oggetto numero 5, in quanto 0.982 > 0.965
Per semplcità, tolleriamo l’idea che gli oggetti uno e cinque siano rispetivamente un gatto e una sedia.
Manipolazione
Iniziamo quindi a lavorare sulla scena. Modifichiamo la sedia incurvando leggermente le gambe. Se nella sua storia la rete neurale è stata addestrata su sedie aventi gambe principalmente longilinee, è ragionevole credere che l’euristica del programma abbasserà leggermente la soglia di confidenza per l’oggetto numero 5 (la sedia). Il nuovo vettore sarà quindi: (0.965, 0.005, 0.01, 0.1, 0.942).
Questa volta il gatto è riconosciuto con una significatività maggiore dal programma. Ciò implica che l’intelligenza artificiale affermerà che l’ente riconosciuto sia l’oggetto numero 5 (il gatto).
Epilogo
Ecco la soluzione ai quesiti posti da Rubin: in una scena polisemantica la mente umana riconsoce l’oggetto col quale ha maggiore familiarità, ma in senso pedissequamente figurativo.
Se la stessa immagine avesse contenuto una schiena di donna figurativamente più dettagliata, la semantica di prima approssimazione avrebbe colto la donna e non i gatti.
Per concludere, è impossibile trarre dalla nostra immagine bizzarre conclusioni di ordine psicologico circa il carattere dell’individuo, è tuttavia possibile congetturare circa le idee di gatto e di donna che l’individuo serba nella propria mente.