Una nova intel·ligència

(Article publicat a "El Punt Avui" el 01-Mai-18)
A finals del segle XX, l’ordinador Deep Blue d’IBM va derrotar els campions mundials d’escacs. Per a arribar a aquesta fita tant important del progrés en les capacitats dels ordinadors, aquests s’havien basat en la seva capacitat d’emmagatzemar enormes llibreries de jugades, així com en la seva capacitat de poder calcular, per moltes jugades d’avançada, les ramificacions d’un cert moviment de peces.
 
No obstant, el Go, un joc de tauler molt popular a l’Àsia, va resistir aquest embat dels ordinadors per l’ingent quantitat de posicions possibles de les peces sobre el tauler (el tauler de Go té 19 línies verticals que intersequen amb 19 línies horitzontals. Les peces, blanques i negres, es col·loquen a les interseccions de les línies i l’objectiu és controlar la major part del tauler possible). Això fa que no hi hagi cap possibilitat d’intentar calcular els moviments per endavant, i que els millors jugadors juguin mitjançant una barreja de intuïció i experiència. Fins ara.
 
El Març del 2016, AlphaGo, el programa d’intel·ligència artificial creat per la divisió DeepMind de Google, va jugar una sèrie al millor de 5 partides amb Lee Sedol, un coreà 18 vegades campió del món de Go. AlphaGo va guanyar Seedol per 4 a 1. El Maig del 2017, AlphaGo va jugar contra l’actual número 1 mundial de Go, el xinés Ke Jie, i el va guanyar per 3 a 0. AlphaGo va aprendre a jugar analitzant milers de partides entre humans i extraient-ne directrius de joc, les quals després va refinar jugant milions de partides contra ell mateix. En el fons doncs, un aprenentatge dels humans, millorat amb la capacitat de repetir dels ordinadors.
 
Aquest Octubre passat, la revista Nature va revelar que DeepMind havia creat una nova versió d’AlphaGo, la AlphaGo Zero. A diferència de l’anterior versió però, AlphaGo Zero no va aprendre de cap jugador humà, sinó que simplement se li varen explicar les regles del joc, i se li va programar una recompensa quan capturava peces del contrari i un càstig quan les perdia. I a partir d’aquí va començar a jugar.
 
Els seus creadors varen poder observar com les seves tàctiques evolucionaven des de les pròpies d’un jugador principiant, cap a les d’un jugador expert, amb totes les etapes intermèdies, ... però en només 3 dies. A partir d’aquí va començar a progressar cap a terrenys inexplorats, i a descobrir tàctiques que els humans no havien descobert en els milers d’anys que fa que es juga a Go. El resultat: quan AlphaGo Zero va jugar amb AlphaGo (la versió prèvia), el va guanyar per 100 a 0!!! Evidentment, ja del tot inabastable per als humans.
 
Estem doncs veritablement davant d’un assoliment extraordinari: el naixement d’una nova mena d’intel·ligència que, tota sola, ha aprés a dominar un joc complicadíssim, fins nivells extremadament superiors al dels millors jugadors humans.

Comentaris


No hi ha cap comentari

Comenta aquest article