Google Deep Mind – One (Game) AI to rule them all?

19.08.2015

Für Gamer, Technerds und andere fachlich Interessierte dürfte es eine alte News sein:

Anfang des Jahres veröffentlichte Google einen Artikel über die KI (Künstliche Intelligenz) ‘Deep Mind’, die in der Lage ist, alte Atari Spieleklassiker selbstständig zu erlernen. Wir stellen uns die Frage, inwiefern dieser Ansatz einer generischen künstlichen Intelligenz dazu geeignet ist, spezifisch für einzelne Spiele programmierte KIs (und damit auch die KI-Programmierer) abzulösen.

Die Anfang des Jahres von Google veröffentlichte KI ‘Deep Mind’ ist in der Lage, alte Atari Spiele selbstständig zu erlernen. Als Information dient der KI lediglich ein Stream des Bildschirms (inklusive Punktestand), als Eingabemöglichkeit steht Deep Mind ein virtueller Joystick zur Verfügung: Ein Stick also und 2 Buttons. Genau wie ein menschlicher Spieler kann Deep Mind also einfach einen Joystick bedienen und verfolgt dabei (ebenso wie menschliche Spieler) das Ziel, einen möglichst hohen Punktestand zu erzielen.

Um das allerdings zu erreichen, muss Deep Mind ein Spiel zuerst erlernen, und dafür muss die KI verstehen, was auf dem Bildschirm vor sich geht. Hierfür müssen einzelne Objekte identifiziert werden, die auf dem Screen miteinander interagieren. Für diesen ersten Schritt, den der Mensch gerne als selbstverständliche Leistung seines Gehirns und noch nicht als echte ‘Denkarbeit’ ansieht, benutzt die KI Algorithmen, wie z.B. Edge Detection (Kantenerkennung), die auch Robotersysteme verwenden, um Objekte in der echten Welt zu erkennen. Während Roboter sich dabei u.a. mit Licht und Schatten und verschiedenen Perspektiven herumschlagen müssen, hat Deep Mind zwar ein von solchen Faktoren unbeeinflusstes 2D-Bild, aber dafür andere Probleme, z.B. dass animierte Objekte plötzlich andere Umrisse haben können, und dass Objekte in machen Spielen ‘teleportiert’ werden oder sogar ganz verschwinden können.

Sobald diese Basis-Aufgabe gelöst ist, liegt Deep Mind eine abstrakte Repräsentation der Welt vor, mit der sie im Gegensatz zum uninterpretierten Pixelhaufen ‘kognitiv arbeiten’ kann. Diese Aufgabe übernimmt ein neuronales Netz, das im Gegensatz zu herkömmlichen neuronalen Netzen um eine Speicherkomponente erweitert wurde, weshalb die Erbauer der KI Deep Mind als neuronale Turing Maschine bezeichnen.


Breakout - Eines der Spiele in denen Deep Mind brilliert

Vergleicht man Deep Mind mit seinem Beinahe-Namensvetter Deep Blue, dem Schachcomputer, der 1996 den amtierenden Schachweltmeister Kasparow bezwang, so ist der gravierendste und wichtigste Unterschied, dass Deep Blue niemals in der Lage sein würde etwas anderes zu tun, als Schach zu spielen, weil die KI speziell dafür programmiert wurde. Das Regelsystem von Schach ist in ihrem Code verankert ist, und insbesondere ist sie durch das beschränkte Spielfeld und die abwechselnden Züge in der Lage, durch Einsatz von viel Rechenleistung (‘brute force’) sehr weit vorauszuplanen und so den menschlichen Kontrahenten zu schlagen. Deep Mind hingegen wurde nicht dafür programmiert, ein bestimmtes Atari-Spiel zu spielen, das heißt das Verständnis der gespielten Spiele findet sich nicht im KI-Code wieder.

Stattdessen bekommt Deep Mind lediglich zwei Schnittstellen (im Fall der Atari Spiele den Bildschirm als Input und den Joystick als Output) und wird am Anfang zufällige Aktionen ausführen und dann versuchen, Ausgaben (also Steuer-Reihenfolgen) zu generieren, für die die Belohnung in Form von Punkten maximal wird. Diese Form von Intelligenz, in der sich die Maschine selbst beibringt, zu spielen wird ‘Reinforcement Learning’ (Bestärkendes Lernen) genannt und das unterscheidet sie von Algorithmen oder Tools die zwar komplexe Aufgaben lösen, aber niemals in der Lage sein werden, etwas anderes zu tun. Weiter oben haben wir gesagt, Deep Mind wurde nicht dafür programmiert, ein bestimmtes Atari-Spiel zu spielen. Die präzisere (und bedeutendere) Aussage ist: Deep Mind ist auch nicht darauf ausgelegt ‘verschiedene Atari-Spiele’ zu spielen.

Tatsächlich könnte die im Prinzip gleiche KI, ausgestattet mit einer Kamera statt einem Bildschirm-Stream und einem Greifarm statt einem Joystick, lernen, Objekte in Kisten zu sortieren. Vorausgesetzt, sie kann das lange genug ausprobieren und bekommt dabei Feedback (in Form von Punkten) für richtige und falsche Handlungen. Diese universelle Lernfähigkeit ist das Alleinstellungsmerkmal von Deep Mind.

‘Wird das bald in allen Games eingesetzt werden?’ fragen sich jetzt viele Gamer, oder ‘Werden wir dann in GTA richtig kluge Bots haben’? Die Frage selbst basiert wohl auf dem nachvollziehbaren Gedankengang: Wenn eine KI eigenständig lernen kann, unterliegt sie ja keiner Beschränkung mehr. Wenn sie lernen kann, Breakout zu spielen, dann kann sie auch lernen, Call of Duty zu spielen. Oder vielleicht ja sogar zu sprechen?

Genau das trifft aber nicht zu. Ein Hund kann lernen, einen Stock zu apportieren, aber niemand fragt sich ernsthaft, ob Hunde irgendwann in der Lage sein werden alle unsere Aufgaben zu übernehmen. So unterliegt auch die Lernfähigkeit von Deep Mind starken Einschränkungen. Das zeigt schon die Auswahl an Atari-Spielen, an denen Deep Mind bisher getestet wurde:

Alle diese Spiele aus früherer Zeit basieren auf einem 2-dimensionalen Raum in dem einfache physikalische Gesetze gelten. Damit ist nicht Gravitation gemeint (die spielt z.B. in Breakout keine Rolle) sondern noch einfachere Regeln: etwa der Umstand, dass ein Objekt, das sich momentan an einer Position p im zweidimensionalen Raum befindet und Geschwindigkeit v hat nach Zeit t (ausreichend klein gewählt) vermutlich nahe bei p + t*v sein wird. Ohnehin spielt in diesen Spielen hauptsächlich die Verortung von Objekten im 2-dimensionalen Raum eine Rolle und Interaktion ist meistens auf Kollision beschränkt (mit Gegnern ist sie zu vermeiden, mit Bonus-Items wünschenswert). Zugegeben: Im Falle von Breakout hat auch die zum Zeitpunkt der Kollision relative Position der Objekte zueinander einen Einfluss auf die Richtungsänderung des Balls. Trotzdem basieren alle diese Spiele auf der eher simplen Topologie von Objekten im zweidimensionalen Raum.

Ein wohl noch relevanterer Aspekt ist, dass keines der Spiele eine längerfristige Planung erfordert (wie es z.B. bei Schach der Fall ist). Eine lokal optimale Entscheidung für den Moment (Gegner ausweichen/abschießen) ermöglicht bei diesen Spielen fast immer auch einen global optimalen Ausgang (Highscore). Der kurzfirstige Belohnungseffekt (Punkte für einen Kill) ist für Reinforcement Learning sehr relevant und in vielen komplexeren Spielen nicht gegeben.

Ohne also das bahnbrechende Ergebnis kleinzureden: Die Welt der Atari-Spiele, in denen Deep Mind positive Ergebnisse erzielt, ist (samt der darin geltenden Regeln) verhältnismäßig einfach abstrahierbar und Aktion und Reaktion sind darin sehr unmittelbar verknüpft. Sobald die benutzten (2D-)Welten auch nur Hindernisse wie Wände enthalten (wie z.B. bei Pac-Man oder Montezuma’s Revenge) und damit das Wunschziel nicht mehr ‘mittels lokaler Entscheidungen’ zu erreichen ist, sondern ‘globale Überlegungen’ erfordert, stoßen Ansätze wie Deep Mind an ihre Grenzen. Und das liegt wohlgemerkt nicht daran, dass das Finden des Wegs durch ein Labyrinth - in Spielen als Pathfinding (Wegsuche) bezeichnet - eine schwere Aufgabe ist. Denn Pathfinding ist für die meisten Game AIs nur eine Basisfunktionalität, die in den meisten Game Engines bereits integriert verfügbar ist. Trotzdem scheitert Deep Mind daran, Pac-Man zu meistern. Dass der Computer hingegen den Menschen bei Breakout und Pinball schlägt ist (wenn man die Tatsache dass er die Spiele selbst erlernt hat außer Acht lässt) wenig überraschend: Denn in diesen Spielen geht es ja vor allem um Präzision und Reaktionsschnelligkeit, zwei Dinge in denen der Computer uns weit voraus ist.


Montezuma’s Revenge - Trotz relativ geringer Komplexität hat Deep Mind hier keinen Erfolg mehr

Ja, Deep Mind ist bahnbrechend, aber sehr weit davon entfernt, die ‘gute alte KI’, die speziell für ein Computerspiel programmiert wird, abzulösen. Denn die meisten Spiele erfordern taktisches Verständnis und die Fähigkeit, längerfristig zu planen. Und selbst wenn eine Zukunfts-Version von Deep Mind doch in der Lage wäre, komplexere Spiele zu meistern, wäre ein optimal kompetitiver Gegner nicht immer ein guter Gegner im Sinne des Spielers: Denn niemand möchte gegen Bots spielen, die Headshots austeilen, stets die gleiche Winning Strategy ausführen, neben ihrer Flagge campen, oder sogar Exploits verwenden, um den menschlichen Spieler zu besiegen.