Computerhirn pokert wie die Profis - wissenschaft.de
Anzeige
Anzeige

Technik+Digitales

Computerhirn pokert wie die Profis

Poker
Beim Texas Hold'em-Poker wird mit zwei verdeckten Karten gespielt. (Bild: olio/ iStock)

Künstliche Intelligenzen erobern immer mehr Domänen des Menschen – vor allem, wenn es um Spiele geht. Jetzt hat ein von US-Forschern entwickeltes KI-Programm zum ersten Mal gegen gleich fünf Mitspieler seine Spielstärke im Poker bewiesen. Die KI „Pluribus“ setzte sich dabei gegen Weltklasse-Pokerprofis durch und gewann mehr Spiele als diese. Die Forscher sehen dies als einen wichtigen Fortschritt in der KI-Forschung, weil ihr System gleich zwei Herausforderungen gemeistert hat: das Spiel gegen mehrere Gegner und die Tatsache, dass man beim Poker das Blatt seiner Mitspieler nicht kennt.

Strategiespiele wie Schach, Go oder die japanische Schachvariante Shogi gelten als besondere Herausforderung für den menschlichen Geist – und als gutes Testmodell für künstliche Intelligenzen. Denn bei diesen Spielen muss man komplexe Spielzüge und Strategien memorieren und kombinieren, um sich gegen den Mitspieler durchzusetzen. Dank neuronaler Netze und lernfähiger Algorithmen ist es in den letzten Jahren KI-Systemen wie AlphaGO gelungen, selbst hochrangige Profis in diesen Strategiespielen zu schlagen. Die Programme erreichen dabei meist in kurzer Zeit ein hohes Spielniveau, indem sie auf Basis der grundlegenden Spielregeln immer und immer wieder gegen sich selbst spielen. Allerdings haben Schach, Go und Co eine Gemeinsamkeit: In diesen Spielen sieht jeder Spieler die Spielpositionen des Gegenübers – es sind Spiele mit sogenannter „perfekter Information“.

Gegen fünf Mitspieler gleichzeitig

Anders ist dies dagegen bei Kartenspielen wie dem Poker: Hier kennt man das Blatt seines Gegenübers entweder gar nicht oder nur teilweise. Das macht es deutlich schwerer, eine Strategie zu entwickeln – ähnlich wie bei einer Gleichung mit mehreren Unbekannten. Hinzu kommt, dass beim Poker auch das „Bluffen“ eine wichtige Rolle spielt: Es geht darum, nicht zu verraten, ob man ein gutes oder schlechtes Blatt hat, um die Mitspieler zu höheren Geldeinsätzen zu bewegen. Für künstliche Intelligenzen galt dies lange als nahezu unlösbare Herausforderung. Doch inzwischen haben KI-Systeme auch diese Leistung erbracht: Vor einigen Jahren gewann erstmals ein Computer im Poker. 2017 legte dann ein System namens DeepStack in der Spielvariante „Heads-Up No-Limit Texas Hold’em“ nach. Dabei hat jeder Spieler zwei Karten, die nur er kennt, der Rest des Blattes wird in drei Folgerunden sukzessive offen ausgeteilt.

Einen Schritt weiter geht nun „Pluribus“, ein von Noam Brown und Tuomas Sandholm von der Carnegie Mellon University in Pittsburgh entwickeltes KI-System. Denn dieses lernfähige Maschinenhirn pokert nicht nur mit einem Mitspieler wie seine Vorgänger, sondern kann sich auch in Pokerrunden gegen fünf Mitspieler durchsetzen. „Bisher waren KI-Meilensteine im strategischen Denken immer auf Zwei-Parteien-Wettbewerbe begrenzt“, sagt Brown. „Ein Spiel mit sechs Mitspieler zu absolvieren erfordert fundamentale Veränderungen darin, wie die KI ihre Spielstrategie entwickelt.“ Denn in Zwei-Personen-Spielen gilt meist das sogenannte Nash-Äquilibrium, wie die Forscher erklären: Die langfristigen Erfolgschancen sind am größten, wenn der Spieler bei seinen Strategien bleibt und keiner die Spielweise grundlegend verändert. Bei Spielen mit mehr als einem Gegner jedoch gilt dies nicht mehr.

Siegreich gegen Weltklasse-Pokerprofis

Das KI-System Pluribus löst dieses Problem, indem es zunächst immer wieder gegen Kopien seiner selbst spielt und dadurch immer besser wird. Aus diesen Erfahrungen entwickelt Pluribus dann eine Art Strategie-Blaupause – eine vorab ermittelte Spielweise, mit der er das Pokerspiel gegen seine fünf Mitspieler beginnt. „Während des Spiels optimiert Pluribus dann seine Strategie, indem er in Echtzeit nach einer besseren Lösung für die aktuelle Spielsituation sucht“, berichten Brown und Sandholm. Dabei kann Pluribus sogar das Problem des Bluffens lösen: „Wenn ein Spieler immer nur dann den Einsatz erhöhen würde, wenn er das bestmögliche Blatt hat, wüssten seiner Gegner, dass sie in dem Fall immer passen müssten“, erklären die Forscher. Die KI umgeht dies, indem sie bei jeder Entscheidung die Wahrscheinlichkeit des Spielzugs ungeachtet ihres Blatts mitberücksichtigt. Dadurch kann sie erkennen, dass es auch bei einem schlechten vorteilhaft sein kann, einen Einsatz zu machen.

Anzeige

Wie gut Pluribus tatsächlich pokert, hat die KI in zwei Turnieren gegen Weltklasse-Profispieler bewiesen. „Der Bot spielt dabei gegen einige der besten Pokerspieler der Welt“, betont Darren Elias, ein Profi, der den Rekord für die meisten Poker-Welttour-Titel hält. Im ersten Turnier spielte die KI über zwölf Tage lang 10.000 Runden gegen jeweils fünf menschliche Mitspieler. Im zweiten Turnier trat jeweils ein Profispieler gegen fünf Kopien von Pluribus an. Das Ergebnis: Pluribus gewann deutlich häufiger als seine menschlichen Konkurrenten und hatte am Ende signifikant mehr Geld eingespielt. „Seine größte Stärke ist seine Fähigkeit, Strategien zu mischen“, sagt Elias. „Das ist das Gleiche, das auch menschliche Spieler tun.“

Nach Ansicht von Brown und Sandholm hat Pluribus damit einen weiteren Meilenstein der KI-Forschung geknackt. „Die Fähigkeit, fünf andere Spieler in einem so komplizierten Spiel zu schlagen, eröffnet ganz neue Möglichkeiten, KI für Probleme in der realen Welt einzusetzen“, sagt Brown. Andere KI-Forscher sehen dies allerdings etwas kritischer: „Solche Erfolge werden steht in sehr spezifischen Aufgabenstellungen erreicht“, kommentiert Andreas Holzinger, Informatiker an der Universität Graz. Doch diese Szenarien lassen sich seiner Meinung nach nicht so leicht in andere Anwendungsgebiete übertragen. Noch plakativer formuliert es Kristian Kersting von der TU Darmstadt: Ein Mensch, der sehr gut Poker spielen kann, ist ja auch nicht gleich ein Börsengenie.“ Dennoch könne der Erfolg von Pluribus als Inspiration dienen, um viele spannende Fragen anzugehen.

Quelle: Noam Brown und Tuomas Sandholm (Carnegie Mellon University, Pittsburgh), Science, doi: 10.1126/science.aay2400

Anzeige

bild der wissenschaft | Aktuelles Heft

Anzeige

Dossiers

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

erd|ge|schicht|lich  〈Adj.〉 = geologisch

fun|gi|zid  〈Adj.; Med.〉 Pilze vernichtend, Pilze tötend [zu lat. fungus ... mehr

Ap|ti|tude  〈[æptıtju:d] f.; –; unz.; Psych.〉 (anlagebedingte) Lern– u. Leistungsfähigkeit [engl.]

» im Lexikon stöbern
Anzeige
Anzeige