17 Jun 2026

KI-gestütztes Curriculum Learning revolutioniert Blackjack-Strategien in Reinforcement-Learning-Simulationen

Forscher der Leibniz Universität Hannover präsentieren LLM-gestütztes Framework für Blackjack-Agenten

Forscher der Leibniz Universität Hannover haben einen neuen Ansatz vorgestellt, bei dem große Sprachmodelle den Trainingsprozess von Reinforcement-Learning-Agenten im Blackjack steuern, und dabei entstehen gestufte Lernpläne, die Aktionen schrittweise einführen, während gleichzeitig realistische Spielbedingungen mit acht Deck-Karten simuliert werden.

Das Team nutzte Google Gemini 2.0 Flash, um dynamische Curricula zu erzeugen, die mit grundlegenden Entscheidungen wie Hit und Stand beginnen, bevor komplexere Optionen wie Double Down oder Split hinzukommen, und dieses Vorgehen führte in den Tests zu messbaren Leistungssteigerungen gegenüber herkömmlichen Methoden ohne solche strukturierten Lernphasen.

Entstehung des Projekts an der Leibniz Universität Hannover

Die Initiative entstand innerhalb der Forschungsgruppe für maschinelles Lernen an der Leibniz Universität Hannover, wo Wissenschaftler bereits seit Jahren Reinforcement-Learning-Verfahren auf Kartenspiele anwenden, und sie erkannten, dass unstrukturierte Trainingsläufe oft an den vielfältigen Entscheidungsmöglichkeiten im Blackjack scheitern, weil Agenten zu früh mit seltenen Aktionen konfrontiert werden.

Statt manuell definierte Lernsequenzen zu erstellen, setzten die Forscher auf die Fähigkeit eines großen Sprachmodells, kontextbezogene und adaptive Lehrpläne zu generieren, während die Simulationen stets auf acht Deck-Karten mit realistischen Mischregeln basierten, um Übertragbarkeit auf echte Spielsituationen zu gewährleisten.

Funktionsweise des LLM-gesteuerten Frameworks

Das Framework beginnt damit, dass das Sprachmodell eine Abfolge von Trainingsstufen vorschlägt, in denen der Agent zunächst nur zwischen Hit und Stand wählen darf, und erst nachdem eine definierte Erfolgsquote erreicht ist, werden Double Down und Split schrittweise freigeschaltet, wobei Gemini 2.0 Flash die Übergänge anhand aktueller Leistungsmetriken dynamisch anpasst.

Während des gesamten Prozesses bleiben die Umgebungsparameter konstant, sodass die Agenten stets mit denselben Kartenverteilungen und Auszahlungsregeln konfrontiert werden, und dadurch lässt sich der Einfluss des Curriculum Learning klar von anderen Variablen isolieren, was die Vergleichbarkeit mit Baseline-Modellen erleichtert.

Visualisierung des gestuften Lernprozesses mit LLM-Unterstützung im Blackjack

Ergebnisse aus den 8-Deck-Simulationen

In umfangreichen Testläufen mit acht Deck-Karten erreichten die mit dem LLM-Curriculum trainierten Agenten höhere durchschnittliche Gewinnraten als vergleichbare Modelle, die ohne gestufte Einführung der Aktionen trainiert wurden, und die Verbesserungen zeigten sich besonders bei komplexen Situationen wie weichen Händen oder potenziellen Splits.

Die Forscher dokumentierten, dass die curriculum-gesteuerten Agenten seltener suboptimale Double-Down-Entscheidungen trafen, während gleichzeitig die Gesamtzahl der gespielten Hände pro Trainingsepoche stieg, und diese Effekte ließen sich über mehrere unabhängige Simulationsläufe reproduzieren.

Technische Integration von Google Gemini 2.0 Flash

Google Gemini 2.0 Flash wurde über eine API-Schnittstelle in den Trainingsloop eingebunden, sodass nach jeder abgeschlossenen Curriculum-Stufe eine neue Bewertung erfolgte und das Modell anschließend Vorschläge für die nächste Stufe lieferte, wobei die Forscher sicherstellten, dass alle generierten Anweisungen mit den Regeln des Blackjack kompatibel blieben.

Die Wahl des Modells fiel auf Gemini 2.0 Flash wegen seiner schnellen Inferenzzeiten und der Fähigkeit, kurze, präzise Anweisungen für den Agenten zu formulieren, und dadurch blieb der zusätzliche Rechenaufwand im Vergleich zu rein regelbasierten Curriculum-Methoden überschaubar.

Ausblick auf weitere Anwendungen und Evaluierungen

Die Veröffentlichung der Studie erfolgte über arXiv unter dem Titel „Learning to Play Blackjack: A Curriculum Learning Perspective“, und sie steht unter diesem Link frei zugänglich, während die zugehörigen Simulationsdaten und Code-Beispiele ebenfalls bereitgestellt wurden, damit andere Forschungsgruppen die Ergebnisse nachvollziehen können.

In den kommenden Monaten bis Juni 2026 planen die beteiligten Wissenschaftler Erweiterungen des Frameworks auf weitere Kartenspiele wie Poker-Varianten, wobei sie prüfen wollen, ob dieselben LLM-gesteuerten Curricula auch dort Leistungsgewinne erzielen, und erste Vorversuche deuten bereits auf positive Übertragbarkeit hin.

Schlussfolgerung

Das vorgestellte Verfahren zeigt, wie große Sprachmodelle den Entwurf von Trainingscurricula für Reinforcement-Learning-Agenten im Blackjack automatisieren können, und die erzielten Verbesserungen in den 8-Deck-Simulationen belegen das Potenzial dieses Ansatzes für zukünftige Anwendungen im Bereich des KI-gestützten Spieltrainings.