Bots, réseaux de neurones et intégrité du RNG

Le backgammon a été le premier jeu complexe à deux joueurs dans lequel un ordinateur a, de façon démontrée, battu les meilleurs joueurs humains. La preuve a été publiée en 1992, quatre ans avant que Deep Blue ne batte Kasparov, et vingt-quatre ans avant AlphaGo. Elle est venue d'un seul réseau de neurones entraîné par auto-jeu chez IBM Research. La lignée qui part de ce programme, TD-Gammon de Gerald Tesauro, passe par Jellyfish, Snowie, GNU Backgammon, eXtreme Gammon (XG), BGBlitz et jusqu'aux moteurs open source modernes, dessine toute l'histoire technique du backgammon par ordinateur.

Cette page suit cette lignée, explique comment on évalue les bots modernes, documente la troupe d'origine des bots de GamesGrid (1996-2008) et expose notre position sur l'intégrité du générateur de nombres aléatoires : l'algorithme Mersenne Twister que nous utilisons, et un contre-exemple documenté tiré de l'histoire des opérateurs de backgammon en ligne.

La page Performance Rating (PR) et ELO, en anglais, couvre le cadre standard de mesure du niveau qu'utilise toute la scène compétitive moderne.

1. La chronologie des moteurs

L'histoire des bots de backgammon traverse cinq phases distinctes. Chaque phase correspond à une approche fondamentalement différente de l'évaluation des positions.

Phase	Approche	Moteur représentatif	Année
Pré-neuronale	Heuristiques codées à la main et rollouts	BKG 9.8 (Berliner)	1979
NN de première génération	Apprentissage par différence temporelle en auto-jeu, sur des réseaux peu profonds	TD-Gammon	1992
NN commercial	Programmes neuronaux commerciaux aboutis	Jellyfish, Snowie	1994-1998
NN open source	Bâtis par la communauté, gratuits à l'usage	GNU Backgammon	2002+
Référence moderne	Réseaux plus profonds, jeux de features plus grands, rollouts plus rapides	eXtreme Gammon (XG), BGBlitz, Wildbg	2009+

1.1 Pré-neuronal : BKG (Hans Berliner, 1979)

Le premier programme informatique à battre un champion du monde en titre sur un jeu de plateau complexe a été BKG 9.8, écrit par Hans Berliner à Carnegie Mellon. En 1979, il a vaincu Luigi Villa, champion du monde de backgammon en titre, dans un match d'argent à Monte-Carlo. La victoire a été attribuée, à juste titre, en partie à une série exceptionnelle aux dés ; Berliner lui-même a écrit que son programme jouait sans doute plus faible que Villa sur un échantillon plus large. Mais le résultat était indéniable : l'époque où l'on disait que « les ordinateurs ne savent pas jouer au backgammon » s'était terminée avant même que la phase suivante commence.

BKG évaluait les positions avec des heuristiques codées à la main : longueur de barricade, exposition des blots, pip-count, pondérés par des paramètres que Berliner avait calibrés contre des positions de test représentatives. Pas de composante d'apprentissage. C'était le programme non apprenant le plus fort jamais construit pour ce jeu.

1.2 TD-Gammon (Tesauro, IBM Research, 1992)

La percée est venue d'un autre paradigme. Gerald Tesauro, chez IBM Research, a appliqué l'apprentissage par renforcement avec différence temporelle au backgammon. Son programme, TD-Gammon, était un réseau de neurones feedforward avec une couche d'entrée à 198 unités qui encodait le plateau (4 unités par flèche et par couleur pour la distribution des pions, plus 6 unités supplémentaires pour la barre, les pions sortis et le camp au trait), reliée à une seule couche cachée de 40 à 80 unités sigmoïdes selon la version (TD-Gammon 2.1 utilisait 80 unités cachées). Il s'entraînait par auto-jeu : le programme jouait contre lui-même des centaines de milliers de parties, et ajustait ses poids après chaque coup pour rapprocher son évaluation de la position avant coup de son évaluation de la position après coup.

Le résultat remarquable, publié en 1992 puis affiné jusqu'en 1995, c'est que TD-Gammon a découvert des ouvertures compétitives qui contredisaient des décennies de théorie humaine. L'analyse par rollouts, lancée par TD-Gammon puis consolidée par Jellyfish et Snowie dans les années qui ont suivi, a renversé le consensus pro-slot des années 1970 sur plusieurs tirages d'ouverture, au profit de coups split-builder (notamment sur 2-1, 4-1 et 5-1). Le standard que joue aujourd'hui tout joueur sérieux de tournoi sur plusieurs tirages d'ouverture a été fixé, en partie, par cette première vague d'analyse par réseaux de neurones. Voir la page des tirages d'ouverture en anglais.

1.3 Jellyfish, Snowie, GNU Backgammon (1994 – début des années 2000)

Le premier programme commercial à réseau de neurones a été Jellyfish, publié par Fredrik Dahl en 1994. Jellyfish suivait une architecture de type TD-Gammon (un réseau feedforward avec une couche cachée) et a été pendant plusieurs années le programme public le plus fort. Snowie, publié en 1998, utilisait un réseau plus sophistiqué et ajoutait un analyseur d'action de videau abouti ; ce fut le moteur commercial dominant de la fin des années 1990.

GNU Backgammon (aussi GNUbg ou gnubg) est l'héritier open source de cette lignée. Le développement a commencé à la fin des années 1990 ; les grandes versions se sont stabilisées au début des années 2000. L'évaluation de GNUbg est un réseau feedforward multi-couches entraîné sur des rollouts de millions de positions ; ses modes d'évaluation à 0, 1, 2 et 3 niveaux offrent aux joueurs compétitifs une palette de compromis vitesse/précision pour l'analyse. GNU Backgammon publie aussi la table de match equity (Rockwell-Kazaross MET) que la communauté utilise comme référence.

1.4 eXtreme Gammon (XG) et au-delà (2009+)

eXtreme Gammon, publié en 2009 par Xavier Dufaure de Citres, est la référence mondiale actuelle. XG combine un réseau de neurones plus profond, des rollouts optimisés, un analyseur de videau intégré et l'interface d'analyse la plus utilisée dans la scène compétitive. XG2 (la grande révision) est le bot contre lequel on calibre la plupart des ratings PR modernes. Les Performance Ratings de niveau tournoi se calibrent en routine contre des rollouts XG2 à 4 niveaux.

BGBlitz, de Frank Berger, est un moteur de réseau de neurones indépendant en développement actif. Wildbg, un moteur open source en Rust publié en 2023, se distingue moins par la force brute que par la transparence de l'entraînement : son pipeline d'entraînement est public et vérifiable, et il est devenu une plateforme de recherche pour évaluer différentes architectures de réseau et stratégies d'entraînement. Cette philosophie de transparence rejoint directement notre propre documentation du RNG et du stack d'analyse, plus bas.

2. Comment les bots analysent les parties : la chaîne FIBS / GamesGrid → GNUbg

Le flux de travail standard du backgammon compétitif, de 1996 à aujourd'hui, c'est de jouer en ligne, d'exporter la partie dans un format texte standardisé et de l'analyser ensuite dans un moteur à réseau de neurones. La chaîne d'origine :

Joue la partie sur FIBS, GamesGrid ou un serveur équivalent.
Exporte la partie dans un fichier texte au format SGF ou JF (Jellyfish). FIBS prenait en charge l'export via la commande oldboard ; GamesGrid avait sa propre fonction d'export.
Importe la partie dans Jellyfish, Snowie, GNU Backgammon ou, plus tard, XG.
Analyse à la profondeur choisie : généralement 2 niveaux pour la relecture quotidienne, rollouts complets pour l'étude sérieuse.
Rapport avec les taux d'erreur par coup, par décision de videau, et un Performance Rating global pour la partie.

La plateforme GamesGrid, dans sa version 1996-2008, était inhabituelle parmi les serveurs commerciaux par la place de premier rang qu'elle donnait à l'export de parties. La communauté de joueurs forts qui ont bâti leur réputation sur GamesGrid — des milliers de parties classées analysées une à une contre GNU Backgammon et Snowie — formait une part importante de l'élite compétitive du début des années 2000.

La plateforme de 2026 reprend cette logique. Chaque partie sur GamesGrid s'exporte à la demande dans les formats standard et s'importe dans GNU Backgammon, eXtreme Gammon ou BGBlitz pour la relecture indépendante après coup. Pas de verrouillage propriétaire. L'oracle d'évaluation, c'est au joueur de le choisir.

3. La troupe d'origine des bots de GamesGrid (1996-2008)

La plateforme GamesGrid de 1996-2008 proposait une famille de bots gradués, tous bâtis sur un fork de GNU Backgammon par GamesGrid Engineering (la branche d'ingénierie de CyberArts Inc., la maison mère). Les modifications apportées au moteur, dont les améliorations des algorithmes d'évaluation n-ply, ont été reversées au projet GNU upstream : GamesGrid fait partie des rares opérateurs commerciaux qui ont matériellement fait progresser l'écosystème open source du backgammon.

La gradation des bots s'obtenait en introduisant des erreurs à des fréquences variables, et non en entraînant des réseaux plus faibles depuis zéro. Tous les bots utilisaient le même réseau de neurones sous-jacent issu de GNUbg ; les plus faibles jouaient simplement des coups sous-optimaux à une fréquence contrôlée. Les ratings publiés à l'époque :

Bot	Rating cible	Approche	Plage ELO d'origine (bas / moyen / haut)
GG Forever	Aucun (pleine force, Life Members uniquement)	Lookahead à 2 niveaux	1850 / 1920 / 2114
GG Raccoon	Aucun (pleine force)	0 niveau (sans lookahead)	1850 / 1920 / 2114
GG Otter	~1700 (avancé)	Erreurs introduites	1543 / 1701 / 1827
GG Weasel	~1500 (débutant)	Erreurs introduites plus souvent	1410 / 1516 / 1652
GG Chipmunk	~1300 (novice)	Mode à haute fréquence d'erreurs	1171 / 1275 / 1487

Les bots jouaient de 2 000 à 4 000 parties par jour sur la plateforme, avec une longueur de match maximale de 9 points. Ils jouaient le backgammon standard ainsi que le Nackgammon (la variante d'ouverture de Nack Ballard). Les invitations étaient filtrées au rating : GG Otter n'acceptait que des invitations de joueurs sous 1800, GG Weasel sous 1600, GG Chipmunk sous 1400.

MrHyperBot, une architecture différente

À part, MrHyperBot jouait la variante Hypergammon : la variante rapide à trois pions, où chaque joueur démarre avec seulement trois pions sur les flèches 22, 23 et 24. MrHyperBot n'utilisait pas de réseau de neurones. Il s'appuyait sur une base de données exhaustive contenant le meilleur coup calculé pour chaque position légale d'Hypergammon, développée par Hugh Sconyers (pseudo « hugh » sur GamesGrid). L'espace d'états réduit de l'Hypergammon a permis une résolution complète théorique du jeu, et la base de Sconyers reste la référence canonique pour cette variante.

Xbot, le bot de Paul Magriel

Un bot indépendant, Xbot, était opéré sur GamesGrid par Paul Magriel (pseudo « X22 »). Magriel — auteur de Backgammon (1976), le texte canonique de théorie positionnelle, et chroniqueur de backgammon au New York Times entre 1977 et 1980 — faisait tourner un bot à réseau de neurones pour des parties d'argent à petites mises, jusqu'à 9 points. La présence de Magriel comme opérateur actif sur GamesGrid disait quelque chose de la place culturelle qu'occupait la plateforme dans le backgammon compétitif de l'époque 1996-2008.

L'ensemble de la famille — GG Forever, GG Raccoon, GG Otter, GG Weasel, GG Chipmunk, MrHyperBot et l'esprit de Xbot — revient sur la plateforme de 2026, reconstruite à partir de la signature de jeu documentée de chacun et accompagnée d'une nouvelle génération de bots nommés. Plus de détails à l'approche du lancement.

4. Génération de nombres aléatoires : pourquoi c'est important

Un serveur de backgammon est, au fond, un générateur de dés. La décision technique sur comment le serveur produit ses lancers aléatoires a des conséquences énormes sur l'intégrité compétitive — et l'histoire du backgammon en ligne compte des cas documentés d'opérateurs qui s'y sont mal pris.

4.1 Mersenne Twister (MT19937)

La plateforme GamesGrid 2026 utilise le générateur de nombres pseudo-aléatoires Mersenne Twister, plus précisément la variante MT19937, mise au point par Makoto Matsumoto et Takuji Nishimura en 1997. L'algorithme a :

Une période de $2^{19937} - 1$ , astronomiquement plus grande que le nombre de lancers dans toute durée de vie imaginable de la plateforme.
Une équirépartition en dimension 623 à précision 32 bits : les blocs successifs de 623 sorties sont statistiquement uniformes en haute dimension, pas seulement en dimension 1.
Vitesse : ~ $10^7$ lancers par seconde sur du matériel standard, assez rapide pour que le générateur ne soit jamais un goulot d'étranglement.

MT19937 est le RNG par défaut de GNU Backgammon, du module random de Python et d'une longue liste de simulateurs Monte-Carlo scientifiques. Deux réserves techniques méritent d'être dites :

Il n'est pas cryptographiquement sûr. Un attaquant qui observe 624 sorties consécutives peut reconstituer l'état interne et prédire les sorties suivantes. Pour générer des dés dans un serveur de jeu authentifié qui n'expose pas son état brut, ce n'est pas un problème, mais cela exclut MT19937 comme seule source d'entropie pour des usages critiques en sécurité.
Il a des faiblesses statistiques connues sur les tests de linéarité. Comme l'algorithme repose sur une rétroaction linéaire sur le corps à deux éléments $\mathbb{F}_2$ , il échoue de façon prévisible à certains tests de complexité linéaire de la suite TestU01 BigCrush. Il passe Diehard et les batteries NIST standard, et les modes d'échec sont bien caractérisés, orthogonaux à notre cas d'usage (tirages uniformes d'entiers 1-6) ; mais une description honnête de MT19937 doit les mentionner, pas les balayer.

Pour la génération de dés, les propriétés de période et d'équirépartition pèsent largement plus que toute préoccupation de linéarité. Des alternatives cryptographiques (par exemple AES-CTR-DRBG) existent aussi, et le journal d'audit de la plateforme enregistre l'algorithme et la source de graine de chaque partie.

4.2 Politique d'audit de la graine

Chaque partie sur GamesGrid est associée à une graine générée côté serveur. Cette graine est :

Journalisée au démarrage de la partie dans un journal d'audit en mode ajout seul.
Dérivée d'une source à forte entropie (RNG matériel combiné au pool d'entropie système) au moment de l'initialisation de la partie ; pas prévisible à partir des parties précédentes.
Enregistrée avec le dossier de la partie, ce qui permet à un auditeur indépendant de reproduire ensuite la séquence de dés.

En clair : chaque lancer d'une partie GamesGrid est vérifiable de façon indépendante comme produit par MT19937 à partir d'une graine donnée à un instant donné. Les dés ne sont pas « truqués » pour ou contre un compte particulier, et il n'y a aucun mécanisme algorithmique qui infléchirait les résultats en faveur ou contre des joueurs identifiés.

4.3 Le contre-exemple : SafeHarbor Games

L'histoire du backgammon en ligne comporte des opérateurs qui se sont écartés d'une politique RNG neutre. Le cas documenté est SafeHarbor Games, qui a, à différents moments, exploité des salles où la fréquence des doubles était délibérément réduite pour apaiser les joueurs qui se plaignaient de « se faire écraser par les dés ».

L'intention était la rétention. L'effet : un RNG exploitable. Tout joueur qui savait que la distribution des doubles était biaisée disposait, en espérance, d'un avantage mesurable sur ceux qui l'ignoraient. Dans un contexte d'argent réel, c'est une violation de l'intégrité compétitive — et la scène du backgammon en ligne a réagi en conséquence. Cet épisode est mentionné dans les forums de joueurs de l'époque et nourrit l'historique d'opérateurs qui sous-tend la position de la plateforme de 2026 en faveur d'une génération de dés neutre, transparente, algorithmique.

La position de la plateforme de 2026 est sans ambiguïté : distribution uniforme, algorithme cité nommément, graines journalisées pour audit. Les dés sont les mêmes pour chaque joueur, dans chaque salle, à chaque score.

5. La plateforme de 2026 : ce qui est public, ce qui reste à venir

Le nouveau GamesGrid garde les choix d'architecture qui distinguaient le serveur 1996-2008 — client fermé avec état côté serveur, export transparent des parties vers GNU Backgammon et XG, famille graduée de bots issus de la troupe GG d'origine — et les rebâtit sur de l'ingénierie moderne. L'ensemble précis des fonctionnalités, dont la structure des ligues de bots du mode carrière et la nouvelle troupe de bots, sera publié à l'approche du lancement.

Ce qui est public dès maintenant :

Distribution uniforme des dés via MT19937, avec graines auditées et journalisées.
Export des parties dans des formats standard (SGF / JF) pour analyse indépendante.
Aucun verrouillage propriétaire sur l'évaluation des positions. Chaque joueur choisit son moteur d'analyse.
Le retour de la famille légendaire des bots GG, reconstruite à partir des signatures de jeu documentées.
Une nouvelle génération de bots nommés qui couvre toute l'échelle de niveau, du débutant au niveau champion du monde.

Le cadre complet de Performance Rating dans lequel s'inscrit la famille de bots est sur la page PR et ELO en anglais.

Voir aussi

Performance Rating (PR) et ELO, en anglais : méthodologie de mesure du niveau.
Histoire, en anglais : l'ère 1996-2008 de GamesGrid et la récupération du domaine après 2020.
Mathématiques du backgammon : match equity, take points, théorie du videau.
Règles et placement : fondamentaux.
Backgammon en ligne : le manifeste de la nouvelle plateforme.