Décodage du Poker GTO: CFR+ et Stratégie Optimale
Introduction au Poker GTO et Piosolver
Le paysage de la stratégie poker a subi une transformation profonde avec l'avènement d'outils computationnels capables d'approximer le jeu Game Theory Optimal (GTO). Le poker GTO vise à atteindre une stratégie inexploitable, une qui garantit qu'un joueur ne peut pas être constamment battu sur le long terme, quelle que soit l'approche de l'adversaire. Ce changement de paradigme a déplacé l'analyse du poker d'une dépendance exclusive à l'intuition et à l'expérience vers un cadre mathématiquement plus rigoureux.
À l'avant-garde de cette révolution se trouve le logiciel comme Piosolver, un outil largement respecté parmi les joueurs professionnels et les amateurs sérieux. La capacité de Piosolver à calculer des scénarios de poker complexes et à produire des stratégies quasi-optimales a rendu l'analyse GTO sophistiquée accessible à un public plus large.
Étapes Clés dans l'Évolution du GTO :
* Au cœur de la puissance analytique de Piosolver se trouve l'algorithme de Minimisation des Regrets Contrefactuels Plus (CFR+) * En 2015, une IA de poker utilisant CFR+ a effectivement "résolu" le Poker Heads-up Limit Hold'em * Cette percée a été publiée dans la revue Science * Elle a marqué la première fois qu'une variante complète et non abstraite du poker joué dans les casinos a été entièrement résolue
Comprendre la Minimisation des Regrets Contrefactuels (CFR)
Pour comprendre l'importance du CFR+, il est essentiel de d'abord saisir le concept fondamental de la Minimisation des Regrets Contrefactuels (CFR). CFR est un algorithme d'auto-jeu itératif qui apprend en jouant répétitivement contre lui-même. Il commence avec une stratégie aléatoire uniforme, où chaque action à chaque point de décision est également probable, et s'améliore progressivement à travers des milliers ou des millions d'itérations.
Comment Fonctionne CFR :
* La partie "contrefactuelle" de CFR fait référence à la capacité de l'algorithme à évaluer la valeur des actions depuis la perspective "que se serait-il passé si j'avais pris cette action à la place ?" * Le "regret" fait référence à la valeur perdue pour ne pas avoir pris l'action optimale * Au fur et à mesure que l'algorithme joue plus de mains contre lui-même, il accumule des regrets pour différentes actions * Il ajuste sa stratégie pour minimiser ces regrets au fil du temps
Pensez-y comme apprendre à faire du vélo en tombant répétitivement. Chaque fois que vous tombez, vous apprenez ce qu'il ne faut pas faire la prochaine fois. CFR exécute ce processus sur des milliards de mains de poker, affinant sa stratégie en réduisant son "regret" - la différence entre ce qu'il a fait et ce qui aurait été optimal. En jouant répétitivement contre lui-même et en évaluant les décisions passées, l'algorithme affine progressivement sa stratégie vers l'optimalité.
L'Évolution vers CFR+ : Améliorations Clés
CFR+ se construit sur cette base avec plusieurs améliorations cruciales.
Améliorations Principales dans CFR+ :
1. **Introduction du "regret-matching+"** * Contrairement au regret-matching standard, CFR+ suit une valeur similaire au regret, connue sous le nom de Q-value, pour chaque action * La différence critique : CFR+ met activement à zéro tout regret négatif accumulé * Ce changement apparemment petit a des effets profonds sur les performances * Ce mécanisme empêche l'algorithme de rester bloqué sur des stratégies sous-optimales en raison de résultats négatifs précoces * Permet que des actions précédemment pauvres soient reconsidérées plus rapidement si leur potentiel s'améliore plus tard dans le processus d'apprentissage
2. **Moyenne Pondérée** * CFR+ attribue un poids linéairement croissant aux itérations plus récentes * Donne à la stratégie de l'itération t un poids de t * Cette approche priorise les stratégies apprises plus tard dans le processus * Potentiellement accélérant la convergence vers une solution quasi-optimale * Contraste avec la moyenne uniforme souvent utilisée dans le CFR traditionnel
3. **Méthodologie de Mise à Jour** * CFR+ exécute typiquement des mises à jour alternées, se concentrant sur un joueur à la fois dans chaque itération * Cela diffère de la mise à jour des regrets pour les deux joueurs simultanément * CFR+ n'emploie généralement pas de techniques d'échantillonnage utilisées dans certaines autres variantes de CFR
Ces améliorations "Plus" sont vitales pour le succès pratique de CFR+ dans des jeux complexes comme le poker. La caractéristique de regret-matching+ assure que l'algorithme ne rejette pas prématurément des actions potentiellement bénéfiques, tandis que la moyenne pondérée assure que la stratégie finale reflète la phase la plus raffinée de l'apprentissage. Une autre différence clé est que la stratégie finale utilisée dans CFR+ est la stratégie courante à la fin de l'entraînement, pas la moyenne de toutes les stratégies passées, ce qui peut aussi améliorer les performances.
Le Processus d'Itération CFR+
Le processus itératif de CFR+ implique de simuler d'innombrables instances du jeu contre lui-même.
Comment CFR+ Affine la Stratégie :
* Dans chaque itération, l'algorithme identifie les actions qui auraient conduit à de meilleurs résultats dans les scénarios passés * Puis ajuste sa stratégie pour favoriser ces actions dans les itérations suivantes, augmentant leur probabilité d'être choisies * Ce raffinement continu est similaire à un joueur qui revoit ses décisions après chaque main et fait des ajustements au fil du temps, mais à une échelle massive et avec une précision mathématique * Cela pousse l'algorithme vers une approche optimale
En itérant répétitivement à travers tous les points de décision possibles et en mettant à jour les stratégies basées sur le regret accumulé, il est garanti que la stratégie moyenne employée par les joueurs convergera vers un Équilibre de Nash. Un Équilibre de Nash représente un état stable dans le jeu où aucun joueur ne peut améliorer son résultat attendu en changeant unilatéralement sa stratégie, en supposant que les stratégies de leurs adversaires restent les mêmes.
> **Note :** Bien qu'atteindre un véritable Équilibre de Nash puisse être computationnellement irréalisable pour le No-Limit Hold'em à pleine échelle, CFR+ vise à trouver une stratégie qui soit très difficile à exploiter pour un adversaire, ce qui est l'objectif pratique au poker.
Le Jalon Historique : Résoudre le Heads-Up Limit Texas Hold'em
Le point culminant de ces progrès algorithmiques a été évident dans le jalon historique de "résoudre" le Heads-Up Limit Texas Hold'em (HULHE).
La Percée du HULHE :
* Les articles de recherche de Tammelin et al. (2015) et Bowling et al. (2015) ont annoncé ce résultat révolutionnaire * Réalisé en utilisant l'algorithme CFR+ * Le terme "faiblement résolu" signifie que l'exploitabilité de la stratégie calculée est remarquablement faible * Mesurée à 0,986 milli-big-blinds par jeu * Ce niveau d'exploitabilité est si minime qu'il faudrait probablement une vie humaine de jeu pour prouver statistiquement que la stratégie n'est pas une solution exacte * Le programme qui a accompli cet exploit a été nommé Cepheus
Ce résultat a marqué une étape importante dans les domaines de l'intelligence artificielle et de la théorie des jeux, démontrant l'immense puissance de CFR+ pour aborder des jeux extraordinairement complexes avec information imparfaite. Avant cela, aucun jeu non trivial à information imparfaite joué compétitivement par les humains n'avait jamais été résolu. HULHE, bien que plus simple que le No-Limit Hold'em en raison de sa structure de mises fixe, possède néanmoins un arbre de jeu astronomiquement grand.
Comment CFR+ a Permis la Percée du HULHE
CFR+ a permis cette percée en gérant efficacement la complexité intrinsèque du jeu et les exigences de ressources exigeantes.
Réalisations Techniques de CFR+ :
* Le jeu complet de HULHE contient un nombre énorme d'états possibles et de points de décision * CFR+ a été spécifiquement conçu pour gérer cette échelle massive, qui avait précédemment rendu impraticables d'autres variantes de CFR * Un aspect crucial du succès de CFR+ a été l'implémentation de techniques de compression pour stocker efficacement la stratégie de solution approximative et les regrets accumulés * Cela a significativement réduit les demandes de mémoire * A permis que le calcul extensif soit distribué à travers un réseau d'ordinateurs utilisant le stockage sur disque
De plus, CFR+ exhibe une efficacité computationnelle remarquable, convergeant vers un Équilibre de Nash beaucoup plus efficacement que les implémentations standard de CFR. L'évidence empirique a indiqué que CFR+ nécessitait considérablement moins de puissance de calcul que les méthodes d'échantillonnage CFR de pointe.
Le succès dans la résolution de HULHE a souligné que le progrès n'était pas seulement dans la logique centrale de CFR mais aussi dans les améliorations significatives d'ingénierie et algorithmiques incorporées dans CFR+ qui l'ont rendu vraiment évolutif. Sans ces améliorations dans la gestion de la mémoire et la vitesse de convergence, les ressources computationnelles nécessaires pour résoudre HULHE auraient été pratiquement inatteignables, même avec une puissance de calcul substantielle.
Implications Plus Larges :
* A validé le cadre théorique de l'Équilibre de Nash pour les interactions stratégiques du monde réel impliquant des informations cachées * A démontré la capacité de l'IA à surpasser les performances de niveau humain dans des domaines stratégiques complexes caractérisés par l'incertitude et la tromperie * A formellement prouvé la croyance de longue date que le dealer au poker possède un avantage substantiel en HULHE * Les méthodologies développées pourraient potentiellement être adaptées et appliquées à divers domaines comme la négociation, la sécurité et l'allocation des ressources
Piosolver : Apporter CFR+ aux Joueurs de Poker
Piosolver exploite la puissance de CFR+ (ou ses variantes optimisées comme Pure CFR) pour calculer des stratégies optimales pour une large gamme de scénarios de poker. Ce logiciel maintient l'arbre de jeu entier dans sa mémoire pendant le processus de résolution. Il opère en simulant d'innombrables itérations du jeu, employant les principes de CFR+ pour raffiner continuellement les stratégies et converger vers un Équilibre de Nash pour le scénario spécifique défini par l'utilisateur.
Piosolver sert d'outil pratique qui exploite les capacités computationnelles de CFR+ pour fournir des insights actionnables sur la stratégie GTO du poker pour des situations particulières. Au lieu d'exiger que les utilisateurs possèdent une connaissance profonde de l'algorithme sous-jacent ou un accès à des ressources computationnelles étendues, Piosolver offre une interface conviviale pour définir des scénarios de poker et obtenir des solutions dans un temps raisonnable.
Le Processus de Simulation dans Piosolver :
1. **Phase de Configuration** * Les utilisateurs entrent des variables cruciales qui définissent le scénario de poker : * Ranges preflop pour les joueurs impliqués * Cartes communes sur le board * Tailles de mises disponibles * Tailles effectives des stacks
2. **Phase de Traitement** * Piosolver construit un arbre décisionnel qui représente toutes les séquences possibles d'actions * L'algorithme CFR+ traverse itérativement cet arbre extensif * Calcule le regret associé à chaque action possible dans chaque ensemble d'information * Continue ce processus itératif jusqu'à atteindre un niveau prédéterminé de précision * La précision est souvent mesurée par l'exploitabilité de la stratégie résultante
Bien que les utilisateurs n'aient pas besoin de comprendre complètement les complexités de CFR+ pour utiliser Piosolver efficacement, comprendre que le logiciel s'appuie sur cet algorithme robuste et théoriquement solide fournit une base solide de confiance dans les résultats générés. L'interface utilisateur de Piosolver abstrait efficacement les calculs mathématiques complexes, permettant aux joueurs de se concentrer sur l'interprétation de la sortie et l'application des insights à leur jeu.
Comprendre la Sortie de Piosolver
Piosolver présente les stratégies calculées dans un format facilement interprétable par les joueurs de poker, typiquement comme des matrices de ranges.
Interpréter les Résultats du Solveur :
* Les matrices de ranges représentent visuellement la fréquence à laquelle chaque main de départ possible devrait prendre diverses actions * Montre la fréquence optimale pour miser, passer, relancer ou folder dans diverses situations * En analysant ces fréquences, les joueurs peuvent obtenir une compréhension profonde de : * Le mix optimal de value bet et bluff qu'ils devraient employer * Comment jouer différentes catégories de mains selon les principes GTO * Cette sortie souligne l'importance de construire des ranges bien équilibrés et imprévisibles
Piosolver traduit efficacement la sortie abstraite de l'algorithme CFR+ en un guide pratique pour les joueurs de poker, démontrant comment développer des stratégies équilibrées et inexploitables pour des scénarios spécifiques. En étudiant la sortie de Piosolver, les joueurs peuvent apprendre la logique sous-jacente du GTO et appliquer ces principes à leur propre jeu, même dans des situations où ils n'exécutent pas activement des simulations.
CFR vs. CFR+ : Comprendre les Différences Clés
Les différences clés entre CFR traditionnel et CFR+ mettent en évidence les progrès significatifs qui rendent CFR+ particulièrement adapté pour des applications complexes comme les solveurs de poker.
Tableau Comparatif : CFR vs. CFR+
| Caractéristique | CFR | CFR+ | Avantage de CFR+ | |----------------|-----|------|-------------------| | **Gestion du Regret** | Suit le regret cumulatif (peut être négatif) | Met à zéro le regret négatif (Q-values) | Évite de rester bloqué sur des actions sous-optimales ; permet une reconsidération plus rapide | | **Mise à Jour de Stratégie** | Basée sur le regret positif | Proportionnelle aux Q-values (non négatifs) | Assure que les actions sont choisies à nouveau après s'être avérées utiles | | **Moyenne** | Typiquement moyenne uniforme | Moyenne pondérée (linéairement croissante) | Donne plus de poids aux itérations ultérieures, potentiellement accélérant la convergence | | **Mécanisme de Mise à Jour** | Souvent mises à jour simultanées | Typiquement mises à jour alternées | Peut améliorer les performances empiriques | | **Vitesse de Convergence** | Généralement plus lente empiriquement | Généralement plus rapide empiriquement | Atteint une bonne approximation de l'Équilibre de Nash en moins d'itérations | | **Efficacité de Mémoire** | Peut accumuler un regret négatif significatif | Souvent plus efficace en mémoire | Réduit l'entropie des données nécessaires |
CFR+ exhibe généralement une convergence empirique plus rapide vers une solution quasi-optimale que le CFR traditionnel. Cela signifie qu'il nécessite moins d'itérations pour atteindre un niveau similaire de précision. Le mécanisme de regret-matching+ permet à CFR+ de récupérer plus rapidement de séquences défavorables de résultats et d'explorer plus efficacement le vaste espace stratégique intrinsèque au poker.
La moyenne pondérée priorise les stratégies plus raffinées développées plus tard dans le processus d'apprentissage, conduisant à une convergence plus rapide vers une bonne approximation de l'Équilibre de Nash. Ces changements apparemment subtils dans l'algorithme ont un impact substantiel, rendant tout le processus de trouver des stratégies quasi-optimales significativement plus efficace et fiable pour des applications pratiques comme les solveurs de poker.
> **Important :** Si Piosolver devait s'appuyer uniquement sur CFR traditionnel, les temps de calcul pour de nombreux scénarios communs de poker seraient probablement prohibitivement longs pour une utilisation pratique. La capacité à mettre à zéro le regret négatif empêche l'algorithme de rejeter prématurément des actions potentiellement précieuses, tandis que la moyenne pondérée assure que la stratégie finale est fortement influencée par les phases les plus matures de l'apprentissage.
Malentendus Communs sur GTO et Solveur
Malgré la puissance de CFR+ et les insights fournis par les solveurs comme Piosolver, plusieurs malentendus communs persistent sur le poker GTO et le rôle de ces outils.
Démystifier les Mythes sur GTO et Solveur :
1. **Mythe : Le poker a été complètement résolu** * Réalité : Bien que le Heads-Up Limit Hold'em soit considéré comme faiblement résolu, le No-Limit Hold'em et le poker multijoueur présentent une complexité significativement plus grande et restent non résolus * Les solveurs pour ces variantes plus complexes s'appuient sur des abstractions et des simplifications pour rendre les calculs faisables
2. **Mythe : GTO est toujours la meilleure stratégie** * Réalité : Bien que GTO vise une approche inexploitable, il pourrait ne pas toujours produire le plus grand profit contre des adversaires qui dévient considérablement du GTO * Dans de tels cas, des stratégies exploitatives ciblant des faiblesses spécifiques peuvent être plus rentables * Souvent, l'approche la plus efficace implique un mélange de jeu GTO et exploitatif
3. **Mythe : Les solveurs fournissent des réponses définitives pour toutes les situations** * Réalité : Les sorties du solveur sont contingentes aux hypothèses et aux paramètres définis par l'utilisateur * Différentes hypothèses peuvent conduire à différentes stratégies "optimales" * La précision des sorties du solveur peut parfois créer un faux sentiment de précision absolue * De petites différences dans la valeur attendue pourraient être pratiquement insignifiantes
4. **Mythe : Maîtriser les solutions GTO du solveur rendra un joueur imbattable** * Réalité : Bien que GTO puisse rendre un joueur inexploitable, obtenir des gains significatifs nécessite souvent d'identifier et d'exploiter les erreurs des adversaires * Les solveurs n'enseignent pas directement comment exploiter les tendances des adversaires
5. **Mythe : GTO est facile à apprendre et à appliquer** * Réalité : Les sorties du solveur sont souvent complexes et nécessitent une étude et une compréhension considérables * Simplement mémoriser les sorties du solveur sans comprendre les principes sous-jacents est souvent inefficace
6. **Mythe : GTO devrait être suivi rigoureusement contre tous les adversaires** * Réalité : Contre des adversaires qui commettent des erreurs fréquentes et prévisibles, une stratégie purement exploitative focalisée sur la capitalisation de ces pertes spécifiques est souvent plus rentable que de suivre rigidement les lignes directrices GTO
Comprendre ces malentendus est vital pour utiliser les solveurs comme Piosolver efficacement et pour développer une stratégie de poker complète. GTO fournit une base théorique solide, mais son application pratique nécessite une considération attentive et une adaptation.
Équilibrer GTO et Jeu Exploitatif
GTO sert de cadre théorique qui vise à créer une stratégie qui ne peut pas être exploitée, assurant un résultat de break-even ou meilleur sur le long terme contre n'importe quel adversaire. En contraste, les stratégies exploitatives sont conçues pour profiter de tendances et faiblesses spécifiques dans le style de jeu d'un adversaire.
Intégration Stratégique :
* Les joueurs de poker les plus réussis intègrent souvent des éléments à la fois de GTO et de jeu exploitatif * Utilisent GTO comme ligne de base fondamentale * Dévient stratégiquement du GTO lorsqu'ils identifient des patterns exploitables dans le comportement des adversaires * Les solveurs comme Piosolver sont des outils puissants pour comprendre les principes GTO * N'offrent pas un chemin garanti vers la victoire sans application réfléchie
Les joueurs doivent développer une compréhension du pourquoi le solveur recommande des actions particulières et être préparés à ajuster ces stratégies en fonction des adversaires spécifiques qu'ils affrontent et du contexte unique de chaque jeu.
> **Insight Clé :** Les solveurs sont plus précieux comme ressources éducatives qui aident les joueurs à cultiver une compréhension plus profonde des principes de stratégie du poker, plutôt que comme des outils à suivre aveuglément pendant le jeu en direct. L'intuition humaine et la capacité à lire les adversaires restent des aspects cruciaux du poker réussi que les solveurs ne peuvent pas complètement répliquer.
Les Limites de CFR+ : Défis dans la Résolution de Variantes Complexes de Poker
Bien que CFR+ se soit avéré instrumental dans la résolution du Heads-Up Limit Hold'em, résoudre des variantes plus complexes de poker comme le No-Limit Hold'em et les jeux multijoueurs présente des défis significatifs, même pour des algorithmes avancés.
Défis Principaux :
* La capacité de miser n'importe quel montant dans le No-Limit Hold'em augmente dramatiquement la complexité de l'arbre de jeu * Structure de mises fixe du Limit Hold'em vs espace d'états vastement plus grand dans le No-Limit * Ajouter plus de joueurs augmente exponentiellement la taille de l'arbre de jeu * Les pots multiway sont considérablement plus complexes que les scénarios heads-up * Les solveurs pour No-Limit et jeux multijoueurs s'appuient fortement sur des techniques d'abstraction : * Réduisent la complexité en regroupant des mains similaires * Restreignent les tailles de mises pour rendre le calcul faisable * Ces abstractions introduisent des approximations * Pourraient ne pas capturer complètement les nuances du jeu
Par conséquent, bien que CFR+ représente un progrès important, la pure complexité du No-Limit Hold'em et du poker multijoueur continue de poser des défis continus pour la recherche en théorie des jeux et intelligence artificielle. Atteindre une véritable "solution" pour ces variantes dans le même sens définitif que HULHE reste un objectif distant.
Assistance en Temps Réel (RTA) au Poker : L'Application Pratique de CFR+ et GTO
Les algorithmes avancés discutés dans cet article forment l'épine dorsale computationnelle du logiciel moderne d'Assistance en Temps Réel (RTA) pour le poker, apportant les concepts théoriques GTO dans l'application pratique pendant le jeu réel. Les outils RTA de poker exploitent la puissance de CFR+ ou d'algorithmes similaires pour fournir aux joueurs des recommandations actionnables basées sur GTO en temps réel pendant que les mains se déroulent.
Comment le Logiciel RTA de Poker Utilise CFR+ et les Principes GTO :
* Pré-calcule des stratégies optimales pour des scénarios communs en utilisant CFR+ ou des algorithmes similaires * Adapte dynamiquement les solutions GTO à des situations spécifiques en jeu * Fournit des recommandations en temps réel, mathématiquement solides pour les tailles de mises, actions et fréquences * Équilibre efficacité computationnelle avec profondeur stratégique, adaptant des principes GTO complexes pour une utilisation pratique immédiate * Offre aux joueurs un moyen d'implémenter des concepts théoriques qui seraient impossibles à calculer manuellement pendant le jeu
Les améliorations d'efficacité introduites par CFR+ ont été particulièrement transformatives pour les outils RTA de poker, rendant possible de générer des stratégies quasi-optimales avec moins d'overhead computationnel. Cela permet au logiciel RTA de fonctionner efficacement sur du matériel grand public et de fournir une assistance opportune sans nécessiter des ressources de supercalcul.
> **Insight de l'Industrie :** Alors que les solveurs de poker ont évolué d'outils de recherche académique en applications commerciales, le logiciel RTA de poker représente la prochaine frontière dans le fait de rendre la théorie des jeux avancée accessible aux joueurs. Alors que le jeu GTO pur nécessite une exécution parfaite à travers des billions de scénarios possibles, les outils RTA aident à combler le fossé entre optimalité théorique et implémentation pratique.
Pour les joueurs cherchant à améliorer leur compréhension des principes GTO tout en les appliquant dans la pratique, le logiciel RTA de poker de qualité offre à la fois une valeur éducative et une assistance stratégique, servant d'outil d'entraînement précieux pour développer une meilleure intuition pour le jeu optimal à travers diverses situations.
Conclusion : L'Impact de CFR+ sur le Poker Moderne
En conclusion, CFR+ représente l'une des avancées les plus significatives dans l'IA du poker et la théorie des jeux de la dernière décennie. En améliorant dramatiquement l'efficacité des algorithmes de recherche d'équilibre, il a rendu la stratégie GTO accessible aux joueurs sérieux de poker à travers des solveurs commerciaux comme Piosolver.
Points Clés :
* Aucun être humain ne peut parfaitement appliquer les stratégies GTO dans toutes les situations possibles au poker * Le jeu est tout simplement trop complexe pour une maîtrise humaine complète * L'étude des résultats des solvers basés sur les algorithmes CFR+ fournit des insights précieux sur un jeu équilibré et non exploitable * Que vous soyez un joueur récréatif cherchant à progresser ou un professionnel visant un avantage, comprendre CFR+ aide à mieux exploiter les outils modernes de stratégie poker * Alors que le poker évolue et que l'écart entre le jeu optimal et humain se réduit, les algorithmes comme CFR+ continueront d'influencer l'étude et la pratique du jeu aux plus hauts niveaux
Références
[1] Tammelin, O., Burch, N., Johanson, M., & Bowling, M. (2015). Résolution du Texas Hold'em Heads-up Limit. Dans *Actes de la 24e Conférence Internationale Conjointe sur l'Intelligence Artificielle (IJCAI)*. [Lien vers le PDF](http://poker.cs.ualberta.ca/publications/2015-ijcai-cfrplus.pdf)
[2] Bowling, M., Burch, N., Johanson, M., & Tammelin, O. (2015). Le Poker Heads-Up Limit Hold'em est Résolu. Dans *Science*, 347(6218), 145--149. Version étendue avec résultats : *Communications of the ACM*, Vol. 60 No. 11, Pages 81-88. [Lien vers l'Article ACM](https://cacm.acm.org/magazines/2017/11/222180-heads-up-limit-holdem-poker-is-solved/fulltext)