Noam Brown, criador do Pluribus e Libratus: "Um bot sempre vencerá qualquer profissional no poker"

Você liderou três projetos incríveis de Inteligência Artificial (IA): Libratus (heads-up) e Pluribus (6-max) no poker e, recentemente, o Cicero, que joga contra humanos em igualdade de condições no popular jogo de tabuleiro Diplomacy. Hoje, eu gostaria de discutir o poker. Diga para os ouvintes comuns, que tipo de jogo é esse: no-limit Texas hold'em?

— Esta é a forma mais popular de poker, jogada em todos os cassinos e em muitos filmes. A principal característica é que o próprio jogador escolhe o tamanho das apostas. Uma das principais estratégias no poker é colocar seu oponente em uma posição difícil, se você for bem-sucedido de forma consistente, então você é um bom jogador.

Quando você cria seus projetos, o que te atrai em primeiro lugar? A beleza do poker ou o desejo de resolver problemas globais com a ajuda da IA?

— A beleza do jogo. Comecei a jogar poker quando estava na escola. Rapidamente percebi que existia alguma estratégia correta, seguindo-a, você poderia vencer todos. Já aos 16 anos fiquei maravilhado com a diversidade do poker e comecei a trabalhar em IA muito mais tarde.

Você já entendeu então que o poker pode ser resolvido como xadrez ou damas? Eles estão resolvidos, certo?

— Sim, é impossível vencer a IA nesses jogos. O poker também pode ser resolvido. Baseia-se no equilíbrio de Nash. Em qualquer jogo finito de soma zero, existe uma estratégia perfeita. Se um dos jogadores a utilizar, por expectativa, ele não pode perder, independentemente das ações do adversário. Para o poker, tudo isso também é verdade, mas apenas para o heads-up, no 6-max tudo é mais complicado.

O que você quer dizer quando diz "por expectativa"?

— Existe uma grande variância no poker. Mesmo uma estratégia perfeita não garante que você ganhará todas as mãos. Mas a estratégia ideal garante que, no longo prazo, seu saldo seja maior ou igual a zero.

Como calcular essa estratégia?

— Existem várias maneiras. Usamos um algoritmo de minimização de arrependimento contrafactual baseado na autoaprendizagem. Ou seja, duas cópias de IA começam a jogar uma com a outra de forma totalmente aleatória, mas aprendem durante o jogo. No final da partida, eles analisam suas ações e fazem “pesquisas” sobre como outras decisões afetariam o resultado, por exemplo, aumentar em vez de pagar. Da próxima vez, eles escolhem uma ação mais lucrativa. No longo prazo, tal jogo coincide com o equilíbrio de Nash. Isso funciona tanto no xadrez quanto no poker.

O que é mais difícil: xadrez ou poker?

— Vou dizer poker. Em primeiro lugar, por causa das informações incompletas. Isso nos leva ao fato de que temos que pensar não apenas em como exatamente jogar com nossas cartas, mas também com que frequência escolher tal jogada. O exemplo mais simples é o jogo Pedra, Papel e Tesoura. Você não pode usar "pedra" o tempo todo, o oponente notará isso imediatamente. Igualmente importante, o valor de nossas ações depende diretamente da frequência de sua aplicação. O equilíbrio é um dos elementos mais importantes do poker. No xadrez, não importa se você joga o Gambito da Rainha em todas as partidas ou apenas em 10%, a expectativa não vai mudar em nada.

Se jogarmos com um oponente o tempo todo, em cada mão obteremos novas informações. Quão significativo é isso para a IA?

— Essa abordagem no poker realmente existe. Mas para bots isso não importa. Eles jogam como se o adversário já conhecesse sua estratégia. A essência do jogo ideal é que você pode jogar dezenas de milhares de mãos, analisar tudo minuciosamente, mas ainda é impossível vencê-lo. Este é o equilíbrio ideal, ou seja, o equilíbrio de Nash. Os melhores jogadores do mundo também tendem a jogar Nash, mas podem se desviar quando percebem erros em seus adversários.

Quem é o maior jogador de todos os tempos e por que é Phil Hellmuth? Seu jogo está longe de ser o ideal, mas ele ainda vence todos. Então seu jogo caótico torna sua estratégia imprevisível?

— Antes de tudo, é importante entender que o equilíbrio de Nash não tem nada a ver com previsibilidade. Sua essência está apenas na imprevisibilidade. Admito plenamente que Phil Hellmuth é um jogador de muito sucesso. Mas sua imprevisibilidade não tem nada a ver com isso. Suponho que sua força seja a capacidade de usar as fraquezas de seus oponentes. A comunidade do poker vem discutindo há anos sobre o que é melhor: o jogo GTO ou explorativo. E até 2017, o explorativo tinha mais adeptos, até o nosso Libratus jogar contra os mais fortes especialistas em heads-up. O bot não tentou se adaptar, não jogou jogos mentais, apenas tentou chegar o mais próximo possível de Nash em todas as ações. E como resultado, ele destruiu seus oponentes. Em 120.000 mãos, o bot ganhou cerca de $2 milhões dos profissionais, com blinds de $100/$200.

Conte-nos mais sobre esta partida.

— Quando eu estava na pós-graduação, vários grupos trabalhavam em IA de poker ao mesmo tempo e, no final de cada ano, realizávamos um campeonato de entre os bots. Nosso bot foi o campeão em 2014 e 2016 e, posteriormente, formou a base do Libratus. Em 2017, desafiamos os melhores jogadores de heads-up do mundo a jogar 120.000 mãos. Colocamos $200.000, e eles dividiriam entre si dependendo do resultado.

Entre 2014 e 2016, você pensou que um computador poderia derrotar uma pessoa no poker?

— A primeira dessas partidas aconteceu em 2015, o bot sofreu uma derrota bastante pesada. Mas muita coisa mudou em dois anos. O primeiro bot jogou de acordo com uma estratégia pré-definida para resolver o poker. Durante a partida, ele simplesmente voltou-se para sua vasta base e buscou uma solução para cada situação específica. E o bot de 2017 em tempo real tentou construir uma estratégia que funcionasse melhor do que os algoritmos embutidos nela.

No entanto, a partida de 2015 me deu muito o que pensar. Percebi que pessoas e bots têm uma abordagem completamente diferente. Nosso bot já jogou muito consigo mesmo. Em uma partida humana, ele instantaneamente encontrou soluções contra um humano, com base em sua experiência anterior. É assim que sempre aconteceu. E os profissionais em algumas situações poderiam pensar por 5 minutos no river, escolhendo foldar ou pagar. Tive a ideia de que é exatamente isso que falta ao nosso bot. Analisamos o primeiro jogo e descobrimos que foram essas situações que tiveram um grande impacto no resultado final.

Você está falando sobre a duração da reflexão?

— Sim, mas não se trata de tempo. O problema do bot era que ele sempre agia instantaneamente e não tentava encontrar uma solução mais lucrativa em relação ao que foi colocado nele antes do jogo. E durante a mão, as pessoas usam sua capacidade de reconstruir, pensar e planejar. Muitas vezes isso ajuda a encontrar uma ação mais lucrativa do que a intuição sugeria inicialmente. Uma rede neural produz um resultado em milissegundos, mas se você levar em consideração dados adicionais insignificantes, o resultado melhorará muitas vezes. Se imaginarmos a estratégia embutida no bot como um análogo de uma rede neural, mesmo o menor estudo de informações adicionais o tornará milhares de vezes maior. Isso deu um impulso incrível aos nossos desenvolvimentos.

Você pode explicar em que exatamente consistem esses estudos?

— No hold'em, os jogadores recebem duas cartas fechadas cada, ou seja, 1.326 combinações possíveis. Na verdade, cerca de 1.000, porque você pode ignorar as cartas abertas. O bot começa a classificar todas as opções possíveis e procura uma estratégia que funcione melhor do que o que foi originalmente colocado nele. É importante que ele comece a realizar esses estudos apenas no turn, ele jogou o pré-flop e flop instantaneamente, de acordo com uma estratégia pré-calculada.

Houve algum recurso na estratégia Libratus que imediatamente chamou sua atenção?

— As apostas que uma pessoa faz geralmente dependem do tamanho do pote. E para Libratus isso era completamente sem importância, ele jogava absolutamente qualquer tamanho. Em algum momento, ele de repente começou a colocar grandes overbets de 10x o pote. Antes da partida, não pensávamos nessa opção, então ficamos um pouco preocupados. Na prática, ninguém usou essa estratégia antes, e nós mesmos não sabíamos o que esperar, e se os regulares puderem usá-la? Mas quase imediatamente ficou claro que funciona muito bem, pois constantemente leva o oponente a uma posição difícil. Mas o bot fez isso apenas porque em uma determinada situação tal aposta lhe parecia a mais lucrativa, e o fato de as pessoas não saberem como contra-atacar acabou sendo um bônus agradável.

Você já discutiu seus desenvolvimentos, por exemplo, com Daniel Negreanu ?

— Sim, fui convidado para a Ilha de Man, no escritório do PokerStars, quando ele ainda trabalhava com eles. Ele compareceu ao jantar geral, disse que tudo aquilo era muito interessante e poderia ser aproveitado para trabalhar no jogo.

CMU team publishes paper on how their poker-playing AI beat the best humans | TribLIVE.com — Noam (à direita)

Então ele não estava com medo?

— Ele até mostrou interesse em um duelo contra um bot, alegando que tinha boas chances de vencer. Foi há alguns anos, quando nem todos entendiam que no heads-up uma pessoa não tinha chance contra a IA. Acho que agora ficou óbvio para todos.

E qual é a situação no 6-max?

— Os bots modernos também vencerão as pessoas lá. Você só pode discutir se isso é relevante para todas as variedades de poker. Tenho certeza de que, com desejo e recursos suficientes, para qualquer jogo, você pode criar um bot que vencerá uma pessoa sem problemas. Mas estamos nos concentrando apenas na variante mais popular: NLHE.

Você já se perguntou quais são as principais diferenças na forma como o cérebro humano e a IA funcionam?

— Claro. Essa é uma questão muito importante. Os cálculos do AlphaGo e de outros bots conhecidos são baseados no método de Monte Carlo. Ele se destacou em jogos com informações completas, como o xadrez e go. Mas no poker ele é totalmente inadequado, porque não entende o conceito de informação oculta, não sabe o que é equilíbrio, com que frequência certas mãos precisam ser foldadas ou jogar de call. O cérebro humano é capaz de fazer um plano superficial para qualquer jogo. Isso é muito carente na inteligência artificial, a capacidade de planejar e raciocinar em geral.

No passado, diziam que o fator humano era muito importante no poker e que o computador nunca venceria. O que você sentiu no momento em que Libratus finalmente venceu as pessoas?

— Todo o projeto foi muito estressante para mim. Por vários anos, sem folgas, eu me dedicava apenas a ele. Durante a preparação, não tínhamos ideia de quão alto seria o nível necessário para derrotar um homem. Libratus jogou com versões anteriores de si mesmo, mas isso apenas nos deu uma ideia geral de que estávamos indo na direção certa. Não sabíamos quanto mais ele tinha que crescer, então jogamos todos os recursos no desenvolvimento. Tínhamos o poder de milhares de computadores à nossa disposição. Agora, isso não é surpresa para ninguém, mas para um aluno de pós-graduação em 2016, tudo o que aconteceu foi muito impressionante. No primeiro dia das partidas, eu estava extremamente nervoso. Antes do início, estimei as chances de vitória em 50%. Entendi que no papel o bot era mais forte e deveria vencer, mas fiquei com medo que os profissionais percebessem algumas fragilidades e pudessem tirar proveito delas. Foi exatamente isso que aconteceu em nossa primeira partida de 2015. Seu primeiro tempo transcorreu sem uma vantagem clara, mas depois os jogadores simplesmente destruíram o bot porque perceberam suas deficiências e souberam aproveitá-las com eficácia. As situações mais problemáticas eram quando os jogadores iam all-ins. Por exemplo, para um bot não havia diferença entre os flushes de K-high e A-high, ele os jogava exatamente da mesma forma. Às vezes não muda nada, mas em algumas situações isso pode custar muito caro — e os profissionais identificam facilmente esses spots.

Como os jogadores se comportaram durante a segunda partida?

— Como eu disse, o prêmio em dinheiro dependia diretamente do resultado. Eu esperava que eles não unissem forças para encontrar as falhas do bot. Mas os regulares imediatamente deixaram claro que seu objetivo principal era vencer o bot. Eles analisaram as mãos juntos. No final de cada dia, enviávamos a eles todo o histórico de mãos. Não sei por que decidi fazer isso, no poker essa é uma informação inestimável. Mas agora estou até feliz com isso, porque no final ainda vencemos. Tudo durou 20 dias. O bot venceu as três primeiras sessões consecutivas, mas ainda continuei a estimar as chances em cerca de 50/50. Então os humanos recuperaram um pouco e acreditaram que novamente acharam algumas falhas no jogo do bot, mas não eram. No oitavo dia, ficou claro que eles não tinham chance.

When artificial intelligence bot Claudico takes on poker pros, all bets are off | Stuff.co.nz — Doug Polk no duelo contra a IA

Como você lidou a vitória?

– Dediquei 5 anos da minha vida a este projeto, então a primeira reação foi de grande satisfação pelo sucesso do meu trabalho.

Conte-nos sobre o bot para 6-max.

— Como eu disse, se em um jogo de soma zero um dos participantes agir “segundo Nash”, ele, pelo menos, não terá EV negativo. Não importa o que o oponente faça. Tudo isso é verdade para o heads-up. Houve um longo e acalorado debate na comunidade de poker e ciência sobre se isso funcionaria no 6-max. Tive certeza imediata de que sim, porque a estratégia é muito eficaz e o número de jogadores não terá muito efeito.

O poker 6-max continua sendo um jogo individual, no qual os jogadores não cooperam entre si. Isso nos permitiu aplicar com sucesso o equilíbrio de Nash simplificado na prática. Mas ainda não foi comprovado que deveria funcionar em 6-max. Para alguns jogos, já existem evidências científicas de que o equilíbrio aproximado de Nash funciona muito bem fora de um jogo individual. Isso ainda não se aplica ao poker 6-max, mas já é óbvio para mim que pelo menos não é ruim.

Conte-nos sobre as principais diferenças entre Pluribus e Libratus.

— O Pluribus era muito mais barato. Se avaliarmos todos os recursos de que precisávamos para criar o bot, o Libratus custaria cerca de $100.000 e o Pluribus custaria menos de $150. É claro que a cada ano os computadores ficam mais baratos, mas ainda assim a diferença não é tão grande. O principal motivo é uma mudança no algoritmo. A própria limitação do trabalho de pesquisa do bot, que já mencionei.

Essa restrição também é possível para Libratus?

— É claro. Primeiro, testamos a eficiência do trabalho em um bot heads-up. Se o Libratus anterior precisava do poder de milhares de computadores, o novo algoritmo tornou possível executá-lo em qualquer laptop.

Como alguém que ama poker, quem você considera o maior jogador de todos os tempos? Aliás, com a ajuda da IA é possível avaliar o nível de jogo de uma pessoa? Existe alguma semelhança com uma classificação Elo no poker?

— É possível na teoria, mas improvável na prática. Tudo por causa da enorme variância. Mesmo um jogador ruim pode terminar o ano com lucro, e o top reg poderá jogar o mesmo número de mãos e perder. Mas no poker moderno, assim como no xadrez, agora é impossível imaginar aperfeiçoar o jogo sem ajuda de um software.

Fiquei impressionado com a habilidade com que você ignorou a pergunta sobre o melhor jogador de todos os tempos.

— É uma pergunta difícil. No xadrez, não podemos comparar Magnus Carlsen e Garry Kasparov. O jogo evoluiu demais. No poker, os jogadores de poker moderno são muitas vezes mais habilidosos do que aqueles que jogavam há 5 ou 10. Para ser franco, as estrelas da ESPN, do boom do poker, são medíocres.

Pelo menos do lado técnico, admito que ainda são fortes na leitura dos adversários. Com isso em mente, vou nomear Daniel Negreanu. Ele é um dos jogadores mais fortes do passado, tenta evoluir o tempo todo e acompanha o desenvolvimento da IA. Ele trabalha muito na teoria. Quase todos os jogadores de sua geração há muito desistiram e não estão mais nessa direção. Por isso, tenho muito respeito por Daniel.

Por que se registrar no GipsyTeam?

Você poderá deixar comentários, avaliar postagens, participar de discussões e melhorar seu nível de jogo.
Se você preferir um baralho de quatro cores e quiser desativar as animações de avatar, essas opções estarão nas configurações do seu perfil.
Favoritos, cavaladas e outras ferramentas convenientes do site ficarão disponíveis para você.
Em cada página, você verá onde novas postagens e comentários apareceram.
Se você estiver registrado nas salas de poker GipsyTeam, você receberá estatísticas de rake, pontos de bônus para compras na loja, promoções exclusivas e suporte estendido.