Прощай, лимитный холдем?

102 комментария
Прощай, лимитный холдем?

В начале 2015 года команда ученых из канадского университета Альберты, усиленная специалистом из Финляндии, объявила о решении лимитного холдема один на один. Созданная ими программа Cepheus («Цефей», по-английски читается как «Сифиус») играет максимально близко к GTO. Префлоп-чарт, стратегия на постфлопе и код программы выложены на сайте проекта.

Что поделать, должно было случиться.
feruell

Новость об этом достижении программистов появилась 8 января практически одновременно на сайтах The Guardian, Wall Street Journal, Washington Post, Nature и других авторитетных СМИ, а также на форуме 2+2. Статья авторов «Цефея» (Майкл Боулинг, Нейл Бёрч, Майкл Йохансон и Оскари Таммелин) с описанием алгоритма вышла в престижном журнале Science (для чтения требуется платная подписка).

Интерес игроков в покер к практически оптимальной стратегии быстро обрушил серверы сайта канадского университета. (Возможность потренироваться против «Цефея» не восстановили до сих пор.)

«Даже сыграв против нашей программы 60 миллионов раздач и не сделав ни одной ошибки, вы всё равно не смогли бы статистически достоверно утверждать, что имеете против неё преимущество, – заявил Майкл Боулинг. – Мы не пришли к абсолютному совершенству, но подошли к нему так близко, что для доказательства перевеса над программой идеальному игроку не хватит всей жизни».

В твиттере проекта Боулинг конкретизировал: соперник, знавший стратегию «Цефея» в моменты принятия решений, после 60 миллионов раздач обыграл программу с преимуществом менее 0.05 бб/100.

Работа над проектом продолжалась 11 лет. Прорыв состоялся после подключения соавтора из Финляндии Оскари Таммелина, более чем на порядок улучшившего эффективность старого алгоритма канадцев. Кодирование новой программы началось в октябре 2013 года. Компьютерные мощности для расчета предоставил исследовательский консорциум Calcul Québec. Запись решения лимитного холдема для двух человек заняла 11 терабайт (в 10 раз больше всей англоязычной Википедии) и потребовало 900 CPU-лет (1 CPU-год соответствует годовой работе машины, делающей миллиард операций в секунду).

«Цефей» решал холдем полным перебором: играл множество раздач сам с собой, принимая случайные решения, после чего «учился на ошибках» – неудачные решения получали «минус в карму» и вероятность их принятия в будущем снижалась. Хороший алгоритм обучения и избыток машинного времени – много ли нужно для счастья? Так лимитный холдем один на один стал первым видом покера, для которого удалось найти решение, близкое к оптимальному.

Несколько цитат от разработчиков:

Игроки в покер часто спорили о том, следует ли лимпить с малого блайнда с какой-то частью своего диапазона. Общепринятым стало мнение, осуждающее этот прием за то, что он не позволяет немедленно выиграть раздачу после фолда оппонента. Наше решение полностью его подтверждает: программа делает опенлимпы в 0.06% случаев. В некоторых других ситуациях стратегия отличается от общепринятой, показывая, в каких областях люди могут прибавить. Программа практически никогда не делает кэп на префлопе, тогда как многие сильные игроки кэпят различные и порой достаточно широкие диапазоны. Даже с сильнейшей рукой – парой тузов – стратегия кэпит менее 0.01% случаев, а чаще всего ставится кэп с парой двоек – 0.06%. Возможно, ещё важнее то, что на большом блайнде программа играет больше рук, чем многие профессионалы, и с большей вероятностью 3-бетит с мелкими парами – тройками и четверками...

Программа училась играть два месяца, используя более четырех тысяч процессоров, каждый из которых отыгрывал более шести миллиардов раздач каждую секунду. В рамках подготовки было сыграно больше раздач, чем за всю историю человечества.

Цефей – созвездие в Северном полушарии. Гамма Цефея станет самой северной звездой на видимом ночном небе в районе 3000 года, перехватив первенство у Полярной звезды. Предыдущая программа, созданная командой университета Альберты, называлась «Полярис» – Полярная звезда. Именно «Полярис» первым обыграл профессионального игрока в покер в серьезном матче один на один. «Цефей» пошёл дальше – он не только может побеждать сильнейших игроков мира, его игра практически идеальна...

Итак, лимитный холдем один на один решен. Возможно, не в математическом смысле, но уж точно в практическом. Играть в него на деньги с 8 января 2015 года, не имея доступа к оптимальной на сегодня стратегии, могут только исключительно беспечные люди. (В момент, когда пишутся эти строки, на PоkerStars играется один хэдз-ап на лимите $50/$100 – регуляр из Украины против неизвестного игрока из Великобритании. Два матча идут на $10/$20, остальной экшен – на микролимитах.) Должна ли последовать какая-либо реакция со стороны покер-румов? Что нас ждет в будущем – насколько велика угроза со стороны компьютеров?

В чистом виде лимитным холдемом один на один давно бросили интересоваться даже отпетые фанаты книги Майкла Крэйга. Однако в микс 8 игр регулярно сражаются на серьезные деньги, и 1/8 этой ротации – лимитный холдем. Вероятно, игрокам следует дать программную возможность отказаться от состязания в этом виде покера. Если оба хотят сражаться и доверяют друг другу, пусть ставят соответствующие галочки, но возможность уклониться от потенциально безнадежной битвы – право каждого.

Ситуация меняется, как только игроков становится трое. Дерево решений немедленно разрастается настолько, что создание GTO-бота становится исключительно трудноразрешимой задачей. «Цефей» для 3-макса (не говоря уже про 6-макс) потребует на порядки большей работы как по созданию алгоритма, так и по чисто вычислительной мощности.

А что думают заинтересованные стороны о перспективах решения безлимитного холдема один на один?

Майкл Боулинг: «Маловероятно, что безлимитный холдем будет когда-либо решен – в нем слишком много различных вариантов действий».

Uran: «То, что для лимитного холдема один на один можно найти относительно точное равновесие, стало понятно лет семь назад. Ситуация с нахождением равновесия для NL HU, даже в 100 бб стеках, весьма неудовлетворительная и, скорее всего, в ближайшие десятилетия не будет найдено удовлетворительного решения».

Понятно, что при добавлении за стол новых игроков математическое решение безлимитного холдема отодвигается намного дальше.

А как же боты, разрывающие 6-макс, которыми пугают онлайн-игроков в последние годы? Да, их существование – суровая реальность. Они обладают рядом серьёзных достоинств – как минимум, не устают и никогда не тильтуют! И благодаря этому приносят своим хозяевам какие-то деньги – если/пока их не забанят с конфискацией... Но, конечно, они крайне несовершенны с точки зрения оптимальной покерной стратегии. Стратегия такого бота, выложенная в публичный доступ, не совершит революции в игре. В отличие от «Цефея»...

Стратегия «Цефея»


Вся информация, касающаяся префлопа, выложена на сайте разработчиков.

С малого блайнда программа практически всегда открывается рэйзом.

Процент лимпов крайне незначителен, причем чаще всего лимп делается с 2x 2x – 0.53% и Ax Ax – 0.51%. Есть немало рук, рэйз с которыми делается в 100% случаев. Фолды и рэйзы миксуются только с двумя руками: Tx 4x разномастные – 25.16% фолдов и 74.65% рэйзов и 7x 4x разномастные – 94.48% фолдов и 5.49% рэйзов.

На большом блайнде «Цефей» крайне неохотно сдается на рэйз. Всегда выкидываются только 3x 8x , 2x 8x , 2x 7x , 2x 6x , 2x 4x и 2x 3x – естественно, все разномастные. Зеленым цветом ниже отмечен диапазон 3-бета, синим – колла.

Со многими руками используется смешанная стратегия. В частности, с парой двоек «Цефей» делает 3-бет в 45.65% случаев, с 3x 3x – в 83.43% (остальные пары 3-бетятся всегда). Разномастные Kx Tx программа 3-бетит в 49.51% случаев, одномастные Jx 4x – в 53%...

Против лимпа «Цефей» обычно дает рэйз.

Получив 3-бет, программа, как уже упоминалось выше, практически во всех случаях делает колл. 4-беты от неё исчезающе редки: с тузами – никогда, с королями, дамами и валетами – 0.02%, и т. д. Из слабых рук, с которыми изредка ставится кэп, отметим Kx 5x (0.02%) и Kx 4x (0.01%) разномастные.

Постфлоп также можно посчитать на сайте проекта.

Для примера мы рассмотрели игру с 9h Th с малого блайнда. Мы сделали рэйз и заколлировали 3-бет соперника. На флопе Ad Qc 7h противник поставил контбет. Что делать Hero?

73.57% – рэйз, остальное – колл, говорит нам «Цефей».

Оппонент коллирует, и на терне падает 2s . К нам приходит чек. Как продолжать?

64.06% – продолжаем атаку, 35.94% – берем бесплатную карту.

Ривер – Kh .

1) Оппонент чекает.

В 45.17% случаев программа сдается, в 54.83% – блефует.

2) Оппонент донкает.

В 47% случаев программа фолдит, в 24% – рэйзит, и в 29% делает колл!!

Вот так своеобразно играет самый близкий к GTO покерный робот наших дней...

Историческое для покера событие, состоявшееся в январе 2015 года, можно, пожалуй, сравнить с появлением в шахматах так называемых таблиц Налимова – полных баз пяти- и шестифигурных позиций. (В 2013 году появилось решение и всех позиций с семью фигурами, которое заняло 140 терабайт.) Теперь для любой позиции с семью и менее фигурами известна точная оценка и идеальная последовательность ходов за обе стороны. Но, поскольку шахматы – это намного больше, чем малофигурный эндшпиль, появление таблиц Налимова мало повлияло на практическую игру. Решение методом полного перебора шахматам на сегодняшний день тоже не грозит: слишком мала производительность компьютеров. Даже восьмифигурные базы считать никто пока не собирается. Так и в покере нахождение оптимальной стратегии в лимитном холдеме один на один закрывает лишь частный случай той единственной разновидности покера, которая лучше всего поддается расчету, и отнюдь не приближает решение той же игры для большего числа участников или других, более популярных покерных вариантов.

Вторую часть статьи мы посвятим анализу раздач по лимитному холдему один на один с помощью «Цефея». Раздачи будем брать из книг, блогов, статей или просто из головы. Может быть, компьютерные решения помогут нам лучше понять логику покера?

Рейтинг:

+1 -1
-

Зачем регистрироваться на GipsyTeam?

  • Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
  • Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
  • Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
  • На каждой странице будет видно, где появились новые посты и комментарии.
  • Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.