Прощай, лимитный холдем?

102 комментария
Прощай, лимитный холдем?

В начале 2015 года команда ученых из канадского университета Альберты, усиленная специалистом из Финляндии, объявила о решении лимитного холдема один на один. Созданная ими программа Cepheus («Цефей», по-английски читается как «Сифиус») играет максимально близко к GTO. Префлоп-чарт, стратегия на постфлопе и код программы выложены на сайте проекта.

Что поделать, должно было случиться.
feruell

Новость об этом достижении программистов появилась 8 января практически одновременно на сайтах The Guardian, Wall Street Journal, Washington Post, Nature и других авторитетных СМИ, а также на форуме 2+2. Статья авторов «Цефея» (Майкл Боулинг, Нейл Бёрч, Майкл Йохансон и Оскари Таммелин) с описанием алгоритма вышла в престижном журнале Science (для чтения требуется платная подписка).

Интерес игроков в покер к практически оптимальной стратегии быстро обрушил серверы сайта канадского университета. (Возможность потренироваться против «Цефея» не восстановили до сих пор.)

«Даже сыграв против нашей программы 60 миллионов раздач и не сделав ни одной ошибки, вы всё равно не смогли бы статистически достоверно утверждать, что имеете против неё преимущество, – заявил Майкл Боулинг. – Мы не пришли к абсолютному совершенству, но подошли к нему так близко, что для доказательства перевеса над программой идеальному игроку не хватит всей жизни».

В твиттере проекта Боулинг конкретизировал: соперник, знавший стратегию «Цефея» в моменты принятия решений, после 60 миллионов раздач обыграл программу с преимуществом менее 0.05 бб/100.

Работа над проектом продолжалась 11 лет. Прорыв состоялся после подключения соавтора из Финляндии Оскари Таммелина, более чем на порядок улучшившего эффективность старого алгоритма канадцев. Кодирование новой программы началось в октябре 2013 года. Компьютерные мощности для расчета предоставил исследовательский консорциум Calcul Québec. Запись решения лимитного холдема для двух человек заняла 11 терабайт (в 10 раз больше всей англоязычной Википедии) и потребовало 900 CPU-лет (1 CPU-год соответствует годовой работе машины, делающей миллиард операций в секунду).

«Цефей» решал холдем полным перебором: играл множество раздач сам с собой, принимая случайные решения, после чего «учился на ошибках» – неудачные решения получали «минус в карму» и вероятность их принятия в будущем снижалась. Хороший алгоритм обучения и избыток машинного времени – много ли нужно для счастья? Так лимитный холдем один на один стал первым видом покера, для которого удалось найти решение, близкое к оптимальному.

Несколько цитат от разработчиков:

Игроки в покер часто спорили о том, следует ли лимпить с малого блайнда с какой-то частью своего диапазона. Общепринятым стало мнение, осуждающее этот прием за то, что он не позволяет немедленно выиграть раздачу после фолда оппонента. Наше решение полностью его подтверждает: программа делает опенлимпы в 0.06% случаев. В некоторых других ситуациях стратегия отличается от общепринятой, показывая, в каких областях люди могут прибавить. Программа практически никогда не делает кэп на префлопе, тогда как многие сильные игроки кэпят различные и порой достаточно широкие диапазоны. Даже с сильнейшей рукой – парой тузов – стратегия кэпит менее 0.01% случаев, а чаще всего ставится кэп с парой двоек – 0.06%. Возможно, ещё важнее то, что на большом блайнде программа играет больше рук, чем многие профессионалы, и с большей вероятностью 3-бетит с мелкими парами – тройками и четверками...

Программа училась играть два месяца, используя более четырех тысяч процессоров, каждый из которых отыгрывал более шести миллиардов раздач каждую секунду. В рамках подготовки было сыграно больше раздач, чем за всю историю человечества.

Цефей – созвездие в Северном полушарии. Гамма Цефея станет самой северной звездой на видимом ночном небе в районе 3000 года, перехватив первенство у Полярной звезды. Предыдущая программа, созданная командой университета Альберты, называлась «Полярис» – Полярная звезда. Именно «Полярис» первым обыграл профессионального игрока в покер в серьезном матче один на один. «Цефей» пошёл дальше – он не только может побеждать сильнейших игроков мира, его игра практически идеальна...

Итак, лимитный холдем один на один решен. Возможно, не в математическом смысле, но уж точно в практическом. Играть в него на деньги с 8 января 2015 года, не имея доступа к оптимальной на сегодня стратегии, могут только исключительно беспечные люди. (В момент, когда пишутся эти строки, на PоkerStars играется один хэдз-ап на лимите $50/$100 – регуляр из Украины против неизвестного игрока из Великобритании. Два матча идут на $10/$20, остальной экшен – на микролимитах.) Должна ли последовать какая-либо реакция со стороны покер-румов? Что нас ждет в будущем – насколько велика угроза со стороны компьютеров?

В чистом виде лимитным холдемом один на один давно бросили интересоваться даже отпетые фанаты книги Майкла Крэйга. Однако в микс 8 игр регулярно сражаются на серьезные деньги, и 1/8 этой ротации – лимитный холдем. Вероятно, игрокам следует дать программную возможность отказаться от состязания в этом виде покера. Если оба хотят сражаться и доверяют друг другу, пусть ставят соответствующие галочки, но возможность уклониться от потенциально безнадежной битвы – право каждого.

Ситуация меняется, как только игроков становится трое. Дерево решений немедленно разрастается настолько, что создание GTO-бота становится исключительно трудноразрешимой задачей. «Цефей» для 3-макса (не говоря уже про 6-макс) потребует на порядки большей работы как по созданию алгоритма, так и по чисто вычислительной мощности.

А что думают заинтересованные стороны о перспективах решения безлимитного холдема один на один?

Майкл Боулинг: «Маловероятно, что безлимитный холдем будет когда-либо решен – в нем слишком много различных вариантов действий».

Uran: «То, что для лимитного холдема один на один можно найти относительно точное равновесие, стало понятно лет семь назад. Ситуация с нахождением равновесия для NL HU, даже в 100 бб стеках, весьма неудовлетворительная и, скорее всего, в ближайшие десятилетия не будет найдено удовлетворительного решения».

Понятно, что при добавлении за стол новых игроков математическое решение безлимитного холдема отодвигается намного дальше.

А как же боты, разрывающие 6-макс, которыми пугают онлайн-игроков в последние годы? Да, их существование – суровая реальность. Они обладают рядом серьёзных достоинств – как минимум, не устают и никогда не тильтуют! И благодаря этому приносят своим хозяевам какие-то деньги – если/пока их не забанят с конфискацией... Но, конечно, они крайне несовершенны с точки зрения оптимальной покерной стратегии. Стратегия такого бота, выложенная в публичный доступ, не совершит революции в игре. В отличие от «Цефея»...

Стратегия «Цефея»


Вся информация, касающаяся префлопа, выложена на сайте разработчиков.

С малого блайнда программа практически всегда открывается рэйзом.

Процент лимпов крайне незначителен, причем чаще всего лимп делается с 2x 2x – 0.53% и Ax Ax – 0.51%. Есть немало рук, рэйз с которыми делается в 100% случаев. Фолды и рэйзы миксуются только с двумя руками: Tx 4x разномастные – 25.16% фолдов и 74.65% рэйзов и 7x 4x разномастные – 94.48% фолдов и 5.49% рэйзов.

На большом блайнде «Цефей» крайне неохотно сдается на рэйз. Всегда выкидываются только 3x 8x , 2x 8x , 2x 7x , 2x 6x , 2x 4x и 2x 3x – естественно, все разномастные. Зеленым цветом ниже отмечен диапазон 3-бета, синим – колла.

Со многими руками используется смешанная стратегия. В частности, с парой двоек «Цефей» делает 3-бет в 45.65% случаев, с 3x 3x – в 83.43% (остальные пары 3-бетятся всегда). Разномастные Kx Tx программа 3-бетит в 49.51% случаев, одномастные Jx 4x – в 53%...

Против лимпа «Цефей» обычно дает рэйз.

Получив 3-бет, программа, как уже упоминалось выше, практически во всех случаях делает колл. 4-беты от неё исчезающе редки: с тузами – никогда, с королями, дамами и валетами – 0.02%, и т. д. Из слабых рук, с которыми изредка ставится кэп, отметим Kx 5x (0.02%) и Kx 4x (0.01%) разномастные.

Постфлоп также можно посчитать на сайте проекта.

Для примера мы рассмотрели игру с 9h Th с малого блайнда. Мы сделали рэйз и заколлировали 3-бет соперника. На флопе Ad Qc 7h противник поставил контбет. Что делать Hero?

73.57% – рэйз, остальное – колл, говорит нам «Цефей».

Оппонент коллирует, и на терне падает 2s . К нам приходит чек. Как продолжать?

64.06% – продолжаем атаку, 35.94% – берем бесплатную карту.

Ривер – Kh .

1) Оппонент чекает.

В 45.17% случаев программа сдается, в 54.83% – блефует.

2) Оппонент донкает.

В 47% случаев программа фолдит, в 24% – рэйзит, и в 29% делает колл!!

Вот так своеобразно играет самый близкий к GTO покерный робот наших дней...

Историческое для покера событие, состоявшееся в январе 2015 года, можно, пожалуй, сравнить с появлением в шахматах так называемых таблиц Налимова – полных баз пяти- и шестифигурных позиций. (В 2013 году появилось решение и всех позиций с семью фигурами, которое заняло 140 терабайт.) Теперь для любой позиции с семью и менее фигурами известна точная оценка и идеальная последовательность ходов за обе стороны. Но, поскольку шахматы – это намного больше, чем малофигурный эндшпиль, появление таблиц Налимова мало повлияло на практическую игру. Решение методом полного перебора шахматам на сегодняшний день тоже не грозит: слишком мала производительность компьютеров. Даже восьмифигурные базы считать никто пока не собирается. Так и в покере нахождение оптимальной стратегии в лимитном холдеме один на один закрывает лишь частный случай той единственной разновидности покера, которая лучше всего поддается расчету, и отнюдь не приближает решение той же игры для большего числа участников или других, более популярных покерных вариантов.

Вторую часть статьи мы посвятим анализу раздач по лимитному холдему один на один с помощью «Цефея». Раздачи будем брать из книг, блогов, статей или просто из головы. Может быть, компьютерные решения помогут нам лучше понять логику покера?

Рейтинг:

+1 -1
-

Зачем регистрироваться на GipsyTeam?

  • Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
  • Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
  • Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
  • На каждой странице будет видно, где появились новые посты и комментарии.
  • Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.

Мы тоже не любим спам! За всю историю сайта мы не отправили ни одного письма нашим пользователям. Вы не будете получать от нас ни рекламных предложений, ни обзоров обновлений.