Новость

Секреты Либратуса

GipsyTeam

16.02.2017 12:46 10637 34 комментария

Ноам Браун, один из авторов сильнейшей программы по HU NL, рассказал читателям CardPlayer о тонкостях алгоритмов и будущем покера.

В прошлом месяце покерный бот, написанный учёными из университета Карнеги – Меллон, обыграл четырёх игроков, входящих в элиту безлимитного холдема один на один. Винрейт машины превысил 14 больших блайндов на 100 раздач на дистанции 120,000 рук, что составило почти 90 бай-инов.

По словам одного из создателей программы, аспиранта университета Карнеги – Меллон Ноама Брауна, Либратус – «священный Грааль покерного искусственного интеллекта». Ранее программам не удавалось побеждать игроков в покер мирового уровня.

Журналист Card Player Брайан Пемпус поговорил с Брауном о главных отличиях Либратуса от Клодико – предыдущей версии бота тех же авторов, возможных путях дальнейшего улучшения программы и о том, когда компьютеры смогут побеждать сильнейших представителей человечества в 6-макс.

Ноам Браун и Туомас Сандхольм – авторы покерных ботов университета Карнеги – Меллон

– Удивил ли вас итог матча?
– Да, меня удивило, насколько большим оказалось преимущество ИИ. Перед матчем мы тестировали его против предыдущих версий бота. У Клодико Либратус выигрывал примерно 10-12 бб/100 – результат, очень близкий к показанному командой во главе с Дугласом Полком в матче 2015 года. Поэтому в новом матче мы рассчитывали всего лишь на небольшой перевес. Но Либратус превзошёл наши ожидания!

– То есть до матча вы не ожидали, что компьютер уже готов громить людей с винрейтом 14 бб/100?
– Просто мы недооценили, насколько сильно повлияло на исход матча с Клодико применение соперниками резких эксплуатирующих линий. В частности, очень эффективными оказались рэйзы лимпов машины – именно эти банки составили значительную часть выигрыша Полка и компании. Либратус же, играя против Клодико, не пытался использовать эксплуатирующие стратегии, и то, что он всё равно выигрывал 10-12 бб/100, должно было подсказать нам, что он значительно сильнее людей. Конечно, в том случае, если у него не было столь же явных слабостей, как у его предшественника. Именно это и стало причиной победы Либратуса в новом матче – соперники не сумели найти дыры в его стратегии.

– Не было ли ощущения, что дыры всё же нашлись, когда люди сумели после стартовых неудач почти сравнять счёт?
– Действительно, к концу первой недели счёт почти сравнялся. Наши соперники искали сильные и слабые места ИИ, а также пытались понять, как именно он подстраивается под их действия. Они не всегда делились с нами своими идеями, но та часть, которую я слышал, большой тревоги не вызвала. Одни из найденных ими слабостей машины были подлинными, другие – мнимыми. Например, в какой-то день они начали играть с 3-бетом 80%, так как посчитали, что ИИ неправильно реагирует на один из сайзингов 3-бета. На самом деле никакой ошибки не было – игроков ввёл в заблуждение шум, возникший из-за малых размеров выборки.

Были и удачные находки – в частности, не лучшая реакция Либратуса на некоторые размеры префлоп-рэйза. Перед соревнованием мы не считали слабость серьёзной, но на дистанции утечка оказалась довольно существенной. К счастью, мы готовили программу к подобной ситуации, и по ночам, когда соперники спали, она тренировалась, устраняя пробелы в подготовке. Именно поэтому со второй недели игра пошла в одни ворота.

– Значит, решающее значение приобрела тонкая настройка бота после сессий? Из каких соображений это делалось – потому что соперники могли обсуждать стратегию между собой?
– Нет-нет, мы не занимались тонкой настройкой, не предписывали Либратусу чаще 4-бетить или фолдить. Всё было немного иначе. Смотрите: перед матчем мы запрограммировали несколько сайзингов рэйза. Либратус знал, как реагировать на рэйзы в 2 бб, 2.5 бб, 3 бб... Но если соперники открывались 2.75 бб, машина округляла это число до трёх и отвечала по стратегии для рэйзов в 3 бб, что, разумеется, не может быть оптимальным. Однако между сессиями Либратус начинал тренироваться, играя сам с собой рэйзами 2.75 бб или другими (не только на префлопе, но и на флопе), которые выбирались алгоритмом, учитывавшим частоту действий соперников и «удалённость» их сайзингов от посчитанных ранее. Этот процесс – единственная подстройка, которая использовалась искусственным интеллектом во время матча. Его значение, конечно, огромно – машина не позволяла оппонентам использовать одни и те же эксплуатирующие приёмы. Сама программа не менялась, она лишь училась работать с новыми сайзингами.

– Подстройка на префлопе и флопе важнее, чем на тёрне и ривере?
– Просто она требует значительно больше времени. Тёрн и ривер Либратус рассчитывал в реальном времени прямо по ходу раздач. Каждый раз, когда соперники делали ставку на тёрне или ривере, ИИ пересчитывал свою стратегию в зависимости от сайзинга.

– Отличался ли он в этом от Клодико? Или у Клодико был такой же модуль, но менее совершенный?
– У Клодико был аналогичный модуль для ривера, но намного менее совершенный. Самое главное – он вообще не учитывал блокеры. Чтобы ускорить расчёты, мы группировали похожие руки в категории и строили для них одинаковую стратегию. Но туз-хай с тузом пик на доске с тремя пиками – совсем не то же самое, что туз-хай с тузом треф. Также солвер Клодико не строил стратегию в зависимости от ставки соперника, а считал несколько разных сайзингов. Думаю, переход на уникальные карты и расчёт тёрна и ривера в реальном времени дали Либратусу решающее преимущество. Конечно, это потребовало очень серьёзной работы над алгоритмом, ведь при подсчётах на тёрне машина должна рассмотреть почти полсотни вариантов ривера – дерево расчёта растёт по экспоненте!

– Насколько далёк Либратус от совершенной GTO-стратегии? Сколько ещё версий этой программы вы планируете выпустить?
– Насколько наша стратегия слабее оптимальной, не скажет никто. Мы в принципе знаем, как это посчитать, но такие расчёты стоят слишком дорого, поэтому ими пока не занимались. Может быть, попробуем в будущем году. Предположил бы, что идеальный GTO-бот выиграет у Либратуса 15 бб/100 – вернее, от 5 до 50 бб/100.

– Ого, неужели программа так далека от совершенства?
– Сложно сказать наверняка. ИИ предыдущих поколений не принимали в расчёт блокеры, а это крайне важная концепция для игры на высоком уровне. У Либратуса нет этой проблемы. Также он научился пересчитывать тёрн и ривер в реальном времени. На этих направлениях двигаться дальше уже некуда. Подозреваю, что усилить игру можно более грамотным выбором сайзингов, а вот насколько...

– Много говорилось о том, как агрессивно играет Либратус, как часто ставит овербеты на тёрне и ривере. Достигла ли программа совершенства в балансировке диапазонов в таких ситуациях или её тоже можно улучшить?
– Овербеты ИИ стали для нас одним из сюрпризов. При обучении Либратус не использовал ни одной раздачи, сыгранной людьми, поэтому стратегия, которую он счёл оптимальной, оказалась настолько нетипичной и непривычной для людей: огромные овербеты и донкбеты! Очень волнующе и приятно было наблюдать, как ИИ использует линии, по большому счёту не встречавшиеся в практике покерных профессионалов.

Клодико тоже пришёл к чему-то похожему – помните его дикие олл-ины в крошечных банках? Но в этой части его стратегии встречались ошибки, она не была сбалансированной. Либратус же продемонстрировал сбалансированную агрессию, что и стало ключом к победе.

– В свете результата матча многих беспокоит будущее онлайн-покера. Можно ли использовать вашу программу для нечестной игры?
– Уверяю, что мы не играем с Либратусом в интернете и не планируем делать это в будущем. Но очевидно, что это не остановит людей, готовых использовать описанные нами технологические идеи для усиления собственных ботов. Не готов рассуждать на тему онлайн-покера, потому что не слишком в нём разбираюсь. Знаю только, что ботов активно применяют при игре в онлайне, а покерные румы ведут с ними борьбу, но кто из них побеждает, мне неизвестно.

– Если бы глубина стеков в вашем матче была выше или ниже, чем 200 блайндов, как это повлияло бы на его исход? Смогла бы машина справиться со стеком в 500 или 1,000 блайндов?
– Мы выбрали 200 блайндов, потому что именно такая глубина используется в ежегодном чемпионате по покерному программированию. Компьютерам тяжело работать с таким глубоким стеком из-за разрастания дерева вариантов. Также, насколько мне известно, 200 бб являются предельной заявкой на большинстве столов для кэш-игры. Считаю, что мы выбрали подходящие условия – честные и сложные для машины. В стеках 100 бб она бы точно показала винрейт не хуже, а то и лучше. Что же касается стека в 500-1,000 блайндов... Честно говоря, думаю, что результат компьютера бы улучшился, но в основном за счёт слабости соперников, почти не имеющих опыта игры в такой глубине. Овербеты Либратуса стали бы ещё выгоднее.

– Куда двинется покерный ИИ дальше? За пределы хэдз-апа?
– Кое-какие исследования игры в формате 3-макс уже проводились. В целом методы, которые мы использовали при создании Либратуса, годятся и за пределами хэдз-апа. Правда, появляется новая проблема – оценки полученного результата. Когда за столом больше двух человек, вы можете играть по оптимальной стратегии, но проигрывать, потому что соперники сотрудничают, вольно или невольно. Поэтому если посадить ИИ за стол к пятерым игрокам – людям, непонятно, как корректно посчитать результат.

Думаю, сейчас 6-макс находится слегка за пределами того, что может Либратус и другие похожие на него боты. Однако ежегодный чемпионат среди покерных программ вводит лигу для игры за коротким столом, и несложно предположить, что активность программистов возрастёт и наука будет продвигаться весьма быстро. Думаю, после внесения незначительных изменений в Либратус мы смогли бы научить его обыгрывать людей в 6-макс через два года. Но пока не вполне ясно, стоит ли играть по GTO или идеально подстраиваться и максимально эксплуатировать слабых игроков. Первое – прерогатива компьютера, но второе люди пока умеют делать лучше машин.

Следите за обновлениями GipsyTeam в телеграме, инстаграме, вконтакте, на YouTube, на фейсбуке, и в твиттере.

06.06.2013 23:47

WCGRider, часть 1: «Я, скорее всего, сильнейший в мире»

13517 43 комментария

28.10.2014 09:00

Полярная личность

14643 25 комментариев

10.04.2012 12:15

Руки прочь от Фила Айви!

18581 33 комментария

Лучшие комментарии

Блог Профиль

Atmixx

16.02.2017 15:12

3,694 40

14 лет на сайте

В оффлайне играли недавно, знакомый "уважаемый игрок" высказался очень интересно относительно игры в интернете: "А я играл на покердоме, но вы бля читали новости? Написали программу которая даже самых крутых про обыгрывает, в рот ебать этот онлайн".
Раньше они только предполагали что гсч подкручен, а теперь - уверены на 100% что их обыгрывают боты.
Даже сам факт информационного шума вокруг этого события - уже портит поляну.

Показать в ленте

16.02.2017 15:12

41
Блог Профиль

LookMyLuck

16.02.2017 13:07

3,952 7

12 лет на сайте

все понятно, покеру осталось 2 года(с)

Показать в ленте

16.02.2017 13:07

27
Блог Профиль

Julio

Дед-душнила

16.02.2017 16:31

ЗАБЛОКИРОВАН

50,073 261

13 лет на сайте

Уверяю, что мы не играем с Либратусом в интернете и не планируем делать это в будущем.
- и я сразу успокоился

Показать в ленте

16.02.2017 16:31

18
Блог Профиль

AL_Fighter

16.02.2017 13:45

3,553 48

13 лет на сайте

Некогда объяснять, скажите, где можно скачать рабочую версию бота?

Показать в ленте

16.02.2017 13:45

15
Профиль

Nrnna

16.02.2017 16:19

189 1

9 лет на сайте

А где можно взглянуть на ники и графики четырёх игроков, входящих в элиту безлимитного холдема один на один?

Показать в ленте

16.02.2017 16:19

8
Профиль

val

16.02.2017 18:33

1,385 52

14 лет на сайте

------------
Самое главное – он вообще не учитывал блокеры. Чтобы ускорить расчёты, мы группировали похожие руки в категории и строили для них одинаковую стратегию. Но туз-хай с тузом пик на доске с тремя пиками – совсем не то же самое, что туз-хай с тузом треф. Также солвер Клодико не строил стратегию в зависимости от ставки соперника, а считал несколько разных сайзингов.
-------

Пипец, клодико был школьной поделкой для нл100, не вишу, и то вполне вменяемо сопротивлялся Полку и Ко.

Показать в ленте

16.02.2017 18:33

6

34 комментария

Блог Профиль

LookMyLuck

16.02.2017 13:07

3,952 7

12 лет на сайте

все понятно, покеру осталось 2 года(с)

Ответить Цитировать

Ссылка скопирована

16.02.2017 13:07

+ 27 –
Профиль

andrewgandi

16.02.2017 13:26

322 24

10 лет на сайте

Мне понравилось, как отреагировали люди, которые не разбираются в покере, доказывающие мне, что теперь покер мертв, раз машина победила человеков !!! Научпоп - зло

Ответить Цитировать

Ссылка скопирована

16.02.2017 13:26

+ 3 –
Блог Профиль

AL_Fighter

16.02.2017 13:45

3,553 48

13 лет на сайте

Некогда объяснять, скажите, где можно скачать рабочую версию бота?

Ответить Цитировать

Ссылка скопирована

16.02.2017 13:45

+ 15 –
Блог Профиль

teatime

16.02.2017 13:46

2,044 13

11 лет на сайте

У меня вопрос: где можно посмотреть запись стрима?

Ответить Цитировать

Ссылка скопирована

16.02.2017 13:46

+ 1 –
Профиль

Theoden1

16.02.2017 14:04

45 28

12 лет на сайте

"Judgement day can not be prevented"

Ответить Цитировать

Ссылка скопирована

16.02.2017 14:04

+ -1 –
Блог Профиль

Atmixx

16.02.2017 15:12

3,694 40

14 лет на сайте

В оффлайне играли недавно, знакомый "уважаемый игрок" высказался очень интересно относительно игры в интернете: "А я играл на покердоме, но вы бля читали новости? Написали программу которая даже самых крутых про обыгрывает, в рот ебать этот онлайн".
Раньше они только предполагали что гсч подкручен, а теперь - уверены на 100% что их обыгрывают боты.
Даже сам факт информационного шума вокруг этого события - уже портит поляну.

Ответить Цитировать

Ссылка скопирована

16.02.2017 15:12

+ 41 –
Профиль

igore4ekk

16.02.2017 15:36

0 2

12 лет на сайте

Диб*лы. Вот зачем разрушать, то что приносит удовольствие.

Ответить Цитировать

Ссылка скопирована

16.02.2017 15:36

+ -2 –
Профиль

Svvok27

16.02.2017 15:49

3,478 1

11 лет на сайте

Через два года
высохнут акации,
упадут акции,
поднимутся налоги.
Через два года
увеличится радиация.
Через два года.
Через два года.

Ответить Цитировать

Ссылка скопирована

16.02.2017 15:49

+ 6 –
Профиль

Nrnna

16.02.2017 16:19

189 1

9 лет на сайте

А где можно взглянуть на ники и графики четырёх игроков, входящих в элиту безлимитного холдема один на один?

Ответить Цитировать

Ссылка скопирована

16.02.2017 16:19

+ 8 –
Блог Профиль

Julio

Дед-душнила

16.02.2017 16:31

ЗАБЛОКИРОВАН

50,073 261

13 лет на сайте

Уверяю, что мы не играем с Либратусом в интернете и не планируем делать это в будущем.
- и я сразу успокоился

Ответить Цитировать

Ссылка скопирована

16.02.2017 16:31

+ 18 –
Блог Профиль

ViktorVasilchuk

16.02.2017 16:40

2,143 17

9 лет на сайте

Есть предположение что ребята просто закинули катушку, просто чтобы профессора думали что они молодцы.

Ответить Цитировать

Ссылка скопирована

16.02.2017 16:40

+ 6 –
Блог Профиль

useruser

Мангустик, позвони

16.02.2017 17:07

3,377 512

14 лет на сайте

Мне вот интересно, нахер они их делают? Как потом этих ботов можно использовать во благо?

Ответить Цитировать

Ссылка скопирована

16.02.2017 17:07

+ 6 –
Блог Профиль

sabotaj12

16.02.2017 17:11

226 90

13 лет на сайте

Сообщение от Atmixx
В оффлайне играли недавно, знакомый "уважаемый игрок" высказался очень интересно относительно игры в интернете: "А я играл на покердоме, но вы бля читали новости? Написали программу которая даже самых крутых про обыгрывает, в рот ебать этот онлайн".
Раньше они только предполагали что гсч подкручен, а теперь - уверены на 100% что их обыгрывают боты.
Даже сам факт информационного шума вокруг этого события - уже портит поляну.
На катране один рассказывает, "пацаны вы не поверите, покерстарс бота запустили он всех обыгрывает, вы лучше в интернете не играйте, там пиздец без вопросов сразу."

Ответить Цитировать

Ссылка скопирована

16.02.2017 17:11

+ 5 –
Блог Профиль

RiSkFort

16.02.2017 18:16

0 1

9 лет на сайте

я бы потренировался с таким ботом с большим удовольствием, и поднял бы свой скилл на новый уровень. не вижу повода для паники, тема ИИ уже давно раскрыта, и таким как нам, которые действительно чего то пытаются достичь в покере, не имеет смысла тратить время на жалобу, рано или поздно, хотя мы итак уже на пороге ИИ. Всем удачки))

Ответить Цитировать

Ссылка скопирована

16.02.2017 18:16

+ 3 –
Профиль

val

16.02.2017 18:33

1,385 52

14 лет на сайте

------------
Самое главное – он вообще не учитывал блокеры. Чтобы ускорить расчёты, мы группировали похожие руки в категории и строили для них одинаковую стратегию. Но туз-хай с тузом пик на доске с тремя пиками – совсем не то же самое, что туз-хай с тузом треф. Также солвер Клодико не строил стратегию в зависимости от ставки соперника, а считал несколько разных сайзингов.
-------

Пипец, клодико был школьной поделкой для нл100, не вишу, и то вполне вменяемо сопротивлялся Полку и Ко.

Ответить Цитировать

Ссылка скопирована

16.02.2017 18:33

+ 6 –
Блог Профиль

BabySharkl4

16.02.2017 20:54

6,954 141

10 лет на сайте

Сообщение от Atmixx
В оффлайне играли недавно, знакомый "уважаемый игрок" высказался очень интересно относительно игры в интернете: "А я играл на покердоме, но вы бля читали новости? Написали программу которая даже самых крутых про обыгрывает, в рот ебать этот онлайн".
Раньше они только предполагали что гсч подкручен, а теперь - уверены на 100% что их обыгрывают боты.
Даже сам факт информационного шума вокруг этого события - уже портит поляну.
Портит онлайн поляну и улучшает оффлайн)))))

Ответить Цитировать

Ссылка скопирована

16.02.2017 20:54

+ 1 –
Блог Профиль

Dividik17

16.02.2017 22:00

3,345 3

12 лет на сайте

Кто и зачем проводит чемпионаты среди покерных программ?

Ответить Цитировать

Ссылка скопирована

16.02.2017 22:00

+ 3 –
Блог Профиль

b82a

16.02.2017 23:31

422 5

9 лет на сайте

Сообщение от Nrnna
А где можно взглянуть на ники и графики четырёх игроков, входящих в элиту безлимитного холдема один на один?
https://www.highstakesdb.com/profiles/pokerstars/PremiumWhey.aspx
https://www.highstakesdb.com/profiles/pokerstars/Donger-Kim.aspx
https://www.highstakesdb.com/profiles/pokerstars/dougiedan678.aspx
https://www.highstakesdb.com/profiles/pokerstars/ForTheSwaRMm.aspx

Ответить Цитировать

Ссылка скопирована

16.02.2017 23:31

+ 1 –
Профиль

tommy

уличный покер

16.02.2017 23:36

4,504 13

11 лет на сайте

Сообщение от Dividik17
Кто и зачем проводит чемпионаты среди покерных программ?
Это одна и приоритетных задах человечества и ученых, сразу после полета на Марс но приоритетнее лечение рака.

Ответить Цитировать

Ссылка скопирована

16.02.2017 23:36

+ 5 –
Профиль

LuckOK

16.02.2017 23:53

0 10

8 лет на сайте

Сообщение от igore4ekk
Диб*лы. Вот зачем разрушать, то что приносит удовольствие.
чтоб твоё удовольствие - кому то приносило прибыль

Ответить Цитировать

Ссылка скопирована

16.02.2017 23:53

+ 2 –
Блог Профиль

GoldSonny1

17.02.2017 00:14

51 14

10 лет на сайте

покер почти мертв

Ответить Цитировать

Ссылка скопирована

17.02.2017 00:14

+ 0 –
Блог Профиль

benchmark

17.02.2017 00:25

-2,030 127

13 лет на сайте

Да расслабьтесь, никто не позволит боту играть зеркальные раздачи на деньги.

Ответить Цитировать

Ссылка скопирована

17.02.2017 00:25

+ 1 –
Блог Профиль

sweetcoqueta

....................

17.02.2017 02:03

21,810 19

13 лет на сайте

Сообщение от Nrnna
А где можно взглянуть на ники и графики четырёх игроков, входящих в элиту безлимитного холдема один на один?

Сообщение от b82a
https://www.highstakesdb.com/profiles/pokerstars/PremiumWhey.aspx
https://www.highstakesdb.com/profiles/pokerstars/Donger-Kim.aspx
https://www.highstakesdb.com/profiles/pokerstars/dougiedan678.aspx
https://www.highstakesdb.com/profiles/pokerstars/ForTheSwaRMm.aspx
Понабрали короче днарей которые последние пару лет в ноль катают, а до этого полгода в апстрике бабок подняли

Ответить Цитировать

Ссылка скопирована

17.02.2017 02:03

+ 0 –
Профиль

Killerlot

17.02.2017 05:08

0 2

15 лет на сайте

Будем в хартстон на покерстарс играть с рейком 50 процентов

Ответить Цитировать

Ссылка скопирована

17.02.2017 05:08

+ 0 –
Блог Профиль

Nikolasss39

17.02.2017 08:58

658 5

8 лет на сайте

Арбитраж!

Машина победила в ХА кэше...БЕДА! Все бежим! Спасайтесь кто может! (сарказм)
Сколько ещё времени понадобиться разработчикам, что бы машина смогла плюсовать в 6-махе? Не говоря уже о мтт...

Ответить Цитировать

Ссылка скопирована

17.02.2017 08:58

+ -1 –

Войти или Зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.