Нейросеть на службе у Дугласа Полка

Брайан Пеллегрино рассказал CardPlayer о помощи Дугласу Полку, почему его софт лучше других публичных солверов, и объяснил, как его технологию можно использовать за пределами покера.

Брайан «PrimordialAA» Пеллегрино был одним из лучших игроков в хедз-ап SNG до «Черной пятницы».

В 2015-м он ушел из покера и переключился на программирование и изучение искусственного интеллекта. Один из его проектов – софт, анализирующий бейсбольные матчи, купили команды из MLB. На следующие несколько лет Брайан погрузился в мир криптовалют. Но в 2020-м напомнил о себе в покерном мире. Летом он стал соавтором Ноама Брауна [автор покерных ботов «Клодико» и «Либратус» – прим. ред.], они опубликовали статью на тему, как при помощи искусственного интеллекта и GTO создать идеального покерного бота, а также использовать эти наработки для решения проблем в обычной жизни.

Также Пеллегрино входил в команду Дугласа Полка во время подготовки к дуэли с Негреану. В интервью Card Player Брайан рассказал, как именно помогал Полку, почему его софт лучше других публичных солверов, и объяснил, как эту технологию можно использовать за пределами покера.

– Расскажи, как Даг вышел на тебя? Вы общались, когда играли профессионально?

– Мы оба играли хедз-ап, но он кэш, а я – SNG. В какой-то момент я тоже решил перейти в кэш и даже взял несколько тренировок у Дэна Кейтса, но глубоко в этот формат так и не окунулся. Потом я вернулся к покеру уже при работе с AI. Совместно с группой Facebook AI мы опубликовали статью, анализ в которой основан на методе минимизации гипотетических потерь.

Даг обратился ко мне, когда начал готовиться к Вызову. Он невероятно трудолюбивый. Я играл в покер 15 лет и не видел никого, кто уделял бы работе над игрой столько же времени. С Ноамом Брауном он тоже хорошо знаком. Я рассказал ему о нашей совместной работе и феноменальных результатах. Даг заинтересовался, можно ли использовать их для подготовки к матчу.

– Что такое метод минимизации гипотетических потерь? Как его применяют в покере?

– Раньше игроки основывали свои решения на том, чтобы получить максимальную прибыль. Но выяснилось, что правильный подход – минимизировать потери. В этом и заключается суть равновесия Нэша и GTO. Объясню на примере «Камень, ножницы, бумага». Если у меня камень, то против ножниц мои потери составят минус 1, то есть я ничего не потеряю. Против другого камня – потери нулевые. А против бумаги будет плюс 1. Я могу использовать эти данные, чтобы менять свою стратегию. Естественно, я не буду всегда выбирать камень, исходя из полученных данных о моих потерях. Если провести симуляцию триллион раз, мы и получим GTO-стратегию для «Камень, ножницы, бумага».

В покере все аналогично. Только у нас не три простых варианта, а огромное дерево решений с бесконечным набором сайзингов. И наша цель с помощью этого дерева минимизировать потери. Если нам это удастся, мы получим GTO-стратегию, а соперник никак не сможет нас эксплойтить.

– Объясни простым языком, о чем ваша статья?

– Она называется Unlocking the Potential of Deep Counterfactual Value Networks. Нам удалось создать бота, скорость работы которого оказалась в 5,000 раз выше, чем у топовых аналогов, например, у DeepStack.

Каждый год проводится чемпионат по покеру среди ботов – ACPC [Annual Computer Poker Competition]. В прошлом году в нем победил Slumbot, а мы его обыграли с винрейтом 20bb/100.

Колледж я так и не закончил, поэтому тот факт, что я выпустил статьи совместно с командой Facebook AI, доказывает, что мы действительно добились чего-то важного. Наша работа произвела сильное впечатление на научное сообщество. А опубликована она была как раз в тот период, когда Даг и Даниэль обсуждали свой вызов.

– Как ему удалось убедить тебя стать частью команды?

– Я не хочу придираться к академическому сообществу, но с известными разработчиками AI очень сложно соревноваться. Мы обращались практически ко всем, но никто не захотел играть с нашим ботом. Одна из причин в том, что затраты на работу некоторых ботов могут составлять несколько миллионов в день.

Поэтому после публикации у нас не осталось целей. Мы не планировали продолжать исследования в этом направлении, а переключились на множество других – как нашу технологию применять на практике. А когда ко мне обратился Даг, мне стало интересно, как человек, который будет использовать мои разработки для обучения, сможет применить их в игре. В прошлом мы уже обращались к Филу Гальфонду, но его это не заинтересовало. А сейчас появилась возможность помочь Дагу и привлечь внимание к нашим исследованиям.

– Ты говоришь, что технология может быть использована за пределами покера. Где именно?

– Мы исследовали проблемы маршрутизации автопилотов в автомобилях, изучали автоматизацию процесса в теплицах, а сейчас работаем над разработкой новых лекарств.

Мы сами под большим впечатлением от нашей работы и от того, чего еще можем добиться.

– Что общего у метода минимизации потерь и автопилота автомобиля?

– В больших городах с постоянными пробками боту можно поставить задачу найти путь с наименьшими потерями. Одним из видов потери может быть время, когда задача – просто быстрее доехать. Но есть и другие параметры – качество дорог, сборы и так далее.

– Ты помогал Дагу с префлоп-диапазонами. Расскажи об этом подробнее.

– По сути мы создали солвер, который работает очень быстро и качественно. Все современные солверы строят префлоп диапазоны на больших допущениях. На префлопе можно построить небольшое дерево. Но на флопах и тернах оно разрастется до огромных величин и будет занимать сотни терабайт памяти. С таким не справится никакой современный компьютер. Поэтому деревья упрощают. Например, получают результат для 10 флопов или 56. Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину.

А у нас вообще нет такой проблемы. Все это делает нейронная сеть. Поэтому мы можем создать дерево любой сложности. Расчет, который у другого солвера потребует 500 терабайт памяти, мы проводим за 30 секунд. То есть по просьбе Дага мы можем определить оптимальный сайзинг для любых размеров стека.

На практике мы проводили огромное количество симуляций. Для определенных сайзингов, которыми открывался Даниэль, для лимпов и 3-бетов. Подбирали оптимальный размер своих 3-бетов и так далее.

Даг со своими тренерами анализировал все результаты и делал выводы. Но 57 разных сайзингов запомнить невозможно, поэтому хватает того, что используется на практике. Достаточно выбрать один или два сайзинга, и основываясь на них, определить, насколько сложная стратегия нам нужна и оправдана ли она с точки зрения EV.

Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет. Так мы и работали. Он проводил свой анализ и просил нас изменить какие-то параметры, чтобы получить новые результаты. Он действительно не вылезал из лаборатории.

– У вас было какое-то расписание? Он приходил с новыми вопросами после каждой сессии?

– Такую работу он проводил со своими тренерами. Специфику стратегии и то, как она работает на практике, он обсуждал с ними. А нам давал параметры деревьев для новых расчетов. Мы должны были предоставить ему как можно больше данных для работы.

Негреану открыто говорил об изменениях в своей игре. Вы это учитывали? И как ты оцениваешь его прогресс?

– Мы замечали определенные тенденции. Иногда он делал такие вещи, которые вообще никак невозможно было объяснить. Например, играл флэт-коллом с дамами и королями без позиции. Некоторые его ходы не оправдать никаким балансом. Так просто нельзя играть.

В какой-то момент он стал миксовать сайзинги, но в некоторых спотах вообще их не менял. Иногда мы думали, что он будет 3-бетить определенным сайзингом, а он использовал совсем другой. Работа шла постоянно, и на протяжении всего вызова мы перестраивали диапазоны. Даг не прекращал работу и постоянно стремился узнать что-то новое.

– Не боишься, что обычные игроки не захотят играть хедз-ап, когда узнают, какого погружения в теорию это требует?

– Да, выглядит устрашающе, но иначе не стать лучшим в мире. Мы смотрим на сильнейших игроков NBA и верим, что они всего добились благодаря природному таланту. Им достаточно выйти на площадку, а дальше все произойдет само собой. Но в действительности у каждого спортсмена есть целый отряд помощников – диетологи, тренеры по трехочковым и вообще по всем аспектам игры.

Любой успешный игрок понимает, что нужно очень много работать. Когда я начинал играть в 2002-м, покер был игрой умных ребят, которые пытаются перехитрить друг друга. О солверах никто не слышал, теорию обсуждали с друзьями. Уверен, в 70-е баскетбол тоже был примерно таким. Но все изменилось. Уровень сильнейших игроков сейчас гораздо выше, чем 10 лет назад. Точно так же и Стеф Карри, и Леброн Джеймс намного сильнее баскетболистов предыдущего поколения.

Следите за обновлениями GipsyTeam вконтакте, на фейсбуке, на YouTube, в твиттере, телеграме и инстаграме.
Поделиться новостью:
Еще по теме
Лучшие комментарии
  • пихнули Даниле в общем..... 

    Показать в ленте
    84
11 комментариев
  • пихнули Даниле в общем..... 

    Ответить Цитировать
    84
  • Все что нужно знать о топах, большинство из них читеры просто.

    Ответить Цитировать
    -3
  • С одной стороны похвалить бы Дага за такой супер профессиональный подход. С другой стороны читая  "Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет"  делать этого не хочется, особенно учитывая как он прибеднялся.   

     

    Забавно вспомнить, что  они спорили про префлоп чарты и просмотр истории рук во время игры.

    Ответить Цитировать
    9
  • – Раньше игроки основывали свои решения на том, чтобы получить максимальную прибыль. Но выяснилось, что правильный подход – минимизировать потери.

    А я понять не могу, чего на микролимитах, на дро-доске, в 3-вей поте они чекают сеты, а на ривере в чек-чек потах чекают фулы, а оказывается минимизируют потери...

    Ответить Цитировать
    14
  • Дипстек - не топовый бот. Сламбота уже обыграл Либратус, тест был против Слама только в силу открытости его кода. Было бы интересно посмотреть матч Супремуса (бота Брайана) с Плюрибусом. Подходы у них разные, не знаю, кто бы выиграл.

    Ответить Цитировать
    1
  • Так как в статье несколько задета честь всех публичных солверов, а значит и наших в том числе, то позволим себе небольшую рецензию на данное интервью, чтобы прояснить некоторые детали:

    Раньше игроки основывали свои решения на том, чтобы получить максимальную прибыль. Но выяснилось, что правильный подход – минимизировать потери

    Метод минимизации потерь - это не что-то новое, на основе этого метода работают все известные современные солверы, в том числе и наши (Simple Postflop, Simple Preflop Holdem, Simple 3-Way, Simple Omaha).

    Нам удалось создать бота, скорость работы которого оказалась в 5,000 раз выше, чем у топовых аналогов, например, у DeepStack.

    Быстрее это хорошо, а насколько лучше играет не сказано, вывод напрашивается..

    Каждый год проводится чемпионат по покеру среди ботов – ACPC [Annual Computer Poker Competition]. В прошлом году в нем победил Slumbot, а мы его обыграли с винрейтом 20bb/100.

    Не самое популярное мероприятие (последний раз проводилось в 2018 году!?), поэтому эти результаты, также ни о чем не говорят.

    Мы обращались практически ко всем, но никто не захотел играть с нашим ботом. Одна из причин в том, что затраты на работу некоторых ботов могут составлять несколько миллионов в день.

    В этом ответе, как нам кажется, прослеживается склонность к преувеличению некоторых вещей, сложно представить какие боты могут потребовать таких сумм. Либо ситуация была иной - они предложили кому-то с ними сыграть, просто так заморачиваться никто не хочет, и им выдвинули условия, что они готовы сыграть но это будет стоить дорого (либо чтобы им заплатили, либо чтобы от них отстали), а в интервью информация попала в таком виде.

     

    Далее самая интересная часть:

    Все современные солверы строят префлоп диапазоны на больших допущениях. На префлопе можно построить небольшое дерево. Но на флопах и тернах оно разрастется до огромных величин и будет занимать сотни терабайт памяти. С таким не справится никакой современный компьютер. Поэтому деревья упрощают. Например, получают результат для 10 флопов или 56. Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину.

    Судя по этому абзацу, существуют только солверы, которые выполняют расчёты на сабсетах флопов, но это не так, есть уже упомянутый Simple Preflop Holdem, который применяет упрощения не в разрезе использования подмножества бордов, а группирует руки в кластеры; либо же формирует кластеры на комбинации рук и бордов - и этот подход экспериментально показывает свою оправданность и хорошую точность при сравнении с векторными расчётами на всевозможных флопах (которые далее упоминаются в интервью, как расчёты требующие 500 терабайт оперативной памяти)

    Но это влияет на точность, поэтому необходимо подбирать такие флопы, которые дадут хорошую общую картину. А у нас вообще нет такой проблемы. Все это делает нейронная сеть. Поэтому мы можем создать дерево любой сложности. Расчет, который у другого солвера потребует 500 терабайт памяти, мы проводим за 30 секунд. То есть по просьбе Дага мы можем определить оптимальный сайзинг для любых размеров стека.

    «Всё это делает нейронная сеть» сказано так, как будто это не привносит погрешность как это делает использование сабсета, а по факту скорее всего привносит еще большую погрешность, хотя действительно может работать быстрее. Проблема которой у них нет - это что не нужно подбирать сабсет, но как показывает практика, одного хорошо подобранного набора сабсетов достаточно для использования в расчётах, нет большой необходимости подбирать их заново каждый раз. Отсылка к 500 терабайтам опять же не совсем корректная (в реальности никому не нужна точность расчётов, которые можно получить без абстракции, так как солверы с упрощениями дают идентичные результаты), можно считать очень сложные HU деревья для префлопа в SPH и они будут требовать в худшем случае десятки/сотни гигабайт.

    Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет. 

    ХА ситуации можно рассчитывать достаточно быстро. Считать можно хоть год, но даже сложное ХА дерево на хорошем сервере сойдется буквально за считанные часы. Посчитать таких деревьев можно за ночь хоть 500 при наличии должной квоты в облаке.

     

    Вывод такой: если вы готовы работать с чёрным ящиком, который не может дать какую-либо гарантию качества решения; не содержит четкой причинной следственной связи между входными данными и результатами, при этом работает быстро, то да, тут нейронки могут достичь определенного успеха. Если вы хотите получать точные результаты расчётов и при этом у вас нет необходимости получать эти результаты за 30 секунд, то тут нейронки вряд ли смогут превзойти текущие солверы. Более того, если им действительно удалось достичь неплохих успехов для ХА расчётов, не факт что это будет также хорошо работать и для ситуаций с большим кол-ом игроков, а солверы уже давно позволяют считать равновесие и для большего кол-ва игроков, и для ICM ситуаций, и для рейковой среды.

     

    Нужно понимать, что большинство оптимизаций и упрощений привносят погрешность в качество решений, и нельзя решить задачу за 30 секунд с тем же качеством, как если бы ее решал точный метод неделю с потребностью в 500 терабайт оперативы; и в статье в упор не упоминаются альтернативные подходы расчетов, которые доступны в современных солверах, которые работают быстро, точно и не требуют 500 терабайт.

     

    Весь этот отзыв сугубо наше личное мнение, который мы никого не просим воспринимать близко, особенно, если вы очень сильно вдохновились статьей) От ряда наших пользователей поступили комментарии в духе «солверы теперь не канают», но тут информация представлена достаточно однобоко, как её преподнес интервьюируемый человек; не советуем принимать всю информацию за истину и буквально. 

     

    спасибо за статью!

    Ответить Цитировать
    66
  • Сообщение от HighHorse

    С одной стороны похвалить бы Дага за такой супер профессиональный подход. С другой стороны читая  "Солверы, которые сейчас доступны на рынке, потратили бы неделю на один подобный расчет, причем на ограниченном количестве флопов. А мы за ночь можем провести 150 симуляций и к утру предоставить Дагу полный отчет"  делать этого не хочется, особенно учитывая как он прибеднялся.   

    Исходя из моего понимания, интервью создает иллюзию слишком сильной значимости этих префлоп-расчетов для итогового винрейта. Сейчас в ха по сути существуют несколько префлоп-стратегий, по которым с незначительными изменениями играют все топы и околотопы. Вообще, я бы удивился, если бы узнал, что Fiilismies, moglimiranda или даже buttoncklickr пользуются программой Брайана или чем-то подобным. 

    Ответить Цитировать
    0
    Это сообщение пока никто не оценил.
  • krestik, Согласен, красной нитью идёт реклама их продукта.  И про страты топов тоже согласен. Но Даня то не топ. А он и правда менял сайзы которые они собственно и просчитывали. Меня просто впечатлил  подход Дага : в команде  buttoncklickr , на изменение сайзов тут же просчёт в чудо солвере.  

     

    Так, что прав   lotob1ngo      пихнули Даниле в общем..... 

    Ответить Цитировать
    1
  • lotob1ngo, ну что значит пихнули( я на примере шахмат... там все сложно.. мне противно когда я гросс, а вылетаю от собственного Потом я вижу в новостях, что альфа зиро выносит мой телефон телефона. А я че думаю... ну ее нахер. Хотя партии альфазиры воообще безумны, даже на уровне белкового гросса увы. А тут какая то гадина, по беждающая зиро?.... не верю

    Ответить Цитировать
    0
    Это сообщение пока никто не оценил.
  • Сообщение от flegma

    lotob1ngo, ну что значит пихнули( я на примере шахмат... там все сложно.. мне противно когда я гросс, а вылетаю от собственного Потом я вижу в новостях, что альфа зиро выносит мой телефон телефона. А я че думаю... ну ее нахер. Хотя партии альфазиры воообще безумны, даже на уровне белкового гросса увы. А тут какая то гадина, по беждающая зиро?.... не извините

    Ответить Цитировать
    0
    Это сообщение пока никто не оценил.
  • i am sorry but russsian is not my fl

    Ответить Цитировать
    0
    Это сообщение пока никто не оценил.
1
Зачем регистрироваться на GipsyTeam?
  • Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
  • Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
  • Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
  • На каждой странице будет видно, где появились новые посты и комментарии.
  • Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.