Новость

Sberbank Holdem Challenge глазами команды Simple Poker

GipsyTeam

29.09.2017 23:09 10433 40 комментариев

Sberbank Holdem Challenge глазами команды Simple Poker

В конце сентября Сбербанк провёл хакатон Sberbank Holdem Challenge для специалистов по машинному обучению и искусственному интеллекту. Разработчики Simple Postflop приняли в нем участие, заняли призовое место и рассказали нам о ходе соревнования.

Регистрация и участие в Sberbank Holdem Challenge были бесплатными, к соревнованию допускались все граждане РФ старше 18 лет, кроме аффилированных лиц Сбербанка, включая сотрудников дочерних компаний. Каждому участнику было необходимо написать бота, который сможет «принимать оптимальные решения в условиях неопределённости и смоделировать поведение других игроков».

На онлайн-этапе хакатона участники представили более 3.5 тысяч ботов, среди которых было проведено более 50 тысяч турниров. В очном финале, который прошел 23-24 сентября в кампусе Корпоративного университета Сбербанка, встретились 38 команд, в общей сложности более 90 участников. Каждый час в течение двух дней боты соревновались друг с другом, а разработчики дорабатывали свои алгоритмы. По итогам финального турнира были определены три команды-победителя, которые получили 300, 200 и 100 тысяч рублей соответственно.

Команда Simple Poker заняла 3-е место, и мы рады представить ее обзор соревнования.

О Simple Poker

Команда Simple Poker образовалась в результате знакомства нескольких студентов Высшей школы Экономики с факультета программной инженерии и бизнес-информатики, объединённых одним стремлением – заниматься перспективными IT-технологиями и разрабатывать продвинутые IT-решения.

Покерным софтом мы занимаемся довольно давно, наш первый продукт, а именно Simple Nash, был опубликован более 5 лет назад – программа для расчёта равновесия Нэша при стратегии игры пуш/фолд. Программа многофункциональна и является бесплатной, что немаловажно для многих пользователей. Мы продолжили наше развитие и выпустили новый продукт Simple Postflop (программа для расчёта оптимальных стратегий на префлопе и постфлопе для банков с двумя игроками), который набрал очень большую популярность среди профессиональных игроков покер – эту программу мы развиваем и по сей день, вы можете приобрести ее в магазине GipsyTeam.

Сейчас мы разрабатываем 3 новых программы, которые на стадии beta доступны бесплатно:

– Simple 3-way – программа для расчёта равновесных стратегий в банках с тремя игроками;
– Simple Omaha – программа для расчета равновесных стратегий в омахе;
– Simple GTO Trainer – программа для обучения GTO-стратегиям, которая включает в себя несколько режимов.

Мы не планируем останавливаться на достигнутом и продолжаем работу над другими продуктами.

Битвы машины и человека набирают популярность с конца 90-х годов. Все помнят такие знаменитые поединки, как шахматные партии Каспарова и IBM Deep Blue, недавнее сражение AlphaGo против Кэ Цзе и Libratus против группы профессиональных игроков.

Машины начали меряться силами с человеком во многом благодаря росту вычислительных мощностей и развитию сверточных нейронных сетей. Однако покер занял надежные оборонительные позиции и пока не дает шанса искусственному интеллекту в играх, отличных от хедз-апа.

По словам организаторов, Сбербанк хотел выдать свой «ответ Чемберлену» и начать не с чего-нибудь, а сразу с Texas Holdem 9-max. «Достаточно амбициозный план», – саркастически отметили мы и зарегистрировались на это мероприятие.

Зачем нам это? Уж точно не ради приза. Все очень просто. Нам нравится заниматься разработкой ПО, задачами Machine Learning и Data Mining. Особенно приятно, когда предметная область довольно хорошо тебе знакома. Хакатоны – это особый способ убийства организма. Ты не спишь 40 часов, красными глазами пытаясь найти ошибку в далеком от совершенства коде. Red Bull и кофе перестают спасать. Иногда после такого марафона приходится выступать с так называемым питчем, пытаясь рассказать менторам о полезности продукта, состряпанного на коленке. Подобный опыт имеется у нас с запасом. Иногда мы даже побеждали.

2014 год, победа на Mail.ru SNA Hackathon
Проект Prediction of User Churn — 2014 год, победа на Mail.ru SNA Hackathon Проект Prediction of User Churn

Но история не об этом. Хакатон Сбербанка проходил в 2 этапа: онлайн и офлайн. Отборочный онлайн-этап был индивидуальным и должен был выявить 100 финалистов. На офлайн-этапе финалисты разбивались на команды от 1 до 10 человек и снова решали абсолютно ту же задачу.

Задача

Офлайн-этап состоял из двух частей:

1. Непрерывная игра между ботами команд, в рамках которой тестировалась сила бота относительно остальных.
2. Финальный турнир.

Битвы между ботами проводились сериями по 10 игр между 9 случайно выбранными соперниками.

Условия игры для ботов в Sberbank Holdem Challenge

– Максимальное количество играемых раздач в 1 игре (турнире) – 50
– Стартовый стек ботов – 1,500 фишек
– Блайнды – 15/30, по ходу турнира не растут
– Время на ход в раздаче – 0.2 секунды
– Общее время, отведенное боту на серию из 10 турниров (до 500 раздач) – 300 секунд
– Размер отправляемого архива с ботом не должен превышать 1 ГБ
– Расходы по оперативной памяти бота не должны превышать 2 ГБ

Финальный турнир также состоял из двух этапов: отбор 9 лучших ботов и гранд-финал среди них.

В первой части финального этапа все последние версии ботов в течение часа играли серии игр между собой. 9 ботов с максимальным значением «среднего числа фишек», оставшегося к концу игры по итогам всех игр первой части, перешли в гранд-финал. Между отобранными 9 ботами прошла финальная битва, в ходе которой были выявлены 3 лучших бота – по тому же критерию «среднего числа оставшихся фишек».

С полными правилами проведения онлайн- и офлайн-этапов мероприятия вы можете ознакомиться здесь: https://github.com/sberbank-ai/holdem-challenge/blob/master/RULES.md

Кто участвовал

Среди участников было откровенно небольшое количество людей, хоть как-то разбирающихся в покере. Иногда в Telegram-конференции появлялись русские Дугласы Полки, ставящие студентов на место:

Ближе к окончанию онлайн-этапа подтянулись профессиональные участники хакатонов и специалисты по ML (Machine Learning). Некоторых ребят добирали вне конкурса, но попасть в призы им не удалось. Можно сделать натянутый вывод о том, что в покере на данном этапе экспертные знания и понимание предметной области играют более весомую роль, чем серьезная техническая подготовка и опыт работы с ИИ.

Онлайн-этап и «особый» холдем

В онлайн-этапе приняли участие около 170 человек (не стоит исключать возможность использования нескольких аккаунтов одним участником для быстрой проверки гипотез).

Организаторы выложили двух baseline-ботов (С++ и Python). И, о чудо, для того, чтобы попасть в топ-50, достаточно было даже сделать сабмит этого baseline-бота на C++. Его логика была довольно простой – бот ставил олл-ин, если его эквити было больше 60% против 3,000 рандомных рук оппонента. Логика Python бота не отличалась, но эквити он считал в разы медленнее, не укладываясь в отведенное время на ход.

Baseline-бот, сабмит которого позволял пройти офлайн-этап

Такой большой перебор мы связываем с недочетами PyPokerEngine, с помощью которого проходило тестирование (HM считал EV по одним правилам, а движок использовал другие):

– Не учитывался стрит от туза.
– При равных комбинациях движок учитывал шестую и седьмую карты для определения победителя.

К окончанию онлайн-этапа большинство недочетов были устранены. Texas Holdem стал похож на себя. Реализовав не самое замысловатое решение, мы с набором диапазонов и правил прошли во второй этап.

Офлайн-этап

Офлайн-этап проходил в Корпоративном университете Сбербанка в Подмосковье. Здесь стоить сказать спасибо организаторам. «Сбер» смог не только выделить помещение под кодинг, но и разместить 100+ человек в неплохих гостиничных номерах. Думаю, многие студенты, приехавшие на мероприятие, мечтают о подобном в своих общежитиях. Большинство подобных соревнований не предусматривают того, что человек нуждается в отдыхе. Приходится спать на пуфиках, диванах в переговорных или просто на полу.

Сам комплекс просторный. Со множеством мест, где можно поработать и отдохнуть. Были доступны тренажерный зал и бассейн, который мы посетить не успели. Завтрак, обед, ужин + кофе-брейки включены. В целом, очень неплохо. Надеюсь, Сбербанк сможет и во фронт-офисах поднять уровень и отладить процессы так же, как в Корпоративном университете.

Хронология событий

После регистрации команды и её участников мы оказались в небольшом ступоре. С одной стороны, нам хотелось показать достойный результат. С другой, мы понимали, что в рамках отведенного времени и ресурсов мы не сможем создать что-то серьезное. Пока две эти мысли конфликтовали в нашей голове, события развивались следующим образом:

Результат и выводы

После первого командного этапа наш бот занял 3-е место. Не попасть в топ-9 было бы для нас полным позором.

В финальной серии турниров мы снова остались на третьей позиции. Если внимательно посмотреть график, то в какой-то момент мы даже были на первом месте. Но победа на этом этапе была бы, скорее, приятной случайностью, чем закономерностью. Мы знали, что проигрываем двум топовым решениям. В финальный сабмит попал бот, который лучше всего проявил себя в предыдущих играх. Непосредственно перед финалом у нас уже имелась версия с рядом модификаций и доработок относительно той, которую мы отправили, но не оставалось времени на ее тестирование, поэтому мы не стали рисковать.

Приятной неожиданностью стало то, что наш бот одержал верх в совместной игре с людьми (непрофессионалами) и другими ботами. Мы не считаем этот результат показательным, но всегда рады видеть себя вверху списка.

Наши выводы:

1) в условиях нехватки времени стоит сконцентрировать силы на более простых решениях, сфокусироваться на их конфигурировании и доработках;

2) всегда стоит использовать систему контроля версий для быстрого отката состояния и трассировки изменений;

3) необходимо как можно быстрее проходить цикл: development – deployment – analysis – evaluation;

4) важно четко разделять роли и назначать ответственных.

Обзор 3 лучших решений

Первое место занял Дмитрий (fcll). Его решение было основано на системе правил в зависимости от позиции и ситуации на столе. Бот играл достаточно агрессивно. Эта стратегия была выбрана верно с учетом большого числа ботов, играющих очень тайтово, и наличия откровенно слабых ботов.

Игровая статистика финальной версии бота fcll (719 турниров)

На бота, занявшего второе место, также стоит обратить внимание. Его автор Евгений сумел обучить бота на логах лидера, используя CatBoost. Это очень классный подход, который на удивление хорошо сработал. Им получилось воспользоваться, потому что у каждого участника был доступ к логам всех игр с открытыми картами, и ботами отыгрывалось большое количество рук, на которых можно было реализовать обучение. Решение доступно на GitHub, так что с ним можно ознакомиться. Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.

Игровая статистика финальной версии бота RandomBot (934 турнира)

Потратив кучу времени на попытки сделать что-нибудь «нормальное», мы поменяли стратегию и начали делать «максимально простое и управляемое». Для префлопа использовали фиксированные диапазоны, которые, с одной стороны, были приближены к GTO, а с другой, учитывали игровые тенденции; для постфлопа рассчитывали эквити нашей руки против 100% диапазона оппонента, а также учитывали количество оппонентов на постфлопе и выбирали разные действия в зависимости от разных пороговых значений эквити.

Игровая статистика финальной версии бота simplepoker (822 турнира)

Лог сыгранных раздач в формате движка, на котором проводилось соревнование, можно скачать тут: https://drive.google.com/open?id=0B7WVjmSt-QObajVWSnQzZ0RhY2s

Мы на коленке написали конвертер логов в формат, пригодный для HM’а. Сконвертированные раздачи офлайн-этапа можно скачать тут: https://yadi.sk/d/kJfa-TjF3NLC2f

Посмотрев логи, вы cможете убедиться, что текущие творения участников не составят конкуренцию профессиональным игрокам.

Чего не хватило на хакатоне

В первую очередь, не хватило менторов/наставников. Их не было как со стороны покера, так и со стороны ML. Хакатоны – не только соревнования, но и возможность узнать что-то новое. Апробировать методы, средства, технологии. Услышать критику от опытных гуру. Профессиональные игроки в покер также могли бы дать интересный фидбек участникам и поделиться своим опытом, рассказать о стратегиях игры.

Во-вторых, не хватило вычислительных мощностей. На офлайн-этапе на весь тестовый контур было выделено 32GB оперативной памяти на всех участников! Размер загружаемого решения ограничивался 1GB. Поэтому мысли о расчете и использовании рассчитанных GTO стратегий в HU и 3-max спотах отпали сами собой.

Зачем покер Сбербанку и что будет дальше

Инициатором проведения хакатона выступил Департамент рисков Сбербанка. Организаторы считают, что решение покера и разработка систем, работающих в условиях меняющейся среды, может найти применение в бизнес-задачах. К таким задачам представители банка относят ценообразование, управление риск-доходностью, стратегии продвижения продуктов, кредитные стратегии и другие.

Площадку для проведения турниров между ботами организаторы планировали оставить открытой для новых участников. Возможно, в скором будущем нас ждет еще одно соревнование между интеллектуальными агентами, принимающими решения в условиях неопределенности. Другими словами, играющими в покер.

Команда проекта simplepoker.com
Роман, Александр, Михаил, Роман — Команда проекта simplepoker.com Роман, Александр, Михаил, Роман

Следите за обновлениями GipsyTeam в телеграме, инстаграме, вконтакте, на YouTube, на фейсбуке, и в твиттере.

10.04.2013 15:12

Мэтью Джанда научит всех GTO

11306 62 комментария

13.05.2015 16:55

Хэдз-ап против бота: люди пока сильнее

8275 26 комментариев

21.03.2017 18:48

Новости софта и новинки магазина

11676 21 комментарий

Лучшие комментарии

Блог Профиль

useruser

Мангустик, позвони

30.09.2017 00:05

3,377 512

14 лет на сайте

Сбербанк, раз уж в покер влезли,может выкупите Pokerstars и вернёте всё, как было?

Показать в ленте

30.09.2017 00:05

45
Блог Профиль

Uran

29.09.2017 23:50

ЗАБЛОКИРОВАН

-1,009 33

14 лет на сайте

Панаехали.

Показать в ленте

29.09.2017 23:50

30
Блог Профиль

inst4ble

29.09.2017 23:54

ЗАБЛОКИРОВАН

-8 33

9 лет на сайте

Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.

Показать в ленте

29.09.2017 23:54

18
Блог Профиль

Minthon

30.09.2017 12:28

32,004 202

15 лет на сайте

Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))

Показать в ленте

30.09.2017 12:28

13
Профиль

fnatic

30.09.2017 02:27

-42 36

10 лет на сайте

Сообщение от Atom_512
Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!
теперь все знают как стать топ регами

Показать в ленте

30.09.2017 02:27

12
Блог Профиль

Improve_Yo_Skill

30.09.2017 14:10

5,251 41

11 лет на сайте

Шел 2017 год. Банки разрабатывали ботов для холдема

Показать в ленте

30.09.2017 14:10

11

40 комментариев

Блог Профиль

Tema2010

Обучение spin&go

29.09.2017 23:47

13,780 53

11 лет на сайте

Неплохая реклама ботов. Уран и тут преуспел :)

Ответить Цитировать

Ссылка скопирована

29.09.2017 23:47

+ 2 –
Блог Профиль

Uran

29.09.2017 23:50

ЗАБЛОКИРОВАН

-1,009 33

14 лет на сайте

Панаехали.

Ответить Цитировать

Ссылка скопирована

29.09.2017 23:50

+ 30 –
Блог Профиль

inst4ble

29.09.2017 23:54

ЗАБЛОКИРОВАН

-8 33

9 лет на сайте

Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.

Ответить Цитировать

Ссылка скопирована

29.09.2017 23:54

+ 18 –
Блог Профиль

BabySharkl4

30.09.2017 00:02

6,954 141

10 лет на сайте

Где купить гто- калькулятор ребят, которые заняли первое место?

Ответить Цитировать

Ссылка скопирована

30.09.2017 00:02

+ 1 –
Блог Профиль

useruser

Мангустик, позвони

30.09.2017 00:05

3,377 512

14 лет на сайте

Сбербанк, раз уж в покер влезли,может выкупите Pokerstars и вернёте всё, как было?

Ответить Цитировать

Ссылка скопирована

30.09.2017 00:05

+ 45 –
Профиль

koldyai

30.09.2017 00:27

135 1

11 лет на сайте

на карту сбера даже деньги не выведешь... может это они так с будущими ПокерРумами-конкурентами так борятся...

Ответить Цитировать

Ссылка скопирована

30.09.2017 00:27

+ -2 –
Блог Профиль

Fiat

светоч

30.09.2017 00:44

16,252 218

13 лет на сайте

Сообщение от BabySharkl4
Где купить гто- калькулятор ребят, которые заняли первое место?
при таких условиях - на гто даже намёка нет,чистейший эксплоит.так,кстати,интереснее,чем когда у тебя есть суперкомьютер размером с грузовик.

Ответить Цитировать

Ссылка скопирована

30.09.2017 00:44

+ 3 –
Профиль

Atom_512

30.09.2017 01:54

453 16

8 лет на сайте

Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!

Ответить Цитировать

Ссылка скопирована

30.09.2017 01:54

+ 9 –
Профиль

fnatic

30.09.2017 02:27

-42 36

10 лет на сайте

Сообщение от Atom_512
Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!
теперь все знают как стать топ регами

Ответить Цитировать

Ссылка скопирована

30.09.2017 02:27

+ 12 –
Профиль

svadik777

30.09.2017 07:14

3,445 83

13 лет на сайте

Сообщение от inst4ble
Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.
скорее там рейк такой будет, с которым про смогут стать реги нл40ки только. Эти му*аки же придумали брать процент (!) комиссии за перевод с карты на карты клиенту сбербанка в одной стране но другого фед. округа или за снятие в банкомате другого региона.

Ответить Цитировать

Ссылка скопирована

30.09.2017 07:14

+ 4 –
Блог Профиль

Aist84

30.09.2017 07:45

5,748 11

13 лет на сайте

Поздравляю призеров!)

Ответить Цитировать

Ссылка скопирована

30.09.2017 07:45

+ 0 –
Профиль

oXXLo

30.09.2017 09:09

10 3

9 лет на сайте

Теперь буду бояться играть с оппонентами 70-20

Ответить Цитировать

Ссылка скопирована

30.09.2017 09:09

+ 8 –
Профиль

Stimpacked

30.09.2017 10:05

10 1

14 лет на сайте

репозиторий с решениями есть?

Ответить Цитировать

Ссылка скопирована

30.09.2017 10:05

+ 0 –
Профиль

Andor

30.09.2017 11:53

411 1

16 лет на сайте

Сообщение от koldyai
на карту сбера даже деньги не выведешь... может это они так с будущими ПокерРумами-конкурентами так борятся...
Я вывожу, все норм!

Ответить Цитировать

Ссылка скопирована

30.09.2017 11:53

+ 0 –
Профиль

egos

30.09.2017 11:54

0 2

10 лет на сайте

вот эта вся движуха = неизбежная смерть онлайн покера в ближайшем будущем. кхм, ляпнул очевидную вещь...

Ответить Цитировать

Ссылка скопирована

30.09.2017 11:54

+ 1 –
Блог Профиль

Chico

30.09.2017 12:00

639 13

16 лет на сайте

Затащил фишарик с vpip 70!

Ответить Цитировать

Ссылка скопирована

30.09.2017 12:00

+ 2 –
Блог Профиль

myhem

Creepin

30.09.2017 12:20

3,825 17

11 лет на сайте

Арбитраж!

збс, ботоводы мерятся куями, чей же бот лучше сыграет... накуя этот антихайп покера в новостях? x x

Ответить Цитировать

Ссылка скопирована

30.09.2017 12:20

+ 2 –
Блог Профиль

Minthon

30.09.2017 12:28

32,004 202

15 лет на сайте

Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))

Ответить Цитировать

Ссылка скопирована

30.09.2017 12:28

+ 13 –
Блог Профиль

KingRing

alive inside

30.09.2017 13:03

7,120 47

16 лет на сайте

Сообщение от Minthon
Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))
это и не удивительно. если бы мы 5+ лет занимались разработкой ботов, то и исход бы был другой очевидно.

Ответить Цитировать

Ссылка скопирована

30.09.2017 13:03

+ 3 –
Блог Профиль

Improve_Yo_Skill

30.09.2017 14:10

5,251 41

11 лет на сайте

Шел 2017 год. Банки разрабатывали ботов для холдема

Ответить Цитировать

Ссылка скопирована

30.09.2017 14:10

+ 11 –
Профиль

SlonM

30.09.2017 17:20

98 59

12 лет на сайте

Я так понял авторы третьего места вообще нейросети не использовали?

Ответить Цитировать

Ссылка скопирована

30.09.2017 17:20

+ 1 –
Блог Профиль

KingRing

alive inside

30.09.2017 17:38

7,120 47

16 лет на сайте

Сообщение от SlonM
Я так понял авторы третьего места вообще нейросети не использовали?
верно, так как мы не видели возможности их нормального применения в рамках данного соревнования и посчитали, что простая система с правилами будет играть сильнее.

Ответить Цитировать

Ссылка скопирована

30.09.2017 17:38

+ 0 –
Блог Профиль

Noooob25

Весна идет!

30.09.2017 18:21

15,915 59

13 лет на сайте

useruser, смотри, а то будет "в каком отделении депозитили, вот в то и идите получать кешаут"

Ответить Цитировать

Ссылка скопирована

30.09.2017 18:21

+ 5 –
Профиль

iammax

30.09.2017 22:34

52 29

11 лет на сайте

Бля только допер, почему стразы резко забили болт на все и всея в плане заботы об игроках, и тупо выкачивают деньги максимально быстро деньги. Потому что последний гвоздь забьют вот эти товарищи ботаны ботоводы. И оч скоро похоже.

Ответить Цитировать

Ссылка скопирована

30.09.2017 22:34

+ 0 –
Блог Профиль

art28

30.09.2017 22:44

1,309 261

16 лет на сайте

вам передали сколько рук было сыграно с людьми? наверно, меньше 1000
ну и эти люди были совсем любителями

Ответить Цитировать

Ссылка скопирована

30.09.2017 22:44

+ 0 –

Войти или Зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.