Новость

Sberbank Holdem Challenge глазами команды Simple Poker

GipsyTeam

29.09.2017 23:09 6249 40 комментариев

Sberbank Holdem Challenge глазами команды Simple Poker

В конце сентября Сбербанк провёл хакатон Sberbank Holdem Challenge для специалистов по машинному обучению и искусственному интеллекту. Разработчики Simple Postflop приняли в нем участие, заняли призовое место и рассказали нам о ходе соревнования.

Регистрация и участие в Sberbank Holdem Challenge были бесплатными, к соревнованию допускались все граждане РФ старше 18 лет, кроме аффилированных лиц Сбербанка, включая сотрудников дочерних компаний. Каждому участнику было необходимо написать бота, который сможет «принимать оптимальные решения в условиях неопределённости и смоделировать поведение других игроков».

На онлайн-этапе хакатона участники представили более 3.5 тысяч ботов, среди которых было проведено более 50 тысяч турниров. В очном финале, который прошел 23-24 сентября в кампусе Корпоративного университета Сбербанка, встретились 38 команд, в общей сложности более 90 участников. Каждый час в течение двух дней боты соревновались друг с другом, а разработчики дорабатывали свои алгоритмы. По итогам финального турнира были определены три команды-победителя, которые получили 300, 200 и 100 тысяч рублей соответственно.

Команда Simple Poker заняла 3-е место, и мы рады представить ее обзор соревнования.

О Simple Poker

Команда Simple Poker образовалась в результате знакомства нескольких студентов Высшей школы Экономики с факультета программной инженерии и бизнес-информатики, объединённых одним стремлением – заниматься перспективными IT-технологиями и разрабатывать продвинутые IT-решения.

Покерным софтом мы занимаемся довольно давно, наш первый продукт, а именно Simple Nash, был опубликован более 5 лет назад – программа для расчёта равновесия Нэша при стратегии игры пуш/фолд. Программа многофункциональна и является бесплатной, что немаловажно для многих пользователей. Мы продолжили наше развитие и выпустили новый продукт Simple Postflop (программа для расчёта оптимальных стратегий на префлопе и постфлопе для банков с двумя игроками), который набрал очень большую популярность среди профессиональных игроков покер – эту программу мы развиваем и по сей день, вы можете приобрести ее в магазине GipsyTeam.

Сейчас мы разрабатываем 3 новых программы, которые на стадии beta доступны бесплатно:

– Simple 3-way – программа для расчёта равновесных стратегий в банках с тремя игроками;
– Simple Omaha – программа для расчета равновесных стратегий в омахе;
– Simple GTO Trainer – программа для обучения GTO-стратегиям, которая включает в себя несколько режимов.

Мы не планируем останавливаться на достигнутом и продолжаем работу над другими продуктами.

Битвы машины и человека набирают популярность с конца 90-х годов. Все помнят такие знаменитые поединки, как шахматные партии Каспарова и IBM Deep Blue, недавнее сражение AlphaGo против Кэ Цзе и Libratus против группы профессиональных игроков.

Машины начали меряться силами с человеком во многом благодаря росту вычислительных мощностей и развитию сверточных нейронных сетей. Однако покер занял надежные оборонительные позиции и пока не дает шанса искусственному интеллекту в играх, отличных от хедз-апа.

По словам организаторов, Сбербанк хотел выдать свой «ответ Чемберлену» и начать не с чего-нибудь, а сразу с Texas Holdem 9-max. «Достаточно амбициозный план», – саркастически отметили мы и зарегистрировались на это мероприятие.

Зачем нам это? Уж точно не ради приза. Все очень просто. Нам нравится заниматься разработкой ПО, задачами Machine Learning и Data Mining. Особенно приятно, когда предметная область довольно хорошо тебе знакома. Хакатоны – это особый способ убийства организма. Ты не спишь 40 часов, красными глазами пытаясь найти ошибку в далеком от совершенства коде. Red Bull и кофе перестают спасать. Иногда после такого марафона приходится выступать с так называемым питчем, пытаясь рассказать менторам о полезности продукта, состряпанного на коленке. Подобный опыт имеется у нас с запасом. Иногда мы даже побеждали.

2014 год, победа на Mail.ru SNA Hackathon
Проект Prediction of User Churn — 2014 год, победа на Mail.ru SNA Hackathon Проект Prediction of User Churn

Но история не об этом. Хакатон Сбербанка проходил в 2 этапа: онлайн и офлайн. Отборочный онлайн-этап был индивидуальным и должен был выявить 100 финалистов. На офлайн-этапе финалисты разбивались на команды от 1 до 10 человек и снова решали абсолютно ту же задачу.

Задача

Офлайн-этап состоял из двух частей:

1. Непрерывная игра между ботами команд, в рамках которой тестировалась сила бота относительно остальных.
2. Финальный турнир.

Битвы между ботами проводились сериями по 10 игр между 9 случайно выбранными соперниками.

Условия игры для ботов в Sberbank Holdem Challenge

– Максимальное количество играемых раздач в 1 игре (турнире) – 50
– Стартовый стек ботов – 1,500 фишек
– Блайнды – 15/30, по ходу турнира не растут
– Время на ход в раздаче – 0.2 секунды
– Общее время, отведенное боту на серию из 10 турниров (до 500 раздач) – 300 секунд
– Размер отправляемого архива с ботом не должен превышать 1 ГБ
– Расходы по оперативной памяти бота не должны превышать 2 ГБ

Финальный турнир также состоял из двух этапов: отбор 9 лучших ботов и гранд-финал среди них.

В первой части финального этапа все последние версии ботов в течение часа играли серии игр между собой. 9 ботов с максимальным значением «среднего числа фишек», оставшегося к концу игры по итогам всех игр первой части, перешли в гранд-финал. Между отобранными 9 ботами прошла финальная битва, в ходе которой были выявлены 3 лучших бота – по тому же критерию «среднего числа оставшихся фишек».

С полными правилами проведения онлайн- и офлайн-этапов мероприятия вы можете ознакомиться здесь: https://github.com/sberbank-ai/holdem-challenge/blob/master/RULES.md

Кто участвовал

Среди участников было откровенно небольшое количество людей, хоть как-то разбирающихся в покере. Иногда в Telegram-конференции появлялись русские Дугласы Полки, ставящие студентов на место:

Ближе к окончанию онлайн-этапа подтянулись профессиональные участники хакатонов и специалисты по ML (Machine Learning). Некоторых ребят добирали вне конкурса, но попасть в призы им не удалось. Можно сделать натянутый вывод о том, что в покере на данном этапе экспертные знания и понимание предметной области играют более весомую роль, чем серьезная техническая подготовка и опыт работы с ИИ.

Онлайн-этап и «особый» холдем

В онлайн-этапе приняли участие около 170 человек (не стоит исключать возможность использования нескольких аккаунтов одним участником для быстрой проверки гипотез).

Организаторы выложили двух baseline-ботов (С++ и Python). И, о чудо, для того, чтобы попасть в топ-50, достаточно было даже сделать сабмит этого baseline-бота на C++. Его логика была довольно простой – бот ставил олл-ин, если его эквити было больше 60% против 3,000 рандомных рук оппонента. Логика Python бота не отличалась, но эквити он считал в разы медленнее, не укладываясь в отведенное время на ход.

Baseline-бот, сабмит которого позволял пройти офлайн-этап

Такой большой перебор мы связываем с недочетами PyPokerEngine, с помощью которого проходило тестирование (HM считал EV по одним правилам, а движок использовал другие):

– Не учитывался стрит от туза.
– При равных комбинациях движок учитывал шестую и седьмую карты для определения победителя.

К окончанию онлайн-этапа большинство недочетов были устранены. Texas Holdem стал похож на себя. Реализовав не самое замысловатое решение, мы с набором диапазонов и правил прошли во второй этап.

Офлайн-этап

Офлайн-этап проходил в Корпоративном университете Сбербанка в Подмосковье. Здесь стоить сказать спасибо организаторам. «Сбер» смог не только выделить помещение под кодинг, но и разместить 100+ человек в неплохих гостиничных номерах. Думаю, многие студенты, приехавшие на мероприятие, мечтают о подобном в своих общежитиях. Большинство подобных соревнований не предусматривают того, что человек нуждается в отдыхе. Приходится спать на пуфиках, диванах в переговорных или просто на полу.

Сам комплекс просторный. Со множеством мест, где можно поработать и отдохнуть. Были доступны тренажерный зал и бассейн, который мы посетить не успели. Завтрак, обед, ужин + кофе-брейки включены. В целом, очень неплохо. Надеюсь, Сбербанк сможет и во фронт-офисах поднять уровень и отладить процессы так же, как в Корпоративном университете.

Хронология событий

После регистрации команды и её участников мы оказались в небольшом ступоре. С одной стороны, нам хотелось показать достойный результат. С другой, мы понимали, что в рамках отведенного времени и ресурсов мы не сможем создать что-то серьезное. Пока две эти мысли конфликтовали в нашей голове, события развивались следующим образом:

Результат и выводы

После первого командного этапа наш бот занял 3-е место. Не попасть в топ-9 было бы для нас полным позором.

В финальной серии турниров мы снова остались на третьей позиции. Если внимательно посмотреть график, то в какой-то момент мы даже были на первом месте. Но победа на этом этапе была бы, скорее, приятной случайностью, чем закономерностью. Мы знали, что проигрываем двум топовым решениям. В финальный сабмит попал бот, который лучше всего проявил себя в предыдущих играх. Непосредственно перед финалом у нас уже имелась версия с рядом модификаций и доработок относительно той, которую мы отправили, но не оставалось времени на ее тестирование, поэтому мы не стали рисковать.

Приятной неожиданностью стало то, что наш бот одержал верх в совместной игре с людьми (непрофессионалами) и другими ботами. Мы не считаем этот результат показательным, но всегда рады видеть себя вверху списка.

Наши выводы:

1) в условиях нехватки времени стоит сконцентрировать силы на более простых решениях, сфокусироваться на их конфигурировании и доработках;

2) всегда стоит использовать систему контроля версий для быстрого отката состояния и трассировки изменений;

3) необходимо как можно быстрее проходить цикл: development – deployment – analysis – evaluation;

4) важно четко разделять роли и назначать ответственных.

Обзор 3 лучших решений

Первое место занял Дмитрий (fcll). Его решение было основано на системе правил в зависимости от позиции и ситуации на столе. Бот играл достаточно агрессивно. Эта стратегия была выбрана верно с учетом большого числа ботов, играющих очень тайтово, и наличия откровенно слабых ботов.

Игровая статистика финальной версии бота fcll (719 турниров)

На бота, занявшего второе место, также стоит обратить внимание. Его автор Евгений сумел обучить бота на логах лидера, используя CatBoost. Это очень классный подход, который на удивление хорошо сработал. Им получилось воспользоваться, потому что у каждого участника был доступ к логам всех игр с открытыми картами, и ботами отыгрывалось большое количество рук, на которых можно было реализовать обучение. Решение доступно на GitHub, так что с ним можно ознакомиться. Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.

Игровая статистика финальной версии бота RandomBot (934 турнира)

Потратив кучу времени на попытки сделать что-нибудь «нормальное», мы поменяли стратегию и начали делать «максимально простое и управляемое». Для префлопа использовали фиксированные диапазоны, которые, с одной стороны, были приближены к GTO, а с другой, учитывали игровые тенденции; для постфлопа рассчитывали эквити нашей руки против 100% диапазона оппонента, а также учитывали количество оппонентов на постфлопе и выбирали разные действия в зависимости от разных пороговых значений эквити.

Игровая статистика финальной версии бота simplepoker (822 турнира)

Лог сыгранных раздач в формате движка, на котором проводилось соревнование, можно скачать тут: https://drive.google.com/open?id=0B7WVjmSt-QObajVWSnQzZ0RhY2s

Мы на коленке написали конвертер логов в формат, пригодный для HM’а. Сконвертированные раздачи офлайн-этапа можно скачать тут: https://yadi.sk/d/kJfa-TjF3NLC2f

Посмотрев логи, вы cможете убедиться, что текущие творения участников не составят конкуренцию профессиональным игрокам.

Чего не хватило на хакатоне

В первую очередь, не хватило менторов/наставников. Их не было как со стороны покера, так и со стороны ML. Хакатоны – не только соревнования, но и возможность узнать что-то новое. Апробировать методы, средства, технологии. Услышать критику от опытных гуру. Профессиональные игроки в покер также могли бы дать интересный фидбек участникам и поделиться своим опытом, рассказать о стратегиях игры.

Во-вторых, не хватило вычислительных мощностей. На офлайн-этапе на весь тестовый контур было выделено 32GB оперативной памяти на всех участников! Размер загружаемого решения ограничивался 1GB. Поэтому мысли о расчете и использовании рассчитанных GTO стратегий в HU и 3-max спотах отпали сами собой.

Зачем покер Сбербанку и что будет дальше

Инициатором проведения хакатона выступил Департамент рисков Сбербанка. Организаторы считают, что решение покера и разработка систем, работающих в условиях меняющейся среды, может найти применение в бизнес-задачах. К таким задачам представители банка относят ценообразование, управление риск-доходностью, стратегии продвижения продуктов, кредитные стратегии и другие.

Площадку для проведения турниров между ботами организаторы планировали оставить открытой для новых участников. Возможно, в скором будущем нас ждет еще одно соревнование между интеллектуальными агентами, принимающими решения в условиях неопределенности. Другими словами, играющими в покер.

Команда проекта simplepoker.com
Роман, Александр, Михаил, Роман — Команда проекта simplepoker.com Роман, Александр, Михаил, Роман

Следите за обновлениями GipsyTeam в телеграме, инстаграме, вконтакте, на YouTube, на фейсбуке, и в твиттере.

14.09.2014 15:00

Авария по GTO за пределами хэдз-апа

6404 84 комментария

13.05.2015 16:55

Хэдз-ап против бота: люди пока сильнее

26 комментариев

11.01.2015 12:00

Прощай, лимитный холдем?

7999 102 комментария

Лучшие комментарии

useruser
Профиль

Мангустик, позвони

На сайте: 12 лет

511
4,455

Сбербанк, раз уж в покер влезли,может выкупите Pokerstars и вернёте всё, как было?

30.09.2017 00:05

Показать в ленте

45
Uran
Профиль

Заблокирован

На сайте: 12 лет

33
-903

Панаехали.

29.09.2017 23:50

Показать в ленте

30
inst4ble
Профиль

Заблокирован

На сайте: 7 лет

33
28

Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.

29.09.2017 23:54

Показать в ленте

18
Minthon
Профиль

Pro-друг GipsyTeam

На сайте: 14 лет

181
33,952

Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))

30.09.2017 12:28

Показать в ленте

13
fnatic
Профиль

На сайте: 8 лет

36
-30

Сообщение от Atom_512
Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!
теперь все знают как стать топ регами

30.09.2017 02:27

Показать в ленте

12
Improve_Yo_Skill
Профиль

На сайте: 9 лет

41
5,476

Шел 2017 год. Банки разрабатывали ботов для холдема

30.09.2017 14:10

Показать в ленте

11

40 комментариев

Tema2010
Профиль

Обучение spin&go

На сайте: 10 лет

53
15,083

Неплохая реклама ботов. Уран и тут преуспел :)

Ссылка скопирована
29.09.2017 23:47

Ответить Цитировать

2
Uran
Профиль

Заблокирован

На сайте: 12 лет

33
-903

Панаехали.

Ссылка скопирована
29.09.2017 23:50

Ответить Цитировать

30
inst4ble
Профиль

Заблокирован

На сайте: 7 лет

33
28

Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.

Ссылка скопирована
29.09.2017 23:54

Ответить Цитировать

18
BabySharkl4
Профиль

На сайте: 9 лет

141
6,816

Где купить гто- калькулятор ребят, которые заняли первое место?

Ссылка скопирована
30.09.2017 00:02

Ответить Цитировать

1
useruser
Профиль

Мангустик, позвони

На сайте: 12 лет

511
4,455

Сбербанк, раз уж в покер влезли,может выкупите Pokerstars и вернёте всё, как было?

Ссылка скопирована
30.09.2017 00:05

Ответить Цитировать

45
koldyai
Профиль

На сайте: 9 лет

1
135

на карту сбера даже деньги не выведешь... может это они так с будущими ПокерРумами-конкурентами так борятся...

Ссылка скопирована
30.09.2017 00:27

Ответить Цитировать

-2
Fiat
Профиль

светоч

На сайте: 11 лет

216
16,883

Сообщение от BabySharkl4
Где купить гто- калькулятор ребят, которые заняли первое место?
при таких условиях - на гто даже намёка нет,чистейший эксплоит.так,кстати,интереснее,чем когда у тебя есть суперкомьютер размером с грузовик.

Ссылка скопирована
30.09.2017 00:44

Ответить Цитировать

3
Atom_512
Профиль

На сайте: 6 лет

16
451

Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!

Ссылка скопирована
30.09.2017 01:54

Ответить Цитировать

9
fnatic
Профиль

На сайте: 8 лет

36
-30

Сообщение от Atom_512
Фактически бот Евгения изучал стратегию лидера и пытался её повторять, что у него получилось довольно неплохо.
Это гениально, товарищи!!!
теперь все знают как стать топ регами

Ссылка скопирована
30.09.2017 02:27

Ответить Цитировать

12
svadik777
Профиль

На сайте: 11 лет

83
3,473

Сообщение от inst4ble
Вангую в ближайшем будущем, когда покер узаконят, появление какого-нибудь Sberbank Stars с игрой на рубли где фишей и регов быстренько будут обчищать молчаливые агрессивные регуляры.
скорее там рейк такой будет, с которым про смогут стать реги нл40ки только. Эти му*аки же придумали брать процент (!) комиссии за перевод с карты на карты клиенту сбербанка в одной стране но другого фед. округа или за снятие в банкомате другого региона.

Ссылка скопирована
30.09.2017 07:14

Ответить Цитировать

4
Aist84
Профиль

На сайте: 11 лет

11
5,751

Поздравляю призеров!)

Ссылка скопирована
30.09.2017 07:45

Ответить Цитировать

0
oXXLo
Профиль

На сайте: 7 лет

3
10

Теперь буду бояться играть с оппонентами 70-20

Ссылка скопирована
30.09.2017 09:09

Ответить Цитировать

8
Stimpacked
Профиль

На сайте: 12 лет

1
10

репозиторий с решениями есть?

Ссылка скопирована
30.09.2017 10:05

Ответить Цитировать

0
Andor
Профиль

На сайте: 14 лет

1
421

Сообщение от koldyai
на карту сбера даже деньги не выведешь... может это они так с будущими ПокерРумами-конкурентами так борятся...
Я вывожу, все норм!

Ссылка скопирована
30.09.2017 11:53

Ответить Цитировать

0
egos
Профиль

На сайте: 8 лет

2
0

вот эта вся движуха = неизбежная смерть онлайн покера в ближайшем будущем. кхм, ляпнул очевидную вещь...

Ссылка скопирована
30.09.2017 11:54

Ответить Цитировать

1
Chico
Профиль

На сайте: 14 лет

13
537

Затащил фишарик с vpip 70!

Ссылка скопирована
30.09.2017 12:00

Ответить Цитировать

2
myhem
Профиль

Creepin

На сайте: 9 лет
Арбитраж!

17
3,837

збс, ботоводы мерятся куями, чей же бот лучше сыграет... накуя этот антихайп покера в новостях? x x

Ссылка скопирована
30.09.2017 12:20

Ответить Цитировать

2
Minthon
Профиль

Pro-друг GipsyTeam

На сайте: 14 лет

181
33,952

Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))

Ссылка скопирована
30.09.2017 12:28

Ответить Цитировать

13
KingRing
Профиль

alive inside

На сайте: 14 лет

47
7,436

Сообщение от Minthon
Не особо радуют такие конкурсы конечно, но наверно это логичное развитие событий.
Зато радует, что челиков с одним из лучших ГТО софтов, которые на рынке 5+ лет обыграл Василий, который тупо повторял за лидером, есть еще запас времени))
это и не удивительно. если бы мы 5+ лет занимались разработкой ботов, то и исход бы был другой очевидно.

Ссылка скопирована
30.09.2017 13:03

Ответить Цитировать

3
Improve_Yo_Skill
Профиль

На сайте: 9 лет

41
5,476

Шел 2017 год. Банки разрабатывали ботов для холдема

Ссылка скопирована
30.09.2017 14:10

Ответить Цитировать

11
SlonM
Профиль

На сайте: 10 лет

59
108

Я так понял авторы третьего места вообще нейросети не использовали?

Ссылка скопирована
30.09.2017 17:20

Ответить Цитировать

1
KingRing
Профиль

alive inside

На сайте: 14 лет

47
7,436

Сообщение от SlonM
Я так понял авторы третьего места вообще нейросети не использовали?
верно, так как мы не видели возможности их нормального применения в рамках данного соревнования и посчитали, что простая система с правилами будет играть сильнее.

Ссылка скопирована
30.09.2017 17:38

Ответить Цитировать

0
Noooob25
Профиль

Весна идет!

На сайте: 11 лет

59
17,718

useruser, смотри, а то будет "в каком отделении депозитили, вот в то и идите получать кешаут"

Ссылка скопирована
30.09.2017 18:21

Ответить Цитировать

5
iammax
Профиль

На сайте: 9 лет

29
-18

Бля только допер, почему стразы резко забили болт на все и всея в плане заботы об игроках, и тупо выкачивают деньги максимально быстро деньги. Потому что последний гвоздь забьют вот эти товарищи ботаны ботоводы. И оч скоро похоже.

Ссылка скопирована
30.09.2017 22:34

Ответить Цитировать

0
art28
Профиль

На сайте: 14 лет

261
1,471

вам передали сколько рук было сыграно с людьми? наверно, меньше 1000
ну и эти люди были совсем любителями

Ссылка скопирована
30.09.2017 22:44

Ответить Цитировать

0

Войти или Зарегистрироваться

Зачем регистрироваться на GipsyTeam?

Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
На каждой странице будет видно, где появились новые посты и комментарии.
Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.