Прошлую статью мы закончили на вопросе о том, где же нам брать данные по xG?
Самым простым способом является сбор данных на сайтах, считающих xG, к примеру, на упомянутом в прошлой статье сайте Давайте я вам вкратце расскажу об этом сайте, посмотрим как на нем все устроено и решим подходит ли этот сайт для нас?
Для начала нам нужно знать, как работает этот сайт, чтобы понять его плюсы и минусы.
В первую очередь прежде чем «покупать» статистику на любом сайте вы должны определить ее реальную ценность. При чем под словом «покупать» я имею ввиду не только реальную покупку, но и бесплатное использование статистики, ведь мы с помощью этой самой статистики будем принимать решения стоит ли нам ставить деньги или нет, поэтому если вдруг она окажется неверной, то мы поплатимся за нее собственными деньгами, это актуально и для ставок, и для покера. Поэтому давайте определим насколько ценная и точная статистика на этом сайте?
Начну с того, что на момент написания этого текста, сбор данных для системы xG возможен лишь двумя способами:
1.Создание своей команды статистов, которая будет собирать статистику для каждого удара.
Если у вас готовое программное обеспечение или просто своя модель построения точной xG, то специально обученная команда статистов поможет вам собрать данные для собственной xG модели, которая будет отражать максимально точные данные. Это, пожалуй, самый дорого бюджетный и сложный способ, но он однозначно самый точный.
2.Покупка тактических данных.
Это второй способ получить данные для xG на сегодняшний день. Такие данные предоставляет множество сервисов, к примеру: Optasports и Ortecsports.
Что такое тактические данные и как работают Optasports и Ortecsports? Давайте я вам расскажу как работают подобные сайты, чтобы вы понимали, о чем идет речь. На данных сервисах работает собственная команда статистов, которая следит за матчами по телевизионным камерам. Что делает эта команда?
Команда статистов в собственном программном обеспечении, которое разработано специально под них, отслеживает матчи в режиме реального времени и заносит данные о ключевых событиях с опозданием в несколько секунд, которые идут на обработку. Для них футбольный матч состоит из набора событий. Есть несколько видов ключевых событий, например, гол, удар по воротам, угловой, фол и несколько других. Эти события и фиксируют статисты, так же помимо ключевых событий есть еще события которые предшествуют ключевым событиям.
К примеру, для удара по воротам может предшествовать лишь несколько событий, например, пас, или дриблинг, под понятием дриблинг кроется обводка нападающим защитника сразу после которой он бьет по воротам, такие моменты называются связанными. Итак, статисты смотрят матч вживую и заносят в свою программу все ключевые моменты и предшествующие им связанные моменты. Все данные программа автоматически конвертирует в текстовые форматы.
Рассмотрим табличку, в которой есть несколько столбиков с данными от Ortec:
Первый столбик - это отметка времени в миллисекундах.
Второй столбик - это тайм в котором создан момент.
В третьем столбике указана категория момента, то есть тип момента, чтобы покупателям статистики легче было ее сортировать и обрабатывать
В четвертом столбике указан игрок, который выполнил действие в конкретном момент.
А в пятом команда, которой принадлежит данный игрок.
Шестой столбик описание момента. В описании приводится информация о моменте, какой был момент, был ли он успешен, и так далее. Здесь указаны и ключевые моменты и связанные с ним моменты.
В Седьмом и восьмом столбиках указаны координаты момента, в седьмом продольная, а в восьмом поперечная. Координаты фиксируют отметку на поле где произвел действие игрок. Есть так же и другие колонки, но для того чтобы понять ценность тактических данных для xG этих колонок хватит.
В общем статисты этих компаний во время прямых трансляций с помощью своего программного обеспечения, собирают и обрабатывают в различные форматы(текстовые, графические итд) данные о ключевых эпизодов матча. И продают эти данные всем желающим, от футбольных клубов, до телекомпаний, и сайтов статистики типа . А уже покупатели делают продукты исходя из этих данных, футбольные команды улучшают игру, телевизионные компании делают различную интересную графику матча, сайт показывает нам статистику по xG.
Теперь чтобы оценить насколько точны будут вероятности каждого удара предоставляемые understat давайте вернемся к факторам? которые больше всего влияют на вероятности каждого удара стать голом. Об этих факторах мы говорили в прошлой нашей статье.
Первые два фактора которые нужны для построения успешной xG модели, это расстояние и угол до ворот. Для этого нужно знать точные координаты удара. Статисты Опты выставляют координаты вручную, поэтому в точности есть погрешности, но погрешность в рамках нормы. Поэтому с этими двумя факторами проблем не будет никаких. Так же не будет проблем с фактором того, какой часть тела наносится удар. Наличие достаточно точных данных по этим трем факторам дает возможность андерстату создать полностью автоматизированную xG модель, но к сожалению эта модель очень не точна, и сейчас я вам покажу это на примерах, и объясню почему она не точна и почему модель построенная на тактических данных не даст достаточно точных результатов никогда.
Для этого мы пробежимся по живым примерам, чтобы вы поняли почему.
Берем момент с участием Серхио Агуеро. (Смотрите этот момент в видео с 1 минуты, 26 секунды.)
https://www.youtube.com/watch?v=y_oKmRc7BCY?t=1m26s
Как мы видим Агуеро выходит 1 на 1, обводит вратаря, после чего пробивает в пустые ворота. Для начала давайте на глаз попробуем оценить вероятность гола в этой ситуации. У Агуеро здесь небольшое расстояние до ворот, так же небольшой угол относительно линии делящей поле продольно пополам, и что самое главное, нет ни вратаря ни защитников между мячом и воротами, так же Агуеро бьет рабочей правой ногой, при этом скилл Агуеро в 10-ке лучших нападающих на планете. Все это говорит, что вероятность гола в этом моменте стремится к 100%, давайте посмотрим, что нам показывает андерстат?
https://understat.com/match/7149
Андерстат показывает вероятность гола в момент удара Агуеро 52%(!), как вам? Вероятность того, что один из лучших нападающих мира забьет в пустые ворота с этой точки оценивается в 52%?, как вы понимаете это просто абсурдно.
Смотрим дальше.Этот момент (смотрите с 2 минуты 41 секунды), Андерстат оценил в 58%
https://understat.com/match/8604
Т.е. 58% что игрок с 4 метров попадет в пустые ворота.
https://www.youtube.com/watch?v=7CwoMfXwX58?t=2m41s
Ну и самая вишенка на торте момент смотрите с 16 секунды.
Здесь Андерстат нам говорит, что игрок забьет в абсолютно пустые(!!!) ворота с 2 метров(!), с вероятностью 65%! То есть забьет в этой ситуации реже, чем 2 раза из 3!
https://understat.com/match/7895
И на последок еще один интересный момент. Смотрим с 44 секунды.
Андерстат засчитал удар Мертенса как 5%.
https://understat.com/match/7692
То есть нам хотят сказать, что Мертенс забьет в пустые ворота 1 раз и 20? Таких приколов на андерстате можно найти огромное количество, я показал лишь одни из многих на скорую руку.
Давайте я вам расскажу откуда берется этот косяк на андерстате. Как я уже писал, сервисы по сбору статистики определяют достаточно точные координаты удара, поэтому understat знает и расстояние до ворот и угол относительно центра ворот. Вся проблема заключается в том, что Опта, Ортек и другие сайты собирающие тактические данные НЕ фиксируют абсолютно никак положение защитников и вратаря в момент удара!
Как итог все те моменты, что я показал ранее имеют на андерстате такую же вероятность быть реализованными, как и те моменты, где вратари были бы на месте, а игроку мешала бы защита, как вы понимаете это полный абсурд.
К примеру Опта в своих данных не учитывает, что в этом моменте вратарь вышел слишком далеко в поле (Смотрим с 41 секунды).
Поэтому на сайте андерстата, мы можем видеть, что игроку присвоили 1% реализации, хотя на самом деле игроку нужно было лишь попасть в створ ворот и это произойдет в 10-20 раз чаще, чем 1 раз из 100 как показывает сайт.
https://understat.com/match/8586
В принципе эту проблему никак не решить с помощью статистики от Опты. Единственным вариантом помимо создания и обучения собственных статистов мне видится вариант заменить тактические данные на пространственно-временные данные. Такие данные собираются с помощью специального оборудования несколькими компаниями, одной из компаний является inmotio.
Inmotio представляет собой программный пакет, разработанный компаниями Abatec. Inmotiotec. Они отслеживают игроков, используя радиочастотную идентификацию. Что позволяет отслеживать игроков намного точнее по сравнению с отслеживанием GPS. Inmotio преимущественно используется для количественной оценки физической нагрузки игроков. В последнее время данные отслеживания также используются для проведения анализа тактики, такого как количественное определение параметров паса, моментов перехода от защиты к нападению и наоборот, поперечных пасов и борьбы за мяч. Давайте посмотрим небольшое видео и я немного поясню суть. Как вы видите все данные о перемещениях игроков выводятся в виде двухмерной графики на экран. Inmotio собирает все пространственно-временные данные и хранит их в известном для всех формате CSV с которым работает excel.
Давайте рассмотрим несколько столбцов из данных которые предоставляет Inmotio, в текстовом виде. Cразу скажу, что этих столбиков намного больше и я выбрал лишь несколько чтобы показать вам было легче представить на примере.
Первый столбик - это отметка времени матча в миллисекундах. Как мы видим Inmotio фиксирует положение каждого игрока каждые 100 миллисекунд.
Второй и соответственно, третий столбик, это координаты в которых находится игрок в это мгновение.
Четвертый столбик - это тайм, как мы видим на рисунке указан второй тайм.
Пятый столбик – это скорость с которой бежит в данное мгновение игрок.
Шестой столбик - это его ускорение.
Далее колонки с номером игрока и его именем.
Я показал именно эти колонки для того чтобы вам было понятно, что с помощью ексель данных мы можем проследить, в какое мгновение, в каком месте на поле был тот или иной игрок. Мы можем отследить с какой скоростью двигался, а по координатам воссоздать направление движения игрока. Так же есть еще множество таких столбцов, по которым можно узнать точное место и точное время матча, в котором был нанесен удар и что самое главное(!) - точная расстановка защитников во время удара. То есть главный недостаток тактических данных от Опты, Ортек и им подобных сайтов, пространственно-временные данные могли бы закрыть.
Давайте же теперь посмотрим на плюсы и минусы такого метода относительно команды статистов. Эта система действительно очень серьезная и могла бы для xG модели стать лучшим помощником, самым главным плюсом конечно же является то, что не нужно набирать команду статистов, чтобы следить за матчами и при этом получать точную расстановку защитников на поле в момент удара. Из главных минусов стоит выделить то, что получив вот такие данные в екселе на каждого игрока, нужно вложить очень много денег и времени для создания инструмента, который будет не только выводить графически положения игроков в нужную нам секунду, но и рассчитывать вероятность гола для того или иного момента.
Теперь подумаем, как это можно было бы все просчитать.
Вначале нужно создать программное обеспечение которое преобразовывает координаты всех игроков на поле в момент удара, которые предоставляет Inmotio вот в такую графическую схему:
Далее нужно создать программу которая сможет рассчитать вероятность для той или иной ситуации. Как вы понимаете недостаточно просто посчитать количество защитников между бьющим игроком и воротами, а так же, посмотреть, находится ли вратарь между бьющим игроком и воротами в момент удара. Нужно научить программу оценивать, как сильно уменьшают вероятность гола вратарь с защитниками.
Очевидно, что для одного и того же момента не все ситуации, в которых вратарь находится между игроком атаки и воротами, равнозначны. В ситуациях, когда вратарь находится очень близко к игроку атаки, очень сложно ударить по мячу таким образом, чтобы он миновал вратаря. С другой стороны, когда вратарь стоит далеко от игрока атаки, у вратаря есть больше времени, чтобы отреагировать на попытку забить гол. Так как расстояние от вратаря до игрока атаки играет важную роль, для расчетов стоит включить евклидово расстояние от вратаря до игрока атаки в качестве параметра, вместо учета того факта, находится ли вратарь между игроком атаки и воротами. При этом имеется случай, когда вратарь не расположен на одной линии с воротами и игроком атаки. То есть представьте визуально, что на нашем графике вратарь сейчас был бы расположен где-то за пределами вратарской ближе к угловому флажку. В этом случае в качестве расстояния используется максимальное расстояние вратаря от ворот из всех данных.
Такая же логическая схема, как при рассмотрении вратаря, должна быть применена и в отношении защитника. С одной стороны, ударить по воротам таким образом, чтобы мяч миновал защитника, сложнее, когда защитник находится рядом, с другой стороны, у защитника больше времени, чтобы отреагировать на попытку поразить ворота, когда он стоит дальше. Вследствие этого, помимо количества защитников, стоящих на линии между игроком атаки и воротами, нужно рассчитывать евклидово расстояние этих защитников до рассматриваемого игрока атаки. Создание такой модели невероятно сложное и дорогое удовольствие.
Даже если научиться переводить цифры вот в такие графические изображения и учитывать все координаты защитников на поле, то этого все равно будет недостаточно для точного определения какую именно площадь ворот блокирует защита и вратарь. Для того, чтобы определить какую площадь обзора ворот закрывают защитники, блокирующие удар, и какая площадь ворот в зоне досягаемости вратаря обязательно нужно видеть параметры защитников в момент удара, т.е. направление движения защитников в момент удара, чтобы понять сколько различных траекторий в конкретном эпизоде блокируют они.
Вы скажите что у нас есть такие данные, ведь Inmotio предоставляет не только координаты в момент удара, но и координаты за несколько мгновений до удара, а так же скорость, но к сожалению вы будете правы лишь отчасти, так как на основе этих данных никак не построить всю геометрию движения защитников, так как если статист остановит эпизод с ударом на стоп кадре он увидит не только точные координаты на поле в которых находятся игроки, и не только скорость с которой они бежали до этого, но он увидит и насколько готов к удару защитник, то есть смотрит ли он на мяч в момент удара и готов попытаться блокировать удар или он повернут к нему спиной смотря на опекаемого им игрока или возможно защитник вообще находится уже на газоне в эту секунду после столкновения с кем либо. То есть, геометрически в момент удара они могут оказаться в одной точке, но в момент удара первый защитник имеет возможность лететь наперерез траектории удара со скоростью 5 м/с, а второй просто будет стоять, да еще, допустим, боком к форварду. Именно поэтому вероятность которые рассчитывают профессиональные статисты будет однозначно точнее, нежели xG которое рассчитывается сложными программами на основе данных Inmotio, но второй вариант имеет право на жизнь, в отличии от тех вариантов которые используются сейчас, а именно методы которые отображаются на сайте understat. Вы только вдумайтесь, вероятность гола рассчитывается без знания где именно сейчас находится вратарь, на линии ворот или его уже обвели и бьют в пустые ворота, так же не учитывается не только евклидово расстояние защитников, их точное месторасположение, но даже не учитывается сколько защитников перед бьющим игроком. Без этих данных xG от understat и всех подобных сервисов просто пустой и бесполезный инструмент.
Ну а покупка пространственно-временных данных для большого количества матчей сейчас невозможно, а значит этот способ нельзя рассматривать как панацею.
Идем дальше и вернемся к Андерстату.
На главной странице андерстата красуется большой график который показывает, что количество ожидаемых голов от андерстат соответствует количеству реальных голов, забитых в матчах за всю дистанцию.
На самом деле все так и есть. Общее количество ожидаемых голов от андерстата на дистанции будет совпадать с общим количеством реальных голов, так как андерстат известен тем, что работает используя нейросети. Если в двух словах, то андерстат накапливает данные для каждой координаты на поле, для каждого типа момента, и для каждой части тела которой нанесен удар. После чего высчитывает среднее количество голов для каждой из координат, для этого типа момента и конкретной часть тела.
Чтобы вам легче было понять, о чем я, представьте такой пример, допустим у андерстата есть данные о 2000 ударов головой после углового, из конкретной координаты на поле. К примеру, за эти 2000 ударов было забито 200 голов. То есть 10%! Значит для 2001 удара головой после углового из этой же координаты, будет присвоена так же 10% вероятность. Именно благодаря такому подсчету ожидаемое количество голов будет совпадать с реальными голами.
Но после прочтения данного текста или просмотра нашего видео вы уже понимаете, что этот метод работал бы, если помимо координаты и части тела которой бьет игрок, учитывалась бы еще и позиция защитников на поле, а так получается хоть в 2001 ударе перед игроком будет 3 защитника и вратарь, хоть пустые ворота, вероятность гола будет все равно по андерстату будет 10%. Правда с пустыми воротами я немного утрировал, так как андерстат зная свою проблему с тем что не учитывается положение защитников, ввел один дополнительный параметр который должен хоть НЕМНОГО исправить ситуацию, этот параметр называется Биг Шанс(Big Chance).
Давайте поясню: статисты Опты в моментах, когда у игрока очень опасный момент дают ему пометку Big Chance. Соответственно, андерстат ввел этот параметр и разделил моменты с пометкой Big Chance и без таковой пометки, как итог вероятность для каждой из этих двух категорий считается отдельно.
Чтобы лучше понять, как это работает давайте представим, что из 2000 ударов о которых я только что писал 500 было с пометкой Big Chance и 1500 без пометки, а из 200 забитых голов, 120 было с пометкой Big Chance и 80 без пометки. Как итог если бы удары не делились на те, у которых есть данная пометка и у тех, у которых ее нет, то 2001 удару как из нашего примера выше была бы дана вероятность 10% на гол, теперь же вероятность будет зависеть от того, есть ли пометка Big Chance или нет. К примеру, если следующий удар будет с пометкой от Опты Big Chance, то вероятность у этого удара на андерстате будет ровняться 24%.
120/500=24%
А если пометку не указали, то вероятность будет чуть более 5%
80/1500=5.33 %
Это немного исправляет ситуацию с защитниками, так как пометка Big Chance дается как раз когда у игрока хорошая позиция для удара относительно защиты и вратаря, но как мы видели из видео примеров голов которые я показывал ранее, этого недостаточно и погрешности все равно колоссальные. Вспомните момент с Агуеро, или тот удар с 2 метров в пустые ворота где дали 65%, всё это удары с пометкой Big Chance и как вы понимаете, эта пометка никак не решает проблемы.
Давайте я вам покажу какую еще проблему несет в себе такой усредненный подсчет ожидаемых голов. Если мы откроем на андерстате историю предыдущих чемпионатов,
то там мы увидим, что в большинстве случаев те команды, которые вверху турнирной таблицы забивают реальных голов больше, чем ожидаемое количество голов от андерстат и соответственно зарабатывают больше очков, чем ожидаемых очков от андерстата. Это как раз и происходит из-за того, что более сильные команды создают более опасные моменты из той же позиции, из которой более слабые команды создают менее опасные моменты, а андерстат обеим командам пишет усредненную вероятность, тем самым забирая часть ожидаемых голов и очков у более сильных команд и отдавая эту часть незаслуженно более слабым командам, поэтому все счета матчей и таблицы андерстата далеки от правильных ожидаемых голов.
Поскольку xG сейчас безусловно лучший инструмент для прогнозирования вероятностей матчей мы со своей командой решили во чтобы то ни было довести этот инструмент до совершенства, наша команда статистов уже собрала всю нужную статистику для расчета вероятностей каждого удара. Уже сейчас мы тестируем все наши расчеты на видео архивах матчей. А через 2-3 недели начнем делать первые тестовые расчеты свежесыгранных матчей и начнем выкладывать xG сыгранных матчей в наших блогах, поэтому обязательно подписывайтесь и следите за новостями! И подытожив на сегодня я могу сказать что xG модель это то, в каком направлении вы должны двигаться, что бы правильно оценивать реальную силу команд в футболе. Потому что если вы сможете построить нормальную работающую систему, которая будет корректно оценивать силы команд, то на основе её вы сможете уже делать ставки и зарабатывать деньги.
О прогнозировании вероятностей с помощью системы xG мы поговорим в следующей статье.Если тебе понравился наш материал обязательно подписывайся на наш блог здесь, а так же на YouTube, чтобы не пропустить выход новых видео!
https://www.youtube.com/channel/UCOg_DNGpyPYFxDipaIBl4kQ?sub_confirmation=1
И в VK:
https://vk.com/blog.triumphator