عجب گلی زد٬ چطوری این توپ رو گل نکرد٬ مگه میشه از اینجا توپ گل بشه و ... حتما این جملات رو موقع دیدن فوتبال به زبان آوردین یا شنیده اید. موضوع از همینجا شروع میشه٬ فاکتور و هدف اصلی در فوتبال به ثمر رسوندن گل در مدت زمان بازی است تا تیم به پیروزی برسه و خب برای به ثمر رسوندن باید شوت توسط بازیکن به سمت دوازه حریف انجام بشه (مگر این که بر اساس اتفاقات٬ گل به خودی و .. گل به ثمر برسه) حالا بر میگردیم به اول پاراگراف که ما چطوری تشخیص میدیم که این شوت با کیفیت بوده یا نبوده٬ این که بازیکن شوت بدی زده یا نزده و آیا یک بازیکن گل زن قهاری است یا خیلی به اصتلاح گل نزنه اینجاست که "بازگشت همه به سوی دیتاست"
سال ۲۰۱۲ یک تحلیلگر داده به نام Sam Green که در شرکت Opta کار میکرد یک مدلی را اختراع کرد که تا بشه عملکرد مهاجمان لیگ انگلستان (Premier League) رو با دقت بیشتری بررسی کرد و برای مدل خودش از مدل های مشابهی که در ورزش های دیگه استفاده میشد الهام گرفت.
در ابتدا مدلی که ساخته شده بود بر اساس تعداد شوتی بود که هر بازیکن میزنه٬ که خب شوت پایه ای ترین فاکتور به ثمر ریدن گل است٬ اما هر بازیکن برای رسیدن به گل به صورت میانگین تعداد شوت های متفاوتی رو انجام میدن٬ برای مثال در فصل ۲۰۱۱-۱۲ رابین فنپرسی از هر ۵/۴ شوت یک گل به ثمر میرساند و لویس سوآرز از هر ۱۳/۸ شوت یک گل٬ در صورتی که هر دو به تعداد تقریبا یکسانی در هر بازی شوت میزدند.
در نتیجه در نظر گرفتن یک فاکتور که تعداد شوت باشه نمیتونه کیفیت یک مهاجم رو نشان بده٬ در ادامه فاکتور مکانی که شوت زده میشه رو اضافه کردند تا بر اساس منطقه ای که شوت زده میشه هر شوت چقدر احتمال گل شدن داره اما این فاکتور هم دید درستی نمیده چرا که اگر شوتی بر روی نقطه پنالتی زده بشه این که آیا ضربه پنالتی بوده یا کرنری بوده که با سر داره به توپ زده میشه یا یک ضربه والی بوده میتونه روی احتمال گل شدن توپ تاثیر گذار باشه٬ پس نیاز به این که فاکتور های مهم دیگه هم در نظر گرفته بشه حس شد.
طی سال ها شرکت Opta دیتا پوینت هایی که در هر بازی لیگ های برتر اروپا رخ میداد رو جمعآوری کرده بود و با آنالیز آن ها به مهم ترین عوامل در کیفیت یک شوت برسند٬ با بررسی بیش از 300,000 شوت فاکتور های زیر رو برای ساختن مدل در نظر گرفتند:
در نهایت با استفاده از این متغیر ها توانستند یک مدلی درست کنند که مقدار xG را مشخص کنند که معمولا به شکل درصد است.
هیچ مدل مشخصی برای اندازه گیری xG وجود ندارد و هرکسی میتونه مدل جدید و متفاوتی ارائه بده و مدلی که داریم راجبش صحبت میکنیم توسط شرکت Opta که از بزرگترین شرکت های آنالیز ورزشی دنیا است ارائه شده.
مدل xG طراحی شده تا درصدی که انتظار میره یک شوت گل بشه رو به ما به عنوان خروجی بده برای مثال هری کین اگر 100 شوت زده باشه بر اساس داده های هستوریکال و دیتا پوینت هایی که مدل xG رو شکل میدهند٬ انتظار میره تا 0.202 (یا 20.2%) از شوت هاش گل بشه در نتیجه انتظار میره که 20 گل به ثمر برسونه xG که شامل 100 شوت هری کین باشه میتونه شامل موقعیت های بزرگ مثل ضربه پنالتی با 0.783xG یا ضربات غیر از پنالتی داخل محوطه جریمه با 0.387xG و حتی ضربات بیرون از محوطه جریمه با 0.036xG باشه٬ در نهایت میشه عملکرد هری کین رو با تعداد گل واقعی که از این 100 شوت به ثمر رسونده سنجید اگر بیشتر از 20 گل زده باشه در اصل خیلی عملکرد خوبی داشته و بیش از حد انتظار گل زده و اگر کمتر از 20 گل بزنه میفهمیم که عملکرد به نسبت متاسبی نداشته و کمتر از حد انتظار گلزنی کرده در نتیجه با این متریک میتوانیم عملکرد کلی یک گلزن را بسنجیم.
در نهایت میشه xG رو به صورت تیمی هم در نظر گرفت تا متوجه بشیم یک تیم آیا عملکرد خوبی داشته و موقعیت خوبی خلق کرده یا خیر و آیا نسبت به موقعیت ها بیشتر از انتظار گل زده یا خیر.
یکی محدودیت های این متریک جمعآوری دیتا برای حساب کردن فرمول٬ برای مثال در لیگی مثل ایران هیچ مرکز با ابزاری برای جمع کردن داده های یک بازی وجود ندارد٬ از نواقص مدل xG هم میتوان به کامل نبودن این متریک در بیشتر مدل هایی که الان داره محاصبه میشه اشاره کرد٬ برای مثال متریک های قدرت شوت٬ وضعیت گلر تیم حریف (این که اصلا داخل چارچوب هست؟ یا در شرایط متعادلی هست؟) و... لحاظ نمیشوند. در نتیجه هیچوقت نمیتوان خیلی به xG بها داد و در نهایت به عنوان یک داده تکمیلی باید بهش نگاه کرد.