关于数据在体育赛事中的运用,我相信大多数人和我一样,第一印象来自于根据真人真事改编的电影「点球成金」,片中布拉德·皮特饰演一个刚刚接手一支落魄棒球队的经理,他完全推翻了老球探们的「经验主义」,而要推广自己的「大数据」思维。通过自己的模型,他签下一些在联盟中默默无闻但是很有潜力的球员,虽然过程中遭遇了很大的困难,但是最终他也带领球队拿到了冠军。

现在各个俱乐部都非常重视「数据」,从球员日常训练的身体数据到比赛中的表现数据,再到转会窗口期通过大数据寻找自己的心仪对象。而现在也有非常专业的体育数据公司提供定制化的服务,比如 Stats Perform(就是大家熟知的 OPTA)以及 SportsRadar、Enetpuls、Numberfire 等公司都有各自的优势。

不过一项数据是如何被计算出来的,在实际的比赛中有什么应用,我来举一个实际的例子。
虽然球员的进球和助攻是对于球队帮助最大的数据,但如果我们对于球员贡献的衡量只局限在这两个数据上就会忽略了他在球场上做出的其他动作和决策的作用和影响。举个例子,对于一名防守型中场球员来说,可能他 99% 的动作对球队的贡献都不是进球或者助攻,所以对于这样的球员应该如何衡量?
在绝大多数情况下,对于中场球员来说,衡量他们的「期望进球」(xG)和「期望助攻」(xA)通常都不科学,因为通常情况下这两项数值都不会很高,所以我们才会去衡量「有威胁传球」或者进入「进攻三区」的次数。
2012 年 Opta 把「期望进球」(xG)引入到了对于球员数据的分析体系中,能够帮助我们进一步了解进攻球员,尤其是前锋的射门能力。如果我们能够把这样的思想拓展到分析球员在球场上的每一个动作和决定会怎么样?

一名球员在球场上时刻在做决定。一方面在尽可能让自己的球队破门的概率最大化,同时让本方丢球的概率最小化。
有些时候有的动作和决定对于球队的帮助是显而易见的,比如传出一脚好球,让自己的队友拥有了单刀面对门将的机会,或者完成了一次成功抢断夺回了球权。
但是对于其他绝大多数情况,我们并不能清楚看到这个决定和动作的价值。
这就是 OPTA 引入的新概念「控球价值」(Possession Value,以下简称 PV)。PV 顾名思义,衡量的是一支球队在控球时能够取得进球的概率。
接下来是一些 PV 在实际比赛中的应用。我们以利物浦的这次进攻为例,假设最后的一个动作是詹姆斯·米尔纳的传球。

在这样的特定情况下,米尔纳的传球会有多大的概率最终能够产生进球?首先要明确一点,进球的方式可以是多种多样的,比如米尔纳的进球找到了边路的队友,队友传中后前锋进球,或者接球的队员自己带球过人取得进球,抑或之后又通过 20 脚传球后通过角球破门。只要球队没有丢失控球权,这个模型就成立。
在这个例子中,模型预测最终进球的概率是 3.3%,大概是每 30 次出现这样的情况会有 1 次产生进球。
但是问题来了......3.3% 这个数字是怎么来的?
这个模型会基于过去的 5 场比赛在相似情况下控球情况,之后再与历史数据进行比较后给出进球概率。你可能也发现了,在一连串的进攻中,一个动作出现的时间越晚,它就越重要。在上面这个例子中,詹姆斯·米尔纳的传球就要比三次传球之前队友的传球对最终的结果有更大的影响。
你可能会说,然后呢?

我们继续看上面这个例子。米尔纳把球传给了菲尔米诺,后者向禁区方向带球,然后直传给了位于禁区之内的马内。现在这个模型预测将会发生进球的概率是 33.9%,换言之,菲尔米诺通过自己的决策和行动将本队进球的概率提升了超过 30 个百分点,这就是这名球员的 Possession Value Added(或者 PV+,控球价值贡献)
所以通过 PV 这个模型的引用,我们可以分析出球场上任何一名球员的每一个动作是否增加或者减少了本队的进球概率。
让我们看一个例子,球员虽然没有「期望进球」和「期望助攻」,但是通过 PV 模型却能看到他对于本队的进攻有积极的影响。
阿森纳的拉卡泽特在本方半场接到了队友掷入的边线球,有很多防守球员准备上来抢断。

不过拉卡泽特转身之后带球一路杀到禁区前,9 秒钟之后他把球传给了左路插上的科拉西纳茨。

虽然最后科拉西纳茨的传中被破环,但是显而易见的是,拉卡泽特的这一系列动作对于阿森纳的进攻是有积极影响的。
当拉卡泽特接到边线球时,PV 值为 1%,而当他传球给队友时,PV 值来到了 7%,也就是说拉卡泽特的 PV+ 是 0.06。
这个模型可以评估场上的任何动作,比如传球、带球、抢断、拦截、铲抢,甚至制造犯规或者制造角球都能够被计算其中。
失误和丢球同样是比赛中必不可少的一部分,丢失球权对本队的影响有两个方面,第一个方面就是本方丢失球权而失去了进攻的机会,另一个方面就是对方获得了球权从而获得了威胁到自己球队的进攻机会。这两点都会被 PV 模型计算在内。
让我们来看两种不同的情况。
情况一:沃特福德 vs 阿森纳(索克拉蒂斯·帕帕斯塔索普洛斯)
帕帕斯塔索普洛斯在本方半场拿球,不过他的传球被德乌洛费乌断下。

PV(丢失球权)= -0.01
PV(对手获得球权)= -0.14
帕帕斯塔索普洛斯这个失误的 PV 值总计为 -0.15。
情况二:托特纳姆热刺 vs 水晶宫(库亚特)
水晶宫在对手禁区左侧获得任意球,罚球队员将球送到后点,库亚特在后点将球“倒三角”传回,但是没有队友跟进,被热刺球员破坏。


PV(丢失球权)= -0.17
PV(对手获得球权)= -0.01
如果按照和情况一一样的标准,库亚特的这个这个丢失球权的情况的 PV 值应该为 -0.18。但是大家可能发现了这两种情况并不一样。在帕帕斯塔索普洛斯的例子中,他个人的失误直接导致了球权的转换,而在库亚特的例子中,你也可以说他的队友没有出现在应该在的位置上导致了球权丢失。
而且从最后的结果上,库亚特这个球对于球队的影响远远没有帕帕斯塔索普洛斯的失误大。所以在这个模型中,这两种情况的 PV(丢失球权)数值一样是不科学和不客观的。一般来说,对于经常参与到进攻中的球员来说,他们的丢球的影响并没有那么大,所以在模型中,类似库亚特这种情况的 PV(丢失球权)值为 -0.025,也就是球场上所有动作的平均 PV 值。
最后,在明白了这个模型如何如何工作之后,我们就能够用它来衡量和评判一名球员对于球队的贡献了,而且是从积极和消极两个不同的方面。这就意味着我们能够很容易看出哪些球员更加“中规中矩”,而哪些球员更“高风险带来高回报”。
下图是 2019 年 10 月 3 日英超联赛中一些典型球员的 PV 贡献表。从这张表中你可以看出,每名球员的 PV 贡献都被分为了 4 个维度,

- 有效进攻动作/提高进球机会的动作(贡献数值为正的 PV 值)
- 降低进球机会的动作(贡献数值为负的 PV 值)
- 普通丢失球权(例如库亚特)
- 丢失球权并且造成对手的直接威胁(例如帕帕斯塔索普洛斯)
你当然希望你的球员的正 PV 值大于其他三种情况的 PV 负值。在这张表中,马赫雷斯是这项数据中表现最好的球员。
总而言之,PV 模型的建立让大家不仅仅只看到球员的射门、助攻和威胁传球,他们场上的任何一个决定和动作都在潜移默化地影响着球队进球(丢球)的概率。