是时候说说数据了..._逆魂笑笑生
2015-03-12 09:42:17 我乐NBA www.56nba.com
饭后,与和塞子聊天,说到如今NBA的变化,特别是数据量化的大量出现。
和塞子说:
“就如今这趋势,真觉得去火箭做个数据运营官挺合适的。”
“怎么讲?”
“你看哈,回合占有率,二次进攻效率,前场篮板率都有公式,进行量化已然成为可能,我们不在这做什么financialcalculus了,干脆去给莫雷打工。”
...
戏言归戏言,但NBA数据化是不可逆的趋势,从某种程度上说,数据带来的变化,贡献,甚至数据带来的偏见,都已经出现在世人面前。
这个话题,出现在枪口面前的,应该是莫雷。
莫雷的冷血让人印象深刻 —— 此君曾经带着超过1000页的Excel表格,满怀欣喜的丢给詹姆斯哈登那份著名的顶薪合同,也可以带着其他表格,把洛瑞,德拉季奇丢出休斯顿;但是哈登的进步,表现,让人叹服,当然,爪机,小钢炮现在各自的表现也让人对莫雷的纯数据运作充满质疑。
但TNT大嘴,曾经的大屁股查尔斯 巴克利则是数据分析忠诚的黑子:“垃圾。毫无疑问的垃圾。”
当然很多事情已经进展到看似能够完全控制的地步 ——例如回合占有率,例如PER值,例如攻防转换数据 ——数据专家不是球员,数据专家也永远不可能用时间看完所有的比赛,从每个比赛中提炼所需要的所有信息。当然,世界的变化就是如此,看看informationsystem的家伙们每天都在干什么,看看华尔街有多少码农和数据民工,看看我们周围多出了多少数据,无论是有效数据还是无效数据。
其实数据分析老早就有,NBA伊始,数据统计员的工作就一直存在 ——这些人西装革履的坐在场边,带着纸,笔,表格,记录着场上的每一次得分,每一个篮板,每一次抢断 —— 当然,很多时候,比如篮板球 ——这个数据很多时候模棱两可,你总不会非常清楚的第一时间知道每个篮板会跑到谁的手中,或者说,谁第一个触球,等等。当然,因为他们的辛勤工作,加上科学的数据统计方法,我们才会知道,哦,当年保罗阿里津是以场均25.44分拿走得分王的,乔治麦肯是篮板王,等等,这说的是历史数据,和NBA整个历史的完整度的分析
所以,NBA高瞻远瞩的引入的数据,或者说,无论是经纪人也好,球队老板也罢,我们终于知道什么球员值多少钱,因为我们手上有数据。但是,这不是进阶数据—— 技术统计表的引入并不能引入理性的辩论,但是进阶数据可以。
这里必须提到NCAA。作为大学联赛,量化球员几乎是一种习惯。大学中几乎所有事情,都可以被量化,这是一种学术的习惯。迪恩史密斯是这样,他在获得常规的得分,篮板,抢断,出场时间等数据之后,尝试着计算每个球员上场后,得分变化的绝对值 ——这可能就是PER的前身,也许也是胜利贡献值的前身。数据公式慢慢浮出水面,帕特莱利是这样的,伟大的SHOWTIME教父手上,总是详细的掌握着每20分钟MAGIC在场上做了什么,他对比赛进程的贡献有多少
所以,当数据化,信息化世界来临时,我们看到了如下的一些数据:
每次触球得分
真实正负值
每48分钟胜利贡献值
nERD
场均二次助攻
…
这就是进阶数据 —— 这是球探,经理手中的利器,这样的数据针对性极强,的确能给 ——诸如莫雷,安吉 ——带来最直接,最准确的球员评估和球员信息,以及与教练组沟通,通过数据分析,为教练组提供最契合的球员
但是球迷不是球探,也不是经理,他们只是喜欢,或者说主观支持自己的球队,或者球员 ——球探利用数据进行mosaicanalysis(一种金融分析的方法,利用非公开有效信息对现有情况进行分析的方法),但是公众成了稻草人(虎扑有帖子介绍过稻草人谬误—— 曲解对方论点,针对曲解论点进行攻击,然后宣称推翻这个论点,这是一种非形式的谬误) —— 例如雷霆球迷对威少6场5次三双,并且大量爆发30+10+10的三双,表现出极大的热情和关注度,但事实并非如此 ——因为威少享受着历史级别的回合占有率和历史级别的高出手,当然这是缺少杜兰特的雷霆相对优化的解决办法,但这样爆发的数据并不能完全等同于球员对球队胜利值的贡献,这样变成了一个槽点—— 战绩不佳是雷霆反对者的措辞,历史级别三双数据则是雷霆球迷的措辞,这种辩论几乎毫无意义
这很有趣。因为数据工作者并不会换上勇士队的队服,像库里一样扔三分。所以巴克利总是无奈:“脱下衣服去触摸篮球,再告诉我这些数据她妈的不是扯淡。”
这个说法真的很有说服力,或者说,至少球员每时每刻的情绪,是数据无法反应的 ——就像当卡特回到多伦多比赛时心里产生的巨大情愫是不是会影响比赛,库里在取得50胜后,拿着23.8 +7.7冲击MVP时面对下一场比赛的心情,这些就无法量化,当然还包括球队的化学反应 ——这就是为什么你在用手柄在NBA2K上制造数个赛季的60+,甚至70+胜场后,现实里的,完全同样的一只球队,连季后赛的门槛都摸不到的原因。
但是,当年莫雷的Excel表格,真的分析出了哈登的潜力;比如SamPresti,雷霆球探老大,如科学集客一般的每天穿梭在雷霆办公室上上下下,然后告诉布鲁克斯,告诉老板,你应该选择拉塞尔维斯布鲁克,你应该选择凯文 杜兰特,你应该选择詹姆斯 哈登 ——上帝,雷霆如今的强盛可全是数据分析的功劳!如此可见,尽管Sam没有脱衣服任何职业篮球比赛经验,但是他利用自己的模型,确保了至少10年雷霆主场的票房,这也是铁一般的事实。
所以,问题出在数据本身,还是数据解读?为何相同数据会造成数据使用的效率差别?
1 数据是会错过一些东西的。
数字是无法战胜一切的,它很强大,但是它有弊端。稍有统计学常识的人都知道,无论任何数据分布,都总不能避免误差。而球场上的数据分析同样如此—— 95%的置信区间总会忽视5%的不可控因素,比如球员的情绪。几乎每一次英雄般表演的背后,都是数字无法量化的激情和决定力,总之,个人魅力总是会涵盖在个人表现中。所以,数据归根到底是信息,是有效信息,是做出正确,客观判断的一部分,而不是全部。比如2007年安吉决定招募KG和Ray前,他会看比赛,会打电话与球员交谈,这些都是数据不能涵盖的部分 ——一个从马萨诸塞州通往明尼苏达的电话,有时候真的胜于提供KG3-5个月的胜利贡献值更有效果。
2 球探系统和数据?
1986年,当拉里 伯德满怀希望的带着巴斯 ——一个天赋横溢,甚至让人觉得如果1995年他还在联盟,迈克尔会不会那么鹤立鸡群的超级新人,在被选中后不久,吸食过量毒品,死在了宾馆标间里。这几乎是波士顿球探当年所有工作的结晶,也是经过数据分析,无论是胜利贡献值,还是身体素质,比赛数据统计,所有一切的分析后得出选择巴斯的结论—— 然后他死了。
球探的贡献在于现场侦查 ——数据分析只是球探工作的一部分,一小部分。现场侦查才是关键,因为当持续交流在进行的时候,你也许才会知道这个球员到底是不是那么适合职业联赛,那么适合自己的球队。稻草人此时登场—— 这种曲解对方并且针对性达到的谬误让人无语。更让人不解的是,国内几乎每个论坛的高端球迷,都会用手上的数据完全填充自己的判断 ——或者说,一个知道nERD的人,在虎扑的话语权就显得比别人更充分。这是谬论。因为数据综合度非常高,任何数据都需要有横向参照物,任何数据的简单对比都没有任何意义。所以,不是每个人都能做球探——对数据的敏感只是球探工作的一小部分,与球员沟通,交谈,对球员背景的分析,伤病报告,数据极客是不能涵盖这些信息的。
综上,数据不会撒谎,但是数据永远都有遗漏。但是迎来大数据时代让每个经理手上都有充足的原料,对每一个球员,每一次交易进行量化,这样的判断显然更加科学。
数据发展的历史从更多更广的角度为不同的职业经理人提供了更多的空间,也为球迷提供了更理性对待篮球的方式罢了。NBA是场生意,再有人情味的老板,最后要看的,都是上座率和战绩。当然球迷需要看的是精彩的比赛,至于合同—— 最多只能是饭后的谈资 —— 乔丹是因为THESHOT, 上帝之夜的63分,I AMBACK才让人如此钟爱,3314万一年?那真的是可以一笔带过的东西罢了。