tag 标签: 世界杯大数据分析

相关博文
  • 热度 8
    2022-12-21 10:00
    873 次阅读|
    0 个评论
    阿根廷夺冠!梅西圆梦!历届世界杯还有哪些数据看点?
    从1930年到2022年,世界杯已走过92年的光辉岁月,从马拉多纳的“上帝之手”、贝利的“四两拨千斤”、罗纳尔迪尼奥的“诡异吊射”、范佩西的“鱼跃冲顶”再到姆巴佩上演“帽子戏法”刷新记录,世界杯为球迷朋友们带来了无数个惊心动魄的精彩瞬间! 相信大家现在还沉浸在阿根廷队以总比分7比5战胜法国队夺得世界杯冠军的喜悦中。卡塔尔世界杯,是梅西圆梦的时刻,也是“梅西把问路的孩子带上山顶”的时刻。 阿根廷夺冠,大家都纷纷感慨青春圆梦了,35岁的梅老板终于捧起了大力神杯,12月20日才满24岁的姆巴佩凭借个人进球8粒、2分钟连进2球的佳绩获得金靴奖,但对于C罗而言却充满了“梅罗无法共舞”的遗憾,也让我们看到在足球赛事上,还有很多正在“努力爬山的人”! 历届世界杯还有哪些数据看点?我们一起通过虹科 Domo 商业智能分析工具看看吧。 世界杯数据分析 本项目用到的数据表主要有2个:历届世界杯基础数据以及单场比赛信息表。 历届世界杯基础数据 该表包含的字段有:届次、赛事名次、年份、举办地点、开始时间、结束时间、冠军、亚军、季军、殿军、总进球数、总参赛队伍数、总比赛场次、现场观众总人数、举办国所在州以及冠军队伍所在州。 数据预处理 1.补全数据 观察数据表发现,原始数据表中缺乏2022年卡塔尔世界杯数据,因此手动将该行数据上传,截至目前,卡塔尔所有比赛结果均以出炉,不过对于现场观众总人数数据,还尚在统计。(不过根据相关报道看2022年卡塔尔世界杯的入场人数高于球场容量,即超过60,000人) 2.归一化处理 第一届世界杯于1930年举办,至今已经92年,很多国家经过了历史的洗礼,其名称已经发生改变,亦或是该国家已经解体,如苏联。因此,为了在后面可以使用地图图表,对部分国家名进行了处理。如东德、西德和联邦德国统一为德国,捷克斯洛伐克更改为捷克。如果数据存在严重错误,可以联系我们。 数据流 世界杯基础数据流 通过对开始时间和结束时间进行计算,得出历届世界杯的持续时间。然后对个别命名存在偏差的国家值进行修正,以方便后面匹配国家代码。通过case语句对东道主名次进行判断,此处只计算四强名次,如果没有进入四强,则统一为0。由于17届世界杯是韩日一起举办的,为了在地图上进行展现,因此需要将17届数据列为两行。后续在做计算处理时,只需要当作一行(世界杯基础数据)。 历届四强队伍数据流 对原始数据表进行逆透视,得到历届四强队伍,然后将四强队伍与国家地区代码匹配,获得四强队伍的国家代码。 历届世界杯概览 通过上图,可以清晰的看到哪些国家举办过世界杯,版块颜色越深,表明举办次数越多。如图:巴西、墨西哥和法国都举办了2次,位列第一。 通过对夺冠队伍进行统计,绘制出树状图。版块越大说明夺冠次数越多。 如图,巴西夺冠次数最多,为5次,其次是意大利和德国,为4次。 通过上图可以看到,从第12届世界杯开始,比赛持续时间都维持在28-32天之间。 2022年世界杯总进球172,打破了世界杯总进球数记录。2014年和1998年世界杯的总进球数并列第2,为171,其次是2018年,总进球数169。 对于现场观众人数,1994年是最多的,其次是2014年。 至于参赛队伍,从1930年的13支队伍,1954-1978年均稳定在16支队伍,1982年扩张到了24支,1998年至今,都稳定在32支参赛队。 总比赛场数,也随着参赛队伍的增加而增加,1998年至今,都稳定在64场。 通过上图可以看到,德国进入四强的次数最多,为13次,但是其夺冠次数仅为4次。 而巴西进入四强次数为11次,夺冠次数为5次。相对来说,巴西进入四强后夺冠的概览更大。 对于2022世界杯的冠军球队阿根廷,其历史上进入四强的次数是6次,其中3次获得冠军,3次获得亚军,即进入四强后闯入决赛概率100%,可见其实力之强。 附件4个图则是分别对基础数据进行一一统计。 世界杯区域分析 通过以上三个图,可以看到世界杯举办地集中在欧洲和美洲,并且冠军队伍也基本是分布在欧洲和美洲,这说明欧洲和美洲在足球运动上实力比较强。 通过上述饼图分布,我们猜测参赛队伍比赛的状态可能和区域相关联。因此进行了东道主是否进入四强的统计,可以看到,在所有22届世界杯中,有12届东道主是进入了四强的,占比55%。因此,是存在一定的区域优势。 以上是四强队伍的分布,德国(13次)、巴西(11次)、法国(7次)和阿根廷(6次)是进入四强次数最多的前四名。 在亚洲,只有韩国和土耳其曾进入四强,亚洲在足球运动上还有很大的发展空间。 今年卡塔尔世界杯,摩洛哥连续扳倒西班牙和葡萄牙两支前欧冠队伍,成功闯进四强,成为世界杯历史上第一支闯进四强的非洲球队。 通过上述热图可以看到,在欧洲举办的11届世界杯中,有10届冠军得主也来自欧洲。 在美洲举办的8届世界杯中,有7届冠军得主同样来自美洲。再一次印证了参赛队伍的状态和比赛地点是相关的,比赛成绩是有一定的区域优势的。 不过本届世足赛主办国卡塔尔于开幕战时以0比2不敌厄瓜多尔,打破了“东道主首战不败纪录”。 通过对四强队伍,决赛队伍以及冠军队伍的统计,发现巴西和意大利进入决赛后,夺冠的概率很高,分别为71.4%和66.7%,而德国仅为50%。 同样的,今年的冠军得主阿根廷,进入决赛后其夺冠概率也是50%。但是值得注意的是,其历史上共有6次进入世界杯四强,每一次都闯进了决赛。 再看看英国、西班牙和乌拉圭,虽然进入决赛的次数仅仅分别是1次、1次和2次,但是每次都夺得了冠军,概率100%。 世界杯单场比赛信息 数据预处理 原始数据表仅统计到2014年的数据,因此手动对2018年和2022年的比赛信息进行补齐。同样的,为了后期可以匹配国家代码,需要对队伍名称进行修正,并且删除重复的比赛信息。此处说明一下:2018没有公开单场比赛现场观众人数,因此该数据集中2018年比赛现场观众人数字段值是缺失的(据了解,2018年单场比赛观众人数没有排到历史前10的,因此不影响后面的可视化) 数据流 世界杯单场比赛信息数据流 由于原先的数据是英文的,不太符合国人的阅读需求,因此需要将队伍名称转为中文,然后分别对主队和客队进行国家代码匹配。 各国比赛统计数据流 首先通过逆透视,分别拆分主队和客队,这样就能合并各国的数据。通过按国家进行分组,分别统计各国的比赛信息。最后再根据国家名称将数据进行连接合并。 世界杯单场比赛分析 通过上图可以看到单场比赛观众最多的前十名,前4名中都有巴西,说明巴西是比较受球迷欢迎的,其次还有阿根廷、墨西哥和比利时,同样也是粉丝比较多的球队。 而对于进球数,1954年奥地利和瑞士在四分之一决赛中进行的比赛,进球数最多,达到了12个。这是一个什么概念呢,在所有的世界杯比赛中,从小组赛到决赛,每场平均进球数仅为3个。 对于比赛分差的统计,在小组赛中出现悬殊比分的概率比较大,1982年匈牙利VS萨尔瓦多、1974年南斯拉夫VS扎伊尔、1954年匈牙利VS韩国分差均为9,位列第一。 另外,西班牙和哥斯达黎加在2022卡塔尔世界杯小组赛中的比分是7:0,分差7分,在历史上排名第七,这场比赛也是卡塔尔世界杯分差最大的比赛。 对于各国比赛场数的统计,地图版块颜色越深代表比赛场数越多。可以看到德国和巴西是参加最多的2个国家,分别为118场和114场,这也说明了他们的实力比较强。 今年的冠军队伍阿根廷历史上曾参加了88场世界杯比赛,亚军队伍法国历史上曾参加了73场比赛。 通过对夺冠情况的统计,可以看到22届世界杯中,参赛队伍很多,但是冠军队伍仅分布在乌拉圭、意大利和德国等8个国家。其中巴西、意大利、德国和阿根廷位列前四。 2022年卡塔尔世界杯的冠军队伍是阿根廷。不过今年阿根廷在今年世界杯唯一输过的一场的比赛是1比2不敌沙特阿拉伯队,当日沙特国王还放假庆祝,难怪说“沙特是本届世界杯唯一战胜冠军的球队”! 通过对各国累计进球数进行统计,发现巴西和德国进球数是最多的,为237个,其次是阿根廷,为152个。今年的亚军球队法国,历史上总进球数136个,排名第四。 分别对他们在主场和客场上的进球数进行分析,发现进球数前10名,实力比较强的这些队伍,作为主队时进球数远高于作为客队时的进球数。 附件5个表是分别对各个州的比赛场数进行统计,可以发现: 对于亚洲,沙特阿拉伯和伊朗实力相对较强。 对于非洲,喀麦隆和摩洛哥参加场数较多。 对于北美洲和南美洲则分别是墨西哥和巴西参加场数最多,分别是60场和114场。 对于欧洲,则是德国和意大利位列前二,分别为118场和83场。