2022世界杯小組賽已經全部結束了,西和十六強對陣也全部出爐 ,结果接下來的分结比賽會更令人期待 。今天我做了一個預測,人工基於機器學習的智能终极預測結果顯示 :決賽將上演梅西與C羅對決,這真是预测一個令人驚訝又令人興奮的結果,因此決定用此文分享出來 !世界赛成生的世界
十六強對陣
今年的世界杯 ,除了比賽本身外(老實說,为梅我看的比賽很少),我最關注的其實是與世界杯相關的數字技術和數據,比如之前曾經《聊聊世界杯的半自動越位技術》,也深深感受到《數字技術改進了世界杯的觀看體檢
》。
在接下來的淘汰賽階段,相信大家注意力會更偏重在比賽本身,我想到利用人工智能(機器學習)來預測淘汰賽的賽果 ,在關注世界杯的同時也順便練練技術 。
有了這個想法,還想知道有沒有現成的經驗可借鑒。找了一下發現Kaggle上還真有於是我就借鑒了其中一個作者的想法和數據(https://www.kaggle.com/code/sslp23/predicting-fifa-2022-world-cup-with-ml/data?scriptVersionId=111479915)來完成預測,在此對該文作者表示感謝。下麵進入正題,對實現過程和技術不感興趣的朋友可直接下拉到“四、預測結果”查看結果。
一、數據準備
咱們需要幾個數據,分別是:
各個國家隊在FIFA的排名數據 ,以下這樣的數據有6萬多行。
各個國家隊相互之間的曆史戰績數據 ,以下這樣的數據有4萬多行。
FIFA2022世界杯的比賽對陣情況,對陣的數據獲取比較容易 ,老外可以在維基百科上爬,由於眾所周知的原因,我們需要自己生成數據 。
咱順帶看看中國國家隊在過去的三十年間在FIFA的排名情況吧,國家隊在還處在“上升期”,原諒我又紮了一下老鐵們的心 !
二、數據理解和特征工程
所擁有的原始數據是很難直接用於預測的,因此需要做不少的工作來生成可用於預測的特征 ,在此過程中也需要結合對足球的理解(從術語的角度來說就是業務與技術的結合),細節不多說了 ,從需要的工具和主要的工作兩方麵來簡要描述一下要點:
1 、這一階段最主要的技術包括-Python-Pandas-Excel2 、 一些主要的工作包括:
-需要將幾張表
融合
-將對陣進球數轉換成勝負平
-將對陣進球數轉換成得分(310)
-檢查一些維度之間的相關性-曆史對陣中主場因素處理
-標記比賽重要度(友誼賽)
-有一些空值需要處理(舍棄)
-數據歸一化
-其它操作
實踐一再證明 ,數據處理是所有工作當中最耗時的,也確實需要技巧!經過一波操作 ,最終得到如下示例的表 。
target一列是比賽結果,0代表贏球 ,其餘的數字列是經過精心準備後決定用於建模預測的維度 。
三、建模
建模過程相對容易些 ,選擇幾個模型,使用網格搜索超參數 。因為本次的任務是一個分類任務(而且是二元的 ,淘汰賽隻有晉級和被淘汰兩個選項) ,因此可以采用的算法也是挺多的。
本次使用sklearnt,經過了一些篩選,最後確定使用梯度提升決策樹(GradientBoostingClassifier)
在訓練中,它實現了86%的準確率 ,在測試集中實現了76%,略優於隨機森林等算法。
四 、預測結果
每一次預測結果由幾部分組成:
對陣雙方
預測會晉級的球隊名稱
贏得比賽的概率值 ,這個值介於0.5~1.0之間,該值越大代表預測的置信度越高 。
1 、預測十六進八的結果
顯然 ,除了南美的巴西和阿根廷贏球的概率很大以外 ,其它球隊比賽過程中如果受到一個很強的臨場因素(比如紅牌,雖然本屆世界杯小組賽打完才出現2張紅牌 ,不排除淘汰賽也會出現2張紅牌)或其它未包含在預測模型中的因素影響,鹿死誰手其實還蠻難說
。
2、預測八進四的結果
在8強還未產生的情況下預測4強以甚至最終的冠軍其實是很有挑戰的,從概率也可看出,英國和法國之間其實非常接近 ,誰晉級都絕不令人意外 。
3、預測半決賽結果
同樣 ,南美雙雄之間其實也難分伯仲 ,阿根廷如果能一路走到半決賽,相信球隊的凝聚力會大大增加 ,希望他們之間的化學反應能夠彌補年齡上的劣勢吧 ,這是阿根廷的球迷們希望看到的 。
4 、預測決賽結果
如果決賽真的能在阿根廷與葡萄牙之間展開,這場比賽的收視率會有多高應該都能想到了,它對決定梅西和C羅的曆史地位也是不言自明的。如果這樣的一場比賽最終會出現 ,它一定會成為數十億計的球迷一生的記憶!
現在 ,這一切還隻停留在本次模型的預測當中 ,會成真嗎?有一點期待……
五 、總結
作為一個球迷 ,一個曾經對國足比賽都很癡迷的球迷 ,雖然近幾年用在看球賽的時間不多,但對於世界杯的關注依然是每四年一次的必修課 。預測是人類一直孜孜以求的事,數據科學似乎是一個“神奇”的領域,將數據科學用於世界杯的預測 ,對我來說是第一次嚐試。最重要的事是通過此案例學到或加深了對相關知識和技術的理解與應用,這是最大的收獲 。
再補充一點,雖有曆史比賽數據和模型支撐,畢竟足球是圓的,一些不可預測的因素可能會臨場影響比賽結果,本文中所有的預測結果僅作參考,請勿用作彩票購買指南或相關目的,本人對因此帶來的任何結果不承擔任何相關的責任!
(全文完)
喜歡就關注吧!
做評委的感受——再談數字化轉型與持續改善的融合
選用SPC控製圖的要點
數字化六西格瑪解決數字化時代的三個難題 !
ISO9000質量管理原則在數字化時代得到更好落實
是時候放棄使用FMEA分析的RPN方法了 !
論FMEA中簡化SOD評分尺度的得失……
是時候放棄使用Xbar-R控製圖了 !
探尋Xbar-R與Xbar-s圖的本質區別
討論應用Xbar-R/s圖的常見問題 :測量數據的獨立性
數字化六西格瑪項目及工具
數字化時代的數據思維與客戶價值思維
數字化六西格瑪
數據分析與編程▶用閉環思維看待數據分析的層次
中美兩國農業關鍵數據大對比
解決VBA循環期間Excel屏幕不刷新的問題
獨特思路 、超詳細解說 ,一文弄懂Python Generator!
獨特思路 、超詳細解說 ,一文弄懂Python Closure!
常見連續分布及相互關係
常見離散分布之間的關係
在Minitab中使用Python代碼——軟件安裝、設置及編程詳解
Python科學計算不可不知的隨機數知識
Measurement System Analysis Design
概率分布之間的關係(附最全關係圖)
一個有趣的概率題
往期文章㈡:旅行
登山徒步▶登天津最高峰太白山穿越(上)太白山穿越(下)安徽黃山(一)安徽黃山(二)安徽黃山(三)《黃山遊記》後記廬山●秀峰遊記南嶽衡山登山記在天堂與地獄之間行走身進桃花源,心入魔幻界鳳凰古城旅行攻略(交通、門票 、住宿、餐飲)羅浮山登山記廣東丹霞山遊記中嶽嵩山旅行攻略北嶽恒山旅行攻略廣東丹霞山·神奇的巴寨湖南屋脊 | 壺瓶山浙江屋脊 | 百山祖 - 黃茅尖穿越(上)浙江屋脊 | 百山祖 - 黃茅尖穿越(下)巔峰之旅 | 登武夷山最高峰(上)
巔峰之旅 | 登武夷山最高峰(下)巔峰之旅 | 海南●五指山登山記旅行雜記▶騎行海南島雲南12日旅行印象海南島從萬州到利川騰龍洞及恩施大峽穀南華寺上班路上的旅行科普旅行 | 去海南認識熱帶水果植物神農架旅行總攻略2018全國徒步大會江夏站免責聲明 :文中圖片 、文字引用至網絡,版權歸原作者所有,如有問題請聯係刪除 !
Tags:(责任编辑:時尚)