數讀百花獎十餘載,預測本屆最佳男女主角

百花獎即將於24日在鄭州舉辦,幾天前小編寫了《百花獎的含金量,寫在男女主角的提名名單裡》一文,今日將嘗試利用可獲取的歷年相關資料對今年的最佳男女主角做下預測,當然這純屬個人娛樂,不必對結果較真。

由於百花獎2006年起才開始公佈提名名單,因此只考慮2006年及之後百花獎公佈的提名名單。

數讀百花獎十餘載,預測本屆最佳男女主角

指標選取

1. 豆瓣評分

電影評分可反映該電影的質量高低,質量高的電影主角獲獎的可能性更高,豆瓣評分相比其他平臺的權威性更強,因此小編採納它作為參考。最終獲得最佳男主角的電影評分略低於僅獲得提名最佳男主角的電影評分,而最佳女主角剛好相反,不過平均分都超過了7分,這已經遠遠高於同期內地電影低於6分的平均分。

數讀百花獎十餘載,預測本屆最佳男女主角

2. 豆瓣評價人數

評價人數太少會影響評分的穩定性,而評價人數多的話往往說明影片很熱門,電影是否熱門也會影響到獲獎的可能性,畢竟有時百花獎的最終結果是由百餘位非專業人士的觀眾評選出,熱門電影知名度較高,可能佔有一定優勢。

從統計結果來看,不論是最佳男主角還是最佳女主角,獲獎的電影都比僅提名的電影評價人數要多,不過平均值都超過了30萬,足見提名電影大多還是廣受歡迎的。

數讀百花獎十餘載,預測本屆最佳男女主角

3. 提名時的年齡

年齡長的演員往往經驗更豐富,演技更好,獲獎的可能性相對要大些,當然演員的出道時間有早有晚,同一時間參與的作品數有多有少,所以用出道時長更加合理,再加上主要作品數量就更好了,但獲取這些資料需要耗費大量時間和精力,部分結果還不一定準確,小編就偷偷懶,用演員年齡代替了。

最佳男女主角獲獎時的平均年齡均為38歲左右,不過獲得最佳男主角提名的演員年齡明顯要偏大些,因為不少年紀大的男演員還活躍在電影中,比如渣渣輝、張涵予等,而年紀大的女演員明顯要少些。

數讀百花獎十餘載,預測本屆最佳男女主角

4. 國產電影年度票房佔比

好的電影口碑較好,票房自然大多較高,因此票房也可作為衡量指標之一。我國電影事業發展迅速,影院數量、銀屏數量等持續增長,顯然不同年份的票房不能直接對比,想想10多年前票房破億都是一件很艱難的事,因此用該電影占年度電影票房的比例來衡量更加合理。

同時我國也會引進一些外國電影,而且各年度的進口政策不一定相同,加之百花獎是針對我國影片的獎項,因此計算範圍有必要限制在國產電影年度票房內。

最佳男女主角提名的電影票房都不低,電影票房佔當年國產票房的比例平均超過5%,每年上映的國產電影早已超百部,可見提名的電影票房不低。提名和獲得最佳男女主角的電影票房資料有些差異,並非獲獎的電影票房就普遍更高,也正因為差異的存在,才適合用於預測。

數讀百花獎十餘載,預測本屆最佳男女主角

5. 其他說明

上面的指標中有3個與電影相關,僅1個與演員有關,但考慮到最佳男女主角提名的電影各不相同,而且又是男女主角的獎項,提名的演員一定程度上可代表該部電影參選,那這些與電影相關的指標也可用於預測演員的獲獎情況。

要提高預測的準確性也許還需要一些其他指標,關於演員、電影中演員的表現等。另外,本屆的提名名單由觀眾在候選名單中透過投票選出,有效選票高達3320多萬份,這個投票資料也可作為參考。

考慮到個人時間有限,上面4個指標的資料收集就花費了好幾個小時,這次只根據它們來預測一下今年的最佳男女主角。

預測結果

這個預測問題可以看作分類問題,分為獲獎和沒獲獎兩類,IT界有很多常用的分類演算法來解決類似問題,也就是根據已知是否獲獎的歷史記錄找到規律,再利用規律輸入今年的提名名單資料,輸出該條記錄獲獎的機率值。但這次的預測問題又有它的特殊性,也就是有且僅有1人獲得最佳男主角、1人獲得最佳女主角(好像百花獎歷史上還沒出現過多人同時獲得同一主角獎項)。

遇到這種問題似乎可以根據預測的機率值排序,最大值對應的演員即為獲獎者。尋找規律的難度跟資料本身也有關,如果數量太少,找規律就越難,資料越複雜,找規律也越難,不過不同的演算法適用於不同的資料,規律是否適用最終還要經過驗證和測試。

因只有8屆百花獎的提名名單資料,而且還需要拿出部分做驗證,導致資料量太少,經嘗試多種常用的演算法後,發現都不能透過驗證…(心塞啊,感覺白忙活了),考慮到大家倖幸苦苦看到這裡,要是不給個答案,良心過意不去啊。

接下來就給出一種簡單粗暴的預測方法吧。上面4個指標的資料包括了僅提名者和獲獎者,那就分別算出僅提名者和獲獎者的4個指標平均值,然後看今年的提名者中誰離獲獎者的資料最近,同時離僅提名者的資料最遠,如何計算這個距離?直接用中學教的兩點間的距離公式,要是還不懂,那就想想直角三角形求斜邊長度的勾股定理。

需注意的是,由於一位提名者可能無法同時滿足這兩點,那再簡化下,計算這兩個距離的差,最小值者為對應的預測結果。另外,評價人數的值明顯比其他值要大,所以計算距離時還要對原資料做下標準化,使得4個指標的值滿足相同分佈,這樣計算才行。

計算結果如下,感覺不靠譜啊…《我和我的祖國》講述了多個故事,惠英紅出演的時長很短,獲獎的機率應該不高。

數讀百花獎十餘載,預測本屆最佳男女主角

如果你喜歡的明星靠後,別在意,俺是業餘的,還用了業餘的方法…

數讀百花獎十餘載,預測本屆最佳男女主角

注:資料來源於統計年鑑、網路等渠道,部分圖片來源於網路,如有侵權告知刪除