需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

許栩原創專欄《

從入門到高手:線性迴歸分析詳解

》第10章,這是本專欄的最後一章,是專欄的完結篇:用線性迴歸分析做預測,多元線性迴歸分析預測的十大步驟。

線性迴歸分析專格欄總目錄請見上圖,前9章,我分別講述了迴歸分析及與回分析相關的概念,一元、多元線性迴歸分析的公式與計算方法,以及多重共線性、迴歸方程的精度、顯著性驗證和置信區間等進行迴歸分析的重要步驟及其計算方法。至此,以迴歸分析進行需求預測的各項知識點及各項準備工作全部完成,我們可以正式的以迴歸分析進行需求預測。

本章,我將詳細講解用

多元線性迴歸分析

進行需求預測的十大步驟:資料收集、資料清洗、列出所有的變數、確定納入迴歸方程的自變數、確定並消除多重共線性、求解多元線性迴歸方程、確認迴歸方程的精度、顯著性驗證、計算置信區間、正式預測。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

一、資料收集。

我們做統計,進行資料分析,首先的,都是需要有資料。有資料才能統計,有資料才能進行資料分析。以迴歸分析做需求預測,同樣需要有資料,最先開始的,是資料收集。

資料收集是按照確定的資料分析和框架內容,有目的的收集、整合相關資料的一個過程。

從上面資料收集的定義可以看出,資料收集需要有明確的目的,即我們先要確定我們是為了什麼事而去收集資料。本專欄的主題是用迴歸分析進行需求預測,所以,在這裡,我們收集資料的目的非常明確,收集資料就是為了有效的採用迴歸分析的方法來進行需求預測。

所以,我們需要收集的,就是與需求預測這個目的相關的資料,比如銷量資料(因變數),以及各種影響銷量因素的資料(自變數)等等。對需求預測沒有幫助的資料,在迴歸分析中不需要收集(比喻相關財務資料)。

迴歸分析需要的資料一般來源於我們日常的記錄(含人工記錄與系統生成),比如生產原始單據與報表、出入庫報單、銷售資料、促銷資訊、重大事件特殊事件記錄、調查與調研資訊等等。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

二、資料清洗。

我們收集到了一定量的資料,但這些資料往往不是直接能用的,我們需要對資料進行一些處理與加工,使資料能夠被我們後續進行各分析所使用,這個過程就是資料清洗。

資料清洗一般包括以下工作(資料清洗方法比較多也比較有針對性,本專欄不深入,大家感興趣,可以私下交流):清除不必要的資料,清除錯誤的資料,填補缺失的資料,轉換資料,提取或合併資料,計算與分組分類等等。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

三、列出所有的變數。

資料收集並清洗後,需要根據資料,列出所有有效的變數(指經收集清洗後有完整可用資料的變數)。

以本專欄迴歸火鍋店為例,在收集資料並經必要的整理清洗後,我們得到了如上圖的資料(迴歸火鍋店每日業績),根據這些資料,可以列出了全部變數(自變數:氣溫、折扣、帥哥站臺;因變數:業績)。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

四、進行相關分析,確定納入迴歸方程的自變數。

列出全部的自變數後,接下來,對每個自變數與因變數進行相關分析,以確定將哪些自變數納入迴歸方程。

如上圖右上所示,我們採取Excel函式CORREL計算相關係數,三個自變數的相關係數分別為氣溫-0。818、折扣-0。793、帥哥站臺0。122。(

相關係數計算詳見本專欄第2章

。)

按照自變數相關程度的標準和是否納入迴歸方程的標準(如上圖右下所示),氣溫和折扣為強相關,直接納入迴歸方程;帥哥站臺為不相關,將其排除在迴歸方程之外。即:迴歸火鍋店這個例子,經相關分析後,我們確定了迴歸方程的兩個自變數:氣溫和折扣。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

五、確定並消除多重共線性。

確定納入迴歸方程的自變數,我們接下來需要判定迴歸方程存不存在多重共線性,如果存在多重共線性話,我們需要進行消除多重共線性的操作。(

關於多重共線性,詳見本專欄第6章

。)

我們用方差膨脹因子(VIF)來判定迴歸方程存不存在多重共線性。如上圖,本例中,VIF計算結果,氣溫(VIF=3。022),折扣(VIF=2。694)。根據方差膨脹因子可接受到標準,本案例中,兩個自變數VIF都小於5,表明我們兩個自變數之間不存在多重共線性,不需要進行消除多重共線性的操作。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

六、求解多元線性迴歸方程。

經過以上步驟,按回歸火鍋店的資料,最終選擇兩個自變數,氣溫和促銷折扣,我們列出多元線性迴歸方程:y=a1x1+a2x2+b。接下來,就是進行多元線性迴歸方程的求解。(

求解多元迴歸方程詳見本專欄第5章

。)

如上圖, 我們採用Excel函式LINEST求解多元迴歸方程。(LINEST函式的用法詳見本專欄的第4、5兩章。特別提醒,LINEST函式是一個數組函式,一起選中需要輸入公式的三個單元格,完成公式內容輸入後,Ctrl+Shift+Enter三鍵同按最終完成公式錄入,得出函式計算結果。)

本例兩個自變數從左到右依次是氣溫和折扣,LINEST函式計劃出來的迴歸係數從左到右依次是折扣和氣溫,順序相反。本例兩個自變量回歸係數分別是,氣溫迴歸係數-140。7,折扣迴歸係數是-10582。7,截距為15801。2(兩個迴歸係數均為負數,代表這兩個自變數和因變數都是反相關關係。即氣溫越高,業績越低,折扣力度越大,業績越高)。

本例多元迴歸方程求解結果:y=-140。7x1-10582。7x2+15801。2。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

七、確認迴歸方程的精度。

求出迴歸方程後,我們需要對這個迴歸方程進行一系列評價和評估,第一個要做的是確認迴歸方程的精度。

我們用給調整後的R2來衡量回歸方程精度。(

判定係數R2與調整後的R2詳見本專欄第2章

)。

確認迴歸方程的精度具體步驟如下(詳細如上圖)。

1、按求出的迴歸方程對已有資料進行預測,得到預測業績資料列(y’)。

2、計算因變數實際業績y與預測業績y’的相關係數R,計算結果為0。857。

3、計算因變數實際業績y與預測業績y’的判定係數R2,計算結果為0。734。

4、計算調整後的R2,計算結果為0。686

5、按我建議的確認迴歸方程精度的判定標準(

詳見本專欄第7章

),本例調整後的R2為0。686,接近0。75,表示迴歸模型擬合度較好,迴歸方程的精度較高,迴歸方程的精度確認成功。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

八、顯著性驗證。

顯著性驗證的方法一般有兩種,一是測算迴歸方程總體顯著性的F檢驗,二是測算迴歸係數個體顯著性的t檢驗。(

顯著性驗證詳見本專欄第8章

。)

本例採用第一種方法,即迴歸方程的總體顯著性驗證的F檢驗。

F檢驗測算的是迴歸方程的總體顯著性,我們以Excel的資料分析工具來進行F檢驗。

請見上圖。本例F檢驗,上圖是以5%的顯著性水平(置信度95%),用Excel的資料分析工具中的迴歸分析計算的結果。結果顯示,F統計值為15。19。

我們用Excel函式FINV來計算標準的F統計值,將顯著性水平0。05,第1自由度2,第2自由度11(14-2-1)輸入函式,得出標準的F統計值3。98。

計算的F統計值為15。19,遠大於標準的F統計值3。98,本例顯著性驗證F檢驗成功。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

九、計算置信區間。

經過迴歸方程的顯著性驗證,接下來,我們計算置信區間。(

關於置信度與置信區間,詳見本專欄第9章

。)

我們用Excel函式TINV+STDEVA+ SQRT來計算置信區間,詳細如下(見上圖)。

1、用TINV函式計算t值。將顯著性水平α=0。05,樣本個數n=14,輸入函式,t值=TINV(0。05,14-1)=2。16。

2、用STDEVA函式計算預測業績y’的標準差,如下圖,y’的標準差=747。

3、將以上資料套入置信區間的計算公式,計算置信區間,得出,置信區間=±2。16*747/SQRT(14)=±431。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

十、正式預測並得出預測結果。

好,我們經過上述九步的一系列動作,現在可以正式預測了。

經天氣預報查詢,未來1月26日氣溫為-2℃,經迴歸火鍋店管理層決定,當天火鍋店進行97折促銷,我們以迴歸分析來預測1月26日迴歸火鍋店的業績,具體的有以下幾點(見上圖)。

1、我們將需要預測當天的兩個自變數(氣溫為-2℃,折扣0。97),代入上幾步我們解出的,已經確認過精度的,並進行過顯著性驗證的多元迴歸方程y=-140。7x1-10582。7x2+15801。2,得出當天業績預測的基準結果(如預測過程中沒有引進置信區間,那這個基準結果就是最終預測結果),即y=-140。7*(-2)-10582。7*0。97+15801。2= 5817元。

2、我們設定的置信水平是95%,根據第九步的計算,置信區間=±431,我們以預測的基準結果±431,得到當日預測業績的上下限,即5817±431,最大6248元,最小5386元。

3、當氣溫-2度,並進行97折促銷時,我們得出預測結果:1月26日,迴歸火鍋店的業績,有95%的可能在5386元~6248元之間。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

專欄總結。

至此,許栩原創專欄《

從入門到高手:線性迴歸分析詳解

》共10章,全部更新完成。下面再回顧一下專欄的全部內容,作為總結。

第1章,我講述了變數、因變數、自變數和“啞變數”的相關概念。

第2章,詳細介紹確定關係與相關關係,相關係數與判定係數的概念及其計算方法。

第3章,從頭說明迴歸分析的歷史、概念和分類。

第4章和第5章,分別講解一元線性迴歸方程和多元線性迴歸方程的公式和計算方法。

第6章,重點介紹多元迴歸分析的常見現象,多重共線性。

第7章~第9章,我分別講述瞭如何確認迴歸方程的精度,如何進行顯著性驗證,以及如何計算置信區間。

第10章,正式預測。

需求預測:線性迴歸分析詳解,用迴歸分析做需求預測的十大步驟

許栩原創專欄《

從入門到高手:線性迴歸分析詳解

》全部內容就講解到這裡,感謝您的支援與閱讀,許栩原創下一個專欄再見,謝謝!