自學統計學資料分析:認識 3 個基本統計知識


統計到底哪裡可以用得到?又要怎麼開始呢?

剛開始想了解資料與統計的同學們,常常聽到資料界的工程師說分析、模型都要用到統計的觀念,但統計的觀念是運用在哪,卻總是難以具體地感受到。找來一本統計課本,卻對一開始的基本知識感到疏遠而容易失去興趣。

所以我希望透過本文中的簡單例子,來介紹一些統計的概念。希望透過例子,讓你了解統計的使用情境與產生興趣。為了簡單的傳達概念,文章內容會省略掉一些計算細節,然後會出現幾個對剛開始想了解統計的人來說陌生的名詞,但大致不妨礙這篇文章想傳達的概念。希望平常忙碌的你,可以因為這邊粗淺的介紹,讓你產生較具體的感覺跟興趣。而更多細節,在你看完並且還想進一步了解後,就可以拿一本統計學課本來好好的來研究喔。

延伸閱讀:Data Engineer 工作內容是什麼?從面試重點了解資料工程師


那我們開始吧!

我們先看看兩張關於統計的meme圖

為什麼左圖江南大叔那麼看起來意氣風發,然後右圖的小熊看起來有點無奈?還有那個P又是什麼意思


根據統計,我們能推測什麼

剛開始想了解統計的人可能會好奇這樣一個情境,我們有兩組數據,經過計算之後,我們知道了平均數,最大值最小值等等的數字,那我們還能對這兩組數據做些什麼?我們能不能透過這兩組數據,講出一個推測的結論呢?

好比說假設這樣一個例子,你是一名教育業者,專注在開發學童線上學習平台,所以你招來了100位小朋友,平分為兩組,A組在平常放學之後,再給他們一個線上學習帳號,並且要他們放學回家之後還要上線加強學習並且交作業簽到。B組則如往常一般,放學回家想做什麼就做什麼,要學習的學習要玩耍的玩耍,然後我們來看看這兩組小朋友的學期總成績分數表現如何。

結果成績出來了,A、B組之間總成績平均起來,只差了0.1分,那麼是否可以就此說,兩組小朋友的成績幾乎沒有差別呢?

在統計裡面,有一個重要的概念,叫做假設。能否假設兩組數據之間有差異(兩組學童之間平均分數相差頗大)或是無差異(兩組學童之間平均分數相同或幾乎無差距)

怎麼做呢?首先我們要建立一個我們預期也想要得到的假設敘述,好比說在這個例子中,你是學習平台的開發商,你就會想要這樣假設:

我開發的學習平台,內容豐富,有趣易懂,小朋友用了之後可以有效提升學習表現成績,這樣家長就會願意幫他們的寶貝訂閱我的學習平台囉

那如何驗證你的假設是值得相信的呢?就是比較兩組小朋友的試用結果。讓他們用一陣子,之後考試,比較兩組,接著來看看前面的假設是否經的起考驗,與此同時也會有一個相對於前面的假設,叫做:

用了學習平台之後的小朋友跟沒有使用的小朋友之間,他們的成績表現幾乎是一樣的,直白上講就是這個學習平台沒有提升孩童成績的效果。


建立假設,開始檢定

以下有一些陌生名詞出現,但是你可以先大致讀過有概念就好

在統計上前面那兩個假設叫做虛無假設與對立假設

H0是虛無假設Null hypothesis的符號,Ha是對立假設Alternative hypothesis的符號

用統計一點的方法來描述上面的假設會這樣寫

  • H0: 使用學習平台的A組小朋友與B組小朋友之間的成績無差異
  • Ha: 使用學習平台的A組小朋友與B組小朋友之間的成績有顯著差異

接著你就要進行檢定,看是接受Ha,還是不拒絕H0 (你或許會覺得奇怪為什麼不說接受H0,因為需要一些說明,所以這邊請先讀作不拒絕H0)

那身為一個線上學習平台教育業者的你,一定是希望檢定的結果是接受Ha對吧!那怎麼做呢,我們可以看看P value(P值),這是決定接不接受假設的關鍵

P值可以想像是一個門檻,好比加入籃球隊的身高門檻訂為身高至少180公分,所以高過這個門檻的人可以申請參加籃球隊。而P值的門檻是一個通常設為0.05的數,它的觀看方式是這樣的,計算出來的P值若小於0.05,則接受Ha;如果大於0.05,則不拒絕H0。

看到這邊請不要轉台,你可能會質疑不是說不妨礙傳達觀念嗎,怎麼突然跑出來一個P值也沒說怎麼算,還有那些H什麼的符號…

我們先喝杯茶休息一下,上面鋪陳的情節,是要說明,你有興趣的結論,是經由假設,並且藉由計算後的一個數值(P值),來推斷你的假設是否可被接受

所以回到最上面的圖,這樣你知道為什麼P<0.05的江南大叔看起來是意氣風發的了嗎?因為經過檢定,提出的假設是被接受的,對於教育業者來說,就是線上學習的效果是顯著的,所以你可以著手後續的決策(好比說開始規劃行銷計畫)。相同概念的假設檢定用在開發新藥的情境來說,新藥開發者就可以用假設檢定的方法來看新藥的療效是否是顯著的。

反過來,有沒有希望觀察到無差異(或是沒有太大差異)的時候呢?假設有一種新的環保塑膠被開發出來,它的品質不錯成本也低,飲料廠商就會想知道,使用新的環保塑膠製造的寶特瓶,跟傳統的寶特瓶比起來,瓶身強度是否沒有差異?

這個P值的應用,可以在資料模型篩選的時候看到,比如下面的假設:

H0: 小模型是合適的 (大小模型間沒有差異)

Ha: 大模型是合適的 (大小模型間有顯著差異)

當我們有兩個模型,並且彼此間的差異很小的情況下,我們會傾向選擇較小較精簡的模型,若算出來的P值是小於0.05,那麼我們就會選擇大模型,因為大模型跟小模型之間有顯著的差異。

所以你平常有沒有什麼情況,是需要比較兩組數據,然後給出一個結論才方便後面接著做工作的情境呢?

數據分析師的3個必備技能與工作內容


再介紹一些好用的基本知識

經過上面的介紹,不知道有沒有讓你對統計扮演的角色有更具體的感覺呢?

在資料領域中,還有沒有別的例子呢?在舉例子之前,這邊先簡單的介紹幾個統計課本前幾頁會出現的基礎知識

首先,我們先知道,統計學有兩種,一種叫敘述統計學,另一種叫推論統計學

敘述統計是我們平常最常見到的,我們將資料整理,計算出個數、平均數、最大值最小值等等的數,用這些數,來呈現資料的樣貌,就是敘述統計

推論統計,就是希望透過抽樣,去推估整體的樣貌,也就是藉由觀察部分,進一步去推測整體的情形 

我們對統計有基本的認識之後,接者就從平均數開始認識吧

平均數,在一群資料中不出頭也不落後的數

平均數,這個大家應該最為熟知,將所有資料數值加在一起,再用資料的筆數來除,得到的就是平均數。

像是這樣:

禮拜一到禮拜五的咖啡錢,分別花了 35元、25元、60元、65元、80元

所以總花費是35+25+60+65+80 = 265元,一天平均要花265/5 = 53元在咖啡上

那平均數的算法如果寫成式子是長這樣

(35 + 25 + 60 + 65 + 80) / 5 = 53

這週買咖啡所花的錢平均數為 53(元)

經由上面的介紹,我們知道平均數是一個很簡單易用的統計方法,當抽樣資料多的時候,也僅是將資料加總後除以總資料筆數,就可以得知資料的平均樣貌。

但是算平均數有個比較要注意的事情,平均數很容易被離群值影響,尤其是特別離群的資料數值,好比說收入資料的平均數,假設我是一位剛畢業的大學生,我的第一份收入的薪資,跟班上其他同學比起來,基本上相差不會太多,平均起來我們畢業班每一個人的收入數字跟整班的收入平均數是相去不遠的。

但是過了六七年,或許有同學所在的產業爆發性的成長,或是創業,或是去海外名校攻讀了一個商管碩士學位,並且進入國際級投資銀行工作,這時候我們班的薪資平均數字就會跟剛畢業的大夥兒相去甚遠,有很大的機會我們班的平均薪資會被大幅拉升,這就是平均數會被極端值影響的特性,所以在使用上要特別注意,看到這邊你知道政府為什麼喜歡公布勞工薪資平均數的調查資料了嗎?(延伸問題:有沒有哪種統計方式可以降低離群值的影響呢?)

接著我們看看標準差 

標準差,衡量資料間離散的程度

標準差

標準差我們可以這樣想,他是一個表示資料離散程度的數值

計算的方式是這樣

用每個資料一一去減平均數,得到的值再開平方,然後把這些值全部加起來,再除以總資料筆數,最後再開根號。

觀察離散的程度我們可以知道一組數據是不是集中的,好比下面這個例子

A班分數

90, 91, 88, 89, 90, 90, 89, 80

B班分數

100, 99, 79, 78, 98, 79, 97, 77

兩班的平均分數是一樣的,都是 88.38。但是A班的標準差是3.5,B班的標準差是10.86。

A班的標準差較小,意味著相較於B班,A班的表現更為集中,你可以看到A班沒有人考到100,B班有一個100分,B班也有三個人逼近100分,但是觀察全部的表現,A班的分數集中在80到91分之間,而B班的分數範圍就大得多,從77分到100分之間。

因此藉由計算標準差,我們能以數字的方式來描述資料集中的程度,所以當你看到一組資料後,不妨也看看資料的離散程度,瞭解整個資料的樣貌。


常態曲線,視覺化的資料分布樣貌

(參考圖示    標準差為1的常態曲線)

常態簡單的說,就是將多個資料依觀測到的數值與次數,記錄在圖紙上,經過大量的觀察後,畫出次數累積的圖,會得到一個趨近左右對稱的類似吊鐘的一個剖面的一個曲線圖。

好比說這樣的一個例子,國家公園的生態調查員要觀察整個山區的猴子體重,假設生態調查員真的能找到所有的猴子,並且量牠們的體重,我們就會發現,在自然環境中,猴子的體重是有高有低的,但是體重極高跟極低的猴子個體並不是多數,大部分的體重,都會集中在某一個平均數,將觀察到的資料跟個數畫圖出來,就會接近常態曲線,這樣的資料分布稱作常態分佈,在自然環境中可以觀察到很多事物都是符合常態分佈的

上面圖中的常態曲線,是一個標準差為1的曲線,所以你可以想像的出來,標準差變大或變小的時候,曲線是會變得趨於尖銳還是趨於平緩呢?

(參考圖示    左圖:標準差1.5 / 右圖:標準差0.5)

相對於常態的,也會有非常態的資料。當資料不是常態,有偏斜的時候(資料傾向集中在某側),畫出來的曲線會被影響,會產生左偏或右偏,偏斜的圖形長的是這樣

(參考圖示    左圖:左偏 / 右圖:右偏)

其實到這邊,可以知道一個訊息,在沒有左右偏的時後,觀察到的資料大部分會是在中央的區域,少部分的資料是在左右兩端的那個扁扁的區域內。而文章最前面的P值,P指的是機率(Probability ),常態曲線下圍出來的面積為1,也就是全部觀察到資料的機率總和為1


小結

在資料分析的過程中,有不少做法都會用到統計,像是多變量分析裡頭關於距離的計算,或是迴歸分析中對於勝算比的計算,都是需要認識一些基本統計之後會讓你更好進入狀況。

並且對於資料有比較多的認識與知道資料的特徵後,會幫助你在分析時使用適當的方式來處理資料

最後這邊想要分享一個我自己在參加kaggle比賽時用到前面介紹的統計知識來解題的小例子

我有跟同學組隊參加過一個預測新聞主題分類的kaggle比賽,在進入機器學習訓練的階段後,預測分數始終卡在一個點不再往前,後來經過討論,針對預測後的分類進行繪圖,這時候文章前面提到的常態分佈的概念就用上了,我們發現預測後的結果是有偏斜的,這些資料可能將我們的模型訓練出偏差來了,後來再經過與同學的討論與查詢,找到一個機器學習中專門處理不平衡的資料的套件(ComplementNB)來提升分數。

雖然這是一個微不足道的小例子,但是在解題中由困頓到有推進的那種感覺,著實讓我體會到學長姊所說的統計在資料分析中會用到的那種感覺。

希望這篇文章能讓你有多了解一點統計在分析上扮演的角色,並且能讓你有興趣進一步了解統計相關的東西。

資料分析怎麼開始?先建立 5 步驟的思維