資料分析 5 步驟,成為數據分析師 Data Analyst 的 Top 3 技能

什麼是資料分析(Data Analysis)?

資料分析是一種過程,透過搜集、清理、處理和解釋大量的資料,以找出有用的信息、提出結論或支援決策的過程。資料分析可以用於多個領域,包括商業、科學研究、政府決策等。在商業領域,資料分析是一種能力,可以幫助公司了解他們的客戶、評估廣告活動和產品性能、競爭情勢分析,並做出有根據的決策。

資料分析 5 步驟

1. 定義與拆解問題

需要資料分析的場景,必然先有一個要解決的問題,例如客戶為什麼用戶在App使用後留不住,哪些廣告投放的渠道最有效等等。拆解不同的商業情境,把情境變成「資料能夠回答」的問題,你需要決定使用哪種類型的數據分析,追蹤並分析哪些明確的數據指標,以及要如何測量這些指標。

正確的定義問題步驟應為:

  1. 定義問題時,首先要釐清背後的目的:目的決定該解決的問題。不要直接想解決方法,而是先釐清要解決的問題是什麼;
  2. 針對問題進行前置研究,並拆解下一層的問題:透過前置研究,能掌握整個問題的脈絡及背景,並更精準拆解出下一層的問題;
  3. 將抽象的問題轉換為可量化的指標:透過量化指標讓問題可以被資料驗證重現。

免費點我下載完整數據分析案例

2. 探索資料

搜集正確的數據

明確目的後和要搜集的數據與指標後,要找到問題關鍵的數據源,通常來自公司內部各種工具收集的第一方結構化數據,包含CRM軟體、行銷數據工具等。同時為了要更完善自己的分析,你也可能從第二方數據(外部組織搜集的第一方結構化數據,例如FB的像素追蹤)作為輔助,或是再使用第三方數據(通常是第三方組織搜集大量非結構化數據,可能是DMP數據管理平台或是第三方研究機構搜集的數據)

什麼是 Data Mining?資料探勘常用工具與實例

清理數據

為了要防止資料分析錯誤結論產生損害業務的結論,數據收集好一個重要的工作,就是要識別並清除會造成扭曲分析結果的重複數據和異常值、填補數據缺漏以及修正不正確的格式。同時刪除掉和你預期要分析的問題不相關的數據。一般來說資料分析師會花60%以上的時間在清理數據。

3. 分析數據

數據清理完成後,你要開始從事資料分析,而資料分析的類別大致上有這四種:

  • 描述分析(Descriptive analysis):描述性分析回答 What happened 這個問題,確定已經發生的事,雖然沒辦法從中做出預測,但是整理好的描述分析能確認數據以有意義的方式呈現,並打好進一步分析的基礎。
  • 診斷分析(Diagnostic Analysis):診斷分析幫助你了解 Why did it happen 為什麼會發生這樣的狀況,資料分析師能找到過去存在類似的模式,將可能導致這個結果的因素建立相關性,例如電商結帳失敗提高的原因,可能是結帳頁面要填的資料太多導致客戶流失,可以從過去與現在填寫完成率做比較。
  • 預測分析(Predictive Analysis):預測分析則是回答 What will happen 未來可能會發生什麼,透過找到過去數據的規律,預測未來的可能趨勢和潛在問題。例如透過過去數據的觀察,第四季是電商購物的旺季,廣告投放產生的效益和其他季有明顯差異。
  • 處方式分析(Prescriptive Analysis):處方式分析則是混合了其他數據分析,因為你知道希望的結果是什麼,為了達成這個目標,可以事前做出哪些相應的動作。例如保險業想要獲利最大化,就通過數據搜集預測誰是高風險族群,將他們的保費提高。

4. 驗證假設

在分析數據後,我們會得到一些初步的結論或假設。這個階段需要我們對這些假設進行驗證,主要方法包括:

  1. 統計檢定:運用專業的統計方法來檢驗假設是否成立。這可能包括了 t 檢驗,卡方檢定,ANOVA(變異數分析)等。
  2. 模型的交叉驗證:如果我們建立了預測模型,可以使用交叉驗證的方法來評估模型的性能。這包括了 K 折交叉驗證,留一法等。
  3. 再次數據分析:針對特定的假設,我們可能需要進一步深入的數據分析來驗證。這可能涉及到更複雜的統計模型,機器學習模型等。

通過驗證,我們可以確定我們的結論是否可靠,並且評估我們的模型或方法的性能。

5. 溝通決策

在所有的分析完成後,最後一個步驟是將我們的結果溝通給其他人。溝通決策的關鍵要素包括:

  1. 數據解讀:我們需要將分析結果轉化為可理解的語言,並解釋其對業務的意義。這可能包括將統計結果轉化為業務指標,解釋模型預測的影響等。
  2. 資料視覺化:一個好的圖表或視覺化可以使結果更容易理解。我們需要選擇合適的視覺化工具和圖表,如折線圖、柱狀圖、熱力圖等,來展現我們的分析結果。
  3. 撰寫報告和演示:撰寫一份清晰的報告或準備一份演示是將結果有效溝通的重要工具。報告或演示應該包含所有重要的分析結果,並且組織結構清晰,語言簡明。

透過有效的溝通,我們可以確保我們的分析結果不僅僅被理解,而且可以被用來支持業務決策和行動。

 


如何成為數據分析師:必備的 3 個技能

三個成為數據分析師的學習重點:專業技能、產業知識、及批判性思考:

  • 專業技能:Excel、程式語言 SQL、R / Python。此外資料視覺化工具例如Tableau、統計知識,也是資料分析師需要培養的能力。
  • 產業知識:不同產業的分析面向,差異很大。建議「一開始就先選定特定產業,了解它如何運作、自己又該補足哪些知識。」
  • 批判性思考:多運用框架幫助思考,如 AIDMA 行銷框架、AARRR 產品框架,把宏觀的現象拆解成一個個可驗證的步驟。另外,目標導向思考也很重要,能幫助自己「了解對方為什麼要做這件事?我們的觀點又是什麼、該如何幫助對方?」做到目標導向的思考,才能釐清對方的需求、真正解決問題。
  • 軟實力:能夠團隊合作解決問題的能力,關注數字的細節和準確性,擅長口頭與書面的溝通表達包含寫報告和進行presentation。

數據分析師的工作內容有哪些?薪水狀況又如何?

資料分析會遇到的挑戰與解方

  1. 資料的隱私和安全問題:在分析過程中,我們必須確保數據不會被不當地使用或洩漏。解決方法: 嚴格遵守數據保護法規,如歐盟的一般數據保護法規(GDPR)。在技術上,可以採取資料加密、使用安全的雲儲存服務等方法來保護資料的安全。
  2. 數據品質問題:輸入錯誤、缺失值、異常值和重複數據都可能導致分析結果的偏差。解決方法: 建立數據清洗流程,例如,進行異常值檢測、填補缺失值、刪除重複數據等。導入數據質量管理工具也可以提升數據品質。
  3. 大數據處理:隨著數據量的日益增加,如何有效地儲存、處理和分析大數據成為一個重要的挑戰。解決方法: 進行專業的數據工程設計,例如建立數據倉庫或數據湖,並使用大數據處理工具,如Hadoop、Spark等。另外,使用雲計算服務也是一種處理大數據的有效方式。

資料分析的常用工具

  1. Microsoft Excel:無論是資料整理、簡單的統計分析、資料視覺化,或是進階的功能如 VBA 程式設計,Excel 都是非常重要的工具。
  2. Python: Python 是一種程式語言,廣泛用於數據科學和分析。Python 擁有大量的數據科學相關套件,如 Pandas 用於資料處理,Matplotlib 和 Seaborn 用於資料視覺化,Scikit-learn 用於機器學習等。
  3. R: R 也是一種廣泛使用的數據分析語言。它具有強大的統計和圖形功能,特別適合進行統計分析和資料視覺化。
  4. SQL: SQL 是處理資料庫的主要語言,用來撰寫查詢、更新和操作資料。
  5. Tableau: Tableau 是一款領先的商業智能工具,用於資料視覺化和儀表板創建。
  6. PowerBI: 這是 Microsoft 的商業智能工具,具有強大的資料整合、視覺化和報告功能。
  7. Google Analytics: Google Analytics 是一個用於網站和應用程式分析的工具,可用來追蹤和報告網站流量。

數據分析師和資料科學家的差別

數據分析師比較強調的是「如何找到適合資料可以解決的問題」,對資料理解與定義問題的敏銳度。數據分析師在資料探索及資料視覺化的要求會高一點。而資料科學家則更重視模型與理論,需要比較完整的資料知識體系,例如統計,最佳化及資料模型這方便的了解。

資料科學家、資料分析師、資料工程師,實務上如何在資料團隊分工

結語

無論是企業戰略決策、打造產品、數位行銷,或是銷售客服,每個營運的環節都能夠透過數據與資料的分析進行優化與判斷,幫助企業做出更有效果和依據的決策。讓 Data Analysis 資料分析成為未來所有企業都應該要掌握的關鍵能力。數據與資料無處不在,要如何做好搜集整理與做出結論判斷,是需要有系統的學習和實踐。

從資料分析入門課開始建立數據思維,4 週養成數據洞察力與實戰問題解決力