資料科學 (Data Science) 是一門跨領域的學科,他使用數學、統計學、電腦科學以及領域相關的知識和理論,從結構化和非結構化的數據中提取知識和見解。
資料科學家在做什麼?Data Scientist 工作內容與3大核心技能
資料科學有什麼用途?解決生活上什麼問題?
透過大數據與資料科學,我們的生活上有許多資料科學應用的例子,包含
- 識別:例如運用數據進行臉部辨識、聲紋辨識、車牌辨識
- 分類:運用數據將特定特徵的email或是客戶進行分群
- 預測:以過往的模式預測銷售的成效或預期的天氣變化。
- 檢測過濾:運用數據來辨別是否是詐欺郵件,或是檢測可能的疾病或犯罪
- 推薦:通過數據學習你的偏好,推薦給你更可能需要的商品或是影劇
- 優化:依照過往的數據優化你的行車路線,或是加速你的餐點或貨物的遞送。
如何學習資料科學?
首先你要知道為什麼要學資料科學,要有明確的理由有想要解決的問題,才會更有目標來研究並精進自己的技能。
其次你要打好基礎,最常入門資料科學的三大背景為:資訊科學、數學與統計、商業知識,因為資料科學家的工作會運用到溝通、分析與建立模型。
三者中最重要的為「數學與統計能力」。資料科學需要去摸索並解決問題,而怎麼做決定就需要統計能力。當看到一個問題,是否能用資料證明,它跟什麼是有相關的,或是做 A/B 測試時,知道要把 A/B 測試跑在多少人身上,能得到準確的估計結果。擁有數學與統計能力,才能真正做到資料導向的決策。
最後你要學會溝通,因為當別人提出需求時,很重要的一點是「先問他到底為什麼要做?」溝通很重要,如果不了解背後動機,時間花了做出來對方不滿意,那就是兩敗俱傷。所以要先溝通需求,釐清原本的問題是什麼。
資料科學的學習資源
Kaggle:這是一個全世界最大的資料科學學習社群,裡面隨時都有各種資料分析和預測建模的競賽,參與這些競賽來解決現實世界的資料科學和機器學習的問題。
Google Cloud:Google提供的快速學習和練習機器學習的免費課程。
開源數據科學大師:一個學習資料科學的資源整理,在Github上可以幫助你了解你需要哪些核心能力
資料科學領域可以關注的Blog
資料科學的領域範疇廣大,要小心不要在廣闊的海洋中迷路,如果想要從最基礎的資料庫開始學起,ALPHA Camp也有課程幫助你了解。