Loading...

大數據興起,資料科學家成為近年最炙手可熱的職位。但到底資料科學家在做什麼?想開啟資料科學家職涯,該具備哪些特質與技能?

8 月 ALPHA Camp AMA 直播活動,邀請到主張數據 Numbers 創辦人暨執行長 Tammy,分享她在資料科學領域的創業經驗與觀察。

成為資料科學家不只有單一路徑,求學期間一路深耕物理專業的 Tammy,將分享她如何從物理博士轉變為資料科學家,並解惑資料科學、AI 領域相關問題:

從物理實驗室到資料科學領域二次創業之路

踏入資料科學領域前,Tammy 過去的求學背景都在與物理打交道:高中即開始天文物理的研究,大學念高能物理,最後取得粒子物理學博士。

畢業後,Tammy 在外商公司擔任軟體工程師、技術團隊負責人。2015 年 AI 風潮興起,她與朋友開啟資料科學領域創業之路,先後成立 DT42 與 Numbers 兩家公司。DT42 聚焦提供 edge AI 相關解決方案,Numbers 則出於對資料源頭的重視,運用區塊鏈與 AI 技術建立數據溯源系統,確保在資料產生當下,就建立不可被偽造或竄改的紀錄。

資料科學應用案例:如何量化複雜問題,在系統導入任務排序機制

擁有資料科學知識與技能,能做到什麼?Tammy 分享她在外商軟體公司擔任技術團隊負責人時,運用資料科學的實際案例:

技術團隊每天會收到來自不同部門回報的 issue,而各部門都會認為自己的需求要優先處理。為了排序 issue 的優先處理順序,Tammy 希望打造一個系統,當輸入訊息後,能夠產出該 issue「重要/不重要」的結果。

於是,她採取以下作法:

  1. 使用資料來源:公司的 Bug Tracking System
  2. 拆解現有資料:拆解 Bug Tracking System 上面的訊息,如留言、時間、優先度、文字等訊息,作基本資料分析
  3. 收集缺少的資料:有些資料原本就不在系統資料庫裡,它可能是「人心裡的訊息」,因此透過給各個職位角色「tag」的方式,請他們標註覺得重要的任務
  4. 系統運算後,取得「任務重要度分數」量化指標:藉由以上資料,系統會計算出綜合性的分數,根據分數高低,排序 issue 處理優先度
  5. 收集各部門回饋,進行系統排序機制的滾動式修正

這項運用資料科學優化流程的經驗,同樣適用於其他地方。核心原則為:把複雜問題量化,團隊取得公開透明的遊戲規則,進行實驗討論。重點在於決定規則的過程,而非結果,這就是科學精神。

想看更多,歡迎觀看精彩直播片段

資料科學五大 Q&A:如何成為資料科學家?資料科學產業的未來?

針對如何開啟資料科學職涯、產業未來如何發展等種種提問,Tammy 詳細解惑,揭開資料科學神秘面紗。

資料科學家未來會消失嗎?

對於某些文章指出,到了 2029 年不再有資料科學家這個職位存在,Tammy 抱持著相反的看法,她解釋道:

資料科學是一個科學,不會因為公式出來後,科學就消失了,永遠都有問題等待被解決。很多人說資料科學家都在建立模型、做 AI 分析,當 AI 越來越強,只要把資料丟進去就會跑出結果,不需要資料科學家了。

但即使 AI 越來越厲害,還是有很多資料科學家可發揮的地方:

  1. AI 建模時,如何了解資料、釐清資料,不讓 Garbage in, garbage out,仰賴資料科學家的判斷
  2. 當資料還不存在,如何設計蒐集資料的流程、得到最後分析結果,需要資料科學家去設計發想

資料科學家需具備什麼技能與特質?如何確定自己適不適合?

Tammy 認為成為資料科學家,需要具備以下三大特質與能力 :

  1. 對資料的好奇心與熱情:最好的資料科學家,一定會具備對資料的好奇心與熱情,當看到某個訊號時,會主動去問「為什麼」。舉個生活化的例子,公司冰箱裡會放可樂,但會發現可樂在某些時間消耗很快、某些時間消耗得慢,這時候如果你對這個問題有興趣,想蒐集資料去研究分析,就是具備好奇心的證明。

  2. 軟體使用及資料視覺化能力:將資料視覺化需要創意,比如當你拿到 1、2、3 這些數字,會去思考用什麼方式,哪種軟體進行視覺化,並且還能跟問題本身有連結。

  3. 機器學習與統計能力:機器學習是解決資料科學問題很常用的一個工具。資料的種類與複雜度會影響使用工具的場景,在不同流程階段,會運用不同的機器學習方式。比如當你拿到大量影像資料,這時候 AI 模型很常在前期就被導入,針對某些 Tag 做分類 得到初步結果,後續再做分析;SVM 則適合在資料清理完,有初步分析結果後,再使用 SVM 做一次機器學習。

若想踏入資料科學領域,懂得運用機器學習工具是很好的入門磚,因為目前產業界中大概有 70% 資料科學家職缺,都是資料清理完後,需要有人來做最後的機器學習分析。因此機器學習會是資料科學家前三熱門的技能。

至於如何確定自己適不適合當資料科學家?Tammy 認為最重要的一點.還是

要對資料有興趣,擁有透過數字去解決問題的熱情與能力。

數學能力好不好是其次,資料分析時每天就是面對一堆數字,重點在於喜不喜歡,如果不喜歡,每天面對它就很痛苦。

另外,由於資料科學領域所使用的工具、軟體會變動很快,因此會需要有樂於去學習新工具的心態。

想成為資料科學家,如何累積作品?

在資料科學社群平台 Kaggle 累積作品是蠻好的入門方式。很多人來應徵資料科學家時,會展示在 Kaggle 的作品、建了哪些 AI 模型。但要注意,更重要的是面試官想知道你如何去挖掘背後的問題,如何看待資料,你的想法與其他人有何差異。因此除了展示作品集外,還是要著重對問題本身的分析。

擁有資料科學產業的 Domain Know How 比較重要,還是數據處理技術?

每間公司的需求會不太一樣,面試時資料科學團隊規模的大小,會決定這兩件事的重要程度:

  • 團隊規模大:若團隊已經有 4、5 個人,那他們可能已經用 Domain Know How 把基礎建設做好,這時會更需要有人處理數據
  • 團隊規模小:如果你是團隊第一人,這時擁有資料科學 Domain Know How 就超重要

Domain Know How 跟數據處理技術,這兩者其實都需要兼顧。差別只在於團隊是否有他人能依賴,並取得協助。

資料科學產業將如何發展?

Tammy 說明,台灣大部分公司其實都有蠻好的資料。雖然大家都在談 Big Data,但有研究報告指出,直到 2025 年前,其實都不是 Big Data 的時代,因為 Big Data 早已被掌握在 Google、Amazon 等大公司中。

對一般公司而言,更重要的是商業上的「Small Data」,這些資料的價值還沒被發揮出來,是台灣產業很值得去做的事。每個公司都有獨一無二的資料類型,而這些資料都可以為商業問題帶來新的價值。

資料科學與 AI:工程師在 AI 開發能扮演什麼角色?

未來哪些類型產業特別需要 AI?

人力缺乏的產業,會需要 AI,比如工廠、醫療產業。中國、巴西很多工廠經營者,常常徵不到人,就需要導入 AI,做工廠自動化。而醫療產業,因為培養醫生很不容易,也會需要 AI。

軟體工程師在 AI 開發上,可以扮演哪些角色?

AI 開發時,從設計 AI 演算法基礎建設、產生軟體應用、到製作使用者互動介面,都會需要軟體工程師。AI 就是一套技術,資料科學家負責在資料層面處理、如何去問問題,而工程師則是扮演著銜接橋梁,在過程中打造不同工具的角色。

認識演算法(Algorithm)與運算思維(Computational Thinking)

從事網站開發,在技術方面如何與 AI 銜接?

很多公司或組織像 Google、Amazon、OpenAI 等,都有提供許多 AI 功能的 Api 讓大家做串接。因此在網站開發或其他應用面上,不須要真的去做出一套 AI,而是可以在需要用到 AI 技術時,把網站跟 AI 的 API 進行串接。  

資料科學或網頁開發,程式開發該選哪個領域?

結語

藉由 Tammy 的分享,你是否對於資料科學家職涯與產業未來發展有進一步認識?想踏進資料科學領域,可以評估自己擁有的特質與技能,決定要當資料科學家,或以軟體工程師的方式實現。

若擁有對資料的熱情及好奇心,且有使用機器學習或軟體工具去解決問題的能力,可以選擇成為資料科學家。又或者已經是軟體工程師,對於技術開發更有興趣,則可透過打造 AI 相關應用及軟體、或串接第三方 API 的方式,實現 AI 技術。不論何者,都是進入資料科學領域很好的方式。

讓AC成為你的科技職涯加速器

成為企業渴求的程式人才!

在家學會 JavaScript 網路開發

全新「全端 Web App 開發」課程,給你看得見的學習成效!
超過 90% 轉職成功,400 位來自亞洲各國的 ALPHA Camp 校友,畢業後達成轉職、創業、出國工作的夢想!

3 分鐘選課指南

給期待創新改變的你

前端x後端x全端 完整工程師技能樹

90% 學生轉職成功,職涯競爭力更上層樓
最專業的「全端 Web App 開發」課程,上班族邊工作也能同時培養第二專長!

3 分鐘選課指南

學期一|程式設計入門

零基礎也學得會的程式入門課!

開始學帶得走的技能,為自己未來的成長鋪路

學期二|掌握網頁開發

系統化學習 JavaScript

實作打好前後端基礎,成為扎實的網頁開發者

學期三|軟體工程師養成

養成業界接軌的實戰能力

前端/全端工程師專修路徑,完成技能與求職準備,成為業界即戰力