資料科學五大 Q&A:資料科學實際作法?資料科學產業的未來?

電腦演算能力進步與大數據興起,讓資料科學這門結合數學、統計學、AI和電腦工程等領域的多學科方法,為了擷取對企業有意義的洞察而進行資料研究。透過結合資料與數學家成為近年最炙手可熱的職位。但到底資料科學在做什麼?想開啟資料科學家職涯,該具備哪些特質與技能?

資料科學家在做什麼?Data Scientist 工作內容與3大核心技能

8 月 ALPHA Camp AMA 直播活動,邀請到主張數據 Numbers 創辦人暨執行長 Tammy,分享她在資料科學領域的創業經驗與觀察。

成為資料科學家不只有單一路徑,求學期間一路深耕物理專業的 Tammy,將分享她如何從物理博士轉變為資料科學家,並解惑資料科學、AI 領域相關問題:

資料科學應用案例:如何量化複雜問題,在系統導入任務排序機制

擁有資料科學知識與技能,能做到什麼?Tammy 分享她在外商軟體公司擔任技術團隊負責人時,運用資料科學的實際案例:

技術團隊每天會收到來自不同部門回報的 issue,而各部門都會認為自己的需求要優先處理。為了排序 issue 的優先處理順序,Tammy 希望打造一個系統,當輸入訊息後,能夠產出該 issue「重要/不重要」的結果。

於是,她採取以下作法:

  1. 使用資料來源:公司的 Bug Tracking System
  2. 拆解現有資料:拆解 Bug Tracking System 上面的訊息,如留言、時間、優先度、文字等訊息,作基本資料分析
  3. 收集缺少的資料:有些資料原本就不在系統資料庫裡,它可能是「人心裡的訊息」,因此透過給各個職位角色「tag」的方式,請他們標註覺得重要的任務
  4. 系統運算後,取得「任務重要度分數」量化指標:藉由以上資料,系統會計算出綜合性的分數,根據分數高低,排序 issue 處理優先度
  5. 收集各部門回饋,進行系統排序機制的滾動式修正

這項運用資料科學優化流程的經驗,同樣適用於其他地方。核心原則為:把複雜問題量化,團隊取得公開透明的遊戲規則,進行實驗討論。重點在於決定規則的過程,而非結果,這就是科學精神。

想看更多,歡迎觀看精彩直播片段

資料科學五大 Q&A:如何成為資料科學家?資料科學產業的未來?

想跨入資料科學領域,可以進行什麼樣的專案?

現今職場對資料科學有很大的需求,想要踏入資料科學領域是比較容易的。我認為做過資料科學專案是基本,更重要的是背後的思考過程。比如在面試時,會深入去問面試者,在這個專案中覺得最有挑戰性的部分為何?又是如何克服的?

現在資料科學的工具跟套件越來越厲害,但要能去深入思考、擁有資料科學的思維,而非單純使用工具,變成套件玩家。

資料分析師、資料科學家、資料工程師,有何差異?

三者的差異簡單來講可分為:

  • 資料分析師:負責找到問題,是第一步
  • 資料科學家:在不知道解決方法的情況下,負責找出一個解法,在過程中也會用到分析
  • 資料工程師:在所有已知的解決方法中,挑選一個適合作法,每天都在做取捨

其中資料科學家,與資料工程師這兩個職位,通常在國外大公司如 Facebook、Google 通常沒有明確的區分,重點是聘你進去後能夠幫公司解決問題,如果本身有相關技能最好,沒有技能,有資源的公司也會讓你去學。

如果是比較小、資源不太充足的公司,就會很明確地說要什麼樣的人,因為他們已經有既有的問題在等你了。

從事資料科學工作需具備什麼技能與特質?如何確定自己適不適合?

Tammy 認為成為資料科學家,需要具備以下三大特質與能力 :

  1. 對資料的好奇心與熱情:最好的資料科學家,一定會具備對資料的好奇心與熱情,當看到某個訊號時,會主動去問「為什麼」。舉個生活化的例子,公司冰箱裡會放可樂,但會發現可樂在某些時間消耗很快、某些時間消耗得慢,這時候如果你對這個問題有興趣,想蒐集資料去研究分析,就是具備好奇心的證明。
  2. 軟體使用及資料視覺化能力:將資料視覺化需要創意,比如當你拿到 1、2、3 這些數字,會去思考用什麼方式,哪種軟體進行視覺化,並且還能跟問題本身有連結。
  3. 機器學習與統計能力:機器學習是解決資料科學問題很常用的一個工具。資料的種類與複雜度會影響使用工具的場景,在不同流程階段,會運用不同的機器學習方式。比如當你拿到大量影像資料,這時候 AI 模型很常在前期就被導入,針對某些 Tag 做分類 得到初步結果,後續再做分析;SVM 則適合在資料清理完,有初步分析結果後,再使用 SVM 做一次機器學習。

若想踏入資料科學領域,懂得運用機器學習工具是很好的入門磚,因為目前產業界中大概有 70% 資料科學家職缺,都是資料清理完後,需要有人來做最後的機器學習分析。因此機器學習會是資料科學家前三熱門的技能。

至於如何確定自己適不適合當資料科學家?Tammy 認為最重要的一點.還是

要對資料有興趣,擁有透過數字去解決問題的熱情與能力。

數學能力好不好是其次,資料分析時每天就是面對一堆數字,重點在於喜不喜歡,如果不喜歡,每天面對它就很痛苦。

另外,由於資料科學領域所使用的工具、軟體會變動很快,因此會需要有樂於去學習新工具的心態。

想成為資料科學家,如何累積作品?

在資料科學社群平台 Kaggle 累積作品是蠻好的入門方式。很多人來應徵資料科學家時,會展示在 Kaggle 的作品、建了哪些 AI 模型。但要注意,更重要的是面試官想知道你如何去挖掘背後的問題,如何看待資料,你的想法與其他人有何差異。因此除了展示作品集外,還是要著重對問題本身的分析。

擁有資料科學產業的 Domain Know How 比較重要,還是數據處理技術?

每間公司的需求會不太一樣,面試時資料科學團隊規模的大小,會決定這兩件事的重要程度:

  • 團隊規模大:若團隊已經有 4、5 個人,那他們可能已經用 Domain Know How 把基礎建設做好,這時會更需要有人處理數據
  • 團隊規模小:如果你是團隊第一人,這時擁有資料科學 Domain Know How 就超重要

Domain Know How 跟數據處理技術,這兩者其實都需要兼顧。差別只在於團隊是否有他人能依賴,並取得協助。

資料科學產業將如何發展?

Tammy 說明,台灣大部分公司其實都有蠻好的資料。雖然大家都在談 Big Data,但有研究報告指出,直到 2025 年前,其實都不是 Big Data 的時代,因為 Big Data 早已被掌握在 Google、Amazon 等大公司中。

對一般公司而言,更重要的是商業上的「Small Data」,這些資料的價值還沒被發揮出來,是台灣產業很值得去做的事。每個公司都有獨一無二的資料類型,而這些資料都可以為商業問題帶來新的價值。

資料科學與 AI:工程師在 AI 開發能扮演什麼角色?

未來哪些類型產業特別需要 AI?

人力缺乏的產業,會需要 AI,比如工廠、醫療產業。中國、巴西很多工廠經營者,常常徵不到人,就需要導入 AI,做工廠自動化。而醫療產業,因為培養醫生很不容易,也會需要 AI。

軟體工程師在 AI 開發上,可以扮演哪些角色?

AI 開發時,從設計 AI 演算法基礎建設、產生軟體應用、到製作使用者互動介面,都會需要軟體工程師。AI 就是一套技術,資料科學家負責在資料層面處理、如何去問問題,而工程師則是扮演著銜接橋梁,在過程中打造不同工具的角色。

認識演算法(Algorithm)與運算思維(Computational Thinking)

從事網站開發,在技術方面如何與 AI 銜接?

很多公司或組織像 Google、Amazon、OpenAI 等,都有提供許多 AI 功能的 Api 讓大家做串接。因此在網站開發或其他應用面上,不須要真的去做出一套 AI,而是可以在需要用到 AI 技術時,把網站跟 AI 的 API 進行串接。

資料科學或網頁開發,程式開發該選哪個領域?

結語

藉由 Tammy 的分享,你是否對於資料科學家職涯與產業未來發展有進一步認識?想踏進資料科學領域,可以評估自己擁有的特質與技能,決定要當資料科學家,或以軟體工程師的方式實現。

若擁有對資料的熱情及好奇心,且有使用機器學習或軟體工具去解決問題的能力,可以選擇成為資料科學家。又或者已經是軟體工程師,對於技術開發更有興趣,則可透過打造 AI 相關應用及軟體、或串接第三方 API 的方式,實現 AI 技術。不論何者,都是進入資料科學領域很好的方式。