3 位在美國與新加坡、有豐富數據與 AI 領域經驗專家管其毅、Angus 與 Koo,帶大家瞭解「數據治理」是什麼?對企業為什麼重要?如何開始執行?不同產業有什麼挑戰?ChatGPT 問世後「數據治理」又有什麼轉變與新挑戰?如何減少 bias (偏見) 並降低企業風險?
數據治理是什麼?企業為什麼要做?
管其毅是台灣最大資料社群「台灣資料科學社群 TWDS Meetup」創辦人,致力推動台灣資料領域成長與培育人才。過去他曾待過 eBay、擔任過 Linkedin 資料總監,現在是 TaskRabbit 的 VP of Data。
管其毅說明,「數據治理 Data Governance」這個概念在亞洲並不普遍,也因為台灣企業的規模小,所以大家比較熟悉「數據工程 Data Engineering 」。但其實,「數據治理」不是新的東西,而是當企業變大後,一個保護和管理資料的框架,也是指引組織應用數據的一套流程。
過去 10 年來,越來越多人開始討論「數據治理」,這是因為在商業模式日益複雜與數據工具日新月異之下,企業需加要一個能幫助他們在應用數據時,有效控管與降低風險的方法。包括不違反政府法規與政策,能保護使用者的隱私。這是企業現在做「數據治理」的重要性與新挑戰。(管其毅)
「台灣資料科學社群」與 ALPHA Camp 合作,推動台灣資料科學人才發展
企業怎麼做數據治理?沒做過的企業如何開始?
Koo 擔任新加坡許多企業的數據顧問,也是新加坡最大資料社群「DataScience SG」的共同創辦人。他從組織對內和對外兩個面向,來說明「數據治理」對企業的意義。
對內:當企業或主管從數據獲得好處,包括能做出更好的決策、找到新的營收機會、或是節省成本方法等價值時,就會開始重視數據,也會開始思考為什麼要做「數據治理」。(Koo)
對外:當企業理解到應用數據會帶來一定風險、也必需對結果負責,例如要保護使用者個資、避免決策歧視某客群時,就可能會知道忽略「數據治理」的可能後果,例如被政府罰款、被消費者客訴,甚至影響品牌形象。此時,企業就會去找到降低這些影響的方法。(Koo)
「數據治理」通常由企業內部向外部展開,但實際上如何落地與推廣?是從 C-Level 與核心主管們的教育開始做嗎?還是其實要專注在建立 SOP,透過流程面來管理?
「數據治理」不是技術問題,而是權益關係人的動力管理。當「數據治理」與這些角色的 KPI 有關,他們就會開始動起來。(Koo)
但並非每家企業都需要或適合做「數據治理」,它甚至不會是企業最重要的 priority。Koo 表示,企業談「數據治理」前,應該已經要從數據中獲得價值,這樣來做「數據治理」才會有意義。
管其毅也補充,若過去沒做過「數據治理」的企業,建議從 Data Engineering 部門開始做好基礎工作。接下來,再連結到人力資源層面、去定義執行範疇與計畫,包括:哪些人有權限可以處理哪些資料?誰該對哪些資料負責等。
在醫療或金融等資料較敏感的產業,如何妥善管理數據,讓管理單位放心?
Angus 目前是亞洲最大金融新創 FAZZ 的 CTO。他博班後加入了 Google 的機器學習團隊,算是全世界最早研究並將語言模型導入產品的團隊之一。
後來,Angus 也經歷了醫療、金融與電商產業,他認為在資料相對敏感的產業中,正是資料工作者最有發揮、也最有趣的地方。他不諱言說,因為這些產業對資料管制嚴格、態度保守,但也因此在其中做「數據治理」充滿挑戰。
在金融業,會被規範資料只能放在政府認可的平台,而很多資料更是不能「出國」,也就是說都只能被存在本地的伺服器。在醫療業,資料甚至不能離開那棟大樓或那台機器。這些狀況看似很反科技,但其實都只是反應管理單位很在意某些問題,這就是我們要去深挖與突破的地方。(Angus)
Angus 建議,當企業要利用相對敏感的資料時,一定要宏觀與完整地去瞭解這些資料的脈絡,並納入產品開發期程與範疇中;甚至團隊要設計特別的方法與流程,來因應這些特殊狀況。
例如,技術團隊可能要找法律團隊協作,一起去瞭解資料管理單位到底在意什麼,所以設計出這些規範?
你可能會發現法規通常寫得不太明確。但其實這是故意的,因為管理單位會擔心規範寫太明確,可能導致大家認為沒規範的事情可以做。(Angus)
再深究後你可能還會發現,這些規範最終只是要求資料要有明確的管理者或擁有者 (owner),包括:誰有權生產、使用與管理資料?誰該對資料負責?當你能回應管理單位關注或擔憂的議題後,並能完整掌握資料、確保資料的安全,那麼產品設計與開發就能繼續前進,就算開發步調可能會較慢。(Angus)
AI 產生的「偏見」能被管理嗎?
關於 AI 可能產生的偏見,Angus 說明有時 AI 會產生偏見,其實它是在反應實際狀況。
從純技術的角度來看,產生偏見並不一定有錯;但從情感與實務面來看,AI 在推薦或是產出時會讓使用者感到不舒服、被歧視等情況是真實存在的,企業應該要盡可能避免。
例如做貸款服務信用評分時,模型可能會因為申請人住在貧窮偏鄉,而不核准其申請。這是模型的「偏見」嗎?還是其實模型只是在反映實際資料的狀況,更是反映人類自己的行為?(Angus)
所以 Angus 建議,面對 AI 可能產生的偏見,要完排除不一定容易,可能刻意避開會更簡單。但企業也應該積極鼓勵技術團隊,開發更公平和無偏見的解決方案,並努力減少模型和工具中的偏見。
從印尼最大電商 Tokopedia,有哪些數據治理經驗可以分享?
Angus 分享,在電商做「數據治理」限制就相對少很多了。其中,最重要與要注意的,就是個人資料 (PII – Personally Identifiable Information、個人識別資訊) 和付費或金流資料。
在電商做「數據治理」,最大的命題會是你多瞭解你的消費者、並提供他們怎樣的體驗。(Angus)
電商平台上有非常多的產品線,每條產品線的欄位設計都有不同的關注點與考量,而資料欄位的設計就可能影響到消費者的體驗。例如一件衣服會有個「性別」欄位,這個欄位是否只有男性與女性 2 個選項?
但一般來說,數據在電商場景比較不會引起爭議。例如在其他產業,資料模型可能會有對於性別的歧視或偏見。在電商產業場景下,正確利用男女的喜好不同,這些所謂的「偏見」反而能讓系統更強化對消費者的產品推薦或廣告投遞,幫助企業達成促銷目的。
新加坡政府推動數據治理,經驗如何?
新加坡的企業與政府部門,在「數據治理」上都走得蠻前面。但 GAI 仍然被認為是新穎的科技,只有透過實踐和犯錯,才能學會如何更好地使用它。(Koo)
Koo 分享新加坡政府針對 LLM 與數據應用的定義法規與規範,包括制定 GAI 指南,說明其優勢和缺點,幫助企業導入能有所依循;其中更包明確的應用原則、資料透明度與資料責任歸屬等。
另外,新加坡也在大專院校培訓 AI 工程師,也將這些觀念帶入教育中。
最後,政府也有個專門的部門在擬定 playbook,提供案例供不同產業應用,幫助企業確保他們的模型能減少 AI 模型可能產生的偏見。
專家帶你落地 AI、開發 AI 產品,8/25 AI builder day 實體活動報名中
ChatGPT 崛起後,數據治理有什麼轉變與新挑戰?
ChatGPT 崛起後,越來越多產業或產品導入 LLM,這讓「數據治理」的內容越來越多元,但也出現越來越多的問題與挑戰。
LLM 不再是資料團隊的專利,組織內所有人都在使用 ChatGPT;面對 LLM 的 bias (偏見),企業怎麼控管可能的影響?ChatGPT 每次的 output 都不一樣,怎麼管理這個黑盒子?(管其毅)
管其毅說,大部分的企業可能還沒有時間去思考與如何處理這些問題。但他從 3 個面向,分享 ChatGPT 帶給「數據治理」的轉變與挑戰。
第一,過去大家期待「數據治理」能保護資料,但 ChatGPT 問世後內部資料很容易就流到外部,例如員工把數據提供給 ChatGPT 做分析。這對還沒準備好如何管理這個問題的企業來說,可能要考慮先拒絕 ChatGPT 的使用。
第二,如果想將 LLM 導入產品,那就要非常小心使用者體驗的影響。例如在 Linkedin 社交平台,若沒處理好,人才或工作推薦可能會產業偏見,對平台上的使用者會有非常巨大的影響。
在這裡,「數據治理」的範疇與權益關係人不只與工程部門的人,還包括模型規範、法律指引等面向的問題,牽涉到組織很多的角色與層級。
第三,目前模型的操作是個「黑箱」。對於模型提出的答案,企業是否有解釋能力?怎麼管理 ChatGPT 多變的結果?過去機器學習訓練模型時,使用一樣的資料去訓練同一個模型,一般會得出一樣的結果;但現在寫同一段 prompt 進 ChatGPT,它每次 output 都不一樣。
企業如果希望能利用 LLM 這種科技,整個組織對於「數據治理」的理解與思維建立就非常重要。而這裡的「數據治理」,也已經不同於過去只是數據團隊的事了。
企業做數據治理,不同角色如何分工?誰該對資料負責?
在企業中,落實「數據治理」到底是誰的責任?的過程中,企業不同角色應該關注哪些事情?
管其毅分享,企業的最高管理層(C-Level 角色)之中,通常會有負責「數據治理」成效的人。要更明確的分工,也可以再細分到 CEO、VP of Data、數據團隊等不同的角色。
CEO 的工作是推動企業成長,所以他們密切觀察市場狀況,尋找機會以及定義相關的策略。據我的觀察,目前美國企業 CEO 可能會花 10-15% 的時間去瞭解 GAI 的技術發展與對組織的影響,目標是幫組織找到能提升 15-20% 工作產能的方向與方法,儘快開始行動。
而資料副總裁 (VP of Data),則可能是企業中最終對於資料的管理、應用負責的人。其毅自己作為 Taskrabbit 的資料副總裁,這段時間與法律團隊合作,制定組織「數據治理」的政策、規則和指南。
另外,在資料副總裁管轄下的資料團隊 (data team),則負責日常資料應用。在數據治理這個題目下,他們的工作是確保資料基礎設施、工具和技術,能幫助組織實現管理層定義的政策與規劃。而組織如何讓資料團隊與工程師更壯大與成長,因應未來更大的資料與更複雜的問題,也成為重要的命題。
最後,大家會好奇當資料產生問題時,誰該對資料負責?Angus 說明,若這邊的資料指的是來自產品的資料,例如客戶資料,那 owner 就會是產品團隊,他們就需要負責處理相關問題。從資料的來源去思考權責問題,就能比較明確。
結語:企業如何推動數據治理?
最後,任何政策的實踐,最後都會跟「人」與「文化」有關。企業主管、或數據團隊 (data team) 的領導人,如何把「數據治理」觀念推到組織?又如何推動「數據治理」文化?Koo 分享他給新加坡企業客戶的建議:
我擔任數據顧問與不同組織不同角色互動時,都會從對方的動機切入、去跟他談如何做「數據治理」。只要找到該角色的 KPI、釐清角色做數據的原因,就能找到對方能開始參與「數據治理」的最關鍵點。(Koo)
整體來說,當上位者買單「數據治理」,從上而下地就能推動到整個組織。但從上而下還不夠。若從下而上來看,上位者要讓員工感覺到數據對他的角色的價值,也就能夠讓員工找到他參與「數據治理」的動力。
專家引路將 AI 成為你的專業,瞭解 AI Your Summer 系列活動
關鍵字補充
- Data privacy : 數據隱私
- Data security : 數據安全
- Data transparency : 數據透明度
- Bias : 偏見
- Model interpretability : 模型可解釋性
- Accountability : 責任歸屬
- Metadata : 元數據
- Data warehouse : 數據倉庫
- Data lake : 數據湖