「做資料分析一定要寫程式嗎?」是許多分析人會面臨的抉擇與問題,程式的入門是相對比較高的門檻。但隨著資料科學的演進,許多商業軟體都逐漸成熟。從完整的套裝軟體到實現彈性比較強的程式來說,大概可以把常見的資料分析工具分成幾種類型:
- ① BI 工具
- ② 分析模型套裝軟體
- ③ 程式語言
BI 工具
BI 是 Business Intelligence,商業智慧 的簡寫,主要強調的點在於「商業價值」的呈現。對資料人來說,其實就是著重在資料視覺化、資料呈現這一件事情上。但「商業價值」並不會憑空從資料直接呈現出來,BI 工具的價值在於如何快速的讓閱讀者,可以看出資料背後的價值所在。
除了統整後的視覺圖表之外,BI 通常會需要具備一筆一筆資料的報表功能。而資料呈現跟原始數據格式有相當大的關係,所以 BI 工具內多少需要提供基本的資料操作功能,能夠讓使用者在比較低的負擔下可以處理資料。
分析模型套裝軟體
第二種類型的分析工具,則是以「模型」為主,著重的是從數據當中找出關係的方法,而找關係的方法就像是統計、資料探勘、機器學習甚至是人工智慧。典型的統計分析模型就像大家熟知的 SPSS、SAS 這種。這種工具專注於統計模型本身,讓使用者不需要投入太多的時間在數學模型的程式實作。
另外也有偏向機器學習、資料探勘方法的模型工具,例如 Orange 或 Weka。但對於資料科學來說,在模型之前的資料前處理往往才是最惱人最費工的,因此現在也有一些 RapidMiner、KNIME 這種的軟體,除了模型之外,也打造了包含資料前處理的一條龍策略。
程式語言
最後一種就是「程式語言」,提供最大的彈性與功能,想要怎樣的資料操作流程或模型方法都可以自己實現。通常會有兩種情況是只有程式才能達到的:
- 客製化的資料處理過程,例如資料很特別、或是數量很大
- 使用最新或冷門的模型,套裝軟體沒有提供 。
當然使用程式語言也不是要從零開始寫程式,現在也有很多第三方的工具可以讓分析更有效率也更方便。不同的程式語言對於資料分析的支援程式也不同,這個部分我們就留到下一次再聊聊囉!
(本文轉載自資料工程師 WeiYuan 的文章 《資料分析工具那麼多,該怎麼選?》)
[optin-monster-inline slug=”efwng9h4usmda0bxuwbi”]