資料分析工具那麼多,該怎麼選?
隨著資料科學的演進,許多商業軟體都逐漸成熟。從完整的套裝軟體到實現彈性比較強的程式來說,大概可以把常見的資料分析工具分成幾種類型,有 BI 工具像是 Tableau 或 Power BI,分析模型套裝軟體像是 SAS或是 WEKA,程式語言像是 Python 或 R,這麼多工具到底怎麼選?
隨著資料科學的演進,許多商業軟體都逐漸成熟。從完整的套裝軟體到實現彈性比較強的程式來說,大概可以把常見的資料分析工具分成幾種類型,有 BI 工具像是 Tableau 或 Power BI,分析模型套裝軟體像是 SAS或是 WEKA,程式語言像是 Python 或 R,這麼多工具到底怎麼選?
Data Analysis 數據分析是將龐雜數據進行整理分類後,從中得出解決問題和進行決策的見解作為參考依據。小至個人、大至跨國企業組織,不管是用來優化行銷、找到商業機會或是加強組織內部效率,都需要懂得能利用資料分析來提升決策品質。
機器學習 Machine Learning (簡稱ML)是AI人工智慧的一門科學,深度學習 Deep Learning 則是 ML的分支,這篇帶你了解他們到底是什麼、有什麼應用以及兩者的不同。
NLP(Natural Language Preprocessing)又稱為自然語言處理,常見的跨語言模型包含M-Bert、LASER、MultiFiT和XLM。由於工作專案中需要處理跨語言語料的問題(e.g. 文本當中包含了英文、法文、德文),因此開啟了 Cross-Lingual Word Embedding(跨語言詞嵌入) 的研究領域,Word embedding 是將字詞映射到一個向量空間,是一種 Word representation 的方式。
這篇文章會分享身為資料科學家,實際上在 Modeling 時容易犯的三個錯誤:NA Value、Duplicate Record、Data Leakage,這些小細節會如何影響模型及實際工作場景,以及如何避免上述狀況發生。幫助想了解 Machine Learning 或是剛踏入這個領域的人,建立出品質更好、更 robust 的模型。
在與資料密不可分的時代,如何善用資料來解決問題,培養數據思維、進而建立數據分析的能力?AC 團隊透過一系列實作,認識資料分析流程,並針對「定義問題」與「提出假設」進行深度討論。
許多人會選擇 Python 做為程式開發或資料科學的入門語言,因為其「語法容易」與「第三方資源豐富」兩個特性。所謂的「第三方資源豐富」是指,Python 可以搭配許多套件來完成特定領域的工作。Python 在爬蟲領域也如此
想了解資料與統計的同學們,常常聽到資料界的工程師說分析、模型都要用到統計的觀念,但統計的觀念是運用在哪?透過本文中的簡單例子,來介紹一些統計的概念。根據統計,我們能推測什麼。如何建立假設,開始檢定。以及統計上像是平均數、標準差及常態分布等基本知識。
大數據(Big Data) 又被稱為巨量資料,隨著儲存設備越來越便宜, 越來越大量的資料被儲存,不論企業或研究員都開始思考, 巨量資料對我們的幫助以及如何從中萃取知識。藉此產生出許多擁有高獨特性、有價值的產品。
Python、R語言、 Julia 號稱是資料科學的三大程式語言,就我自己的觀點來看,目前看起來 Python 是首選、有些比較專業的統計方法可以考慮 R ,至於 Julia 還要觀望一下。