資料分析工具那麼多,該怎麼選?

隨著資料科學的演進,許多商業軟體都逐漸成熟。從完整的套裝軟體到實現彈性比較強的程式來說,大概可以把常見的資料分析工具分成幾種類型,有 BI 工具像是 Tableau 或 Power BI,分析模型套裝軟體像是 SAS或是 WEKA,程式語言像是 Python 或 R,這麼多工具到底怎麼選?

NLP 跨語言 Word embedding — 什麼是跨語言模型

NLP(Natural Language Preprocessing)又稱為自然語言處理,常見的跨語言模型包含M-Bert、LASER、MultiFiT和XLM。由於工作專案中需要處理跨語言語料的問題(e.g. 文本當中包含了英文、法文、德文),因此開啟了 Cross-Lingual Word Embedding(跨語言詞嵌入) 的研究領域,Word embedding 是將字詞映射到一個向量空間,是一種 Word representation 的方式。

Python 網路爬蟲:學習地圖與策略

許多人會選擇 Python 做為程式開發或資料科學的入門語言,因為其「語法容易」與「第三方資源豐富」兩個特性。所謂的「第三方資源豐富」是指,Python 可以搭配許多套件來完成特定領域的工作。Python 在爬蟲領域也如此

自學統計學資料分析:認識3個基本統計知識

想了解資料與統計的同學們,常常聽到資料界的工程師說分析、模型都要用到統計的觀念,但統計的觀念是運用在哪?透過本文中的簡單例子,來介紹一些統計的概念。根據統計,我們能推測什麼。如何建立假設,開始檢定。以及統計上像是平均數、標準差及常態分布等基本知識。