SQL (Structured Query Language 結構化查詢語言) 是一種專門用來管理與查詢關聯式資料庫(Relational database)的程式語言。這篇介紹關聯式資料庫的三個特徵,帶你認識基礎的SQL語法入門。
「資料前處理(Data Preprocessing)」分成三個面向:1. 資料清理與型態調整 2.資料探索與 3.視覺化特徵工程。是實務上在收集完資料之後,到真正進入模型之前的重要環節。
隨著資料科學的演進,許多商業軟體都逐漸成熟。從完整的套裝軟體到實現彈性比較強的程式來說,大概可以把常見的資料分析工具分成幾種類型,有 BI 工具像是 Tableau 或 Power BI,分析模型套裝軟體像是 SAS或是 WEKA,程式語言像是 Python 或 R,這麼多工具到底怎麼選?
Data Analysis 數據分析是將龐雜數據進行整理分類後,從中得出解決問題和進行決策的見解作為參考依據。小至個人、大至跨國企業組織,不管是用來優化行銷、找到商業機會或是加強組織內部效率,都需要懂得能利用資料分析來提升決策品質。
機器學習 Machine Learning (簡稱ML)是AI人工智慧的一門科學,深度學習 Deep Learning 則是 ML的分支,這篇帶你了解他們到底是什麼、有什麼應用以及兩者的不同。
NLP(Natural Language Preprocessing)又稱為自然語言處理,常見的跨語言模型包含M-Bert、LASER、MultiFiT和XLM。由於工作專案中需要處理跨語言語料的問題(e.g. 文本當中包含了英文、法文、德文),因此開啟了 Cross-Lingual Word Embedding(跨語言詞嵌入) 的研究領域,Word embedding 是將字詞映射到一個向量空間,是一種 Word representation 的方式。
這篇文章會分享身為資料科學家,實際上在 Modeling 時容易犯的三個錯誤:NA Value、Duplicate Record、Data Leakage,這些小細節會如何影響模型及實際工作場景,以及如何避免上述狀況發生。幫助想了解 Machine Learning 或是剛踏入這個領域的人,建立出品質更好、更 robust 的模型。
在與資料密不可分的時代,如何善用資料來解決問題,培養數據思維、進而建立數據分析的能力?AC 團隊透過一系列實作,認識資料分析流程,並針對「定義問題」與「提出假設」進行深度討論。
許多人會選擇 Python 做為程式開發或資料科學的入門語言,因為其「語法容易」與「第三方資源豐富」兩個特性。所謂的「第三方資源豐富」是指,Python 可以搭配許多套件來完成特定領域的工作。Python 在爬蟲領域也如此
想了解資料與統計的同學們,常常聽到資料界的工程師說分析、模型都要用到統計的觀念,但統計的觀念是運用在哪?透過本文中的簡單例子,來介紹一些統計的概念。根據統計,我們能推測什麼。如何建立假設,開始檢定。以及統計上像是平均數、標準差及常態分布等基本知識。
大數據(Big Data) 又被稱為巨量資料,隨著儲存設備越來越便宜, 越來越大量的資料被儲存,不論企業或研究員都開始思考, 巨量資料對我們的幫助以及如何從中萃取知識。藉此產生出許多擁有高獨特性、有價值的產品。
Python、R語言、 Julia 號稱是資料科學的三大程式語言,就我自己的觀點來看,目前看起來 Python 是首選、有些比較專業的統計方法可以考慮 R ,至於 Julia 還要觀望一下。
什麼是AI人工智慧?AI是Artificial Intelligence的縮寫,指的是由人類製造出能模仿人類思考與行為的機器系統,現在AI在生活與商業上的應用已經非常廣泛,這篇介紹主要的AI產業發展趨勢與人才的需求。
如果你正在尋找資料工程師的工作,或是期待踏入相關領域,這篇蒐集並整理了大量的業界面試流程與常見的面試題庫 35 題,用面試官的角度思考,從中了解數據工程師的工作內容是什麼,以及雇主對 Data Engineer 關注的4個能力重點
資料科學家、資料分析師和資料工程師,在資料團隊實務工作上,不同的技能是如何分工。資料科學家與資料工程師的差異、資料分析師在做什麼?模型「部署/上線」的工作誰來做? ALPHA Camp 資料工程師維元帶你解析。
想進入資料科學領域,成為資料科學家,除了機器學習硬技能的掌握外,更重要的是擁有分析問題的思維。印尼獨角獸電商資料科學協理,透過案例拆解,深入探討如何用資料科學處理實際的商業問題。
資料科學家是近年最炙手可熱的職位,到底資料科學家在做什麼?想開啟資料科學家職涯,該具備哪些特質與技能?主張數據創辦人暨執行長 Tammy,將分享她如何從物理博士轉變為資料科學家,並解惑資料科學、AI 領域相關問題。