資料科學是什麼?3 個 Data Science 的學習資源
資料科學 (Data Science) 是一門跨領域的學科,他使用數學、統計學、電腦科學以及領域相關的知識和理論,從結構化和非結構化的數據中提取知識和見解。
資料科學 (Data Science) 是一門跨領域的學科,他使用數學、統計學、電腦科學以及領域相關的知識和理論,從結構化和非結構化的數據中提取知識和見解。
資料科學家(Data Scientist)收集和分析大量數據。結合了計算機科學、統計學和數學來分析、處理和建模數據,然後解釋結果,為公司制定可行的計劃。這篇介紹資料科學家的工作內容和核心技能。
「資料前處理(Data Preprocessing)」分成三個面向:1. 資料清理與型態調整 2.資料探索與 3.視覺化特徵工程。是實務上在收集完資料之後,到真正進入模型之前的重要環節。
Data Analysis 數據分析是將龐雜數據進行整理分類後,從中得出解決問題和進行決策的見解作為參考依據。小至個人、大至跨國企業組織,不管是用來優化行銷、找到商業機會或是加強組織內部效率,都需要懂得能利用資料分析來提升決策品質。
機器學習 Machine Learning (簡稱ML)是AI人工智慧的一門科學,深度學習 Deep Learning 則是 ML的分支,這篇帶你了解他們到底是什麼、有什麼應用以及兩者的不同。
NLP(Natural Language Preprocessing)又稱為自然語言處理,常見的跨語言模型包含M-Bert、LASER、MultiFiT和XLM。
這篇文章會分享身為資料科學家,實際上在 Modeling 時容易犯的三個錯誤:NA Value、Duplicate Record、Data Leakage,這些小細節會如何影響模型及實際工作場景,以及如何避免上述狀況發生。
許多人會選擇 Python 做為程式開發或資料科學的入門語言,因為其「語法容易」與「第三方資源豐富」兩個特性。所謂的「第三方資源豐富」是指,Python 可以搭配許多套件來完成特定領域的工作。Python 在爬蟲領域也如此