這篇文章會分享身為資料科學家,實際上在 Modeling 時容易犯的三個錯誤:NA Value、Duplicate Record、Data Leakage,這些小細節會如何影響模型及實際工作場景,以及如何避免上述狀況發生。幫助想了解 Machine Learning 或是剛踏入這個領域的人,建立出品質更好、更 robust 的模型。
專注於行銷方面的資料的科學家,曾服務過多家財星五百大企業。日常對心理學保持極大興趣,喜歡透過資料與內心探索,慢慢了解世界的運轉。