雅虎香港 搜尋

搜尋結果

  1. 2024年2月20日 · 資料科學 (Data Science) 是一門跨領域的學科,他使用數學、統計學、電腦科學以及領域相關的知識和理論,從結構化和非結構化的數據中提取知識和見解。

    • 在開始之前
    • Na Value
    • Duplicate Records
    • Data Leakage
    • 總結

    誰適合讀這篇文章?

    1. 已對 Machine Learning 理論有一定基礎、且實際用公開資料集建過幾個模型,但尚未處理過任何企業 raw data。 2. 具 Kaggle 實戰經驗,但準備要用公司亂糟糟、沒有整理過的資料來建模的新鮮人

    為什麼會有這篇文章?

    這些都是過去我親身踩過的雷,這些也是在大學或線上課程中,比較少會在課程上被強調的部分。希望藉由整理出這些經驗,能讓即將要踏入資料科學/機器學習領域的夥伴作為借鑒,讓大家能夠少走一些冤枉路。

    機器學習流程

    ‍ 在正式開始之前,我們來複習一下機器學習的流程。我認為上面這張圖很好的解釋了工作上常見的場景,每個步驟都會影響到下個階段,它們是環環相扣的。大致上分成五個階段: 1. Data Retrieval 包含資料從哪裡來、如何取得資料,依照公司性質而不同。例如在甲方(客戶端),可能由資料工程團隊提供,或是自己直接撈資料庫;在乙方(廠商端)則通常由客戶提供。在 Kaggle 就是已經預先完成 Data Retrieval 的部分。 1. Data Preparation Data Processing & Wrangling:這個階段會將來自不同資料表的原始資料進行 merge & join 的動作。 Feature Extraction & Feature Engineering:將原始資料轉換成可以餵給模型的格式,萃取出有意義的特徵。今天要介紹的 NA Value 就是發生在這個階段 Feature Scaling & Selection:調整各個特徵之間的尺度,以及挑選有用的特徵。對於某些特定演算法來說,如果特徵的尺度差異太大,會影響演算法的結果。例如A欄位是1-100而B欄位是...

    相信如果是有建過模型的你,應該對NA值這個名詞不陌生。如果是打 Kaggle 比賽出身的話,可能會比較少遇到一些,因為在 Kaggle 上大部分都是整理得很好的資料集。不過我相信會來讀這篇文章的你,應該都對這個名詞不陌生。

    接下來要講的 Duplicate Rows ,其實嚴格上來說不算在 Machine Learning 內,跟建模沒有直接關係,比較算在資料預處理的範疇內,甚至這個名詞也是我自己定義的。但如果忽略它,它可能會讓我們在做探索性分析(EDA)或特徵工程時得到錯誤的結果。一起來看看吧。

    接下來要談的 Data Leakage 就跟模型本身很有關係了,同時也是本篇文章中屬於影響程度較大的。Data Leakage 不像前面介紹的兩項有明確的定義,比較像是一種現象,因此它稍微比較抽象一點。 Data Leakage 的定義是「倒果為因」,是指訓練集裡包含了預測目標的資訊。以白話文來說,就是模型透過某些欄位看到答案了,而使得準確率變得非常高、或者 MSE 極低。 甚麼意思呢?我們來看看以下例子:

    以上就是我認為在建模過程中最容易犯的三個錯誤,以及在錯誤中學到的經驗。如果要從中選一個我認為影響最大的,我一定會選 Data Leakage,但是我在學習理論的過程中完全沒有接觸過相關的資料,直到我實際工作了才發現,讓模型看到答案這件事實在很容易發生,所以本篇也花了比較多的篇幅在 Data Leakage 的部分上。希望透過這三點分享,能作為各位的墊腳石,一起建立品質更好、更 robust 的模型。

  2. 2023年11月21日 · 資料視覺化是一種通過使用圖形元素(如線條、形狀、顏色等)來表示資料的技術,目的是讓人們更直觀地理解資料的內容和結構。. 資料視覺化可以幫助人們快速識別資料中的模式、趨勢和異常,從而提高分析效率,支持決策和預測。. 資料分析 5 步驟,成為 ...

  3. 2024年2月1日 · Stable Diffusion 是一款強大的開源AI圖像生成工具,它允許使用者根據文字提示來創造高質量的圖像。此工具適用於藝術家、設計師、研究人員等各種背景的使用者。如果您對AI圖像生成感興趣並希望親自嘗試,以下是完整的Stable Diffusion安裝指南。

  4. 2023年11月8日 · LangChain 是一個旨在為開發者提供一套工具和接口,以便更容易、更有效地利用大型語言模型(LLM)的開源框架,專注於情境感知和推理。它包含多個組件,如Python和JavaScript的函式庫、快速部署的模板、用於開發REST API的 LangServe ,以及用於除錯和監控的LangSmith。LangChain簡化了開發、生產和部署過程 ...

  5. 2024年3月7日 · 本文作者將 RAG 技術運用在自己總計超過 7,000 則的 Apple Notes 筆記。他除了分享實作經驗之外,也會討論 RAG 應用產品化過程中可能面臨的挑戰。文章最後則會進一步探討:當 LLM 具備長文本理解能力後,還需要 RAG 嗎?

  6. 2023年5月25日 · 什麼是資料結構 (Data Structure)?. 資料結構是一種在計算機科學中用來儲存、組織和管理數據的方法。. 它不僅涉及數據的物理儲存,還包括數據之間的關聯和操作。. 資料結構的目的是確保數據的有效組織,從而實現高效的數據訪問和修改。. 常見的資料結構包括 ...