雅虎香港 搜尋

搜尋結果

  1. 2024年2月1日 · 第1步:安裝Python和Git. 首先,您需要安裝Python 3.10.6,這是運行Stable Diffusion所必需的。 您可以從 Python官方網站 下載安裝。 若安裝過程中遇到困難,可以參考我們的 Python安裝教程 。 在命令提示符中輸入 python 並執行,以確認Python版本正確安裝。 若未顯示Python 3.10.6,請卸載電腦中的其他Python版本。 接著,安裝Git,這是一個代碼庫管理系統,用於版本控制和協作。 您可以通過 Git安裝教程 進行安裝,並可參考我們的 Git入門課程 以深入了解Git。 第2步:創建GitHub和Hugging Face帳戶. GitHub是一個代碼托管服務,用於軟件開發的版本控制和協作。

    • 在開始之前
    • Na Value
    • Duplicate Records
    • Data Leakage
    • 總結

    誰適合讀這篇文章?

    1. 已對 Machine Learning 理論有一定基礎、且實際用公開資料集建過幾個模型,但尚未處理過任何企業 raw data。 2. 具 Kaggle 實戰經驗,但準備要用公司亂糟糟、沒有整理過的資料來建模的新鮮人

    為什麼會有這篇文章?

    這些都是過去我親身踩過的雷,這些也是在大學或線上課程中,比較少會在課程上被強調的部分。希望藉由整理出這些經驗,能讓即將要踏入資料科學/機器學習領域的夥伴作為借鑒,讓大家能夠少走一些冤枉路。

    機器學習流程

    ‍ 在正式開始之前,我們來複習一下機器學習的流程。我認為上面這張圖很好的解釋了工作上常見的場景,每個步驟都會影響到下個階段,它們是環環相扣的。大致上分成五個階段: 1. Data Retrieval 包含資料從哪裡來、如何取得資料,依照公司性質而不同。例如在甲方(客戶端),可能由資料工程團隊提供,或是自己直接撈資料庫;在乙方(廠商端)則通常由客戶提供。在 Kaggle 就是已經預先完成 Data Retrieval 的部分。 1. Data Preparation Data Processing & Wrangling:這個階段會將來自不同資料表的原始資料進行 merge & join 的動作。 Feature Extraction & Feature Engineering:將原始資料轉換成可以餵給模型的格式,萃取出有意義的特徵。今天要介紹的 NA Value 就是發生在這個階段 Feature Scaling & Selection:調整各個特徵之間的尺度,以及挑選有用的特徵。對於某些特定演算法來說,如果特徵的尺度差異太大,會影響演算法的結果。例如A欄位是1-100而B欄位是...

    相信如果是有建過模型的你,應該對NA值這個名詞不陌生。如果是打 Kaggle 比賽出身的話,可能會比較少遇到一些,因為在 Kaggle 上大部分都是整理得很好的資料集。不過我相信會來讀這篇文章的你,應該都對這個名詞不陌生。

    接下來要講的 Duplicate Rows ,其實嚴格上來說不算在 Machine Learning 內,跟建模沒有直接關係,比較算在資料預處理的範疇內,甚至這個名詞也是我自己定義的。但如果忽略它,它可能會讓我們在做探索性分析(EDA)或特徵工程時得到錯誤的結果。一起來看看吧。

    接下來要談的 Data Leakage 就跟模型本身很有關係了,同時也是本篇文章中屬於影響程度較大的。Data Leakage 不像前面介紹的兩項有明確的定義,比較像是一種現象,因此它稍微比較抽象一點。 Data Leakage 的定義是「倒果為因」,是指訓練集裡包含了預測目標的資訊。以白話文來說,就是模型透過某些欄位看到答案了,而使得準確率變得非常高、或者 MSE 極低。 甚麼意思呢?我們來看看以下例子:

    以上就是我認為在建模過程中最容易犯的三個錯誤,以及在錯誤中學到的經驗。如果要從中選一個我認為影響最大的,我一定會選 Data Leakage,但是我在學習理論的過程中完全沒有接觸過相關的資料,直到我實際工作了才發現,讓模型看到答案這件事實在很容易發生,所以本篇也花了比較多的篇幅在 Data Leakage 的部分上。希望透過這三點分享,能作為各位的墊腳石,一起建立品質更好、更 robust 的模型。

  2. 2024年1月29日 · 這次職涯相談室請來兩位教學經驗豐富的程式開發前輩 Jack 和維元,帶大家從「自學程式的 7 個 FAQ」,來一一破解你的迷思和誤區,幫你修成正果。. 你 為什麼學程式?. 問為什麼超重要!. 你問過自己為什麼要學程式嗎?. 是想要有個帶得走的能力、想 ...

  3. 2023年7月25日 · 前兩段都是陳述,只是第一段陳述經驗中客觀的事實,第二段陳述經驗中自己的想法與感受,第三段是重頭戲,回顧之後有什麼發現,全看第三段。 第三段的目標是提煉出真正的學習心得。

  4. 2023年7月4日 · SQL 是和資料溝通的首選工具,在商業情境與資料日益複雜的現今,蹲好馬步穩 SQL 基礎,是解決實務問題的第一步。 上手 SQL ,就能進一步整合思維、工具、與應用,並實現真正的數據價值

  5. 2023年3月13日 · 要開始學習 R 語言,首先需要下載並安裝 R 語言本身。. 可在官方網站 https://www.r-project.org/ 根據自己的操作系統下載合適的版本。. 除了 R 語言,我們還強烈推薦安裝 RStudio 作為集成開發環境(IDE)。. RStudio 提供了方便的編輯器、控制檯、視覺化工具等,大大 ...

  6. 這篇學習心得的作者是ALPHA Camp 的 JavaScript 全端開發課程 ,學期一「 程式設計入門 」的學生 Anderson,整篇文章分成3個部分,第一部分是他如何確立學習的方向及目標,第二部分會分享一開始在Udemy自學的過程,第三部分則是加入AC之後的轉變。. 我是Anderson ...