雅虎香港 搜尋

搜尋結果

  1. 2024年3月7日 · 內容目錄. RAG 是什麼? RAG 的優勢. Apple Notes + RAG 的實作流程. RAG 產品化的挑戰. 一、資料清理. 二、如何切割文本. 三、如何搜尋. 四、LLM 生成品質. 快速掌握 LLM 應用全局觀. 有了「長上下文 LLM」(Long-Context LLM),還需要 RAG 嗎? RAG(Retrieval-Augmented Generation,檢索增強生成)無疑是當今開發大型語言模型(LLM)產品時,不可或缺的技術。 由於可以確保 LLM 生成的真實性,在企業 AI 應用與搜尋場景相當受到重視。 為此,我也試著實作一個簡單的 RAG 應用。

    • 在開始之前
    • Na Value
    • Duplicate Records
    • Data Leakage
    • 總結

    誰適合讀這篇文章?

    1. 已對 Machine Learning 理論有一定基礎、且實際用公開資料集建過幾個模型,但尚未處理過任何企業 raw data。 2. 具 Kaggle 實戰經驗,但準備要用公司亂糟糟、沒有整理過的資料來建模的新鮮人

    為什麼會有這篇文章?

    這些都是過去我親身踩過的雷,這些也是在大學或線上課程中,比較少會在課程上被強調的部分。希望藉由整理出這些經驗,能讓即將要踏入資料科學/機器學習領域的夥伴作為借鑒,讓大家能夠少走一些冤枉路。

    機器學習流程

    ‍ 在正式開始之前,我們來複習一下機器學習的流程。我認為上面這張圖很好的解釋了工作上常見的場景,每個步驟都會影響到下個階段,它們是環環相扣的。大致上分成五個階段: 1. Data Retrieval 包含資料從哪裡來、如何取得資料,依照公司性質而不同。例如在甲方(客戶端),可能由資料工程團隊提供,或是自己直接撈資料庫;在乙方(廠商端)則通常由客戶提供。在 Kaggle 就是已經預先完成 Data Retrieval 的部分。 1. Data Preparation Data Processing & Wrangling:這個階段會將來自不同資料表的原始資料進行 merge & join 的動作。 Feature Extraction & Feature Engineering:將原始資料轉換成可以餵給模型的格式,萃取出有意義的特徵。今天要介紹的 NA Value 就是發生在這個階段 Feature Scaling & Selection:調整各個特徵之間的尺度,以及挑選有用的特徵。對於某些特定演算法來說,如果特徵的尺度差異太大,會影響演算法的結果。例如A欄位是1-100而B欄位是...

    相信如果是有建過模型的你,應該對NA值這個名詞不陌生。如果是打 Kaggle 比賽出身的話,可能會比較少遇到一些,因為在 Kaggle 上大部分都是整理得很好的資料集。不過我相信會來讀這篇文章的你,應該都對這個名詞不陌生。

    接下來要講的 Duplicate Rows ,其實嚴格上來說不算在 Machine Learning 內,跟建模沒有直接關係,比較算在資料預處理的範疇內,甚至這個名詞也是我自己定義的。但如果忽略它,它可能會讓我們在做探索性分析(EDA)或特徵工程時得到錯誤的結果。一起來看看吧。

    接下來要談的 Data Leakage 就跟模型本身很有關係了,同時也是本篇文章中屬於影響程度較大的。Data Leakage 不像前面介紹的兩項有明確的定義,比較像是一種現象,因此它稍微比較抽象一點。 Data Leakage 的定義是「倒果為因」,是指訓練集裡包含了預測目標的資訊。以白話文來說,就是模型透過某些欄位看到答案了,而使得準確率變得非常高、或者 MSE 極低。 甚麼意思呢?我們來看看以下例子:

    以上就是我認為在建模過程中最容易犯的三個錯誤,以及在錯誤中學到的經驗。如果要從中選一個我認為影響最大的,我一定會選 Data Leakage,但是我在學習理論的過程中完全沒有接觸過相關的資料,直到我實際工作了才發現,讓模型看到答案這件事實在很容易發生,所以本篇也花了比較多的篇幅在 Data Leakage 的部分上。希望透過這三點分享,能作為各位的墊腳石,一起建立品質更好、更 robust 的模型。

  2. 2023年12月13日 · 故事從 2015 年說起,場景是 Elon Musk 44 歲生日派對,他與 Larry Page 針對人工智慧的發展討論演變成爭吵,紐時說兩人沒多久後即不再來往。 而幾週後的一次晚餐聚會,促成了 OpenAI。 本文描述了 OpenAI 成立前發生的故事,包含另一家成名更早的人工智慧公司,如今成為發展 Google 人工智慧技術主力的 DeepMind。

  3. 內容目錄. 全職媽媽 為轉職工程師做準備. 寫程式並非遙不可及 相信自己一定可以做到. 秘訣一:充分利用零碎時間 避免社群軟體干擾. 秘訣二:克服兩個月停滯期 調整心態重新出發. 秘訣三:拒絕內疚感 專注在自己的成長. 程式思維 讓處理家務更有邏輯. 學習就像找伴 不要害怕失敗. 學程式+帶兩個孩子,到底有多難? ALPHA Camp 校友、網名 Bug 的高雄的全職媽媽溫是瑋,每天照顧家務和孩子忙翻天,依然堅持不懈地學習。 一年來,是瑋在「全端網路開發課程」過關斬將,一路攻略前端、後端、資料庫、產品開發…等專業技能。 今年 10 月的 Demo Day,她充滿自信地上台分享與隊友姿秀和青芷一起開發的團隊專案,並且通過嚴格的畢業標準,成為 ALPHA Camp 校友。

  4. ALPHA Camp 行銷總監富琪表示,「我們不鼓勵創業,但希望培育每一位青年具有創業家的精神,這樣未來青年到企業任何一個職位中工作,都能把事情做好。

  5. 2024年4月3日 · 內容目錄. 為什麼要學程式設計. 點我免費領取非本科轉職工程師指南! 如果想要開始學習程式設計,需要先具備什麼能力嗎? 自學程式受挫? 5 道你要跨過的坎. 你沒有「好」的動機/理由學寫程式. 不知道該從何學起,該學什麼程式語言. 遇到問題卡關卡很大,覺得自己笨或根本沒程式天份. 你不知道何時或該怎麼求助. 一個字,忙。 兩個字,太忙. 成功自學程式的 5 個訣竅. 練習、練習、再練習. 用機制獎勵自己. 在初期量先重於質. 學習如何學習. 找到值得信賴的機構 協助你程式自學啟程. 自學程式設計在軟體工程師越來越熱門的趨勢下,是近年來很多人的目標,不過半途而廢的人卻是大多數。 原因在多數人不知道自己會面對的問題,又該如何有策略和心理建設去解決。

  6. 雖然教室裡每個位置的學費是一樣的,但它就像劉德華演唱會的門票一樣,愈前面的愈好。 不只看得更清楚,聽得更明白,老師也更容易與你互動,更能即時解答你的問題,甚至跟你的交情會更好,未來幫你私人家教,介紹工作都不是問題。

  1. 其他人也搜尋了