雅虎香港 搜尋

  1. 相關搜尋:

搜尋結果

  1. 2023年10月2日 · 內容目錄. 什麼是 Prompt Engineering? Prompt Engineering 的重要性. 快速掌握 LLM 應用全局觀. Prompt Engineering 的基本原則. OpenAI 的官方 Prompt 指南:6策略獲得更好結果. 總結. 什麼是 Prompt Engineering? Prompt Engineering 是指設計和構建一個提示或問題,以指導機器生成所需的內容或回答。 這種技術主要應用於自然語言處理(NLP)領域,用於控制語言模型的輸出。 舉例來說,當您使用語言模型生成文章、回答問題或創建對話時,您通常會提供一個提示或問題,以引導模型生成您期望的內容。 Prompt Engineering 的重要性.

    • 在開始之前
    • Na Value
    • Duplicate Records
    • Data Leakage
    • 總結

    誰適合讀這篇文章?

    1. 已對 Machine Learning 理論有一定基礎、且實際用公開資料集建過幾個模型,但尚未處理過任何企業 raw data。 2. 具 Kaggle 實戰經驗,但準備要用公司亂糟糟、沒有整理過的資料來建模的新鮮人

    為什麼會有這篇文章?

    這些都是過去我親身踩過的雷,這些也是在大學或線上課程中,比較少會在課程上被強調的部分。希望藉由整理出這些經驗,能讓即將要踏入資料科學/機器學習領域的夥伴作為借鑒,讓大家能夠少走一些冤枉路。

    機器學習流程

    ‍ 在正式開始之前,我們來複習一下機器學習的流程。我認為上面這張圖很好的解釋了工作上常見的場景,每個步驟都會影響到下個階段,它們是環環相扣的。大致上分成五個階段: 1. Data Retrieval 包含資料從哪裡來、如何取得資料,依照公司性質而不同。例如在甲方(客戶端),可能由資料工程團隊提供,或是自己直接撈資料庫;在乙方(廠商端)則通常由客戶提供。在 Kaggle 就是已經預先完成 Data Retrieval 的部分。 1. Data Preparation Data Processing & Wrangling:這個階段會將來自不同資料表的原始資料進行 merge & join 的動作。 Feature Extraction & Feature Engineering:將原始資料轉換成可以餵給模型的格式,萃取出有意義的特徵。今天要介紹的 NA Value 就是發生在這個階段 Feature Scaling & Selection:調整各個特徵之間的尺度,以及挑選有用的特徵。對於某些特定演算法來說,如果特徵的尺度差異太大,會影響演算法的結果。例如A欄位是1-100而B欄位是...

    相信如果是有建過模型的你,應該對NA值這個名詞不陌生。如果是打 Kaggle 比賽出身的話,可能會比較少遇到一些,因為在 Kaggle 上大部分都是整理得很好的資料集。不過我相信會來讀這篇文章的你,應該都對這個名詞不陌生。

    接下來要講的 Duplicate Rows ,其實嚴格上來說不算在 Machine Learning 內,跟建模沒有直接關係,比較算在資料預處理的範疇內,甚至這個名詞也是我自己定義的。但如果忽略它,它可能會讓我們在做探索性分析(EDA)或特徵工程時得到錯誤的結果。一起來看看吧。

    接下來要談的 Data Leakage 就跟模型本身很有關係了,同時也是本篇文章中屬於影響程度較大的。Data Leakage 不像前面介紹的兩項有明確的定義,比較像是一種現象,因此它稍微比較抽象一點。 Data Leakage 的定義是「倒果為因」,是指訓練集裡包含了預測目標的資訊。以白話文來說,就是模型透過某些欄位看到答案了,而使得準確率變得非常高、或者 MSE 極低。 甚麼意思呢?我們來看看以下例子:

    以上就是我認為在建模過程中最容易犯的三個錯誤,以及在錯誤中學到的經驗。如果要從中選一個我認為影響最大的,我一定會選 Data Leakage,但是我在學習理論的過程中完全沒有接觸過相關的資料,直到我實際工作了才發現,讓模型看到答案這件事實在很容易發生,所以本篇也花了比較多的篇幅在 Data Leakage 的部分上。希望透過這三點分享,能作為各位的墊腳石,一起建立品質更好、更 robust 的模型。

  2. 內容目錄. 設計師要有能力釐清目標與需求. 實現使用者價值 = 商業價值 = 設計策略 + 設計方案. 好的洞察應該要能啟發大量的點子. MVP 要畫對重點:viable 遠比 minimum 來得重要. 設計師如何培養商業敏銳度. 設計師的角色和價值. 雖然新創團隊的每個成員都必須時常 ...

  3. 其他人也問了

  4. 2023年10月4日 · 非同步溝通的五個迷思. 原文連結 |閱讀時間:10-15 分鐘. 我們在 《RISE-UP 科技人才升級週報》第 6 期 推薦過一篇文章〈Managing the chaos of context switching〉,探討軟體開發者常常遭遇的情境轉換問題,或者白話一點說:工作被打斷。. 文中指出一旦分心之後 ...

  5. 怎樣才算學會?. 如何衡量學會了?. 教學經驗豐富的程式開發前輩維元分享 :「學會」很抽象、很難定義,所以容易讓人糾結。. 與其糾結「學會」,應該關注「學了要怎麼用」。. 當你知道「怎麼用」,代表你有較高的學習掌握度,知道所學能幫自己做到 ...

  6. 現在專案管理服務非常的多,像是 JIRA, Trello, Asana, Redmine, Notion, Basecamp, Phabricator 等等,筆者都有實際上去測試且將某功能的 issues 搬上去玩玩。. 但形式非常的多,有適合敏捷的、Scrum、待辦事項的、指派工作為主的,甚至有連文件管理跟 CI/CD 統包的服務 ...

  7. 2023年2月27日 · 一些使用 Power BI 的主要理由:. 易用性 :Power BI 提供了直觀的使用者介面,使用者無需具有複雜的數據分析技能即可建立儀表板和報告。. 這使得它適合非技術人員使用。. 高度整合性:Power BI 可以與其他 Microsoft 產品(如 Office 365、Azure、SQL Server 等)以及許多 ...

  1. 相關搜尋

    羽毛球張志傑