雅虎香港 搜尋

  1. 相關搜尋:

搜尋結果

  1. 本名林育蓉,是在他決定加入黃埔軍校後,覺得自己名字太像女生才改的。 作為解放軍四野的司令,他可以說是為中華人民共和國的建立貢獻極大。 所以他被封為中共十大元帥之一,也擔任過國務院副總理、中共中央副主席、國防部部長、中共中央軍委第一副主席等重要職務。 最重要的是,他是被寫入《中國共產黨章程》的接班人。 毛澤東對他應該非常信任的,但為什麼最後會導致他們翻臉呢? 林....

    • 前言
    • 二分類模型的評估指標
    • 過採樣方法 : Synthesized Minority Oversampling Technique
    • 欠採樣方法 : Edited Nearest Neighbor
    • 結尾 : 不平衡數據集分類建模流程

    工作使人衰老...好久沒寫文章了,這次趁案子輪替的空閒補上一篇! 我們知道,在數據科學的領域中一個很重要的環節就是分類建模,舉凡簡單的邏輯回歸,到更複雜的隨機森林、深度學習方法等。然而,真實世界的資料常常遇到不可控的問題,使得建模效果急速下降,一個很常見的例子就是數據不平衡的問題,少數樣本與多數樣本常有很大的落差,舉例而言,廣發簡訊詢問消費者願不願意購買某項產品,可能測試了數萬人至數十萬人的規模,卻僅有不到一千人回覆願意,此時的建模效果就會變得極差,當然我們可以透過更加集成學習、深度網絡的方法去強硬地提升準確度,但相對地必須承擔過擬合的風險,如下圖,假設我有一筆資料集長得像這樣 : 上面展示了一個不平衡數據集,其中只有 0.8% 是正樣本。假設我們硬是要建模,決策邊界就會長得很可怕 (這邊我...

    首先我們從評估指標開始,一般來說準確度是一個直覺性最高的指標,但如上一小節提到的問題,單純看準確度沒辦法精準衡量模型是好是壞,因此這裡介紹幾種更常見的評估方式 : 【混淆矩陣 Confusion Matrix】 我們如果將上一小節二分類問題的結果,用這樣的方式來看 : 這樣的方法叫做混淆矩陣,這也是為甚麼我們說不要透過準確率來判斷模型好壞的原因,上面的結果準確率達到驚人的 47700 / (47700+398) = 99.2% ,乍看之下似乎不錯,然而如上圖所示,正樣本的正確分類率是 0%,意味著模型根本沒辦法辨別出正樣本的存在。 這樣的表示方式分成四大塊 : 1. True Positive 真陽性 : 實際上是正樣本且被預測為正樣本 2. True Negative 真陰性 : 實際上是...

    最先出現在我們思路的想法是,怎麼樣把少數樣本變多 ? 這個做法我們稱之為過採樣,常見的做法有幾種,把少數樣本重複抽樣出來、用某種分布的方式去抽取樣本,或是用人工手段合成一些樣本。 最簡單的作法當然就是直接複製一些少數樣本,或是根據少數樣本的某種分布去採樣某些樣本,根據樣本的採樣可以看我之前寫的系列一 : * 還欠著沒寫完,之後補上蒙地卡羅的部分 這樣的好處當然就是簡單、好懂,但壞處也很明顯,就是容易過擬合,你可以想像盡管模型分數表現再好,終究只是根據同一組樣本的訊息去學習,如果今天出現了一些跟少數樣本很接近,但又不完全符合少數樣本特徵的資料點,模型很可能就會失效了。 【SMOTE 方法 : 合成少數過採樣方法】 我們引進了新的方法叫做 SMOTE 方法,這是 2002 年提出的一篇論文,主要...

    相對於過採樣,欠採樣是將多數樣本進行 Scale Down,使得模型的加權權重改變,少考慮一些多數樣本,這張圖很好地展示了兩種方法的差異 : 同樣,最簡單的做法就是隨機排除掉一些多數樣本,但不推薦的原因是有可能誤排除掉邊界樣本,使得模型鑑別度雖然上升,卻大量增加過擬合風險,因為邊界沒有鑑別度的少數樣本也被模型考慮進來,為了盡可能解決這個問題,這邊介紹兩種方法 : 【Tomek Link】 Tomek Link 算法會針對所有樣本去遍歷一次,假設今天有兩個樣本點 x, y分屬不同的 class,也就是一個為多數樣本一個為少數樣本,我們可以去計算它們之間的距離 d(x, y) 。 此時如果我們找不到第三個樣本點 z,使得任一樣本點到 z 的距離比樣本點之間的距離還小的話,我們就稱為 Tomek ...

    最後,我總結了一下不平衡數據分類的建模流程 : 有幾個值得注意的點 : 1. 應該先切分測試、訓練集,再針對訓練集去過採樣或欠採樣,這是因為重新採樣的目標是要讓模型產生鑑別度,而不是讓模型學習到錯誤的樣本,如果你先採樣再去切分,很有可能你的測試集以及偏離了原本的資料樣貌,導致該模型學習到一堆雜訊 2. 要透過交叉驗證去控制過擬合,原因在於不管用哪種採樣方式,幾乎都會增大過擬合程度,尤其是在樣本數少,又做欠採樣的情況下,可能模型雖然區分出來了,但是因為欠採樣後多數樣本過少等等問題,造成模型只側重學習某部分的樣本,無法反映全局情況,此時交叉驗證甚至建立多個模型去做集成都會是好的方式 3. 觀察少數樣本與多數樣本分布情形,本文舉的例子是因為少數樣本與多數樣本看上去還能分離,實際運行很有可能碰到完全...

  2. 2020年7月29日 · 繼承父業後,弓夷創辦科苑電子錶廠,為日本Casio代工,八十年代成為首家在Nasdaq掛牌上市的港資公司,亦是首批北上內地設廠的港商之一,不過後來生意衰落,清盤收場。 弓夷曾任國葉集團總裁,該公司被視為開國元帥葉劍英後人的家族企業。...

  3. 2021年1月7日 · 9 min read · Jan 8, 2021. -- 剽悍生活. 7 Followers. 剽悍生活UL (微信公众号)分享关于两性关系、自我提升、数字游民的生活方式的原创内容,帮你过上更理想的生活(尤其是性生活)。 Following. Read writing from 剽悍生活 on Medium. 剽悍生活UL...

  4. 2020年2月13日 · 資料分析中常用的五個統計學基本概念,你懂幾個? 數據分析那些事. ·. Follow. Feb 13, 2020. -- 統計學到底有多重要? 在回答資料分析入門要具備什麼樣的能力的問題中,我經常提到統計學知識,統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式對資料進行操作。...

  5. 2020年12月28日 · 梯度下降(Gradient Descent)最有名的解釋方式,就是爬山的故事,想像一下我們人在玉山的山頂,並且思考著要如何最快回到山底呢,總不能直接跳下去吧,那太陡了XD,而我們就要挑選很陡的坡來走,才能最快下山,而這個陡坡的傾斜程度,就是利用成本函數進行微分得來的,而乘上的α係數,就是學習率(Learning...

  6. 2023年5月1日 · 12 min read. ·. May 1, 2023. -- 迴歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關係。 這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關係。 例如,司機的魯莽駕駛與道路交通事故數量之間的關係,最好的研究方法就是迴歸。 迴歸分析是建模和分析資料的重要工具。...

  1. 相關搜尋

    袁松彪警司