雅虎香港 搜尋

搜尋結果

  1. 2018年6月15日 · 1.每天吃一片维生素C和维生素E可达到祛斑的作用。 2.用干净的茄子皮敷脸,一段时间后,小斑点就不那么明显了。 3.每天喝一杯西红柿汁或常用 ...

    • 前言
    • 二分類模型的評估指標
    • 過採樣方法 : Synthesized Minority Oversampling Technique
    • 欠採樣方法 : Edited Nearest Neighbor
    • 結尾 : 不平衡數據集分類建模流程

    工作使人衰老...好久沒寫文章了,這次趁案子輪替的空閒補上一篇! 我們知道,在數據科學的領域中一個很重要的環節就是分類建模,舉凡簡單的邏輯回歸,到更複雜的隨機森林、深度學習方法等。然而,真實世界的資料常常遇到不可控的問題,使得建模效果急速下降,一個很常見的例子就是數據不平衡的問題,少數樣本與多數樣本常有很大的落差,舉例而言,廣發簡訊詢問消費者願不願意購買某項產品,可能測試了數萬人至數十萬人的規模,卻僅有不到一千人回覆願意,此時的建模效果就會變得極差,當然我們可以透過更加集成學習、深度網絡的方法去強硬地提升準確度,但相對地必須承擔過擬合的風險,如下圖,假設我有一筆資料集長得像這樣 : 上面展示了一個不平衡數據集,其中只有 0.8% 是正樣本。假設我們硬是要建模,決策邊界就會長得很可怕 (這邊我...

    首先我們從評估指標開始,一般來說準確度是一個直覺性最高的指標,但如上一小節提到的問題,單純看準確度沒辦法精準衡量模型是好是壞,因此這裡介紹幾種更常見的評估方式 : 【混淆矩陣 Confusion Matrix】 我們如果將上一小節二分類問題的結果,用這樣的方式來看 : 這樣的方法叫做混淆矩陣,這也是為甚麼我們說不要透過準確率來判斷模型好壞的原因,上面的結果準確率達到驚人的 47700 / (47700+398) = 99.2% ,乍看之下似乎不錯,然而如上圖所示,正樣本的正確分類率是 0%,意味著模型根本沒辦法辨別出正樣本的存在。 這樣的表示方式分成四大塊 : 1. True Positive 真陽性 : 實際上是正樣本且被預測為正樣本 2. True Negative 真陰性 : 實際上是...

    最先出現在我們思路的想法是,怎麼樣把少數樣本變多 ? 這個做法我們稱之為過採樣,常見的做法有幾種,把少數樣本重複抽樣出來、用某種分布的方式去抽取樣本,或是用人工手段合成一些樣本。 最簡單的作法當然就是直接複製一些少數樣本,或是根據少數樣本的某種分布去採樣某些樣本,根據樣本的採樣可以看我之前寫的系列一 : * 還欠著沒寫完,之後補上蒙地卡羅的部分 這樣的好處當然就是簡單、好懂,但壞處也很明顯,就是容易過擬合,你可以想像盡管模型分數表現再好,終究只是根據同一組樣本的訊息去學習,如果今天出現了一些跟少數樣本很接近,但又不完全符合少數樣本特徵的資料點,模型很可能就會失效了。 【SMOTE 方法 : 合成少數過採樣方法】 我們引進了新的方法叫做 SMOTE 方法,這是 2002 年提出的一篇論文,主要...

    相對於過採樣,欠採樣是將多數樣本進行 Scale Down,使得模型的加權權重改變,少考慮一些多數樣本,這張圖很好地展示了兩種方法的差異 : 同樣,最簡單的做法就是隨機排除掉一些多數樣本,但不推薦的原因是有可能誤排除掉邊界樣本,使得模型鑑別度雖然上升,卻大量增加過擬合風險,因為邊界沒有鑑別度的少數樣本也被模型考慮進來,為了盡可能解決這個問題,這邊介紹兩種方法 : 【Tomek Link】 Tomek Link 算法會針對所有樣本去遍歷一次,假設今天有兩個樣本點 x, y分屬不同的 class,也就是一個為多數樣本一個為少數樣本,我們可以去計算它們之間的距離 d(x, y) 。 此時如果我們找不到第三個樣本點 z,使得任一樣本點到 z 的距離比樣本點之間的距離還小的話,我們就稱為 Tomek ...

    最後,我總結了一下不平衡數據分類的建模流程 : 有幾個值得注意的點 : 1. 應該先切分測試、訓練集,再針對訓練集去過採樣或欠採樣,這是因為重新採樣的目標是要讓模型產生鑑別度,而不是讓模型學習到錯誤的樣本,如果你先採樣再去切分,很有可能你的測試集以及偏離了原本的資料樣貌,導致該模型學習到一堆雜訊 2. 要透過交叉驗證去控制過擬合,原因在於不管用哪種採樣方式,幾乎都會增大過擬合程度,尤其是在樣本數少,又做欠採樣的情況下,可能模型雖然區分出來了,但是因為欠採樣後多數樣本過少等等問題,造成模型只側重學習某部分的樣本,無法反映全局情況,此時交叉驗證甚至建立多個模型去做集成都會是好的方式 3. 觀察少數樣本與多數樣本分布情形,本文舉的例子是因為少數樣本與多數樣本看上去還能分離,實際運行很有可能碰到完全...

  2. 2022年7月8日 · 在今年 2022 的 7 月,YOLOV7 (原論文請 點我 ) 正是閃亮登場啦~,它在5 FPS - 160 FPS 的範圍內,速度 (speed)跟準確度 (accuracy)是目前即時物件偵測 (Real-time ...

  3. 2021年4月6日 · 分群法(Clustering)是每一堂ML課程都會教,但是卻非常少人在使用的方法,在ML的分支裡面我們往往會用下面這張圖來介紹,告訴你分群是屬於非監督式學習的一種(Unsupervised)。 但是往往大家真正在使用的時候就會疑惑. 分群(clustering)跟分類(classification)到底差在哪? 如果我們看重的點是「有沒有Label」的話,...

  4. 2020年11月5日 · 透過 python 的 Open-CV 可以用 filter2D function 直接指定原始影像與 Mask,只要先透過 numpy 創造一個 Mask 再放到 fileter2D 很快就能實作出結果: 可以從結果看出,Mask的大小越大,影像會越平滑,尤其在「邊緣」的部分效果更明顯。 Source code: 結論. 雜訊去除的方法,其實也可使用先前介紹過的...

  5. 2020年3月23日 · 獨特的樹型深受設計師的喜愛,使白水木成為歷久不衰的熱門大型景觀樹木。將白水木擺放在居家陽台或商業空間的門面,不僅提升空間格調,更能 ...

  6. 2021年8月11日 · 01 線性迴歸. 線性迴歸可能是統計學和機器學習中最知名和最易理解的演算法之一。. 由於預測建模主要關注最小化模型的誤差,或者以可解釋性為 ...

  1. 其他人也搜尋了