ป่าสุ่มไม่ไวต่อค่าผิดปกติอย่างไร

ฉันได้อ่านในแหล่งข้อมูลไม่กี่แห่งซึ่งรวมถึงอันนี้ว่าป่าสุ่มไม่ไวต่อค่าผิดปกติ (เช่นวิธีการที่ Logistic Regression และวิธีการ ML อื่น ๆ เป็นตัวอย่าง)

อย่างไรก็ตามสัญชาตญาณสองชิ้นบอกฉันเป็นอย่างอื่น:

เมื่อใดก็ตามที่ต้นไม้การตัดสินใจถูกสร้างขึ้นคะแนนทั้งหมดจะต้องจำแนก ซึ่งหมายความว่าแม้แต่ผู้ผิดกฎหมายก็จะถูกจัดประเภทและด้วยเหตุนี้จะส่งผลต่อต้นไม้การตัดสินใจที่พวกเขาได้รับเลือกในระหว่างการส่งเสริม
Bootstrapping เป็นส่วนหนึ่งของการสุ่มตัวอย่างแบบสุ่มป่าไม้ การบูตสแตรปมีความอ่อนไหวต่อค่าผิดปกติ

มีวิธีใดบ้างที่จะกระทบยอดปรีชาญาณของฉันเกี่ยวกับความอ่อนไหวต่อผู้ผิดกฎหมายกับแหล่งที่ไม่เห็นด้วยหรือไม่?

— Hunle
แหล่งที่มา

คำตอบด้านล่างดีมาก คำตอบที่เข้าใจง่ายคือต้นไม้การตัดสินใจทำงานบนการแยกและการแยกไม่ไวต่อค่าผิดปกติ: การแยกจะต้องอยู่ที่ใดก็ได้ระหว่างสองกลุ่มของจุดเพื่อแยก

— เวย์น

ดังนั้นผมจึงคิดว่าถ้าmin_samples_leaf_nodeเป็น1แล้วมันอาจจะเป็นความเสี่ยงที่จะผิดปกติ

— Hunle

ใช่ตัวอย่างขั้นต่ำและตัวอย่างบูตสแตรปสามารถกำจัดอิทธิพลของค่าผิดปกติ 1b ในการถดถอยคลื่นความถี่วิทยุได้อย่างสมบูรณ์

— Soren Havelund Welling

นักสถิติบางคนได้รับการมองเห็นจากอุโมงค์ในผู้ที่สามารถคาดการณ์และเข้าใจได้ ยึดถือผู้รู้ที่รู้ว่าไม่รู้จักและสงสัยว่าโมเดลธุรกิจของคุณบอบบางหรือไม่ ค่าผิดปกติบางอย่างอาจคาดเดาไม่ได้ แต่ผลกระทบของพวกมันนั้นเป็นจริง ... การถอดความของ N. Taleb, 'แบล็กสวอน'

— Soren Havelund Welling

คำตอบ:

สัญชาตญาณของคุณถูกต้อง คำตอบนี้แสดงให้เห็นเพียงตัวอย่าง

มันย่อมเป็นเรื่องธรรมดาเข้าใจผิดว่ารถเข็นสินค้า / RF เป็นอย่างใดที่มีประสิทธิภาพเพื่อค่าผิดปกติ

แสดงให้เห็นถึงการขาดความทนทานของ RF เพื่อการปรากฏตัวของค่าผิดปกติเดียวที่เราสามารถ (เบา ๆ ) ปรับเปลี่ยนรหัสที่ใช้ในคำตอบที่โซเรน Havelund เอ่อของด้านบนเพื่อแสดงให้เห็นว่าซิงเกิ้ล 'พอเพียง y'-ค่าผิดปกติที่จะสมบูรณ์แกว่งรุ่น RF ติดตั้ง ตัวอย่างเช่นถ้าเราคำนวณข้อผิดพลาดการคาดคะเนค่าเฉลี่ยของการสังเกตแบบไม่มีการปนเปื้อนเป็นฟังก์ชั่นของระยะห่างระหว่างค่าผิดปกติและส่วนที่เหลือของข้อมูลเราสามารถเห็น (ภาพด้านล่าง) ที่แนะนำค่าผิดพลาดเพียงครั้งเดียวโดยค่าตามอำเภอใจใน 'y'-space) พอเพียงเพื่อดึงการทำนายของโมเดล RF โดยพลการไกลจากค่าที่พวกเขาจะได้ถ้าคำนวณบนข้อมูลดั้งเดิม (ไม่มีการปนเปื้อน):

 library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X = data.frame(replicate(2,runif(2000)-.5))
y = -sqrt((X[,1])^4+(X[,2])^4)
X[1,]=c(0,0);
y2<-y
rg<-randomForest(X,y)   #RF model fitted without the outlier
outlier<-rel_prediction_error<-rep(NA,10)

for(i in 1:10){
    y2[1]=100*i+2
    rf=randomForest(X,y2)   #RF model fitted with the outlier
    rel_prediction_error[i]<-mean(abs(rf$predict[-1]-y2[-1]))/mean(abs(rg$predict[-1]-y[-1]))
    outlier[i]<-y2[1]
}
plot(outlier,rel_prediction_error,type='l',ylab="Mean prediction error (on the uncontaminated observations) \\\ relative to the fit on clean data",xlab="Distance of the outlier")

ไกลแค่ไหน? ในตัวอย่างข้างต้นค่าผิดเพี้ยนเพียงอย่างเดียวมีการเปลี่ยนแปลงอย่างมากจนข้อผิดพลาดการคาดคะเน (บนที่ไม่มีการปนเปื้อน) อยู่ในขณะนี้1-2 ออเดอร์ที่มีขนาดใหญ่กว่าที่เคยเป็นมา

ดังนั้นจึงไม่เป็นความจริงที่ค่าผิดพลาดเพียงครั้งเดียวจะไม่ส่งผลกระทบต่อ RF fit

นอกจากนี้ขณะที่ผมชี้ให้เห็นอื่น ๆ , ค่าผิดปกติมีมากยากที่จะจัดการกับเมื่อมีที่อาจเกิดขึ้นหลายของพวกเขา (แม้ว่าพวกเขาจะไม่จำเป็นต้องมีขนาดใหญ่สัดส่วนของข้อมูลสำหรับผลกระทบของพวกเขาที่จะแสดงขึ้น) แน่นอนข้อมูลที่ปนเปื้อนสามารถมีค่าได้มากกว่าหนึ่งค่า ในการวัดผลกระทบของค่าผิดปกติหลายอย่างบน RF เปรียบเทียบให้พล็อตทางด้านซ้ายที่ได้รับจาก RF ในข้อมูลที่ไม่มีการปนเปื้อนกับพล็อตทางด้านขวาที่ได้รับโดยการเลื่อน 5% ของค่าการตอบสนอง .

ในที่สุดในบริบทการถดถอยสิ่งสำคัญคือต้องชี้ให้เห็นว่าผู้ผิดพลาดสามารถโดดเด่นจากข้อมูลจำนวนมากทั้งในพื้นที่การออกแบบและการตอบสนอง (1) ในบริบทเฉพาะของ RF ค่าผิดปกติของการออกแบบจะมีผลต่อการประมาณค่าพารามิเตอร์มากเกินไป อย่างไรก็ตามเอฟเฟกต์ที่สองนี้มีความชัดเจนมากขึ้นเมื่อจำนวนมิติมีขนาดใหญ่

สิ่งที่เราสังเกตที่นี่เป็นกรณีเฉพาะของผลลัพธ์ทั่วไป ความไวอย่างมากต่อค่าผิดปกติของวิธีการปรับข้อมูลแบบหลายตัวแปรตามฟังก์ชั่นการสูญเสียนูนได้ถูกค้นพบหลายครั้ง ดู (2) สำหรับภาพประกอบในบริบทเฉพาะของวิธีการ ML

แก้ไข

โชคดีที่ในขณะที่อัลกอริธึมพื้นฐานของ CART / RF นั้นไม่แข็งแรงอย่างชัดเจนต่อค่าผิดปกติ แต่ก็เป็นไปได้ (และง่ายต่อการเงียบ) ในการปรับเปลี่ยนขั้นตอนเพื่อบอกความทนทานให้กับ "y" ตอนนี้ฉันจะมุ่งเน้นไปที่การถดถอย RF (เนื่องจากนี่เป็นเป้าหมายของคำถาม OP โดยเฉพาะ) แม่นยำยิ่งขึ้นเขียนเกณฑ์การแยกสำหรับโหนดโดยพลการเป็น: $t$

s^{* * * *} = หาเรื่อง \underset{s}{สูงสุด} [{พี}_{L} var ({เสื้อ}_{L} (s)) + {พี}_{R} var ({เสื้อ}_{R} (s))]

$s^∗=\arg\max_{s} [p_L \text{var}(t_L(s))+p_R\text{var}(t_R(s))]$

โดยที่และเป็นโหนดลูกที่เกิดขึ้นใหม่ขึ้นอยู่กับการเลือก (และเป็นฟังก์ชั่นโดยนัยของ ) และ หมายถึงส่วนของข้อมูลที่อยู่ในโหนดลูกซ้ายและคือส่วนแบ่ง ของข้อมูลในt_Rจากนั้นเราสามารถบอก "y" - ความทนทานของพื้นที่เพื่อต้นไม้ถดถอย (และดังนั้น RF ของ) โดยการแทนที่ฟังก์ชั่นความแปรปรวนที่ใช้ในคำนิยามเดิมโดยทางเลือกที่แข็งแกร่ง นี่คือสิ่งสำคัญในวิธีการที่ใช้ใน (4) ซึ่งความแปรปรวนจะถูกแทนที่ด้วยเครื่องประเมินขนาด M ที่แข็งแกร่ง $t_L$ $t_R$ $s^∗$ $t_L$ $t_R$ $s$ $p_L$ $t_L$ $p_R=1−p_L$ $t_R$

(1) เปิดโปง Outliers Multivariate และ Leverage Points Peter J. Rousseeuw และ Bert C. van Zomeren วารสารสมาคมอเมริกันสถิติฉบับที่ 85, หมายเลข 411 (ก.ย. , 1990), หน้า 633-639
(2) การจำแนกเสียงแบบสุ่มเอาชนะผู้ที่มีศักยภาพนูนได้ทั้งหมด Philip M. Long และ Rocco A. Servedio (2008) http://dl.acm.org/citation.cfm?id=1390233
(3) C. Becker และ U. Gather (1999) จุดแตกหักกำบัง Masking ของกฎการระบุค่าแบบหลายตัวแปรแบบเก่า
(4) Galimberti, G. , Pillati, M. , & Soffritti, G. (2007) โครงสร้างการถดถอยที่แข็งแกร่งขึ้นอยู่กับตัวประเมิน M Statistica, LXVII, 173–190

    library(forestFloor)
    library(randomForest)
    library(rgl)
    set.seed(1)

    X<-data.frame(replicate(2,runif(2000)-.5))
    y<--sqrt((X[,1])^4+(X[,2])^4)
    Col<-fcol(X,1:2) #make colour pallete by x1 and x2
    #insert outlier2 and colour it black
    y2<-y;Col2<-Col
    y2[1:100]<-rnorm(100,200,1);    #outliers
    Col[1:100]="#000000FF" #black

    #plot training set
    plot3d(X[,1],X[,2],y,col=Col)
    rf=randomForest(X,y)    #RF on clean data
    rg=randomForest(X,y2)   #RF on contaminated data
    vec.plot(rg,X,1:2,col=Col,grid.lines=200)
    mean(abs(rf$predict[-c(1:100)]-y[-c(1:100)]))
    mean(abs(rg$predict[-c(1:100)]-y2[-c(1:100)]))

— user603
แหล่งที่มา

ขอบคุณสำหรับคำตอบโดยละเอียดของคุณ หากมีค่าผิดปกติหลายค่าในพื้นที่มิติสูงเดียวกันมันจะเกิดคำถามว่าเกณฑ์ของเราในการเรียก“ ค่าผิดปกติ” คืออะไร? ในกรณีนี้ฉันสงสัยว่าพารามิเตอร์ไฮเปอร์อาจถูกตั้งค่าอะไรเพื่อให้ฉันสามารถระบุเกณฑ์บางอย่างสำหรับค่าเริ่มต้นได้

— Hunle

ฉันได้เพิ่มความคิดเห็นก่อนหน้าของฉันในคำตอบของฉัน ฉันหวังว่าตอนนี้จะทำงานได้ดีขึ้นในการตอบคำถามของคุณ!

— user603

ขอบคุณ อะไรpและsในสูตรมีอะไรบ้าง

— Hunle

เพราะเหตุใดค่ารวม (1a + 2) จึงไม่ดี ในตัวอย่างของคุณโมเดล RF เหมาะสมกับโครงสร้างข้อมูลอย่างสมบูรณ์ 99,99% OOB MSE โครงสร้างแบบจำลองของพื้นที่กึ่งกลางระหว่างสองกลุ่มนั้นค่อนข้างขรุขระใช่แล้วและเป็นผลงานของโมเดลมากกว่าข้อมูล แต่ไม่มีข้อสรุปและ / หรือการคาดการณ์ที่ควรจะอยู่ในพื้นที่ที่ไม่รู้จักนี้ดังนั้นจึงไม่สำคัญ ความทนทานที่สมบูรณ์แบบต่อผู้ผิดปกติย่อมเพิกเฉยต่อเหตุการณ์ที่เกิดขึ้นได้ยาก แต่อาจสำคัญ ML algos ส่วนใหญ่โดยค่าเริ่มต้นจะใช้ท่าทางกลางระหว่างความแข็งแกร่งและ 'ความยืดหยุ่น' แต่สามารถ tweaked เพื่อเพิ่มความแข็งแกร่ง

— Soren Havelund Welling

@ user603 ไม่มีอะไรที่จะเพิ่มในการสนทนาทางเทคนิคนอกเหนือจาก Heart of Darkness นั่นคือหนังสือเล่มโปรดของฉันตอนเป็นเด็กกับ The Trial ของ Franz Kafka ในไม่ช้า (มันอาจจะเป็นครั้งแรกถ้ามันเสร็จแล้วและอาจเขียนเป็นภาษาอังกฤษ - อีกครั้งบางทีมันอาจจะเหมาะสมว่ายังไม่เสร็จสิ้น) ฉันไม่ได้คิดเกี่ยวกับเรื่องนี้จากมุมมองนอกจริง ๆ นอกจากนั้นฉันถือว่า Heart of Darkness และ The Trials เป็นผู้ดี (ดี) ในหมู่ทะเล BS "วรรณกรรมร้ายแรง" ฉันต้องอ่านและถ่ายภาพแสงสีเข้มของ BS และ การวิเคราะห์เช่นเดียวกับ

— Mark L. Stone

outa 1a: outlier นี้มีค่าคุณลักษณะหนึ่งค่าหรือมากกว่านั้นและวางอยู่ห่างจากตัวอย่างอื่น ค่าเริ่มต้นจะมีอิทธิพลต่อการแยกเริ่มต้นของต้นไม้เป็นตัวอย่างอื่น ๆ ดังนั้นจึงไม่มีอิทธิพลที่แข็งแกร่ง มันจะมีความใกล้เคียงต่ำกับตัวอย่างอื่น ๆ และจะกำหนดโครงสร้างของแบบจำลองในพื้นที่ห่างไกลของพื้นที่คุณลักษณะเท่านั้น ในระหว่างการคาดการณ์ตัวอย่างใหม่ส่วนใหญ่มีแนวโน้มที่จะไม่คล้ายกับค่าผิดปกตินี้และมักจะสิ้นสุดในโหนดเทอร์มินัลเดียวกัน นอกจากนี้ต้นไม้การตัดสินใจยังคำนึงถึงคุณลักษณะราวกับว่าพวกมันเป็นอันดับ (อันดับ) ค่ามีขนาดเล็กกว่า / เท่ากับหรือใหญ่กว่าจุดพักดังนั้นจึงไม่สำคัญว่าค่าคุณลักษณะเป็นค่าผิดปกติมาก

1b ก่อนหน้านี้:สำหรับการจำแนกประเภทหนึ่งตัวอย่างเดียวอาจถือได้ว่าเป็นค่าผิดปกติเมื่อฝังอยู่ในช่วงกลางของตัวอย่างจำนวนมากของคลาสที่แตกต่างกัน ฉันอธิบายก่อนหน้านี้ว่าแบบจำลอง RF เริ่มต้นจะได้รับอิทธิพลจากตัวอย่างหนึ่งของคลาสคี่อย่างไร แต่ใกล้กับตัวอย่างมากเท่านั้น

outlier 2: outlier นี้มีมูลค่าเป้าหมายสูงบางทีอาจสูงกว่าค่าอื่น ๆ หลายเท่า แต่ค่าคุณลักษณะเป็นปกติ เศษ. 631 ของต้นไม้จะมีโหนดเทอร์มินัลพร้อมกับตัวอย่างนี้ โครงสร้างของโมเดลจะได้รับผลกระทบในพื้นที่ใกล้กับค่าที่อยู่นอก ขอให้สังเกตว่าโครงสร้างของโมเดลได้รับผลกระทบส่วนใหญ่ขนานกับแกนคุณลักษณะเนื่องจากโหนดถูกแยกแบบไม่ต่อเนื่อง

ฉันรวมการจำลองการถดถอย RF ของ outlier_2 1999 คะแนนจากโครงสร้างที่โค้งมนอย่างราบรื่นและหนึ่งค่าผิดพลาดที่มีค่าเป้าหมายสูงกว่ามาก (y = 2, = 0, = 0) ชุดการฝึกอบรมจะแสดงทางด้านซ้าย โมเดลโครงสร้าง RF ที่ได้รับการเรียนรู้นั้นจะแสดงให้เห็นว่าถูกต้อง $y=(x_1^4 + x_2^4 )^{\frac 1 2}$ $x_1$ $x_2$

library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X = data.frame(replicate(2,runif(2000)-.5))
y = -sqrt((X[,1])^4+(X[,2])^4)^1
Col = fcol(X,1:2) #make colour pallete by x1 and x2
#insert outlier2 and colour it black
X[1,] = c(0,0);y[1]=2 ;Col[1] = "#000000FF" #black

#plot training set
plot3d(X[,1],X[,2],y,col=Col)

rf = randomForest(X,y)
vec.plot(rf,X,1:2,col=Col,grid.lines = 400)

แก้ไข: ความคิดเห็นที่ผู้ใช้ 603

ใช่สำหรับค่าผิดปกติมากในระดับเป้าหมายเราควรพิจารณาเปลี่ยนระดับเป้าหมายก่อนใช้ RF ฉันได้เพิ่มฟังก์ชั่นrobustModel ()ด้านล่างซึ่งปรับแต่ง randomForest แนวทางแก้ไขอื่น ๆ ก็คือการบันทึกการเปลี่ยนแปลงก่อนการฝึกอบรม

.
##---code by user603
library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X<-data.frame(replicate(2,runif(2000)-.5))
y<--sqrt((X[,1])^4+(X[,2])^4)
Col<-fcol(X,1:2) #make colour pallete by x1 and x2

#insert outlier2 and colour it black
y2<-y;Col2<-Col
y2[1:100]<-rnorm(100,200,1);    #outliers
Col2[1:100]="#000000FF" #black
##---

#function to make models robust
robustModel = function(model,keep.outliers=TRUE) {
  f = function(X,y,lim=c(0.1,.9),keep.outliers="dummy",...) {
  limits = quantile(y,lim)
  if(keep.outliers) {#keep but reduce outliers
  y[limits[1]>y] = limits[1] #lower limit
  y[limits[2]<y] = limits[2] #upper limit
  } else {#completely remove outliers
    thrashThese = mapply("||",limits[1]>y,limits[2]>y)
    y = y[thrashThese]
    X = X[thrashThese,]
  }
  obj = model(x=X,y=y,...)
  class(obj) = c("robustMod",class(obj))
  return(obj)
  }
  formals(f)$keep.outliers = keep.outliers
  return(f)
}

robustRF = robustModel(randomForest) #make RF robust
rh = robustRF(X,y2,sampsize=250)     #train robustRF
vec.plot(rh,X,1:2,col=Col2)          #plot model surface
mean(abs(rh$predict[-c(1:100)]-y2[-c(1:100)]))

— Soren Havelund Welling
แหล่งที่มา

คุณเขียนว่า "ไม่มีการคาดการณ์อื่นใดที่จะได้รับผลกระทบ" หากคุณเลื่อนค่าผิดเพี้ยนไปวางไว้y[1]=200คุณจะเห็นว่ามันทำให้เกิดข้อผิดพลาดในการคาดการณ์จากการสังเกตที่ไม่มีการปนเปื้อนเพื่อให้กระโดดได้ 20 เท่า!

— user603

@ user603 จริงว่าในกรณีเช่นนี้สามารถแปลงสเกลเป้าหมายได้แบบ monotonically ก่อนส่งมอบให้กับ RF ฉันเพิ่ม 'robustModel: ทำให้แบบจำลองมีความทนทาน' ในคำตอบของฉัน ..... แน่นอนเพื่อคาดการณ์ค่าเป้าหมายแบบสุ่ม (ประเภท) 2 ยังคงเป็นไปไม่ได้ แต่โครงสร้างของโมเดลที่เหลือไม่ต้องทนทุกข์ทรมาน

— Soren Havelund Welling

โดยทั่วไปการแปลงไฟล์ไม่ได้เป็นวิธีแก้ปัญหาค่าผิดปกติ (แต่เป็นการซ่อนปัญหา) ความแข็งแกร่งของ RF ที่คุณเสนอนั้นเป็นวิธีการที่สนับสนุนใน Galimberti, G. , Pillati, M. , & Soffritti, G. (ดูคำตอบของฉัน) ข้อแตกต่างที่สำคัญคือวิธี '' robustModel "ของคุณมีจุดแบ่งสูงสุด 25% ในพื้นที่ตอบสนอง (สามารถทนต่อ 25% หรือค่า 'โดยพลการ) โดยที่พวกเขามี bdp 50% โปรดทราบว่าไม่เข้าใกล้ ทนทานต่อค่าผิดปกติในพื้นที่การออกแบบ

— 603

มันไม่ได้เป็นขั้นตอนวิธีการสุ่มป่าตัวเองที่มีประสิทธิภาพที่จะผิดปกติ แต่เรียนฐานมันขึ้นอยู่กับที่: ต้นไม้ตัดสินใจ ต้นไม้ตัดสินใจแยกการสังเกตที่ผิดปกติออกเป็นใบไม้ขนาดเล็ก (เช่น subspaces ขนาดเล็กของพื้นที่ดั้งเดิม) นอกจากนี้ต้นไม้ตัดสินใจเป็นแบบจำลองในท้องถิ่น ซึ่งแตกต่างจากการถดถอยเชิงเส้นที่สมการเดียวกันสำหรับพื้นที่ทั้งหมดเป็นแบบจำลองที่ง่ายมากพอดีกับพื้นที่แต่ละ subspace (เช่นกับแต่ละใบ)

ในกรณีของการถดถอยโดยทั่วไปแล้วจะเป็นแบบจำลองการถดถอยที่มีลำดับต่ำมาก (โดยปกติจะเป็นค่าเฉลี่ยของการสังเกตในใบไม้)
สำหรับการจำแนกประเภทนั้นเป็นการลงคะแนนเสียงส่วนใหญ่

ดังนั้นสำหรับการถดถอยเช่นค่าสุดขีดจะไม่ส่งผลกระทบต่อทั้งโมเดลเพราะได้ค่าเฉลี่ยในพื้นที่ ดังนั้นความพอดีกับค่าอื่น ๆ จึงไม่ได้รับผลกระทบ

ที่จริงแล้วคุณสมบัติที่พึงประสงค์นี้นำไปสู่โครงสร้างที่มีลักษณะคล้ายต้นไม้อื่น ๆ เช่น dendograms ตัวอย่างเช่นการจัดกลุ่มตามลำดับชั้นมีการใช้งานนานสำหรับการล้างข้อมูลเนื่องจากจะแยกการสังเกตแบบผิดปกติออกเป็นกลุ่มเล็ก ๆ โดยอัตโนมัติ ดูตัวอย่างLoureiro และคณะ (2004) การตรวจสอบค่าผิดปกติโดยใช้วิธีการจัดกลุ่ม: การประยุกต์ใช้ทำความสะอาดข้อมูล

ดังนั้นในสั้น, RF สืบทอดไม่รู้สึกที่จะผิดปกติจากการแบ่ง recursiveและรูปแบบที่เหมาะสมในท้องถิ่น

โปรดทราบว่าต้นไม้ตัดสินใจมีอคติต่ำ แต่โมเดลความแปรปรวนสูง: โครงสร้างของพวกเขามีแนวโน้มที่จะเปลี่ยนไปเมื่อมีการดัดแปลงชุดฝึกอบรมเล็ก ๆ น้อย ๆ แต่สิ่งนี้ไม่ควรถูกเข้าใจผิดว่ามีความไวต่อผู้ผิดปกตินี่เป็นเรื่องอื่น

— แอนทอน
แหล่งที่มา

ฉันคิดว่าใช้วิธีการจัดกลุ่มตามที่คุณแนะนำสำหรับการตรวจจับค่าผิดปกติ แต่ฉันไม่แน่ใจว่าจะใช้การจัดกลุ่มที่ใด ก็ควรจะนำไปใช้labeledหรือunlabeledข้อมูล? และการจัดกลุ่มนี้จะเกิดขึ้นได้อย่างไรกับข้อมูลที่ต่างกันซึ่งมีทั้งคุณสมบัติที่เป็นหมวดหมู่และตัวเลข?

— Hunle