kkk = 2
อย่างไรก็ตามในชุดข้อมูลจริงจำนวนมากกลุ่มนั้นไม่ได้กำหนดไว้อย่างดีและเราต้องการที่จะสามารถสร้างความสมดุลให้กับการเพิ่มช่องว่างทางสถิติด้วย parsimony ของโมเดล กรณีตรงประเด็น: ภาพแรกของ OP หากเราเพิ่มสถิติช่องว่างเพียงอย่างเดียวเราควรเลือกโมเดลที่มีกลุ่ม 30 (หรือมากกว่านั้น!) สมมติว่าพล็อตนั้นเพิ่งจะเพิ่มขึ้นเรื่อย ๆ แน่นอนผลลัพธ์จะมีประโยชน์น้อยกว่า ดังนั้น Tibshirani แนะนำวิธี1 ข้อผิดพลาดมาตรฐาน :
k^kGap ( k ) ≥ Gap ( k + 1 ) - sk + 1
ซึ่งอย่างไม่เป็นทางการคือการระบุจุดที่อัตราการเพิ่มขึ้นของสถิติช่องว่างเริ่ม "ชะลอตัว"
k
k > 1k1
kclusGap
kfirstSEmax
k = 30k = 19
ที่มา: Robert Tibshirani, Guenther Walther และ Trevor Hastie (2001) การประมาณจำนวนกลุ่มในชุดข้อมูลผ่านสถิติช่องว่าง