ฉันจะตีความสถิติ GAP ได้อย่างไร


10

ฉันใช้สถิติ GAP เพื่อประเมิน k กลุ่มใน R อย่างไรก็ตามฉันไม่แน่ใจว่าฉันตีความได้ดีหรือไม่ ป้อนคำอธิบายรูปภาพที่นี่

จากพล็อตข้างต้นฉันคิดว่าฉันควรใช้ 3 กลุ่ม

ป้อนคำอธิบายรูปภาพที่นี่

จากพล็อตที่สองฉันควรเลือก 6 กลุ่ม การตีความสถิติ GAP ถูกต้องหรือไม่

ฉันจะขอบคุณสำหรับคำอธิบายใด ๆ


คำถามสองข้อ - โครงเรื่องแรกแสดงอะไร เป็นสถิติ GAP สำหรับข้อมูลเดียวกันหรือไม่ ทำไมมันจึงดูแตกต่างจากวินาที (ซึ่งฉันเห็นคือ GAP) คุณใช้ฟังก์ชัน R แบบใด คำถามที่สอง: คุณใช้กฎ 'ข้อผิดพลาดมาตรฐาน 1 ข้อเพื่อเลือก 6 สำหรับโครงร่างที่สองหรือไม่?
Deathkill14

ดังนั้นจึงมีสองวิธีในการจัดกลุ่มที่แตกต่างกัน รายการแรกตามซีรี่ส์เวลา - ยอดขายในช่วง 26 สัปดาห์และฉันจัดกลุ่มข้อมูลตามการแปรปรวนเวลาแบบไดนามิก วิธีที่สองคือการจัดกลุ่มพารามิเตอร์การเจริญเติบโตของกลุ่มขึ้นอยู่กับการแปรปรวนเวลาแบบไดนามิก ฉันใช้clusGapตาม globalmax ฉันไม่ทราบวิธีการใช้ maxSE
เตอร์

คำตอบ:


11

kkk=2

สถิติ Gap

อย่างไรก็ตามในชุดข้อมูลจริงจำนวนมากกลุ่มนั้นไม่ได้กำหนดไว้อย่างดีและเราต้องการที่จะสามารถสร้างความสมดุลให้กับการเพิ่มช่องว่างทางสถิติด้วย parsimony ของโมเดล กรณีตรงประเด็น: ภาพแรกของ OP หากเราเพิ่มสถิติช่องว่างเพียงอย่างเดียวเราควรเลือกโมเดลที่มีกลุ่ม 30 (หรือมากกว่านั้น!) สมมติว่าพล็อตนั้นเพิ่งจะเพิ่มขึ้นเรื่อย ๆ แน่นอนผลลัพธ์จะมีประโยชน์น้อยกว่า ดังนั้น Tibshirani แนะนำวิธี1 ข้อผิดพลาดมาตรฐาน :

k^kช่องว่าง(k)ช่องว่าง(k+1)-sk+1

ซึ่งอย่างไม่เป็นทางการคือการระบุจุดที่อัตราการเพิ่มขึ้นของสถิติช่องว่างเริ่ม "ชะลอตัว"

k

ภาพที่มีคำอธิบายประกอบ 1

k>1k1

kclusGapkfirstSEmaxk=30k=19

ที่มา: Robert Tibshirani, Guenther Walther และ Trevor Hastie (2001) การประมาณจำนวนกลุ่มในชุดข้อมูลผ่านสถิติช่องว่าง


1
kk

ขอบคุณสำหรับการชี้ให้เห็นถึงการแลกเปลี่ยนระหว่างการเพิ่มสถิติช่องว่างและรับความหลากหลายของรูปแบบ
cloudscomputes
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.