การกำหนด discretization ที่เหมาะสมของข้อมูลจากการกระจายอย่างต่อเนื่อง


11

สมมติว่าคุณมีชุดข้อมูลจากการแจกแจงแบบต่อเนื่องที่มีความหนาแน่นสนับสนุนบนที่ไม่รู้จัก แต่ค่อนข้างใหญ่ดังนั้นความหนาแน่นของเคอร์เนล (ตัวอย่าง) การประมาณค่อนข้างแม่นยำ สำหรับการประยุกต์ใช้โดยเฉพาะอย่างยิ่งผมต้องแปลงข้อมูลที่สังเกตในการ จำกัด จำนวนหมวดหมู่เพื่อให้ผลผลิตชุดข้อมูลใหม่ที่มีฟังก์ชั่นมวลโดยนัย(z) P ( Y ) [ 0 , 1 ] n P ( Y ) Z 1 , . . , z n g ( z )Y1,...,Ynp(y)[0,1]np^(y)Z1,...,Zng(z)

ตัวอย่างง่ายๆจะเมื่อและเมื่อ1/2 ในกรณีนี้ฟังก์ชั่นมวลเหนี่ยวนำจะเป็นY ฉัน1 / 2 Z ฉัน = 1 Y ฉัน > 1 / 2Zi=0Yi1/2Zi=1Yi>1/2

g^(0)=01/2p^(y)dy,   g^(1)=1/21p^(y)dy

ทั้งสอง "ค่าปรับ" ที่นี่มีจำนวนของกลุ่มที่และความยาวเวกเตอร์ของเกณฑ์\แสดงว่าฟังก์ชั่นที่เกิดจากมวล(y)mλ กรัมเมตร, λ ( Y )(m1)λg^m,λ(y)

ฉันต้องการขั้นตอนที่ตอบเช่น "ทางเลือกที่ดีที่สุดของคืออะไรดังนั้นการเพิ่มจำนวนกลุ่มเป็น (และการเลือกที่ดีที่สุดนั่น) จะทำให้เกิดการปรับปรุงเล็กน้อย" . ฉันรู้สึกว่าบางทีสถิติทดสอบอาจถูกสร้างขึ้น (อาจมีความแตกต่างใน KL divergence หรือสิ่งที่คล้ายกัน) ซึ่งสามารถรับการกระจายได้ ความคิดใด ๆ หรือวรรณกรรมที่เกี่ยวข้อง?m + 1 λm,λm+1λ

แก้ไข:ฉันมีการวัดระยะชั่วคราวอย่างสม่ำเสมอของตัวแปรต่อเนื่องและฉันใช้โซ่มาร์คอฟที่ไม่เหมือนใครเพื่อจำลองการพึ่งพาชั่วคราว ตรงไปตรงมาโซ่มาร์คอฟที่แยกจากรัฐนั้นจัดการได้ง่ายกว่ามากและนั่นคือแรงจูงใจของฉัน ข้อมูลที่สังเกตได้เป็นร้อยละ ขณะนี้ฉันใช้การแยกส่วนแบบเฉพาะกิจที่ดูดีมากสำหรับฉัน แต่ฉันคิดว่านี่เป็นปัญหาที่น่าสนใจซึ่งเป็นวิธีแก้ปัญหาที่เป็นทางการ (และทั่วไป) เป็นไปได้

แก้ไข 2:การลดความแตกต่าง KL จริง ๆ แล้วจะเทียบเท่ากับการไม่แยกข้อมูลทั้งหมดดังนั้นแนวคิดนั้นจึงหมดไป ฉันแก้ไขร่างกายตามนั้น


1
ในกรณีส่วนใหญ่ความต้องการของแอปพลิเคชันที่ตามมาจะเป็นตัวกำหนดความดีของโซลูชันใด ๆ บางทีเพื่อให้แนวทางแก่เราคุณสามารถพูดเพิ่มเติมเกี่ยวกับเรื่องนั้น
whuber

ครั้งแรกกำหนดสิ่งที่คุณหมายถึงโดยเล็กน้อย นอกมือดูเหมือนว่าจะเกี่ยวข้องกับปัญหาการบิดเบือนอัตรา ข้อความCover & Thomasให้การแนะนำที่อ่านง่ายสำหรับหัวข้อดังกล่าว
พระคาร์ดินัล

ฉันคิดว่าการแยกส่วนที่มีระดับเหมือนแบบจำลองที่มีพารามิเตอร์ (สำหรับขีด จำกัด ) ในการตั้งค่านี้เมื่อฉันพูดว่าไม่สำคัญฉันหมายถึง "ไม่คุ้มที่จะเพิ่มพารามิเตอร์เพิ่มเติม" ในแง่สถิติ k - 1kk1
มาโคร

ฉันไม่แน่ใจว่า discretizing จริง ๆ แล้วเป็นเรื่องที่ดี คุณจะไม่สามารถพูดถึงขอบเขตที่ค่าไม่ต่อเนื่องสร้างขึ้นบนพื้นที่ดั้งเดิมของการสังเกตของคุณ
bayerj

คำตอบ:


3

ฉันจะแบ่งปันวิธีแก้ปัญหาที่เกิดขึ้นเมื่อไม่นานมานี้ - นี่ไม่ใช่การทดสอบทางสถิติอย่างเป็นทางการ แต่อาจเป็นวิธีแก้ปัญหาที่เป็นประโยชน์


พิจารณากรณีทั่วไปที่คุณมีการสังเกตอย่างต่อเนื่อง ; โดยไม่สูญเสียของทั่วไปคิดว่าพื้นที่ตัวอย่างของแต่ละข้อสังเกตคือช่วง[0,1]โครงการจัดหมวดหมู่จะขึ้นอยู่กับจำนวนของประเภท,และใกล้เคียงสถานที่ซึ่งแบ่งประเภท,<1 [ 0 , 1 ] m 0 < λ 1 < λ 2 < < λ m - 1 < 1Y1,Y2,...,Yn[0,1]m0<λ1<λ2<<λm1<1

แสดงถึงรุ่นที่จัดเป็นหมวดหมู่ของโดยโดยที่\} การคิดถึง discretization ของข้อมูลเป็นการแบ่งพาร์ติชันของข้อมูลต้นฉบับออกเป็นคลาสความแปรปรวนของสามารถถูกคิดว่าเป็นการรวมกันของการเปลี่ยนแปลงภายในและระหว่างกลุ่มสำหรับค่าคงที่ของ : Z ฉัน ( m , λ ) λ = { λ 1 , λ 2 , , λ m - 1 } Y ฉัน m , λYiZi(m,λ)λ={λ1,λ2,,λm1}Yim,λ

var(Yi)=var(E(Yi|Zi(m,λ)))+E(var(Yi|Zi(m,λ))).

การจัดหมวดหมู่ที่กำหนดนั้นประสบความสำเร็จในการสร้างกลุ่มที่เป็นเนื้อเดียวกันถ้ามีความแปรปรวนของกลุ่มค่อนข้างน้อยปริมาณโดยดังนั้น เราค้นหาการจัดกลุ่มที่ให้ความสำคัญกับการเปลี่ยนแปลงในกับระยะ โดยเฉพาะอย่างยิ่งเราต้องการเลือก เพื่อเพิ่มระดับเพิ่มเติมเราไม่ได้เพิ่มความสม่ำเสมอของกลุ่มภายในอย่างมีนัยสำคัญด้วยเหตุนี้เราจึงกำหนดที่เหมาะสมที่สุดสำหรับค่าคงที่ของเป็นY i v a r ( E ( Y i | Z i ( m , λ ) ) m λ mE(var(Yi|Zi(m,λ))Yivar(E(Yi|Zi(m,λ))mλm

λm=argminλE(var(Yi|Zi(m,λ)))

การวินิจฉัยอย่างคร่าวๆเพื่อพิจารณาว่าตัวเลือกของเพียงพอหรือไม่คือดูที่ดรอปออฟในเป็นฟังก์ชั่นของ - วิถีนี้ไม่เพิ่มความซ้ำซากจำเจและหลังจากมันลดลงอย่างรวดเร็วจากนั้นคุณจะเห็นว่าคุณมีความแม่นยำน้อยลงโดยรวมหมวดหมู่อื่น ๆ ฮิวริสติกนี้มีความคล้ายคลึงกันในจิตวิญญาณว่า " Scree Plot " บางครั้งใช้เพื่อดูว่าองค์ประกอบหลักอธิบายความแปรปรวน "พอเพียง" มากน้อยเพียงใดอี(วีR ( Y ฉัน | Z ฉัน ( ม. , λ ม. ) ) )ม.mE(var(Yi|Zi(m,λm)))m

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.