การคำนวณโหมดของข้อมูลที่สุ่มตัวอย่างจากการแจกแจงแบบต่อเนื่อง


12

อะไรคือวิธีที่ดีที่สุดในการปรับ 'โหมด' ของข้อมูลตัวอย่างจากการกระจายอย่างต่อเนื่อง?

เนื่องจากโหมดนี้ไม่ได้กำหนดทางเทคนิค (ใช่ไหม) สำหรับการแจกแจงแบบต่อเนื่องฉันจึงถามว่า 'คุณจะพบคุณค่าที่พบได้บ่อยที่สุด' ได้อย่างไร?

หากคุณถือว่าการกระจายตัวของผู้ปกครองนั้นเป็น gaussian คุณสามารถ bin ข้อมูลและหาว่าโหมดนั้นเป็นที่ตั้งของ bin ที่มีจำนวนมากที่สุด อย่างไรก็ตามคุณจะกำหนดขนาดถังขยะได้อย่างไร มีการใช้งานที่แข็งแกร่งหรือไม่? (เช่นแข็งแกร่งถึงค่าผิดปกติ) ฉันใช้python/ scipy/ numpyแต่ฉันสามารถแปลได้Rโดยไม่ยากเกินไป


8
ฉันไม่แน่ใจว่าโหมดได้รับการกำหนดทางเทคนิคด้วยวิธีนี้หรือไม่ แต่โหมดทั่วโลกของการแจกแจงแบบต่อเนื่องมักจะถูกนำมาใช้เพื่อหมายถึงจุดที่มีความหนาแน่นสูงสุด
มาโคร

1
@Macro - มีประโยชน์ จากนั้นคุณสามารถอ่านคำถามของฉันว่า 'วิธีที่ดีที่สุดในการกำหนดความหนาแน่น (สูงสุด) คืออะไร'
keflavich

1
อาจเหมาะสมกับการประมาณความหนาแน่นของเคอร์เนลสำหรับข้อมูลของคุณและประเมินโหมดว่าเป็นจุดสูงสุด ดูเหมือนว่าวิธีการที่เหมาะสม แต่ฉันไม่คุ้นเคยกับวรรณกรรมเกี่ยวกับปัญหานี้
มาโคร

1
หากคุณไม่คิดว่าการแจกจ่ายพาเรนต์เป็น gaussian เป็นไปได้ไหมที่จะยังสามารถ bin ข้อมูลและใช้โหมดเป็นตำแหน่ง bin ที่มีจำนวนมากที่สุด? ทำไมหรือทำไมไม่? ในบันทึกที่ร้ายแรงกว่าทำไมไม่หาdeciles เพื่อให้ของตัวอย่างอยู่ในช่วงเวลาและดังนั้นจึงเป็นไปได้ว่าโหมดอยู่ในช่วงเวลาระหว่าง interdecile ที่สั้นที่สุด min_ ? จากนั้นให้ใช้ขนาดของ bin ที่จะพูดหนึ่งในสี่ของช่วงเวลา interdecile ที่สั้นที่สุดนี้ x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj
Dilip Sarwate

2
สมมติฐานอะไรที่คุณสามารถทำเกี่ยวกับการกระจายตัวของผู้ปกครองเคฟลาวิช? หากเป็นพารามิเตอร์ควรประเมินพารามิเตอร์จากนั้นประเมินโหมดจากพารามิเตอร์เหล่านั้น (ตัวอย่างเช่นค่าเฉลี่ยประมาณโหมดของการแจกแจงแบบปกติ) ถ้าไม่การกัดอาจเป็นวิธีที่ไม่ดี แต่ลำดับของตัวประมาณค่าเคอร์เนลที่มีฮาล์ฟด์ต่างกันสามารถใช้เพื่อจัดลำดับตัวประมาณ โดยทั่วไปหากการกระจายที่อยู่ภายใต้ unimodal โหมดของเคอร์เนลที่ราบรื่นจะปรากฏขึ้นเพื่อมาบรรจบกันในโหมดที่ไม่ซ้ำกันเมื่อ halfwidths มีขนาดใหญ่และที่สามารถประมาณการของคุณ
whuber

คำตอบ:


4

ใน R การใช้วิธีการที่ไม่ได้ขึ้นอยู่กับการสร้างแบบจำลองพารามิเตอร์ของการแจกแจงพื้นฐานและใช้การประมาณเคอร์เนลเริ่มต้นของความหนาแน่นถึง 10,000 แกมมาตัวแปรกระจาย:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

ส่งคืน 0.199 ซึ่งเป็นค่าของ x ที่ประเมินว่ามีความหนาแน่นสูงสุด (ค่าประมาณการความหนาแน่นถูกเก็บไว้เป็น "z $ y")


3
สิ่งเดียวที่ฉันจะทำแตกต่างจากที่ใช้แบนด์วิดท์ที่แตกต่างกัน แบนด์วิดท์เริ่มต้นสำหรับความหนาแน่น () ไม่ดีเป็นพิเศษ ความหนาแน่น (x, bw = "SJ") ดีกว่า ยิ่งไปกว่านั้นคือการใช้แบนด์วิดท์ที่ออกแบบมาสำหรับการประมาณโหมด ดูsciencedirect.com/science/article/pii/0167715295000240สำหรับการสนทนา
Rob Hyndman

2

สมมติว่าคุณสร้างฮิสโตแกรมขนาดของช่องเก็บขและช่องเก็บที่ใหญ่ที่สุดมีรายการ k จากตัวอย่างขนาด n ทั้งหมดของคุณ จากนั้นค่าเฉลี่ย PDF ภายในถังขยะนั้นสามารถประมาณเป็น b * k / n

ปัญหาคือว่าถังขยะอื่นซึ่งมีสมาชิกทั้งหมดน้อยกว่าอาจมีความหนาแน่นของจุดสูง คุณสามารถทราบเกี่ยวกับสิ่งนี้หากคุณมีสมมติฐานที่สมเหตุสมผลเกี่ยวกับอัตราการเปลี่ยนแปลงของ PDF หากคุณทำเช่นนั้นคุณสามารถประมาณความน่าจะเป็นที่ถังขยะที่ใหญ่เป็นอันดับสองมีโหมดจริง

ปัญหาพื้นฐานคือสิ่งนี้ ตัวอย่างให้ความรู้ที่ดีเกี่ยวกับ CDF โดยทฤษฎีบท Kolmogorov-Smirnov และการประมาณค่ามัธยฐานและค่าอื่น ๆ ที่ดี แต่การรู้การประมาณฟังก์ชั่นใน L1 ไม่ได้ให้ความรู้โดยประมาณของอนุพันธ์ของมัน ดังนั้นไม่มีตัวอย่างให้ความรู้ที่ดีเกี่ยวกับ PDF โดยไม่มีข้อสันนิษฐานเพิ่มเติม


0

ต่อไปนี้เป็นภาพร่างโซลูชันทั่วไปที่ใช้ได้กับการแจกแจงมิติสูง:

  • ฝึก f-GAN ด้วย reverse KL divergence โดยไม่ให้สัญญาณอินพุตแบบสุ่มไปยังเครื่องกำเนิด (เช่นบังคับให้กำหนดไว้ล่วงหน้า)

  • ฝึก f-GAN ด้วย reverse divergence แบบย้อนกลับย้ายการแจกจ่ายไปยังเครื่องกำเนิดไปยังฟังก์ชัน Dirac delta ในขณะที่การฝึกอบรมดำเนินไป

  • ฝึกโมเดล Generative (differentiable) ที่สามารถประเมินการประมาณของไฟล์ PDF ได้ทุกจุด (ฉันเชื่อว่าเช่น VAE, โมเดลการไหลตามหรือโมเดลอัตชีวประวัติอัตโนมัติ) จากนั้นใช้การเพิ่มประสิทธิภาพบางประเภท (สามารถใช้รสชาติของการไล่ระดับสีได้ถ้าการอนุมานโมเดลนั้นแตกต่างกัน) เพื่อหาค่าสูงสุดของการประมาณนั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.