จะหาโหมดของฟังก์ชันความหนาแน่นของความน่าจะเป็นได้อย่างไร


14

ได้รับแรงบันดาลใจจากคำถามอื่น ๆ ของฉันฉันอยากถามว่าโหมดค้นหาฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) ของฟังก์ชันอย่างไรf(x)

มีขั้นตอน "ตำราทำอาหาร" สำหรับสิ่งนี้หรือไม่? เห็นได้ชัดว่างานนี้เป็นเรื่องยากกว่าที่ดูเหมือนในตอนแรก


3
ในกรณีที่คุณสงสัยเกี่ยวกับคำตอบที่แตกต่างกันมากโปรดทราบว่าคำตอบของ Nick เกี่ยวข้องกับการประเมินจากตัวอย่างมากกว่าสถานการณ์ที่คุณมีไฟล์ PDF ที่รู้จัก ฉันอ่านคำถามของคุณเกี่ยวกับกรณี PDF ที่รู้จัก แต่เป็นโพสต์ที่มีประโยชน์มากหากคุณต้องการดูวิธีการทำสิ่งต่าง ๆ จากตัวอย่าง ... (* ปิแอร์เป็นเรื่องเกี่ยวกับการประมาณค่าจากตัวอย่างด้วย)
Glen_b

คำตอบ:


13

การพูดว่า "โหมด" บอกเป็นนัยว่าการกระจายมีเพียงหนึ่งเดียวเท่านั้น โดยทั่วไปการกระจายอาจมีหลายโหมดหรือ (ไม่มี)

หากมีมากกว่าหนึ่งโหมดคุณต้องระบุว่าคุณต้องการโหมดทั้งหมดหรือเพียงแค่โหมดโกลบอล (หากมีหนึ่งโหมดเท่านั้น)

สมมติว่าเรา จำกัด ตัวเองไว้ที่การกระจายแบบunimodal * ดังนั้นเราจึงสามารถพูดถึงโหมด "the" พวกมันถูกค้นพบในลักษณะเดียวกันกับการค้นหาฟังก์ชันสูงสุดโดยทั่วไป

* โปรดทราบว่าหน้าพูดว่า " เป็นคำว่า" โหมด "มีความหมายหลายประการดังนั้นคำว่า" unimodal " " และมีคำจำกัดความหลายโหมด - ซึ่งสามารถเปลี่ยนสิ่งที่แน่นอนนับเป็นโหมดไม่ว่าจะมี 0 1 หรือ มากขึ้น - และปรับเปลี่ยนกลยุทธ์ในการระบุตัวตน หมายเหตุโดยเฉพาะอย่างยิ่งการใช้ถ้อยคำ "ทั่วไปมากขึ้น" ของสิ่งที่ unimodality อยู่ในย่อหน้าที่เปิด " unimodality หมายความว่ามีเพียงค่าสูงสุดเดียวกำหนดอย่างใด "

หนึ่งคำนิยามที่นำเสนอในหน้านั้นคือ:

โหมดของการแจกแจงความน่าจะเป็นแบบต่อเนื่องคือค่าที่ฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) บรรลุค่าสูงสุด

เพื่อให้ได้คำจำกัดความเฉพาะของโหมดคุณจะพบว่ามันเป็นคุณจะพบคำจำกัดความเฉพาะของ "ค่าสูงสุด" เมื่อจัดการกับฟังก์ชั่นโดยทั่วไป (สมมติว่าการแจกแจงแบบ unimodal ภายใต้คำจำกัดความนั้น)

คณิตศาสตร์มีกลยุทธ์หลากหลายในการระบุสิ่งต่าง ๆ ขึ้นอยู่กับสถานการณ์ ดูส่วน "การหาประโยชน์สูงสุดและต่ำสุด" ของหน้า Wikipedia ในMaxima และ minimaซึ่งให้การอภิปรายสั้น ๆ

ตัวอย่างเช่นหากสิ่งต่าง ๆ ดีพอ - พูดว่าเรากำลังจัดการกับตัวแปรสุ่มต่อเนื่องที่ฟังก์ชันความหนาแน่นมีอนุพันธ์อันดับหนึ่งอย่างต่อเนื่อง - คุณอาจดำเนินการต่อโดยพยายามค้นหาว่าอนุพันธ์ของฟังก์ชันความหนาแน่นเป็นศูนย์และตรวจสอบอย่างไรจุดวิกฤติประเภทใด (สูงสุด, จุดต่ำสุด, จุดแนวนอนของการยืดหยุ่น) หากมีจุดใดจุดหนึ่งดังกล่าวซึ่งเป็นค่าสูงสุดในท้องถิ่นควรเป็นโหมดของการกระจายแบบ unimodal

อย่างไรก็ตามโดยทั่วไปสิ่งต่าง ๆ มีความซับซ้อนมากขึ้น (เช่นโหมดอาจไม่ใช่จุดวิกฤติ) และกลยุทธ์ที่กว้างขึ้นสำหรับการค้นหาฟังก์ชันสูงสุด

บางครั้งการค้นหาที่อนุพันธ์เป็นศูนย์พีชคณิตอาจเป็นเรื่องยากหรืออย่างน้อยก็ยุ่งยาก แต่ก็ยังอาจเป็นไปได้ที่จะระบุสูงสุดในรูปแบบอื่น ๆ ยกตัวอย่างเช่นอาจเป็นไปได้ว่าบางคนอาจก่อให้เกิดการพิจารณาความสมมาตรในการระบุโหมดของการกระจายแบบ unimodal หรือบางคนอาจเรียกใช้อัลกอริทึมตัวเลขบางรูปแบบบนคอมพิวเตอร์เพื่อค้นหาโหมดตัวเลข

ต่อไปนี้เป็นบางกรณีที่แสดงให้เห็นถึงสิ่งต่าง ๆ ที่คุณต้องการตรวจสอบแม้ในขณะที่ฟังก์ชั่นนั้นไม่มีรูปแบบเดียว

ป้อนคำอธิบายรูปภาพที่นี่

ตัวอย่างเช่นเราจะต้องตรวจสอบจุดสิ้นสุด (แผนภาพกลาง) จุดที่การเปลี่ยนแปลงของอนุพันธ์เข้าสู่ระบบ (แต่อาจไม่เป็นศูนย์; แผนภาพแรก) และจุดที่ไม่ต่อเนื่อง (แผนภาพที่สาม)

ในบางกรณีสิ่งต่าง ๆ อาจไม่เรียบร้อยอย่างที่สามคนนี้ คุณต้องพยายามเข้าใจลักษณะเฉพาะของฟังก์ชั่นเฉพาะที่คุณกำลังติดต่อด้วย


ฉันไม่ได้สัมผัสกับกรณีหลายตัวแปรที่แม้เมื่อฟังก์ชั่นค่อนข้าง "ดี" เพียงแค่การหา maxima ท้องถิ่นอาจมีความซับซ้อนมากขึ้น (เช่นวิธีการเชิงตัวเลขสำหรับการทำเช่นนั้นอาจล้มเหลวในทางปฏิบัติแม้ว่าพวกเขาจะต้องประสบความสำเร็จ ในที่สุด)


1
N(1,1)N(1,1)

@Dilip ฉันจะเพิ่มข้อความเล็กน้อยที่
Glen_b -Reinstate Monica

1
@DilipSarwate นอกจากนี้โหมดจากการแจกแจงแบบร่วมอาจแตกต่างจากโหมดจากการแจกแจงแบบขอบ
Marcelo Ventura

17

คำตอบนี้มุ่งเน้นไปที่การประมาณค่าโหมดจากตัวอย่างโดยเน้นที่วิธีใดวิธีหนึ่งโดยเฉพาะ หากมีความรู้สึกรุนแรงที่คุณทราบความหนาแน่นในเชิงวิเคราะห์หรือเชิงตัวเลขแล้วคำตอบที่ต้องการคือโดยย่อเพื่อค้นหาค่าสูงสุดเดียวหรือหลายค่าสูงสุดโดยตรงเช่นเดียวกับในคำตอบจาก @Glen_b

"โหมดตัวอย่างครึ่ง" อาจคำนวณโดยใช้การเลือกแบบเรียกซ้ำของตัวอย่างครึ่งตัวที่มีความยาวสั้นที่สุด แม้ว่ามันจะมีรากฐานยาวนานกว่า แต่ Bickel และFrühwirth (2006) ได้รับการนำเสนอที่ยอดเยี่ยมจากแนวคิดนี้

แนวคิดของการประเมินโหมดเป็นจุดกึ่งกลางของช่วงเวลาที่สั้นที่สุดที่มีจำนวนการสังเกตที่แน่นอนกลับไปสู่ ​​Dalenius อย่างน้อย (1965) โปรดดูเพิ่มเติมที่ Robertson and Cryer (1974), Bickel (2002) และ Bickel and Frühwirth (2006) ในตัวประมาณค่าอื่น ๆ ของโหมด

nxx(1)x(2)x(n1)x(n)

โหมดครึ่งตัวอย่างถูกกำหนดที่นี่โดยใช้สองกฎ

n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)x(2)x(2)x(3)(x(2)+x(3))/2x(2)

n43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1h1+1h2=h1/2

x(k),,x(k+h)h=n/2(xk+x(k+h))/2xshorth

ความคิดเห็นที่ครอบคลุมในวงกว้างบางประการจะติดตามถึงข้อดีและข้อเสียของโหมดครึ่งตัวอย่างจากมุมมองของนักวิเคราะห์ข้อมูลเชิงปฏิบัติมากเท่ากับนักคณิตศาสตร์หรือนักทฤษฎี ไม่ว่าจะเป็นโครงการใดก็ตามก็ควรที่จะเปรียบเทียบผลลัพธ์กับมาตรการสรุปมาตรฐาน (เช่นค่ามัธยฐานหรือค่าเฉลี่ยรวมถึงวิธีทางเรขาคณิตและฮาร์มอนิก) และเพื่อเชื่อมโยงผลลัพธ์กับกราฟของการแจกแจง ยิ่งไปกว่านั้นถ้าความสนใจของคุณอยู่ในขอบเขตหรือความมีอยู่ของ bimodality หรือ multimodality จะเป็นการดีที่สุดที่จะดูการประมาณความหนาแน่นของฟังก์ชันความหนาแน่น

การประมาณโหมด โดยการสรุปว่าข้อมูลหนาแน่นที่สุดโหมดครึ่งตัวอย่างจะเพิ่มตัวประมาณค่าแบบอัตโนมัติของโหมดไปยังกล่องเครื่องมือ การประมาณแบบดั้งเดิมของโหมดที่อิงกับการระบุจุดสูงสุดบนฮิสโทแกรมหรือแม้แต่ความหนาแน่นของเคอร์เนลนั้นมีความอ่อนไหวต่อการตัดสินใจเกี่ยวกับต้นกำเนิดของช่องเก็บหรือความกว้างหรือประเภทเคอร์เนลและเคอร์เนลครึ่งความกว้างและยากกว่า เมื่อนำไปใช้กับการแจกแจงแบบ unimodal และสมมาตรโดยประมาณโหมดครึ่งตัวอย่างจะใกล้เคียงกับค่าเฉลี่ยและค่ามัธยฐาน แต่มีความต้านทานมากกว่าค่าเฉลี่ยของค่าผิดปกติในปลายหาง เมื่อนำไปใช้กับการแจกแจงแบบ unimodal และ asymmetric โดยทั่วไปโหมดครึ่งตัวอย่างจะใกล้กว่าโหมดที่ระบุโดยวิธีการอื่นมากกว่าวิธีเฉลี่ยหรือค่ามัธยฐาน

ความเรียบง่าย ความคิดของโหมดครึ่งตัวอย่างค่อนข้างง่ายและอธิบายได้ง่ายสำหรับนักเรียนและนักวิจัยที่ไม่ถือว่าตัวเองเป็นผู้เชี่ยวชาญทางสถิติ

การตีความกราฟิก โหมดครึ่งตัวอย่างสามารถเชื่อมโยงกับการแสดงมาตรฐานของการแจกแจงได้อย่างง่ายดายเช่นความหนาแน่นของเคอร์เนลการแจกแจงสะสมและควอนตัมพล็อตฮิสโตแกรมและแปลงต้นและใบ

ในเวลาเดียวกันโปรดทราบว่า

ไม่มีประโยชน์สำหรับการแจกแจงทั้งหมด เมื่อใช้กับการแจกแจงที่มีรูปตัว J โดยประมาณโหมดครึ่งตัวอย่างจะประมาณค่าต่ำสุดของข้อมูล เมื่อนำไปใช้กับการแจกแจงที่มีรูปตัวยูโดยประมาณโหมดครึ่งตัวอย่างจะอยู่ในช่วงใดของการกระจายครึ่งหนึ่งที่มีความหนาแน่นเฉลี่ยสูงกว่า พฤติกรรมไม่น่าสนใจหรือมีประโยชน์เป็นพิเศษ แต่อย่างเท่าเทียมกันมีการเรียกสรุปสรุปแบบเดียวโหมดเล็กน้อยสำหรับการแจกแจงแบบ J หรือรูปตัว U สำหรับรูปร่าง U ความหมายของ bimodality ทำให้เกิดแนวคิดของโหมด moot เดียวหากไม่ถูกต้อง

ความสัมพันธ์ ครึ่งสั้นที่สุดอาจไม่ได้กำหนดไว้โดยเฉพาะ แม้ว่าจะมีข้อมูลที่วัดได้ แต่การปัดเศษของค่าที่รายงานก็อาจก่อให้เกิดความผูกพันได้บ่อยครั้ง จะทำอย่างไรกับสองหรือครึ่งที่สั้นที่สุดได้มีการพูดคุยกันเล็กน้อยในวรรณกรรม โปรดทราบว่าแบ่งเท่า ๆ กันอาจทับซ้อนหรือแยกจากกัน

hsmodettt/2

9,4,1,0,1,4,90.501+n/2nnซึ่งเป็นเรื่องยากที่จะทำให้ได้รับเดเดอราตาอื่น ๆ โดยเฉพาะความยาวหน้าต่างไม่ควรลดลงตามขนาดตัวอย่าง เราต้องการเชื่อว่านี่เป็นปัญหาเล็กน้อยกับชุดข้อมูลที่มีขนาดเหมาะสม

1+n/2nnn=1,n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers และ JW Tukey 1972. การ ประเมินสถานที่ที่แข็งแกร่ง: การสำรวจและความก้าวหน้า พรินซ์ตันนิวเจอร์ซีย์: สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน

Bickel, DR 2002 ตัวประมาณค่าที่แข็งแกร่งของโหมดและความเบ้ของข้อมูลต่อเนื่อง สถิติการคำนวณและการวิเคราะห์ข้อมูล 39: 153-163

Bickel, DR และ R. Frühwirth ปี 2549 ในตัวประมาณค่าที่รวดเร็วและแข็งแกร่งของโหมด: เปรียบเทียบกับตัวประมาณค่าอื่น ๆ กับแอปพลิเคชัน สถิติการคำนวณและการวิเคราะห์ข้อมูล 50: 3500-3530

Dalenius, T. 1965. โหมด - พารามิเตอร์สถิติที่ถูกทอดทิ้ง วารสารสมาคมสถิติ A 128: 110-117

Grübel, R. 1988. ความยาวของชอร์ต บันทึกสถิติ 16: 619-628

Hampel, FR 1975 นอกเหนือจากพารามิเตอร์ตำแหน่ง: แนวคิดและวิธีการที่มีประสิทธิภาพ Bulletin, สถาบันสถิติระหว่างประเทศ 46: 375-382

Maronna, RA, RD Martin และ VJ Yohai 2006 สถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการ ชิเชสเตอร์: จอห์นไวลีย์

Robertson, T. และ JD Cryer 2517 เป็นกระบวนการซ้ำสำหรับการประเมินโหมด วารสารสมาคมสถิติอเมริกัน 69: 1012-1016

Rousseeuw, PJ 1984 มีค่ามัธยฐานถดถอยน้อยที่สุด วารสารสมาคมสถิติอเมริกัน 79: 871-880

Rousseeuw, PJ และ AM Leroy 1987 ถดถอยที่แข็งแกร่งและการตรวจสอบค่าผิดปกติ นิวยอร์ก: John Wiley

บัญชีนี้ใช้เอกสารประกอบสำหรับ

ค็อกซ์, นิวเจอร์ซีย์ 2007 HSMODE: Stata โมดูลโหมดครึ่งตัวอย่างคำนวณhttp://EconPapers.repec.org/RePEc:boc:bocode:s456818

ดูเว็บไซต์ของ David R. Bickel ที่นี่ สำหรับข้อมูลการใช้งานในซอฟต์แวร์อื่น ๆ


5

หากคุณมีตัวอย่างจากการแจกแจงในเวกเตอร์ "x" ฉันจะทำ:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

คุณควรปรับฟังก์ชั่นความหนาแน่นเพื่อให้ราบเรียบอยู่ด้านบน ;-)

หากคุณมีความหนาแน่นของการกระจายฉันจะใช้เครื่องมือเพิ่มประสิทธิภาพเพื่อค้นหาโหมด (REML, LBFGS, simplex, ฯลฯ ) ...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

หรือใช้ตัวอย่างมอนติคาร์โลเพื่อรับตัวอย่างจากการแจกจ่าย (แพ็คเกจ rstan) และใช้ขั้นตอนข้างต้น (อย่างไรก็ตามแพคเกจสแตนเป็นฟังก์ชั่น "การเพิ่มประสิทธิภาพ" เพื่อรับโหมดการกระจาย)


ดูเหมือนว่าการประมาณการดังกล่าวจะไม่ใช้อีกต่อไป คุณต้องระบุความกว้างของเคอร์เนลเพื่อใช้การประมาณความหนาแน่นของเคอร์เนล ในทางกลับกัน HSM และ HRM ไม่จำเป็นต้องปรับแต่งเลยและทำงานในเวลาเชิงเส้น
Viktor
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.