ได้รับแรงบันดาลใจจากคำถามอื่น ๆ ของฉันฉันอยากถามว่าโหมดค้นหาฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) ของฟังก์ชันอย่างไร
มีขั้นตอน "ตำราทำอาหาร" สำหรับสิ่งนี้หรือไม่? เห็นได้ชัดว่างานนี้เป็นเรื่องยากกว่าที่ดูเหมือนในตอนแรก
ได้รับแรงบันดาลใจจากคำถามอื่น ๆ ของฉันฉันอยากถามว่าโหมดค้นหาฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) ของฟังก์ชันอย่างไร
มีขั้นตอน "ตำราทำอาหาร" สำหรับสิ่งนี้หรือไม่? เห็นได้ชัดว่างานนี้เป็นเรื่องยากกว่าที่ดูเหมือนในตอนแรก
คำตอบ:
การพูดว่า "โหมด" บอกเป็นนัยว่าการกระจายมีเพียงหนึ่งเดียวเท่านั้น โดยทั่วไปการกระจายอาจมีหลายโหมดหรือ (ไม่มี)
หากมีมากกว่าหนึ่งโหมดคุณต้องระบุว่าคุณต้องการโหมดทั้งหมดหรือเพียงแค่โหมดโกลบอล (หากมีหนึ่งโหมดเท่านั้น)
สมมติว่าเรา จำกัด ตัวเองไว้ที่การกระจายแบบunimodal * ดังนั้นเราจึงสามารถพูดถึงโหมด "the" พวกมันถูกค้นพบในลักษณะเดียวกันกับการค้นหาฟังก์ชันสูงสุดโดยทั่วไป
* โปรดทราบว่าหน้าพูดว่า " เป็นคำว่า" โหมด "มีความหมายหลายประการดังนั้นคำว่า" unimodal " " และมีคำจำกัดความหลายโหมด - ซึ่งสามารถเปลี่ยนสิ่งที่แน่นอนนับเป็นโหมดไม่ว่าจะมี 0 1 หรือ มากขึ้น - และปรับเปลี่ยนกลยุทธ์ในการระบุตัวตน หมายเหตุโดยเฉพาะอย่างยิ่งการใช้ถ้อยคำ "ทั่วไปมากขึ้น" ของสิ่งที่ unimodality อยู่ในย่อหน้าที่เปิด " unimodality หมายความว่ามีเพียงค่าสูงสุดเดียวกำหนดอย่างใด "
หนึ่งคำนิยามที่นำเสนอในหน้านั้นคือ:
โหมดของการแจกแจงความน่าจะเป็นแบบต่อเนื่องคือค่าที่ฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) บรรลุค่าสูงสุด
เพื่อให้ได้คำจำกัดความเฉพาะของโหมดคุณจะพบว่ามันเป็นคุณจะพบคำจำกัดความเฉพาะของ "ค่าสูงสุด" เมื่อจัดการกับฟังก์ชั่นโดยทั่วไป (สมมติว่าการแจกแจงแบบ unimodal ภายใต้คำจำกัดความนั้น)
คณิตศาสตร์มีกลยุทธ์หลากหลายในการระบุสิ่งต่าง ๆ ขึ้นอยู่กับสถานการณ์ ดูส่วน "การหาประโยชน์สูงสุดและต่ำสุด" ของหน้า Wikipedia ในMaxima และ minimaซึ่งให้การอภิปรายสั้น ๆ
ตัวอย่างเช่นหากสิ่งต่าง ๆ ดีพอ - พูดว่าเรากำลังจัดการกับตัวแปรสุ่มต่อเนื่องที่ฟังก์ชันความหนาแน่นมีอนุพันธ์อันดับหนึ่งอย่างต่อเนื่อง - คุณอาจดำเนินการต่อโดยพยายามค้นหาว่าอนุพันธ์ของฟังก์ชันความหนาแน่นเป็นศูนย์และตรวจสอบอย่างไรจุดวิกฤติประเภทใด (สูงสุด, จุดต่ำสุด, จุดแนวนอนของการยืดหยุ่น) หากมีจุดใดจุดหนึ่งดังกล่าวซึ่งเป็นค่าสูงสุดในท้องถิ่นควรเป็นโหมดของการกระจายแบบ unimodal
อย่างไรก็ตามโดยทั่วไปสิ่งต่าง ๆ มีความซับซ้อนมากขึ้น (เช่นโหมดอาจไม่ใช่จุดวิกฤติ) และกลยุทธ์ที่กว้างขึ้นสำหรับการค้นหาฟังก์ชันสูงสุด
บางครั้งการค้นหาที่อนุพันธ์เป็นศูนย์พีชคณิตอาจเป็นเรื่องยากหรืออย่างน้อยก็ยุ่งยาก แต่ก็ยังอาจเป็นไปได้ที่จะระบุสูงสุดในรูปแบบอื่น ๆ ยกตัวอย่างเช่นอาจเป็นไปได้ว่าบางคนอาจก่อให้เกิดการพิจารณาความสมมาตรในการระบุโหมดของการกระจายแบบ unimodal หรือบางคนอาจเรียกใช้อัลกอริทึมตัวเลขบางรูปแบบบนคอมพิวเตอร์เพื่อค้นหาโหมดตัวเลข
ต่อไปนี้เป็นบางกรณีที่แสดงให้เห็นถึงสิ่งต่าง ๆ ที่คุณต้องการตรวจสอบแม้ในขณะที่ฟังก์ชั่นนั้นไม่มีรูปแบบเดียว
ตัวอย่างเช่นเราจะต้องตรวจสอบจุดสิ้นสุด (แผนภาพกลาง) จุดที่การเปลี่ยนแปลงของอนุพันธ์เข้าสู่ระบบ (แต่อาจไม่เป็นศูนย์; แผนภาพแรก) และจุดที่ไม่ต่อเนื่อง (แผนภาพที่สาม)
ในบางกรณีสิ่งต่าง ๆ อาจไม่เรียบร้อยอย่างที่สามคนนี้ คุณต้องพยายามเข้าใจลักษณะเฉพาะของฟังก์ชั่นเฉพาะที่คุณกำลังติดต่อด้วย
ฉันไม่ได้สัมผัสกับกรณีหลายตัวแปรที่แม้เมื่อฟังก์ชั่นค่อนข้าง "ดี" เพียงแค่การหา maxima ท้องถิ่นอาจมีความซับซ้อนมากขึ้น (เช่นวิธีการเชิงตัวเลขสำหรับการทำเช่นนั้นอาจล้มเหลวในทางปฏิบัติแม้ว่าพวกเขาจะต้องประสบความสำเร็จ ในที่สุด)
คำตอบนี้มุ่งเน้นไปที่การประมาณค่าโหมดจากตัวอย่างโดยเน้นที่วิธีใดวิธีหนึ่งโดยเฉพาะ หากมีความรู้สึกรุนแรงที่คุณทราบความหนาแน่นในเชิงวิเคราะห์หรือเชิงตัวเลขแล้วคำตอบที่ต้องการคือโดยย่อเพื่อค้นหาค่าสูงสุดเดียวหรือหลายค่าสูงสุดโดยตรงเช่นเดียวกับในคำตอบจาก @Glen_b
"โหมดตัวอย่างครึ่ง" อาจคำนวณโดยใช้การเลือกแบบเรียกซ้ำของตัวอย่างครึ่งตัวที่มีความยาวสั้นที่สุด แม้ว่ามันจะมีรากฐานยาวนานกว่า แต่ Bickel และFrühwirth (2006) ได้รับการนำเสนอที่ยอดเยี่ยมจากแนวคิดนี้
แนวคิดของการประเมินโหมดเป็นจุดกึ่งกลางของช่วงเวลาที่สั้นที่สุดที่มีจำนวนการสังเกตที่แน่นอนกลับไปสู่ Dalenius อย่างน้อย (1965) โปรดดูเพิ่มเติมที่ Robertson and Cryer (1974), Bickel (2002) และ Bickel and Frühwirth (2006) ในตัวประมาณค่าอื่น ๆ ของโหมด
โหมดครึ่งตัวอย่างถูกกำหนดที่นี่โดยใช้สองกฎ
shorth
ความคิดเห็นที่ครอบคลุมในวงกว้างบางประการจะติดตามถึงข้อดีและข้อเสียของโหมดครึ่งตัวอย่างจากมุมมองของนักวิเคราะห์ข้อมูลเชิงปฏิบัติมากเท่ากับนักคณิตศาสตร์หรือนักทฤษฎี ไม่ว่าจะเป็นโครงการใดก็ตามก็ควรที่จะเปรียบเทียบผลลัพธ์กับมาตรการสรุปมาตรฐาน (เช่นค่ามัธยฐานหรือค่าเฉลี่ยรวมถึงวิธีทางเรขาคณิตและฮาร์มอนิก) และเพื่อเชื่อมโยงผลลัพธ์กับกราฟของการแจกแจง ยิ่งไปกว่านั้นถ้าความสนใจของคุณอยู่ในขอบเขตหรือความมีอยู่ของ bimodality หรือ multimodality จะเป็นการดีที่สุดที่จะดูการประมาณความหนาแน่นของฟังก์ชันความหนาแน่น
การประมาณโหมด โดยการสรุปว่าข้อมูลหนาแน่นที่สุดโหมดครึ่งตัวอย่างจะเพิ่มตัวประมาณค่าแบบอัตโนมัติของโหมดไปยังกล่องเครื่องมือ การประมาณแบบดั้งเดิมของโหมดที่อิงกับการระบุจุดสูงสุดบนฮิสโทแกรมหรือแม้แต่ความหนาแน่นของเคอร์เนลนั้นมีความอ่อนไหวต่อการตัดสินใจเกี่ยวกับต้นกำเนิดของช่องเก็บหรือความกว้างหรือประเภทเคอร์เนลและเคอร์เนลครึ่งความกว้างและยากกว่า เมื่อนำไปใช้กับการแจกแจงแบบ unimodal และสมมาตรโดยประมาณโหมดครึ่งตัวอย่างจะใกล้เคียงกับค่าเฉลี่ยและค่ามัธยฐาน แต่มีความต้านทานมากกว่าค่าเฉลี่ยของค่าผิดปกติในปลายหาง เมื่อนำไปใช้กับการแจกแจงแบบ unimodal และ asymmetric โดยทั่วไปโหมดครึ่งตัวอย่างจะใกล้กว่าโหมดที่ระบุโดยวิธีการอื่นมากกว่าวิธีเฉลี่ยหรือค่ามัธยฐาน
ความเรียบง่าย ความคิดของโหมดครึ่งตัวอย่างค่อนข้างง่ายและอธิบายได้ง่ายสำหรับนักเรียนและนักวิจัยที่ไม่ถือว่าตัวเองเป็นผู้เชี่ยวชาญทางสถิติ
การตีความกราฟิก โหมดครึ่งตัวอย่างสามารถเชื่อมโยงกับการแสดงมาตรฐานของการแจกแจงได้อย่างง่ายดายเช่นความหนาแน่นของเคอร์เนลการแจกแจงสะสมและควอนตัมพล็อตฮิสโตแกรมและแปลงต้นและใบ
ในเวลาเดียวกันโปรดทราบว่า
ไม่มีประโยชน์สำหรับการแจกแจงทั้งหมด เมื่อใช้กับการแจกแจงที่มีรูปตัว J โดยประมาณโหมดครึ่งตัวอย่างจะประมาณค่าต่ำสุดของข้อมูล เมื่อนำไปใช้กับการแจกแจงที่มีรูปตัวยูโดยประมาณโหมดครึ่งตัวอย่างจะอยู่ในช่วงใดของการกระจายครึ่งหนึ่งที่มีความหนาแน่นเฉลี่ยสูงกว่า พฤติกรรมไม่น่าสนใจหรือมีประโยชน์เป็นพิเศษ แต่อย่างเท่าเทียมกันมีการเรียกสรุปสรุปแบบเดียวโหมดเล็กน้อยสำหรับการแจกแจงแบบ J หรือรูปตัว U สำหรับรูปร่าง U ความหมายของ bimodality ทำให้เกิดแนวคิดของโหมด moot เดียวหากไม่ถูกต้อง
ความสัมพันธ์ ครึ่งสั้นที่สุดอาจไม่ได้กำหนดไว้โดยเฉพาะ แม้ว่าจะมีข้อมูลที่วัดได้ แต่การปัดเศษของค่าที่รายงานก็อาจก่อให้เกิดความผูกพันได้บ่อยครั้ง จะทำอย่างไรกับสองหรือครึ่งที่สั้นที่สุดได้มีการพูดคุยกันเล็กน้อยในวรรณกรรม โปรดทราบว่าแบ่งเท่า ๆ กันอาจทับซ้อนหรือแยกจากกัน
hsmode
ซึ่งเป็นเรื่องยากที่จะทำให้ได้รับเดเดอราตาอื่น ๆ โดยเฉพาะความยาวหน้าต่างไม่ควรลดลงตามขนาดตัวอย่าง เราต้องการเชื่อว่านี่เป็นปัญหาเล็กน้อยกับชุดข้อมูลที่มีขนาดเหมาะสม
hsmode
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers และ JW Tukey 1972. การ ประเมินสถานที่ที่แข็งแกร่ง: การสำรวจและความก้าวหน้า พรินซ์ตันนิวเจอร์ซีย์: สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน
Bickel, DR 2002 ตัวประมาณค่าที่แข็งแกร่งของโหมดและความเบ้ของข้อมูลต่อเนื่อง สถิติการคำนวณและการวิเคราะห์ข้อมูล 39: 153-163
Bickel, DR และ R. Frühwirth ปี 2549 ในตัวประมาณค่าที่รวดเร็วและแข็งแกร่งของโหมด: เปรียบเทียบกับตัวประมาณค่าอื่น ๆ กับแอปพลิเคชัน สถิติการคำนวณและการวิเคราะห์ข้อมูล 50: 3500-3530
Dalenius, T. 1965. โหมด - พารามิเตอร์สถิติที่ถูกทอดทิ้ง วารสารสมาคมสถิติ A 128: 110-117
Grübel, R. 1988. ความยาวของชอร์ต บันทึกสถิติ 16: 619-628
Hampel, FR 1975 นอกเหนือจากพารามิเตอร์ตำแหน่ง: แนวคิดและวิธีการที่มีประสิทธิภาพ Bulletin, สถาบันสถิติระหว่างประเทศ 46: 375-382
Maronna, RA, RD Martin และ VJ Yohai 2006 สถิติที่แข็งแกร่ง: ทฤษฎีและวิธีการ ชิเชสเตอร์: จอห์นไวลีย์
Robertson, T. และ JD Cryer 2517 เป็นกระบวนการซ้ำสำหรับการประเมินโหมด วารสารสมาคมสถิติอเมริกัน 69: 1012-1016
Rousseeuw, PJ 1984 มีค่ามัธยฐานถดถอยน้อยที่สุด วารสารสมาคมสถิติอเมริกัน 79: 871-880
Rousseeuw, PJ และ AM Leroy 1987 ถดถอยที่แข็งแกร่งและการตรวจสอบค่าผิดปกติ นิวยอร์ก: John Wiley
บัญชีนี้ใช้เอกสารประกอบสำหรับ
ค็อกซ์, นิวเจอร์ซีย์ 2007 HSMODE: Stata โมดูลโหมดครึ่งตัวอย่างคำนวณhttp://EconPapers.repec.org/RePEc:boc:bocode:s456818
ดูเว็บไซต์ของ David R. Bickel ที่นี่ สำหรับข้อมูลการใช้งานในซอฟต์แวร์อื่น ๆ
หากคุณมีตัวอย่างจากการแจกแจงในเวกเตอร์ "x" ฉันจะทำ:
mymode <- function(x){
d<-density(x)
return(d$x[which(d$y==max(d$y)[1])])
}
คุณควรปรับฟังก์ชั่นความหนาแน่นเพื่อให้ราบเรียบอยู่ด้านบน ;-)
หากคุณมีความหนาแน่นของการกระจายฉันจะใช้เครื่องมือเพิ่มประสิทธิภาพเพื่อค้นหาโหมด (REML, LBFGS, simplex, ฯลฯ ) ...
fx <- function(x) {some density equation}
mode <- optim(inits,fx)
หรือใช้ตัวอย่างมอนติคาร์โลเพื่อรับตัวอย่างจากการแจกจ่าย (แพ็คเกจ rstan) และใช้ขั้นตอนข้างต้น (อย่างไรก็ตามแพคเกจสแตนเป็นฟังก์ชั่น "การเพิ่มประสิทธิภาพ" เพื่อรับโหมดการกระจาย)