คำถามติดแท็ก mode

โหมดนี้เป็นค่าที่เกิดขึ้นบ่อยที่สุดในข้อมูลและสามารถใช้เป็นการวัดแนวโน้มศูนย์กลางสำหรับข้อมูลเชิงหมวดหมู่


4
หมายความว่าโหมด = แปลว่าการกระจายแบบสมมาตรหรือไม่?
ฉันรู้ว่าคำถามนี้ถูกถามด้วย case Mean = มัธยฐาน แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับโหมด Mean = หากโหมดเท่ากับค่าเฉลี่ยฉันสามารถสรุปได้ว่านี่คือการแจกแจงแบบสมมาตรหรือไม่? ฉันจะถูกบังคับให้รู้ค่ามัธยฐานด้วยวิธีนี้หรือไม่?

4
ค่าที่คาดหวังกับค่าที่น่าจะเป็นที่สุด (โหมด)
ค่าที่คาดหวังของการแจกแจงคือค่าเฉลี่ยนั่นคือค่าเฉลี่ยถ่วงน้ำหนัก f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx ค่าที่เป็นไปได้มากที่สุดคือโหมดซึ่งเป็นค่าที่น่าจะเป็นที่สุด อย่างไรก็ตามเราคาดหวังว่าจะเห็นหลายครั้ง? ข้อความจากที่นี่ :E[x]E[x]E[x] หากผลลัพธ์ไม่น่าจะเท่ากันดังนั้นค่าเฉลี่ยอย่างง่ายจะต้องถูกแทนที่ด้วยค่าเฉลี่ยถ่วงน้ำหนักซึ่งคำนึงถึงความจริงที่ว่าผลลัพธ์บางอย่างมีแนวโน้มมากกว่าคนอื่น ๆ สัญชาตญาณ แต่ยังคงเหมือนเดิม: มูลค่าที่คาดหวังของคือสิ่งหนึ่งที่คาดว่าจะเกิดขึ้นโดยเฉลี่ยxixix_ixxx ฉันไม่สามารถเข้าใจสิ่งที่ "เกิดขึ้นโดยเฉลี่ย" หมายความว่านี่หมายถึงว่าสำหรับ istance ใช้เวลานานมากในการคาดหวังว่าจะเห็นมากกว่าค่าอื่น ๆ ของหรือไม่? แต่นี่ไม่ใช่นิยามของโหมดใช่ไหมE[x]E[x]E[x]xxx ดังนั้นวิธีการตีความคำสั่งหรือไม่ ความหมายความน่าจะเป็นของคืออะไร?E[x]E[x]E[x] ฉันต้องการแสดงตัวอย่างที่ทำให้สับสน การศึกษาการฉันได้เรียนรู้ว่าโหมด นี้คือχ 2 m o d e = ν - 2ในขณะที่E [ χ 2 ] = νโดยที่νคือองศาของอิสระของข้อมูลχ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu ผมได้ยินที่มหาวิทยาลัยว่าเมื่อทำทดสอบหลังการใช้สแควน้อยวิธีการเพื่อให้พอดีกับชุดของข้อมูลที่ฉันควรคาดหวังว่าจะได้รับχ 2 ≈ เข้าพบเพราะ "ว่าสิ่งที่เกิดขึ้นโดยทั่วไป"χ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx …

3
จะหาโหมดของฟังก์ชันความหนาแน่นของความน่าจะเป็นได้อย่างไร
ได้รับแรงบันดาลใจจากคำถามอื่น ๆ ของฉันฉันอยากถามว่าโหมดค้นหาฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) ของฟังก์ชันอย่างไรฉ( x )f(x)f(x) มีขั้นตอน "ตำราทำอาหาร" สำหรับสิ่งนี้หรือไม่? เห็นได้ชัดว่างานนี้เป็นเรื่องยากกว่าที่ดูเหมือนในตอนแรก

3
การคำนวณที่มีประสิทธิภาพเชิงคำนวณของโหมดหลายตัวแปร
เวอร์ชั่นสั้น: อะไรคือวิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณโหมดของชุดข้อมูลหลายมิติตัวอย่างจากการแจกแจงแบบต่อเนื่อง รุ่นยาว: ฉันมีชุดข้อมูลที่ฉันต้องการประเมินโหมดของ โหมดไม่ตรงกับค่าเฉลี่ยหรือค่ามัธยฐาน ตัวอย่างที่แสดงด้านล่างนี้เป็นตัวอย่าง 2D แต่โซลูชัน ND น่าจะดีกว่า: ปัจจุบันวิธีการของฉันคือ คำนวณการประมาณความหนาแน่นของเคอร์เนลบนกริดเท่ากับความละเอียดที่ต้องการของโหมด มองหาจุดที่คำนวณมากที่สุด เห็นได้ชัดว่านี่เป็นการคำนวณ KDE ในจุดที่ไม่น่าเชื่อถือซึ่งเป็นสิ่งที่ไม่ดีโดยเฉพาะอย่างยิ่งหากมีจุดข้อมูลจำนวนมากที่มีมิติสูงหรือฉันคาดหวังความละเอียดที่ดีในโหมด ทางเลือกอื่นคือใช้การจำลองการอบอ่อนอัลกอริธึมทางพันธุกรรม ฯลฯ เพื่อค้นหาจุดสูงสุดทั่วโลกใน KDE คำถามคือว่ามีวิธีการคำนวณที่ชาญฉลาดกว่านี้หรือไม่?

4
เหตุใดการแจกแจงที่รู้จักทั้งหมดจึงไม่เหมือนกัน?
ฉันไม่ทราบว่ามีการแจกแจงแบบหลายรูปแบบใด ๆ เหตุใดการแจกแจงที่รู้จักทั้งหมดจึงไม่เหมือนกัน? มีการกระจาย "มีชื่อเสียง" ที่มีมากกว่าหนึ่งโหมดหรือไม่ แน่นอนว่าการผสมของการแจกแจงมักจะต่อเนื่องหลายรูปแบบ แต่ฉันต้องการที่จะรู้ว่ามีการกระจาย "ไม่ผสม" ใด ๆ ที่มีมากกว่าหนึ่งโหมด

2
ความน่าเชื่อถือของโหมดจากตัวอย่าง MCMC
ในหนังสือของเขา Doing Bayesian Data Analysis John Kruschke ระบุว่าในการใช้ JAGS จาก R ... การประมาณค่าของโหมดจากตัวอย่าง MCMC นั้นค่อนข้างไม่เสถียรเนื่องจากการประมาณจะขึ้นอยู่กับอัลกอริธึมการปรับให้เรียบซึ่งสามารถไวต่อการกระแทกแบบสุ่มและระลอกในตัวอย่าง MCMC (ทำการวิเคราะห์ข้อมูลแบบเบย์ , หน้า 205, ส่วน 8.2.5.1) ในขณะที่ฉันมีความเข้าใจเกี่ยวกับอัลกอริทึม Metropolis และรูปแบบที่แน่นอนเช่นการสุ่มตัวอย่างกิ๊บส์ฉันไม่คุ้นเคยกับอัลกอริธึมที่ราบเรียบที่พูดพาดพิงเกินไปและสาเหตุที่มันหมายถึงการประเมินโหมดจากตัวอย่าง MCMC ไม่เสถียร ทุกคนสามารถให้ข้อมูลเชิงลึกที่เข้าใจง่ายเกี่ยวกับสิ่งที่อัลกอริทึมการปรับให้เรียบและทำไมมันทำให้การประเมินของโหมดไม่เสถียร?
12 bayesian  mcmc  mode 

3
การคำนวณโหมดของข้อมูลที่สุ่มตัวอย่างจากการแจกแจงแบบต่อเนื่อง
อะไรคือวิธีที่ดีที่สุดในการปรับ 'โหมด' ของข้อมูลตัวอย่างจากการกระจายอย่างต่อเนื่อง? เนื่องจากโหมดนี้ไม่ได้กำหนดทางเทคนิค (ใช่ไหม) สำหรับการแจกแจงแบบต่อเนื่องฉันจึงถามว่า 'คุณจะพบคุณค่าที่พบได้บ่อยที่สุด' ได้อย่างไร? หากคุณถือว่าการกระจายตัวของผู้ปกครองนั้นเป็น gaussian คุณสามารถ bin ข้อมูลและหาว่าโหมดนั้นเป็นที่ตั้งของ bin ที่มีจำนวนมากที่สุด อย่างไรก็ตามคุณจะกำหนดขนาดถังขยะได้อย่างไร มีการใช้งานที่แข็งแกร่งหรือไม่? (เช่นแข็งแกร่งถึงค่าผิดปกติ) ฉันใช้python/ scipy/ numpyแต่ฉันสามารถแปลได้Rโดยไม่ยากเกินไป

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

3
ตัวอย่างที่มีค่ามัธยฐานอยู่นอก [โหมดหมายถึง]
นี้บทความอยู่เหนือลีกของฉัน แต่มันพูดเกี่ยวกับหัวข้อที่ฉันสนใจในความสัมพันธ์ระหว่างค่าเฉลี่ยโหมดและค่ามัธยฐาน มันบอกว่า : เป็นที่เชื่อกันอย่างกว้างขวางว่าค่ามัธยฐานของการแจกแจงแบบ unimodal คือ "ปกติ" ระหว่างค่าเฉลี่ยและโหมด อย่างไรก็ตามสิ่งนี้ไม่เป็นความจริงเสมอไป ... คำถามของฉัน : ใครสามารถให้ตัวอย่างของการกระจาย unimodal (ง่ายอย่างง่าย ๆ ) อย่างต่อเนื่องที่ค่ามัธยฐานอยู่นอกช่วง [โหมดหมายถึง]? mode < mean < medianยกตัวอย่างเช่นการกระจายเช่น === แก้ไข ======= มีคำตอบที่ดีจาก Glen_b และ Francis แต่ฉันรู้ว่าสิ่งที่ฉันสนใจจริงๆคือตัวอย่างที่โหมด <หมายถึง <มัธยฐานหรือมัธยฐาน <เฉลี่ย <โหมด (นั่นคือค่ามัธยฐานทั้งสองอยู่นอก [โหมดหมายถึง] และมัธยฐานคือ "ในด้านเดียวกัน" เป็นค่าเฉลี่ยของโหมด (เช่นทั้งเหนือและใต้โหมด) ฉันยอมรับคำตอบที่นี่เปิดคำถามใหม่หรืออาจมีคนแนะนำวิธีแก้ปัญหาที่นี่โดยตรง
11 mean  median  mode 

1
กำลังคำนวณช่วงความมั่นใจสำหรับโหมดหรือไม่
ฉันกำลังมองหาข้อมูลอ้างอิงเกี่ยวกับการคำนวณช่วงความมั่นใจสำหรับโหมด (โดยทั่วไป) Bootstrap อาจเป็นตัวเลือกอันดับแรกตามธรรมชาติ แต่ตามที่กล่าวถึงโดย Romano (1988) bootstrap มาตรฐานจะล้มเหลวสำหรับโหมดและมันไม่ได้ให้วิธีแก้ปัญหาง่ายๆ มีอะไรเปลี่ยนแปลงไปบ้างจากบทความนี้? วิธีที่ดีที่สุดในการคำนวณช่วงความมั่นใจสำหรับโหมดคืออะไร วิธีบูตสแตรปที่ดีที่สุดคืออะไร? คุณสามารถให้การอ้างอิงที่เกี่ยวข้องใด ๆ Romano, JP (1988) ทำการบูตโหมด พงศาวดารของสถาบันคณิตศาสตร์สถิติ 40 (3), 565-586

5
การอธิบายค่าเฉลี่ยมัธยฐานโหมดตามข้อกำหนดของคนธรรมดา
คุณจะอธิบายแนวคิดเกี่ยวกับค่าเฉลี่ยค่ามัธยฐานและโหมดของรายการตัวเลขอย่างไรและทำไมพวกเขาถึงมีความสำคัญต่อใครบางคนที่มีทักษะการคิดคำนวณขั้นพื้นฐานเท่านั้น อย่าพูดถึงความเบ้, CLT, แนวโน้มกลาง, คุณสมบัติทางสถิติ, ฯลฯ ฉันอธิบายให้คนที่หมายถึงเป็นเพียงวิธีที่รวดเร็วและสกปรกในการ "สรุป" รายการตัวเลข แต่เมื่อมองย้อนกลับไป ความคิดหรือตัวอย่างโลกแห่งความจริง?

4
รับโซ่ 10D MCMC ฉันจะกำหนดโหมดหลังได้อย่างไรใน R
คำถาม:ด้วยห่วงโซ่ MCMC แบบ 10 มิติสมมติว่าฉันพร้อมที่จะมอบเมทริกซ์การจับ: 100,000 ซ้ำ (แถว) โดย 10 พารามิเตอร์ (คอลัมน์) ฉันจะระบุโหมดหลังได้ดีที่สุดอย่างไร ฉันกังวลเป็นพิเศษกับหลายโหมด พื้นหลัง:ฉันคิดว่าตัวเองเป็นนักสถิติที่มีความชำนาญ แต่เมื่อเพื่อนร่วมงานถามคำถามนี้กับฉันฉันรู้สึกละอายใจที่ไม่สามารถหาคำตอบที่เหมาะสมได้ ข้อกังวลหลักคืออาจมีหลายโหมดปรากฏขึ้น แต่หากพิจารณาอย่างน้อยแปดหรือมากกว่านั้นในสิบส่วนข้อมูล ความคิดแรกของฉันคือการใช้การประมาณความหนาแน่นของเคอร์เนล แต่การค้นหาผ่าน R เปิดเผยว่าไม่มีอะไรน่ากังวลสำหรับปัญหาที่มีขนาดเกินกว่าสามมิติ เพื่อนร่วมงานได้เสนอกลยุทธ์เฉพาะกิจในสิบมิติและค้นหาสูงสุด แต่ข้อกังวลของฉันคือแบนด์วิดท์อาจนำไปสู่ปัญหาการกระจัดกระจายที่สำคัญหรือขาดความละเอียดในการแยกแยะหลายโหมด ที่กล่าวว่าฉันยินดีรับข้อเสนอแนะสำหรับคำแนะนำแบนด์วิดธ์อัตโนมัติลิงก์ไปยังตัวประมาณความหนาแน่นเคอร์เนล 10 ตัวหรือสิ่งอื่นที่คุณรู้ ความกังวลเกี่ยวกับ: เราเชื่อว่าการกระจายอาจเบ้ค่อนข้าง ดังนั้นเราต้องการระบุโหมดด้านหลังไม่ใช่วิธีหลัง เรากังวลว่าอาจมีโหมดหลังหลายโหมด หากเป็นไปได้เราต้องการคำแนะนำจาก R แต่อัลกอริทึมใด ๆ ที่จะทำตราบเท่าที่มันไม่ยากอย่างไม่น่าเชื่อที่จะใช้ ฉันเดาว่าฉันไม่ต้องการใช้ตัวประมาณความหนาแน่นของเคอร์เนลด้วยการเลือกแบนด์วิดท์อัตโนมัติตั้งแต่เริ่มต้น

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.