ทำไมความสัมพันธ์จึงยากนักในสถิติที่ไม่มีพารามิเตอร์


14

ข้อความที่ไม่ใช่พารามิเตอร์ของฉัน, สถิติ Nonparametric เชิงปฏิบัติของฉันมักจะให้สูตรที่สะอาดสำหรับการคาดหวังความแปรปรวนสถิติการทดสอบและสิ่งที่คล้ายกัน แต่รวมถึงข้อแม้ที่ใช้งานได้เฉพาะถ้าเราไม่สนใจความสัมพันธ์ เมื่อทำการคำนวณสถิติ Mann-Whitney U ขอแนะนำให้คุณโยนคู่ที่ผูกเมื่อเปรียบเทียบซึ่งใหญ่กว่า

ฉันได้รับความสัมพันธ์นั้นไม่ได้บอกอะไรเราจริงๆเกี่ยวกับประชากรที่ใหญ่กว่า (ถ้านั่นคือสิ่งที่เราสนใจ) เนื่องจากไม่มีกลุ่มใดที่ใหญ่กว่ากลุ่มอื่น ๆ แต่ดูเหมือนว่ามันจะไม่สำคัญสำหรับการพัฒนาการแจกแจงแบบเชิงกำกับ

ทำไมจึงเป็นเช่นนี้ความไม่แน่นอนในการจัดการความสัมพันธ์ในขั้นตอนที่ไม่ใช่พารามิเตอร์บางอย่าง? มีวิธีการดึงข้อมูลที่เป็นประโยชน์ใด ๆ จากความสัมพันธ์มากกว่าเพียงแค่ทิ้งพวกเขาไปหรือไม่?

แก้ไข: ในส่วนที่เกี่ยวกับความเห็นของ @ whuber ฉันได้ตรวจสอบแหล่งที่มาของฉันอีกครั้งและบางขั้นตอนใช้ค่าเฉลี่ยของอันดับแทนที่จะลดค่าที่ผูกไว้อย่างสมบูรณ์ ในขณะนี้ดูเหมือนจะมีเหตุผลมากขึ้นในการอ้างอิงถึงการเก็บรักษาข้อมูล แต่สำหรับฉันแล้วมันก็ยังขาดความแม่นยำเช่นกัน อย่างไรก็ตามจิตวิญญาณของคำถามยังคงอยู่


คุณกำลังบอกว่าสถิติ nonparametric ที่ใช้งานได้จริงจะบอกให้คุณ " ทิ้ง " ข้อมูลเมื่อมีการเชื่อมโยง? บางทีคุณอาจตีความคำแนะนำผิด ๆ ได้ไหม? คุณช่วยพูดได้มั้ย
whuber

ใช่เป็นไปได้ว่าฉันตีความคำแนะนำผิดไป จากผู้เขียนคนเดียวกัน: jstor.org/stable/2284536 "Wilcoxon แนะนำให้ปล่อยค่าศูนย์จากข้อมูลในตอนแรกและทำการทดสอบกับชุดข้อมูลที่ลดลงหากไม่มีความสัมพันธ์ที่ไม่เป็นศูนย์ส่งผลให้กระบวนการนี้เป็นไปตามเงื่อนไข ของศูนย์) การแจกแจงแบบทดสอบฟรีและทำให้สามารถใช้ตารางค่าวิกฤตที่แน่นอนที่มีอยู่ได้ด้วยเหตุนี้หนังสือส่วนใหญ่เกี่ยวกับสถิติที่ไม่ใช่พารามิเตอร์รวมวิธีการของวิลคอกซันลงในคำอธิบายการทดสอบ "
Christopher Aden

จริงอยู่นี่คือการอ้างอิงถึงการทดสอบ Wilcoxon Signed Rank แต่ฉันเคยได้ยินคำแนะนำที่คล้ายกันที่ใช้ในกระบวนการ NP อื่น ๆ เกี่ยวกับตัวอย่าง Mann-Whitney ฉันกลับไปและตรวจสอบในหนังสือและคุณถูกต้องว่าฉันเข้าใจผิด ด้วย Mann-Whitney หนังสือเล่มนี้แนะนำค่าเฉลี่ยการจัดอันดับของค่าที่ถูกผูกไว้เช่น: ถ้าอันดับที่ 6 และ 7 ถูกผูกให้แต่ละค่า 6.5
Christopher Aden

2
ขอขอบคุณ. มีวิธีการอย่างเข้มงวดในการบัญชีสำหรับกลุ่มที่ถูกผูกไว้ สิ่งเหล่านี้มีความสำคัญเมื่อทำงานกับข้อมูลที่ถูกเซ็นเซอร์ (แต่ต่อเนื่อง) เนื่องจากค่าที่ถูกเซ็นเซอร์มักจะเป็นกลุ่มที่มีขนาดใหญ่ สำหรับการทดสอบผลรวมของอันดับ Kruskal-Wallis และ Wilcoxon ให้ดูบทที่ 18 ของ RO Gil Gilbert * วิธีการทางสถิติสำหรับการตรวจสอบมลภาวะต่อสิ่งแวดล้อม "สูตรที่เกี่ยวข้องกับข้อมูลที่เชื่อมโยงอาจมีความซับซ้อน แต่ในบางกรณี (เช่นการทดสอบ KW) ทั้งหมดที่คุณต้องทำ คำนวณตาราง ANOVA สำหรับการจัดอันดับ
whuber

คำตอบ:


14

งานส่วนใหญ่เกี่ยวกับ non-parametrics ทำในขั้นต้นโดยสมมติว่ามีการกระจายอย่างต่อเนื่องที่สำคัญซึ่งความสัมพันธ์จะเป็นไปไม่ได้ (ถ้าวัดอย่างถูกต้องเพียงพอ) ทฤษฎีนั้นจะขึ้นอยู่กับการแจกแจงของสถิติการสั่งซื้อ (ซึ่งง่ายกว่ามากโดยไม่มีความสัมพันธ์) หรือสูตรอื่น ๆ ในบางกรณีสถิตินั้นออกมาประมาณปกติซึ่งทำให้สิ่งต่าง ๆ ง่ายขึ้น เมื่อมีการนำเสนอความสัมพันธ์อย่างใดอย่างหนึ่งเนื่องจากข้อมูลถูกปัดเศษหรือไม่ต่อเนื่องตามธรรมชาติดังนั้นมาตรฐานจะไม่ถือ การประมาณอาจยังดีพอในบางกรณี แต่ไม่ใช่ในบางกรณีดังนั้นสิ่งที่ง่ายที่สุดที่จะทำคือเพียงแค่เตือนว่าสูตรเหล่านี้ไม่สามารถทำงานร่วมกันได้

มีเครื่องมือสำหรับการทดสอบแบบไม่อิงพารามิเตอร์บางตัวซึ่งได้ทำการแจกแจงที่แน่นอนเมื่อมีความสัมพันธ์ แพคเกจ exactRankTests สำหรับ R เป็นตัวอย่างหนึ่ง

วิธีง่ายๆในการจัดการกับความสัมพันธ์คือใช้การทดสอบแบบสุ่มเช่นการทดสอบการเปลี่ยนแปลงหรือการบูตสแตรป สิ่งเหล่านี้ไม่ต้องกังวลเกี่ยวกับการแจกแจงแบบไม่มีสัญญาณ แต่ใช้ข้อมูลตามที่เป็นอยู่ความสัมพันธ์และทั้งหมด (โปรดทราบว่าด้วยความสัมพันธ์จำนวนมากแม้เทคนิคเหล่านี้อาจมีพลังงานต่ำ)

มีบทความไม่กี่ปีที่ผ่านมา (ฉันคิดในสถิติอเมริกัน แต่ฉันไม่พบมัน) ที่กล่าวถึงความคิดของความสัมพันธ์และบางสิ่งที่คุณสามารถทำได้กับพวกเขา ประเด็นหนึ่งก็คือมันขึ้นอยู่กับคำถามที่คุณถามว่าจะทำอย่างไรกับความสัมพันธ์อาจแตกต่างกันมากในการทดสอบที่เหนือกว่ากับการทดสอบที่ไม่ด้อยกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.