การเลือกการทดสอบทางสถิติตามผลลัพธ์ของการทดสอบอื่น (เช่นปกติ)


13

ดังนั้นฉันได้ยินมาว่ามันไม่ใช่ความคิดที่ดีที่จะเลือกการทดสอบทางสถิติหนึ่งอันจากผลการทดสอบอื่น นี่มันดูแปลกสำหรับฉัน ตัวอย่างเช่นคนมักเลือกที่จะใช้การทดสอบแบบไม่มีพารามิเตอร์เมื่อการทดสอบอื่น ๆ แสดงให้เห็นว่าส่วนที่เหลือจะไม่กระจายตามปกติ วิธีการนี้ดูเหมือนจะได้รับการยอมรับอย่างกว้างขวาง แต่ดูเหมือนจะไม่เห็นด้วยกับประโยคแรกในวรรคนี้ ฉันแค่หวังที่จะได้รับการชี้แจงเกี่ยวกับปัญหานี้


3
เพียงเพราะเศษเหลือไม่เสียนไม่ได้หมายความว่าคุณต้องทำการทดสอบแบบไม่มีพารามิเตอร์ โดยทั่วไปคุณสามารถแยกแยะประเภทของแบบจำลองที่จะใช้ (แบบจำลองใช่ไม่ใช่แบบทดสอบ) จากลักษณะของข้อมูล (นับ, ข้อมูล 0 1, ความสัมพันธ์แบบต่อเนื่อง, ค่าเฉลี่ยความแปรปรวน, ความสัมพันธ์เชิงเส้นหรือไม่เชิงเส้นเป็นต้น) และแบบจำลองที่เหมาะสม เพื่อให้ตรงกับคุณสมบัติของข้อมูลที่ได้ตัดสินใจก่อนหน้านี้ว่าสมมติฐานที่จะทดสอบคืออะไร เมื่อคุณรู้สึกว่าเหมาะสมกับสมมติฐานของโมเดลแล้วคุณสามารถประเมินค่า p และค่าสถิติอื่น ๆ ได้
Reinstate Monica - G. Simpson

คำตอบ:


14

เนื่องจากคือความน่าจะเป็นของการสังเกตข้อมูลที่มากหรือสุดขีดนี้ถ้าเป็นจริงแล้วการตีความของคืออะไรเมื่อมาถึงกระบวนการที่มีการตัดสินใจโดยบังเอิญในการเลือกการทดสอบที่สร้างขึ้น ที่ ? คำตอบคือไม่รู้ (หรืออย่างน้อยก็ไม่รู้มาก) โดยการตัดสินใจทำการทดสอบหรือไม่อยู่บนพื้นฐานของกระบวนการความน่าจะเป็นอื่น ๆ ที่คุณได้ทำการตีความผลลัพธ์ของคุณยิ่งซับซ้อนมากขึ้น H 0 p p p p ppH0ppppค่าสามารถตีความได้สูงสุดเมื่อขนาดตัวอย่างและแผนการวิเคราะห์ถูกเลือกล่วงหน้าอย่างสมบูรณ์ ในสถานการณ์อื่น ๆ การตีความยากขึ้นนั่นคือสาเหตุที่มันไม่ใช่ 'ความคิดที่ดี' อย่างที่กล่าวไปแล้วมันเป็นวิธีปฏิบัติที่ยอมรับกันอย่างแพร่หลาย ... หลังจากนั้นทำไมถึงต้องลองทำการทดสอบหากคุณพบว่าการทดสอบที่คุณวางแผนจะทำงานนั้นไม่ถูกต้อง คำตอบสำหรับคำถามนั้นค่อนข้างแน่นอน สิ่งนี้ทำให้ความจริงง่าย ๆ ที่การทดสอบนัยสำคัญสมมุติฐานว่าง (กรณีการใช้งานเบื้องต้นของ ) มีปัญหาบางอย่างที่ยากที่จะข้ามp


ฉันไม่พบบทความใด ๆ ที่พูดถึงปรากฏการณ์นี้ใน Google อาจเป็นเพราะฉันใช้คำค้นหาผิด ใครบางคนจะสามารถชี้ให้ฉันในทิศทางของบทความที่กล่าวถึงปัญหาของการทดสอบจากการทดสอบได้หรือไม่?
Rob Hall

1
@RobHall: นี่เป็นตัวอย่างเฉพาะของ "ความสำคัญของปัญหาสมมุติฐานสำหรับข้อมูลในจินตนาการ" cf เลย Wagenmakers, 2007, p. 784. Wagenmakers ดึงเฉพาะในเรื่องของการแปลงในคอลัมน์ที่สองที่ระบุ "เพื่อคำนวณค่า ap คุณจำเป็นต้องรู้ว่าคุณจะทำอะไรหากข้อมูลปรากฎต่างออกไป ... ซึ่งรวมถึงสิ่งที่คุณทำถ้าข้อมูล มีการกระจายอย่างชัดเจนโดยไม่ปกติ ... ค่า p สามารถคำนวณได้เมื่อแผนการสุ่มตัวอย่างเป็นที่รู้จักอย่างสมบูรณ์และระบุไว้ล่วงหน้า "
russellpierce

8

ตัวอย่างเช่นคนมักเลือกที่จะใช้การทดสอบแบบไม่มีพารามิเตอร์เมื่อการทดสอบอื่น ๆ แสดงให้เห็นว่าส่วนที่เหลือจะไม่กระจายตามปกติ วิธีการนี้ดูเหมือนจะได้รับการยอมรับอย่างกว้างขวาง แต่ดูเหมือนจะไม่เห็นด้วยกับประโยคแรกในวรรคนี้ ฉันแค่หวังที่จะได้รับการชี้แจงเกี่ยวกับปัญหานี้

ใช่ผู้คนจำนวนมากทำสิ่งนี้และเปลี่ยนการทดสอบครั้งที่สองเป็นแบบที่สามารถจัดการกับ heteroskedasticity เมื่อพวกเขาปฏิเสธความเท่าเทียมกันของความแปรปรวนและอื่น ๆ

เพียงเพราะบางสิ่งเป็นเรื่องธรรมดาไม่ได้แปลว่าฉลาด

อันที่จริงในบางสถานที่ (ฉันจะไม่ตั้งชื่อสาขาวิชาที่กระทำผิดร้ายแรงที่สุด) การทดสอบสมมติฐานอย่างเป็นทางการจำนวนมากนี้ขึ้นอยู่กับการทดสอบสมมติฐานอย่างเป็นทางการอื่น ๆ

ปัญหาในการทำคือโพรซีเดอร์ของคุณไม่มีคุณสมบัติที่ระบุบางครั้งอาจไม่ปิด (ในทางกลับกันสมมติว่าสิ่งต่าง ๆ เช่นนั้นโดยไม่พิจารณาใด ๆ เลยสำหรับการละเมิดที่รุนแรงที่อาจเกิดขึ้นอาจเลวร้ายยิ่งขึ้น)

เอกสารหลายฉบับแนะนำว่าสำหรับกรณี heteroskedastic คุณจะทำได้ดีกว่าเพียงแค่ทำราวกับว่าความแปรปรวนไม่เท่ากับการทดสอบและทำอะไรบางอย่างเมื่อถูกปฏิเสธ

ในกรณีปกติมันชัดเจนน้อยกว่า ในตัวอย่างขนาดใหญ่อย่างน้อยที่สุดในหลาย ๆ กรณีภาวะปกติไม่ใช่สิ่งที่สำคัญ (แต่กระทบกระเทือนโดยมีตัวอย่างจำนวนมากการทดสอบภาวะปกติของคุณมีแนวโน้มที่จะปฏิเสธได้มาก) ตราบใดที่การไม่ปฏิบัติตามกฎเกณฑ์นั้นไม่ธรรมดา ข้อยกเว้นหนึ่งอย่างสำหรับช่วงการคาดการณ์ที่คุณต้องการสมมติฐานการกระจายของคุณใกล้เคียงกับด้านขวา

ในส่วนหนึ่งปัญหาคือการทดสอบสมมติฐานตอบคำถามที่แตกต่างกว่าที่จะต้องตอบ คุณไม่จำเป็นต้องรู้จริงๆ 'เป็นข้อมูลที่ปกติจริง' (เกือบทุกครั้งมันจะไม่เป็นเรื่องปกติที่จะมาก่อน ) คำถามคือ 'ขอบเขตของความไม่เป็นมาตรฐานจะส่งผลกระทบอย่างไรต่อการอนุมานของฉัน'

ปัญหาที่สองมักจะเป็นอิสระจากขนาดตัวอย่างหรือดีขึ้นจริง ๆ ด้วยการเพิ่มขนาดตัวอย่าง - แต่การทดสอบสมมติฐานมักจะปฏิเสธในขนาดตัวอย่างที่มีขนาดใหญ่

มีหลาย ๆ สถานการณ์ที่มีขั้นตอนฟรีจัดจำหน่ายที่แข็งแกร่งหรือแม้กระทั่งที่มีความใกล้ชิดที่มีประสิทธิภาพได้อย่างเต็มที่แม้ที่ปกติ (และอาจมีความห่างไกลในหลายกรณีก็จะดูเหมือนโง่ที่จะไม่ใช้ - มีประสิทธิภาพมากขึ้นในบางขาเจียมเนื้อเจียมตัวเป็นธรรมจากมัน) วิธีการที่ชาญฉลาดเหมือนกัน


ดี (+1) คุณสามารถอ้างอิงถึงบทความที่คุณพูดถึงเกี่ยวกับกรณี heteroskedastic ได้หรือไม่?
gui11aume

2
ฉันไม่ต้องการที่จะชี้ให้เห็น แต่ฉันวิ่งข้ามพวกเขาออนไลน์ตลอดเวลาดังนั้นจึงไม่ยากที่จะคิดว่าคนที่มีแนวโน้มที่จะเน้นมัน (พวกเขามีแนวโน้มที่จะเป็นคนเดียวกันกับที่ในอดีตเน้นการทดสอบสมมติฐาน) อันที่จริงผู้คนที่สร้างคำถามที่นี่ซึ่งผู้โพสต์คิดว่าพวกเขาต้องใช้การทดสอบที่เป็นทางการมักจะเป็นคำถามเดียวกัน มันไม่ใช่แค่หนึ่งหรือสองสาขา - ฉันเห็นหลายอย่าง - แต่บางคนดูเหมือนจะทำบ่อยๆโดยเฉพาะ เพื่อให้เป็นเรื่องธรรมดาพอสมควรฉันสามารถสรุปได้ว่ามีตำราที่รู้จักกันดีเป็นพิเศษในพื้นที่เหล่านั้นที่ยืนยัน
Glen_b -Reinstate Monica

1
@ gui11aume ต่อไปนี้เป็นข้อมูลอ้างอิง ... ไม่ใช่หนึ่งในสิ่งที่ฉันกำลังมองหา แต่มันทำให้ประเด็นที่ฉันได้รับ (การทดสอบเบื้องต้นสามารถทำให้สิ่งเลวร้ายลง)
Glen_b -Reinstate Monica

2
Andrew Gelman มีโพสต์ที่เกี่ยวข้องเมื่อเร็ว ๆ นี้เกี่ยวกับความแตกต่างระหว่างกลุ่มที่เกี่ยวข้อง (อย่างน้อยเกี่ยวกับสาเหตุที่กระบวนการดังกล่าวมีปัญหา)
Andy W

1
คำถามที่เกี่ยวข้องกับการสนทนาเหล่านี้ในขณะที่กลับมา: stats.stackexchange.com/questions/305/…
russellpierce

8

ประเด็นหลักได้รับการอธิบายอย่างดีจากผู้อื่น แต่มีการสับสนกับพื้นฐานหรือที่เกี่ยวข้อง

  1. การแสดงความเคารพต่อค่า P มากเกินไปเป็นหลักฐานประเภทหนึ่งในสถิติ

  2. ไม่เต็มใจที่จะเห็นว่ารายงานทางสถิติอยู่บนพื้นฐานของการรวมตัวเลือกบางอย่างอย่างมั่นคง - ตามหลักฐานหลักฐานอื่น ๆ ที่ผสมผสานการวิเคราะห์ก่อนหน้าปรีชาคาดเดาคำพิพากษาทฤษฎีอื่น ๆ

สมมติว่าฉันและเพื่อนที่ระมัดระวังการทดสอบทุกอย่างทั้งคู่เลือกบันทึกการเปลี่ยนแปลงสำหรับการตอบกลับ แต่ฉันข้ามไปยังข้อสรุปนั้นจากการผสมผสานของการใช้เหตุผลทางกายภาพและประสบการณ์ก่อนหน้ากับข้อมูลในขณะที่ Test Everything เลือกมาตราส่วนบันทึกตามการทดสอบ Box-Cox ของพารามิเตอร์

ตอนนี้เราทั้งคู่ใช้การถดถอยพหุคูณเดียวกัน ค่า P ของเรามีการตีความต่างกันหรือไม่? ในการตีความหนึ่งค่า P ทุกอย่างของการทดสอบมีเงื่อนไขตามการอนุมานก่อนหน้าของเธอ ฉันใช้การอนุมานด้วยเช่นกัน แต่ส่วนใหญ่เป็นแบบไม่เป็นทางการโดยอิงจากกราฟแบบยาวการคำนวณและอื่น ๆ ในโครงการก่อนหน้า จะรายงานอย่างไร?

โดยธรรมชาติแล้วผลลัพธ์การถดถอยนั้นเหมือนกันทุกประการสำหรับการทดสอบทุกอย่างและตัวฉันเอง

การผสมผสานระหว่างคำแนะนำที่สมเหตุสมผลและปรัชญาที่น่าสงสัยนำไปใช้กับการเลือกตัวทำนายและรูปแบบการทำงาน ตัวอย่างเช่นนักเศรษฐศาสตร์ได้รับการสอนอย่างกว้างขวางให้เคารพการอภิปรายทางทฤษฎีก่อนหน้านี้และระวังการสอดแนมข้อมูลด้วยเหตุผลที่ดีในแต่ละกรณี แต่ในกรณีที่อ่อนแอที่สุดทฤษฎีที่เกี่ยวข้องนั้นเป็นเพียงข้อเสนอเบื้องต้นที่เคยทำไว้ในวรรณคดีซึ่งน่าจะเป็นไปได้มากหลังจากการวิเคราะห์เชิงประจักษ์ แต่วรรณกรรมอ้างอิงทำให้บริสุทธิ์ในขณะที่การเรียนรู้จากข้อมูลในมือเป็นที่น่าสงสัยสำหรับผู้เขียนหลายคน


ชัดเจนมาก (+1)
gui11aume

1
+1 อย่างไรก็ตามประสิทธิภาพการวิเคราะห์ของคุณแตกต่างกันในระยะยาวเมื่อเทียบกับการวิเคราะห์การทดสอบทุกอย่าง ทุกครั้งที่การวิเคราะห์นี้ดำเนินการคุณจะใช้กลยุทธ์เดียวกันโดยอิงจากสิ่งที่เขียนในวรรณคดี OTOH ข้อมูลที่เป็นตัวอย่างที่สุ่มและเอาท์พุทจากการทดสอบกล่องคอคส์จะมีความผันผวนจากการศึกษาการศึกษา
gung - Reinstate Monica

แต่ประสบการณ์ของฉันก็เปลี่ยนไปเช่นกันในระยะยาว
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.