มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ )
คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา
นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman เพียร์สันคือการเลือกก่อนเวลาแล้วที่จะตรวจสอบว่าพีα P ≤ α; ถ้าเป็นเช่นนั้นให้เรียกมันว่าสำคัญและปฏิเสธสมมติฐานว่าง (ที่นี่ฉันละเว้นส่วนใหญ่ของเรื่องราว NP ที่ไม่มีความเกี่ยวข้องสำหรับการสนทนาปัจจุบัน) ดูการตอบกลับที่ยอดเยี่ยมโดย @gung ในกรอบการใช้งาน Fisher และ Neyman-Pearson เมื่อใด
วิธีไฮบริดคือการคำนวณค่ารายงาน (โดยนัยสมมติว่ายิ่งเล็กยิ่งดี) และเรียกผลลัพธ์อย่างมีนัยสำคัญหาก (ปกติ ) และไม่มีนัยสำคัญอย่างอื่น นี่ควรจะเชื่อมโยงกัน มันจะไม่ถูกต้องหรือไม่ที่จะทำสองสิ่งที่ถูกต้องพร้อมกันพี≤ อัลฟ่าอัลฟ่า= 0.05
โดยเฉพาะอย่างยิ่งการต่อต้านกลุ่มลูกผสมดูการปฏิบัติอย่างกว้างขวางของการรายงานค่าเป็น , , หรือ (หรือแม้แต่ ) ซึ่งเลือกความไม่เสมอภาคที่แข็งแกร่งที่สุดเสมอ ข้อโต้แย้งดูเหมือนว่า (a) ความแข็งแกร่งของหลักฐานไม่สามารถประเมินได้อย่างเหมาะสมเนื่องจากไม่มีรายงานที่แน่นอนและ (b) ผู้คนมักจะตีความหมายเลขทางด้านขวาในความไม่เท่าเทียมกันเป็นและดูว่าเป็นข้อผิดพลาดประเภทที่ 1 ให้คะแนนและนั่นเป็นสิ่งที่ผิด ฉันไม่เห็นปัญหาใหญ่ที่นี่ ขั้นแรกการรายงานที่แน่นอนนั้นเป็นวิธีปฏิบัติที่ดีกว่า แต่ไม่มีใครสนใจจริงๆถ้าเป็นเช่นหรือพี< 0.05 P < 0.01 P < 0.001 P « 0.0001 P α พีพี0.02 0.03 ~ 0.0001 0.05 α = 0.05 P ≠ α αดังนั้นการปัดเศษในระดับบันทึกจึงไม่เลว (และลงไปด้านล่างไม่สมเหตุสมผลต่อไปให้ดูที่ควรรายงานค่า p เล็ก ๆ อย่างไร ) ประการที่สองถ้าเป็นเอกฉันท์ที่จะเรียกทุกอย่างด้านล่างอย่างมีนัยสำคัญแล้วอัตราความผิดพลาดจะและเป็น @gung อธิบายในการตีความของ p-value ในการทดสอบสมมติฐาน แม้ว่านี่อาจเป็นปัญหาที่ทำให้เกิดความสับสน แต่ก็ไม่ได้ทำให้ฉันสับสนมากกว่าปัญหาอื่น ๆ ในการทดสอบทางสถิติ (นอกไฮบริด) นอกจากนี้ผู้อ่านทุกคนสามารถมีในใจของเธอเองเมื่ออ่านกระดาษไฮบริดและอัตราความผิดพลาดของเธอเองก็เป็นผลดังนั้นเรื่องใหญ่คืออะไร?
หนึ่งในเหตุผลที่ฉันต้องการถามคำถามนี้ก็คือเพราะมันเจ็บจริง ๆ ที่จะดูว่าบทความวิกิพีเดียเกี่ยวกับการทดสอบสมมติฐานทางสถิตินั้นอุทิศให้กับลูกผสมการแกะ ตาม Halpin & Stam มันอ้างว่าเป็นความผิดของ Lindquist aa (มีการสแกนตำราเรียนของเขาด้วย "ข้อผิดพลาด" เน้นสีเหลือง) และแน่นอนว่าบทความเกี่ยวกับ Lindquist Lindquist เองเริ่มต้นด้วยข้อกล่าวหาเดียวกัน แต่บางทีฉันอาจขาดอะไรไป
อ้างอิง
Gigerenzer, 1993, The superego, ego, และ id ในการให้เหตุผลเชิงสถิติ - แนะนำคำว่า "ลูกผสม" และเรียกมันว่า "ลูกโซ่ที่ไม่ต่อเนื่องกัน"
- ดูงานนิทรรศการล่าสุดโดย Gigerenzer และคณะ: เช่นสถิติที่ไม่ใช้สติ (2004) และThe Null Ritual สิ่งที่คุณอยากรู้เกี่ยวกับการทดสอบความสำคัญ แต่ก็กลัวที่จะถาม (2004)
Cohen, 1994, The Earth Is Round ( ) - กระดาษที่นิยมมากที่มีการอ้างอิงเกือบ 3k ส่วนใหญ่เกี่ยวกับปัญหาที่แตกต่างกัน แต่อ้างถึงอย่างชื่นชอบ Gigerenzer
กู๊ดแมน 2542 สู่หลักฐานทางการแพทย์ - สถิติ 1: การเข้าใจผิดของค่า P
Hubbard & Bayarri, 2003, ความสับสนเกี่ยวกับมาตรการหลักฐาน ( ) กับข้อผิดพลาด ( 's) ในการทดสอบทางสถิติแบบดั้งเดิมα - หนึ่งในเอกสารที่มีวาทศิลป์เพิ่มเติมเกี่ยวกับ "ไฮบริด"
Halpin & Stam, 2549, อุปนัยการอนุมานหรืออุปนัยพฤติกรรม: ฟิชเชอร์และเนย์แมน - เพียร์สันวิธีการทดสอบทางสถิติในการวิจัยทางจิตวิทยา (2483-2560) [ฟรีหลังจากลงทะเบียน] - โทษของตำรา Lindquist 1940 แนะนำ Lindquist
@Michael Lew, 2006, การปฏิบัติทางสถิติที่ไม่ดีในด้านเภสัชวิทยา (และสาขาชีวการแพทย์พื้นฐานอื่น ๆ ): คุณอาจไม่รู้ P - รีวิวและภาพรวมที่ดี
คำคม
Gigerenzer:สิ่งที่กลายเป็นสถาบันในฐานะสถิติเชิงอนุมานในด้านจิตวิทยาไม่ใช่สถิติของชาวประมง มันเป็นความผิดพลาดที่ต่อเนื่องกันของความคิดของฟิชเชอร์ในมือข้างหนึ่งและความคิดบางอย่างของ Neyman และ ES Pearson ในอีกด้านหนึ่ง ฉันอ้างถึงการผสมผสานนี้เป็น "ตรรกะไฮบริด" ของการอนุมานทางสถิติ
กู๊ดแมน:วิธีการทดสอบสมมติฐาน [เนย์แมน - เพียร์สัน] เสนอนักวิทยาศาสตร์ต่อรองของเฟาสเทียน - วิธีอัตโนมัติที่ดูเหมือนจะ จำกัด จำนวนข้อสรุปที่ผิดพลาดในระยะยาว แต่เพียงทิ้งความสามารถในการวัดหลักฐาน [a la Fisher] และประเมิน ความจริงจากการทดสอบเดียว
ฮับบาร์ด & บายารี:การทดสอบทางสถิติแบบคลาสสิกเป็นลูกผสมที่ไม่ระบุตัวตนของวิธีการแข่งขันและขัดแย้งกันบ่อยครั้ง [... ] โดยเฉพาะอย่างยิ่งมีความล้มเหลวอย่างกว้างขวางที่จะชื่นชมความไม่ลงรอยกันของพยานหลักฐานฟิชเชอร์ของคุ้มค่ากับประเภทความผิดพลาดอัตราαของ Neyman เพียร์สันดั้งเดิมสถิติ [... ] เป็นตัวอย่างสำคัญของความสับสนที่เกิดจากการผสม [นี้] พิจารณาความจริงที่ไม่ได้รับการยอมรับอย่างกว้างขวางว่าค่าในอดีตนั้นไม่เข้ากันกับการทดสอบสมมติฐาน Neyman-Pearson ซึ่งมันได้กลายเป็นฝังตัว [... ] ตัวอย่างเช่นชะนีและแพรตต์ [... ] กล่าวอย่างไม่ถูกต้อง: "การรายงานค่า P ไม่ว่าจะถูกต้องหรือภายในช่วงเวลาผลอนุญาตให้แต่ละคนเลือกระดับความสำคัญของตนเองเป็นความน่าจะเป็นที่ยอมรับได้สูงสุด ของข้อผิดพลาด Type I "
Halpin & Stam:ข้อความของ Lindquist ในปี 1940 เป็นแหล่งดั้งเดิมของการผสมพันธุ์ของวิธีฟิชเชอร์และเนย์แมน - เพียร์สัน [... ] มากกว่าการยึดติดกับการตีความทางสถิติใด ๆ โดยเฉพาะนักจิตวิทยายังคงมีความสับสนเกี่ยวกับเรื่องนี้และโดยส่วนใหญ่ไม่ได้ตระหนักถึงปัญหาทางความคิดที่เกี่ยวข้องกับการโต้เถียงของฟิชเชอร์และเนย์แมน - เพียร์สัน
ลิว:สิ่งที่เรามีคือวิธีไฮบริดที่ไม่มีการควบคุมอัตราข้อผิดพลาดหรือไม่อนุญาตให้ประเมินความแข็งแกร่งของหลักฐาน