“ ลูกผสม” ระหว่างฟิชเชอร์และเนย์แมน - เพียร์สันใกล้ถึงวิธีการทดสอบทางสถิติจริงๆแล้วเป็น


56

มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ )

คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา


นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman เพียร์สันคือการเลือกก่อนเวลาแล้วที่จะตรวจสอบว่าพีα P αppαpα; ถ้าเป็นเช่นนั้นให้เรียกมันว่าสำคัญและปฏิเสธสมมติฐานว่าง (ที่นี่ฉันละเว้นส่วนใหญ่ของเรื่องราว NP ที่ไม่มีความเกี่ยวข้องสำหรับการสนทนาปัจจุบัน) ดูการตอบกลับที่ยอดเยี่ยมโดย @gung ในกรอบการใช้งาน Fisher และ Neyman-Pearson เมื่อใด

วิธีไฮบริดคือการคำนวณค่ารายงาน (โดยนัยสมมติว่ายิ่งเล็กยิ่งดี) และเรียกผลลัพธ์อย่างมีนัยสำคัญหาก (ปกติ ) และไม่มีนัยสำคัญอย่างอื่น นี่ควรจะเชื่อมโยงกัน มันจะไม่ถูกต้องหรือไม่ที่จะทำสองสิ่งที่ถูกต้องพร้อมกันพีอัลฟ่าอัลฟ่า= 0.05ppαα=0.05

โดยเฉพาะอย่างยิ่งการต่อต้านกลุ่มลูกผสมดูการปฏิบัติอย่างกว้างขวางของการรายงานค่าเป็น , , หรือ (หรือแม้แต่ ) ซึ่งเลือกความไม่เสมอภาคที่แข็งแกร่งที่สุดเสมอ ข้อโต้แย้งดูเหมือนว่า (a) ความแข็งแกร่งของหลักฐานไม่สามารถประเมินได้อย่างเหมาะสมเนื่องจากไม่มีรายงานที่แน่นอนและ (b) ผู้คนมักจะตีความหมายเลขทางด้านขวาในความไม่เท่าเทียมกันเป็นและดูว่าเป็นข้อผิดพลาดประเภทที่ 1 ให้คะแนนและนั่นเป็นสิ่งที่ผิด ฉันไม่เห็นปัญหาใหญ่ที่นี่ ขั้นแรกการรายงานที่แน่นอนนั้นเป็นวิธีปฏิบัติที่ดีกว่า แต่ไม่มีใครสนใจจริงๆถ้าเป็นเช่นหรือพี< 0.05 P < 0.01 P < 0.001 P « 0.0001 P α พีพี0.02 0.03 ~ 0.0001 0.05 α = 0.05 P α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03ดังนั้นการปัดเศษในระดับบันทึกจึงไม่เลว (และลงไปด้านล่างไม่สมเหตุสมผลต่อไปให้ดูที่ควรรายงานค่า p เล็ก ๆ อย่างไร ) ประการที่สองถ้าเป็นเอกฉันท์ที่จะเรียกทุกอย่างด้านล่างอย่างมีนัยสำคัญแล้วอัตราความผิดพลาดจะและเป็น @gung อธิบายในการตีความของ p-value ในการทดสอบสมมติฐาน แม้ว่านี่อาจเป็นปัญหาที่ทำให้เกิดความสับสน แต่ก็ไม่ได้ทำให้ฉันสับสนมากกว่าปัญหาอื่น ๆ ในการทดสอบทางสถิติ (นอกไฮบริด) นอกจากนี้ผู้อ่านทุกคนสามารถมีในใจของเธอเองเมื่ออ่านกระดาษไฮบริดและอัตราความผิดพลาดของเธอเองก็เป็นผล0.00010.05α=0.05pααดังนั้นเรื่องใหญ่คืออะไร?

หนึ่งในเหตุผลที่ฉันต้องการถามคำถามนี้ก็คือเพราะมันเจ็บจริง ๆ ที่จะดูว่าบทความวิกิพีเดียเกี่ยวกับการทดสอบสมมติฐานทางสถิตินั้นอุทิศให้กับลูกผสมการแกะ ตาม Halpin & Stam มันอ้างว่าเป็นความผิดของ Lindquist aa (มีการสแกนตำราเรียนของเขาด้วย "ข้อผิดพลาด" เน้นสีเหลือง) และแน่นอนว่าบทความเกี่ยวกับ Lindquist Lindquist เองเริ่มต้นด้วยข้อกล่าวหาเดียวกัน แต่บางทีฉันอาจขาดอะไรไป


อ้างอิง

คำคม

Gigerenzer:สิ่งที่กลายเป็นสถาบันในฐานะสถิติเชิงอนุมานในด้านจิตวิทยาไม่ใช่สถิติของชาวประมง มันเป็นความผิดพลาดที่ต่อเนื่องกันของความคิดของฟิชเชอร์ในมือข้างหนึ่งและความคิดบางอย่างของ Neyman และ ES Pearson ในอีกด้านหนึ่ง ฉันอ้างถึงการผสมผสานนี้เป็น "ตรรกะไฮบริด" ของการอนุมานทางสถิติ

กู๊ดแมน:วิธีการทดสอบสมมติฐาน [เนย์แมน - เพียร์สัน] เสนอนักวิทยาศาสตร์ต่อรองของเฟาสเทียน - วิธีอัตโนมัติที่ดูเหมือนจะ จำกัด จำนวนข้อสรุปที่ผิดพลาดในระยะยาว แต่เพียงทิ้งความสามารถในการวัดหลักฐาน [a la Fisher] และประเมิน ความจริงจากการทดสอบเดียว

ฮับบาร์ด & บายารี:การทดสอบทางสถิติแบบคลาสสิกเป็นลูกผสมที่ไม่ระบุตัวตนของวิธีการแข่งขันและขัดแย้งกันบ่อยครั้ง [... ] โดยเฉพาะอย่างยิ่งมีความล้มเหลวอย่างกว้างขวางที่จะชื่นชมความไม่ลงรอยกันของพยานหลักฐานฟิชเชอร์ของคุ้มค่ากับประเภทความผิดพลาดอัตราαpαของ Neyman เพียร์สันดั้งเดิมสถิติ [... ] เป็นตัวอย่างสำคัญของความสับสนที่เกิดจากการผสม [นี้] พิจารณาความจริงที่ไม่ได้รับการยอมรับอย่างกว้างขวางว่าค่าในอดีตนั้นไม่เข้ากันpกับการทดสอบสมมติฐาน Neyman-Pearson ซึ่งมันได้กลายเป็นฝังตัว [... ] ตัวอย่างเช่นชะนีและแพรตต์ [... ] กล่าวอย่างไม่ถูกต้อง: "การรายงานค่า P ไม่ว่าจะถูกต้องหรือภายในช่วงเวลาผลอนุญาตให้แต่ละคนเลือกระดับความสำคัญของตนเองเป็นความน่าจะเป็นที่ยอมรับได้สูงสุด ของข้อผิดพลาด Type I "

Halpin & Stam:ข้อความของ Lindquist ในปี 1940 เป็นแหล่งดั้งเดิมของการผสมพันธุ์ของวิธีฟิชเชอร์และเนย์แมน - เพียร์สัน [... ] มากกว่าการยึดติดกับการตีความทางสถิติใด ๆ โดยเฉพาะนักจิตวิทยายังคงมีความสับสนเกี่ยวกับเรื่องนี้และโดยส่วนใหญ่ไม่ได้ตระหนักถึงปัญหาทางความคิดที่เกี่ยวข้องกับการโต้เถียงของฟิชเชอร์และเนย์แมน - เพียร์สัน

ลิว:สิ่งที่เรามีคือวิธีไฮบริดที่ไม่มีการควบคุมอัตราข้อผิดพลาดหรือไม่อนุญาตให้ประเมินความแข็งแกร่งของหลักฐาน


+1 สำหรับคำถามที่มีการวิจัยที่ดี (แม้ว่าจะยาว) มันจะช่วยให้ฉันคิดว่าอาจระบุสิ่งที่ทำให้สับสนอย่างแน่นอน มันเพียงพอแล้วหรือไม่ที่จะรู้ว่าสำหรับชาวประมงนั้นไม่มีสมมติฐานทางเลือกอยู่เลยในขณะที่โลกแห่งความเป็นไปได้นั้นหมดไปด้วยทั้งว่างและทางเลือก? ดูเหมือนว่าจะไม่ต่อเนื่องกันพอสำหรับฉัน แต่ฉันก็ทำสิ่งไฮบริดอยู่ตลอดเวลาเพราะคุณไม่สามารถหลีกเลี่ยงได้
Momo

2
H0:μ=0H1:μ0

2
ฉันเพิ่งอ่านลิว (และฉันรู้ว่าฉันเคยอ่านมาก่อนอาจประมาณปีพ. ศ. 2549) ฉันพบว่ามันค่อนข้างดี แต่ฉันไม่คิดว่ามันจะแสดงถึงวิธีที่ฉันใช้ค่า p ระดับความสำคัญของฉัน - ในโอกาสที่หายากที่ฉันใช้การทดสอบสมมติฐานทั้งหมด - อยู่ข้างหน้าเสมอและที่ฉันมีการควบคุมขนาดตัวอย่างใด ๆ หลังจากพิจารณาถึงอำนาจการพิจารณาบางอย่างเกี่ยวกับค่าใช้จ่ายของข้อผิดพลาดสองประเภทและอื่น ๆ - เป็นหลักเนย์แมน - เพียร์สัน ฉันยังพูดถึงค่า p แต่ไม่อยู่ในกรอบของวิธีการของ Fisher .... (ctd)
Glen_b

2
(ctd) ... * (ฉันมักจะพาคนออกไปจากการทดสอบสมมติฐานบ่อยครั้งที่คำถามจริงของพวกเขาเกี่ยวข้องกับผลการวัดและตอบได้ดีกว่าโดยการสร้างช่วงเวลา) ปัญหาเฉพาะที่ลูอิสยกขึ้นมาสำหรับกระบวนการ 'ไฮบริด' นำไปใช้กับสิ่งที่ฉันไม่ได้ทำและมีแนวโน้มที่จะเตือนผู้คนไม่ให้ทำ หากมีผู้คนกำลังทำหลายอย่างด้วยวิธีการที่เขาสื่อถึงมันก็ดูดี การสนทนาก่อนหน้านี้เกี่ยวกับความหมายของค่า p และประวัติของวิธีการที่ดูเหมือนว่ายอดเยี่ยม
Glen_b

1
@Glen_b ภาพรวมประวัติศาสตร์ของลิวดีมากและชัดเจนฉันเห็นด้วยอย่างยิ่ง ปัญหาของฉันเกี่ยวกับปัญหาลูกผสมโดยเฉพาะ (ส่วน "วิธีใดที่ใช้มากที่สุด") แน่นอนว่ามีเป็นคนทำในสิ่งที่เขาอธิบายมีเช่นรายงานที่แข็งแกร่งของ p <.001 <.01 หรือ <05; ฉันเห็นมันตลอดเวลาในด้านประสาทวิทยาศาสตร์ พิจารณากรณีใดกรณีหนึ่งเมื่อคุณใช้การทดสอบ คุณเลือกเช่น alpha = .05 และทำตามกรอบงาน NP เมื่อคุณได้รับ p = .00011 ความมั่นใจของคุณเกี่ยวกับ H1 และการเลือกใช้ถ้อยคำของคุณจะแตกต่างจากเมื่อใดที่คุณจะได้รับ p = .049 ถ้าเป็นเช่นนั้นมันเป็นไฮบริด! ถ้าไม่เป็นเช่นนั้นได้อย่างไร
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


16

ฉันเชื่อว่าเอกสารบทความโพสต์ ฯลฯ ที่คุณรวบรวมอย่างขยันขันแข็งมีข้อมูลเพียงพอและการวิเคราะห์ว่าที่ใดและเพราะเหตุใดแนวทางทั้งสองจึงแตกต่างกัน แต่เป็นที่แตกต่างกันไม่ได้หมายความว่าเป็นเข้ากันไม่ได้

มีปัญหากับ "ไฮบริด" ก็คือว่ามันเป็นไฮบริดและไม่สังเคราะห์และนี่คือเหตุผลว่าทำไมจึงได้รับการรักษาโดยมากเป็นhybrisถ้าคุณแก้ตัวคำเล่น
ไม่ใช่การสังเคราะห์มันไม่ได้พยายามที่จะรวมความแตกต่างของทั้งสองวิธีเข้าด้วยกันและสร้างวิธีการที่เป็นเอกภาพและสอดคล้องกันอย่างใดอย่างหนึ่งหรือทำให้ทั้งสองวิธีในคลังแสงทางวิทยาศาสตร์เป็นทางเลือกเสริมเพื่อจัดการอย่างมีประสิทธิภาพมากขึ้น โลกที่เราพยายามวิเคราะห์ผ่านทางสถิติ (โชคดีที่สิ่งสุดท้ายนี้คือสิ่งที่เกิดขึ้นกับสงครามกลางเมืองอันยิ่งใหญ่อื่น ๆ ของฟิลด์

ความไม่พอใจกับมันผมเชื่อว่ามาจากความจริงที่ว่ามันได้สร้างแน่นอนความเข้าใจผิดในการใช้เครื่องมือทางสถิติและการแปลผลทางสถิติ , ส่วนใหญ่โดยนักวิทยาศาสตร์ที่ไม่ได้เป็นนักสถิติ , ความเข้าใจผิดที่สามารถมีผลกระทบที่อาจจะมากอย่างรุนแรงและสร้างความเสียหาย (คิดเกี่ยวกับสนาม แพทย์ช่วยให้ปัญหาเสียงที่เหมาะสม) ฉันเชื่อว่าการใช้ความผิดพลาดนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นความจริงและในแง่นี้มุมมอง "ต่อต้านไฮบริด" ก็ถือได้ว่าเป็นที่แพร่หลาย (อย่างน้อยก็เนื่องจากผลที่ตามมา

p

ฉันเชื่อว่าลูกผสมเกิดขึ้นจากการตระหนักว่าไม่มีคำตอบง่าย ๆ เกิดขึ้นและมีปรากฏการณ์ในโลกแห่งความจริงซึ่งวิธีการหนึ่งเหมาะสมกว่าวิธีอื่น (ดูโพสต์นี้เพื่อเป็นตัวอย่างตามที่ฉัน อย่างน้อยที่วิธีการของชาวประมงดูเหมือนจะเหมาะสมกว่า) แต่แทนที่จะทำให้ทั้งสอง "แยกจากกันและพร้อมที่จะลงมือทำ" พวกเขาค่อนข้างจะปะติดกันอย่างฟุ่มเฟือย

ฉันขอเสนอแหล่งที่มาซึ่งสรุปวิธีการ "เสริมทางเลือก" นี้: Spanos, A. (1999) ทฤษฎีความน่าจะเป็นและการอนุมานเชิงสถิติ: การสร้างแบบจำลองทางเศรษฐมิติพร้อมข้อมูลเชิงสังเกต สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ , ch. 14โดยเฉพาะอย่างยิ่งมาตรา 14.5 ซึ่งหลังจากนำเสนอทั้งสองวิธีอย่างเป็นทางการและชัดเจนผู้เขียนอยู่ในตำแหน่งที่ชี้ให้เห็นความแตกต่างของพวกเขาอย่างชัดเจนและยังยืนยันว่าพวกเขาสามารถมองเห็นเป็นทางเลือกเสริม


6
pα

6
pα

6
ต่อสำหรับฉันนี่คือ "มีเค้กของคุณและกินมันเกินไป" ปัญหาของวิธีการไฮบริด ตัวอย่างเช่นวิธีการ NP โดยไม่มีการคำนวณการทดสอบพลังงานควรจะคิดไม่ถึง แต่ตลอดเวลาที่เราเห็นการทดสอบถูกวางในกรอบงานปัญหา แต่ไม่พูดถึงเกี่ยวกับการคำนวณพลังงาน
Alecos Papadopoulos

ปิดหัวข้อ แต่ ... เนื่องจากคุณอ้างถึง Aris Spanos ฉันสงสัยว่าคุณอาจตอบคำถามเกี่ยวกับวิธีการของเขาได้ไหม (ฉันเคยถามคำถามกับ Aris Spanos โดยตรงและเขาได้พยายามอย่างหนักในการตอบคำถามโชคไม่ดีที่คำตอบของเขาเป็นภาษาเดียวกับเอกสารของเขาดังนั้นมันจึงไม่ช่วยฉันมากนัก)
Richard Hardy

13

คำถามของฉันเองคือไม่มีอะไรที่ไม่เชื่อมโยงกันโดยเฉพาะอย่างยิ่งในวิธีไฮบริด (เช่นยอมรับ) แต่เนื่องจากฉันไม่แน่ใจว่าฉันอาจล้มเหลวในการทำความเข้าใจความถูกต้องของข้อโต้แย้งที่ปรากฏในเอกสารต่อต้านแบบผสมผสานฉันมีความสุขที่ได้พบกับการอภิปรายที่ตีพิมพ์ร่วมกับบทความนี้:

น่าเสียดายที่การตอบกลับสองครั้งที่ตีพิมพ์เป็นการสนทนาไม่ได้จัดรูปแบบเป็นบทความแยกต่างหากดังนั้นจึงไม่สามารถอ้างถึงได้อย่างถูกต้อง ถึงกระนั้นฉันอยากจะอ้างจากทั้งสอง:

เบิร์ก:ธีมของส่วนที่ 2 และ 3 ดูเหมือนว่าฟิชเชอร์ไม่ชอบสิ่งที่เนย์แมนและเพียร์สันทำและเนย์แมนไม่ชอบสิ่งที่ฟิชเชอร์ทำดังนั้นเราจึงไม่ควรทำทุกอย่างที่ผสมผสานทั้งสองแนวทาง ไม่มีการหลบหนีจากหลักฐานที่นี่ แต่เหตุผลหนีออกมาจากฉัน

คาร์ลตัน:ผู้เขียนยืนกรานยืนกรานว่าความสับสนส่วนใหญ่เกิดจากการแต่งงานของชาวประมงและความคิดของเนย์แมน - เพียร์สันว่าการแต่งงานครั้งนี้เป็นข้อผิดพลาดร้ายแรงในส่วนของนักสถิติสมัยใหม่ [... ] [T] เฮ้ดูเหมือนว่า ข้อผิดพลาดประเภทที่ 1 ไม่สามารถอยู่ร่วมกันในจักรวาลเดียวกันได้ มันไม่ชัดเจนว่าผู้เขียนได้ให้เหตุผลที่สำคัญว่าทำไมเราไม่สามารถเปล่ง "p value" และ "Error I Type" ในประโยคเดียวกันได้ [... ] "ความจริง" ของความไม่ลงรอยกัน [F และ NP] ของพวกเขามาเป็นข่าวที่น่าแปลกใจสำหรับฉันในขณะที่ฉันแน่ใจว่ามันจะทำให้นักสถิติที่มีคุณสมบัติหลายพันคนกำลังอ่านบทความ ผู้เขียนถึงกับชี้ให้เห็นว่าในบรรดาเหตุผลที่นักสถิติควรจะหย่าร้างความคิดสองอย่างนี้ก็คือ Fisher และ Neyman ไม่ได้รักกันมากนัก (หรือกันและกัน) ปรัชญาการทดสอบ) ฉันได้ดูแนวปฏิบัติในปัจจุบันของเราอยู่เสมอซึ่งรวมเอาปรัชญาของฟิชเชอร์และเนย์แมนและอนุญาตให้มีการอภิปรายเกี่ยวกับค่า P และข้อผิดพลาด Type I - แม้ว่าจะไม่ขนานกัน - เป็นหนึ่งในชัยชนะที่ยิ่งใหญ่ของวินัยของเรา

คำตอบทั้งคู่เป็นสิ่งที่ควรค่าแก่การอ่าน นอกจากนี้ยังมีการโต้ตอบโดยผู้เขียนต้นฉบับซึ่งไม่ได้เสียงที่น่าเชื่อกับผมตลอด


1
มันเป็นสิ่งหนึ่งที่อยู่ร่วมกันมันเป็นอีกสิ่งหนึ่งที่จะต้องพิจารณาว่าเป็นอีก แต่แท้จริงแล้วแนวทางการต่อต้านแบบผสมนี้อยู่ในจิตวิญญาณของ "ไม่มีการสังเคราะห์ใด ๆ " - ซึ่งฉันไม่เห็นด้วยอย่างยิ่ง แต่ฉันไม่เห็นลูกผสมปัจจุบันเป็นการแต่งงานที่ประสบความสำเร็จ
Alecos Papadopoulos

2
@ สีสันขอขอบคุณสำหรับความคิดเห็นของคุณสิ่งนี้เป็นสิ่งที่น่าสนใจ แต่ฉันต้องการละเว้นจากการสนทนาเพิ่มเติมที่นี่ ฉันอยากจะแนะนำให้คุณโพสต์คำตอบใหม่หากคุณต้องการ แต่ถ้าคุณตัดสินใจที่จะทำเช่นนั้นพยายามที่จะมุ่งเน้นไปที่ประเด็นหลักซึ่งก็คือ: สิ่งที่แย่มากเกี่ยวกับ "ลูกผสม" เมื่อเทียบกับทั้ง Fisher และ NP เพียงอย่างเดียว คุณดูเหมือนจะเกลียดวิธีการทดสอบที่สำคัญทั้งหมด "สมมติฐานว่างเปล่า " ฯลฯ แต่นี่ไม่ใช่สิ่งที่คำถามนี้เกี่ยวกับ!
อะมีบาพูดว่า Reinstate Monica

1
@ สีสัน: อืมมคุณช่วยอธิบายได้อย่างแท้จริงว่าทำไมคุณถึงบอกว่านั่นคือลักษณะที่แตกต่างของไฮบริด? โมฆะจะเป็นอย่างไรในฟิชเชอร์บริสุทธิ์หรือ NP บริสุทธิ์? สมมติว่าคุณมีสองกลุ่มและต้องการทดสอบความแตกต่างที่มีนัยสำคัญ ("ไม่มีศูนย์") ไม่สามารถเข้าใกล้สถานการณ์นี้กับทั้งสามวิธี: ฟิชเชอร์บริสุทธิ์, NP บริสุทธิ์และไฮบริด
อะมีบาพูดว่า Reinstate Monica

2
@ สดใสฉันเข้าใจข้อโต้แย้งของคุณกับ null ว่างฉันแค่คิดว่าปัญหานี้เป็นมุมฉากกับปัญหาของไฮบริด ฉันต้องรีเฟรชเอกสารต่อต้านไฮบริดในหน่วยความจำ แต่เท่าที่ฉันจำได้ว่าคำติชมของพวกเขาเกี่ยวกับไฮบริดไม่ได้อยู่ที่ศูนย์กลางของศูนย์ แต่เป็นการรวมฟิชเชอร์และ NP เข้าด้วยกัน หากคุณไม่เห็นด้วยกับเรื่องนี้โปรดลองโพสต์คำตอบ สำหรับตอนนี้เราจะปล่อยให้มันเป็นอย่างนั้น
อะมีบาพูดว่า Reinstate Monica

2
หมายเหตุถึงตัวฉันเอง: ฉันควรจะรวมคำตอบบางส่วนจากบทความนี้: Lehmann 1992, The Fisher, Neyman-Pearson ทฤษฎีการทดสอบสมมติฐาน: ทฤษฎีหนึ่งหรือสอง
อะมีบาพูดว่า Reinstate Monica

8

ฉันกลัวว่าการตอบคำถามจริงที่ยอดเยี่ยมนี้จะต้องใช้เอกสารฉบับเต็ม อย่างไรก็ตามนี่คือจุดสองสามข้อที่ไม่ปรากฏในคำถามหรือคำตอบปัจจุบัน

  1. อัตราความผิดพลาดเป็นของกระบวนการ แต่มีหลักฐานว่าเป็นของผลการทดลอง ดังนั้นจึงเป็นไปได้ด้วยกระบวนการหลายขั้นตอนที่มีกฎการหยุดแบบต่อเนื่องเพื่อให้ได้ผลลัพธ์ที่มีหลักฐานที่แข็งแกร่งมากต่อสมมติฐานว่าง แต่ผลการทดสอบสมมติฐานที่ไม่สำคัญ ที่สามารถคิดได้ว่าเป็นความไม่ลงรอยกันที่แข็งแกร่ง

  2. หากคุณมีความสนใจในความไม่ลงรอยกันคุณควรจะสนใจในปรัชญาพื้นฐาน ความยากลำบากทางปรัชญามาจากการเลือกระหว่างการปฏิบัติตามหลักการความน่าจะเป็นและความสอดคล้องกับหลักการสุ่มตัวอย่างซ้ำ ๆ LP กล่าวอย่างคร่าว ๆ ว่าจากโมเดลทางสถิติหลักฐานในชุดข้อมูลที่เกี่ยวข้องกับพารามิเตอร์ที่น่าสนใจนั้นมีอยู่ในฟังก์ชันโอกาสที่เกี่ยวข้องอย่างสมบูรณ์ RSP กล่าวว่าเราควรเลือกการทดสอบที่ให้อัตราความผิดพลาดในระยะยาวซึ่งเท่ากับค่าเล็กน้อย


3
เอกสารบันทึกของโจเบอร์เกอร์และ RL Wolpert "หลักการความน่าจะเป็น" (2nd ed. 1988) คือการแสดงออกอย่างสงบสมดุลและดีในจุดที่ 2 ในความคิดของฉัน
Alecos Papadopoulos

5
Berger และ Wolpert เป็นงานแสดงสินค้าที่ดีและมีอำนาจเช่นกัน อย่างไรก็ตามฉันชอบหนังสือ "โอกาสที่จะเป็นผู้ชี้นำ" และเป็นจริงมากขึ้นโดย AWF Edwards ยังคงอยู่ในการพิมพ์ฉันคิดว่า books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew

2
@MichaelLew ได้อธิบายว่าการใช้ค่า p ที่ถูกต้องเป็นข้อมูลสรุปของขนาดเอฟเฟกต์ เขาทำสิ่งที่ยิ่งใหญ่ด้วยการเขียนบทความนี้: arxiv.org/abs/1311.0081
Livid

@ สีสันกระดาษเป็นสิ่งที่น่าสนใจ แต่สำหรับผู้อ่านรายใหม่แล้วมันมีค่าต่อไปนี้: แนวคิดหลักว่าค่าดัชนี 'p' (สันนิษฐานว่า: อยู่ในความสัมพันธ์แบบหนึ่งต่อหนึ่ง) ฟังก์ชั่นโอกาสเป็นที่เข้าใจกันโดยทั่วไปว่าเป็นเท็จเพราะ มีหลายกรณีที่โอกาสเดียวกันนั้นสอดคล้องกับค่า p ต่างกันขึ้นอยู่กับรูปแบบการสุ่มตัวอย่าง ปัญหานี้ได้กล่าวถึงในบทความแล้ว แต่การจัดทำดัชนีเป็นตำแหน่งที่ผิดปกติมาก (ซึ่งไม่จำเป็นต้องทำให้ผิด)
conjugateprior

8

สหภาพที่เห็นบ่อย ๆ (และควรจะยอมรับ) สหภาพ (หรือดีกว่า: "ลูกผสม") ระหว่างสองวิธีมีดังนี้:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    ถ้าค่า p ไม่เล็กพอคุณก็จะบอกว่า

    • Ho
    • HoH1

ที่นี่แง่มุมจาก Neyman-Pearson คือ:

  • คุณตัดสินใจบางสิ่งบางอย่าง
  • Ho
  • คุณรู้ไหมว่าอัตราความผิดพลาดประเภทที่ 1

ด้านการประมงคือ:

  • คุณระบุค่า p ผู้อ่านทุกคนมีความเป็นไปได้ที่จะใช้ระดับของตัวเอง (เช่นการแก้ไขอย่างเข้มงวดสำหรับการทดสอบหลายรายการ) เพื่อการตัดสินใจ
  • โดยทั่วไปมีเพียงสมมติฐานว่างเท่านั้นที่ต้องการเนื่องจากทางเลือกนั้นตรงกันข้าม
  • μ0

เพิ่มเข้าไป

ในขณะที่มันเป็นเรื่องดีที่จะต้องตระหนักถึงการอภิปรายเกี่ยวกับปัญหาปรัชญาของฟิชเชอร์ของ NP หรือวิธีการผสม (ตามที่สอนในเกือบบ้าคลั่งศาสนาโดยบางคน) มีปัญหาที่เกี่ยวข้องมากขึ้นในสถิติที่จะต่อสู้กับ:

  • การถามคำถามที่ไม่เกี่ยวกับข้อมูล (เช่นคำถามใช่ / ไม่ใช่เลขฐานสองแทนคำถาม "เท่าไหร่" เชิงปริมาณเช่นใช้การทดสอบแทนช่วงความมั่นใจ)
  • วิธีการวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูลซึ่งนำไปสู่ผลลัพธ์ที่มีอคติ (การถดถอยแบบขั้นตอนการทดสอบสมมติฐานเป็นต้น)
  • การเลือกการทดสอบหรือวิธีการที่ไม่ถูกต้อง
  • การตีความผลลัพธ์ที่ผิดพลาด
  • ใช้สถิติแบบคลาสสิกสำหรับตัวอย่างที่ไม่ใช่แบบสุ่ม

1
(+1) นี่เป็นคำอธิบายที่ดีของไฮบริด (และทำไมมันจึงเป็นไฮบริด) แต่คุณไม่ได้บอกอย่างชัดเจนว่าการประเมินของคุณคืออะไร คุณเห็นด้วยหรือไม่ว่าสิ่งที่คุณอธิบายคือ "ยำเกรงต่อเนื่อง"? ถ้าเป็นเช่นนั้นทำไม หรือคุณคิดว่ามันเป็นกระบวนการที่สมเหตุสมผล? ถ้าเป็นเช่นนั้นคนที่อ้างว่ามันไม่ต่อเนื่องกันมีจุดหรือพวกเขาก็ผิดหรือเปล่า?
อะมีบาพูดว่า Reinstate Monica

1
α

4

ยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรคือสิ่งที่ไม่ดีเกี่ยวกับลูกผสมของพวกเขา?

คำตอบสั้น ๆ : การใช้ศูนย์ (ไม่มีความแตกต่างไม่มีความสัมพันธ์) สมมุติฐานว่างโดยไม่คำนึงถึงบริบท ทุกสิ่งทุกอย่างคือ "การใช้ผิดวัตถุประสงค์" โดยผู้ที่สร้างตำนานมาเพื่อตนเองเกี่ยวกับกระบวนการที่จะทำให้สำเร็จ ตำนานที่เกิดขึ้นจากคนที่พยายามที่จะกระทบยอดการใช้ความเชื่อมั่นในอำนาจและมติฉันทามติ (บางครั้งเหมาะสม) ของพวกเขาด้วยความไม่เหมาะสมของขั้นตอนการแก้ไขปัญหาของพวกเขา

เท่าที่ฉันรู้ Gerd Gigerenzer มาพร้อมกับคำว่า "hybrid":

ฉันถามผู้แต่ง [ผู้เขียนตำราทางสถิติที่โดดเด่นซึ่งหนังสือเล่มนี้ผ่านหลายฉบับและชื่อไม่สำคัญ] ทำไมเขาลบบทใน Bayes รวมทั้งประโยคที่ไร้เดียงสาจากรุ่นที่ตามมาทั้งหมด “ อะไรที่ทำให้คุณแสดงสถิติราวกับว่ามันมีเพียงค้อนเดียวแทนที่จะเป็นกล่องเครื่องมือ ทำไมคุณผสมผสานทฤษฎีของฟิชเชอร์และเนย์แมนเพียร์สันเป็นลูกผสมที่ไม่สอดคล้องกันซึ่งนักสถิติที่ดีทุกคนจะปฏิเสธ?

เครดิตของเขาฉันควรจะบอกว่าผู้เขียนไม่ได้พยายามที่จะปฏิเสธว่าเขาได้สร้างภาพลวงตาว่ามีเพียงเครื่องมือเดียว แต่เขาบอกให้ฉันรู้ว่าใครควรตำหนิเรื่องนี้ มีผู้ร้ายสามคนคือนักวิจัยเพื่อนการบริหารมหาวิทยาลัยและสำนักพิมพ์ของเขา นักวิจัยส่วนใหญ่แย้งว่าไม่ได้สนใจในการคิดเชิงสถิติ แต่จะทำอย่างไรเพื่อให้ได้รับการตีพิมพ์บทความ [... ]

พิธีกรรมว่าง:

  1. ตั้งค่าสมมติฐานว่างเปล่าเชิงสถิติของ“ ไม่ต่างกันโดยเฉลี่ย” หรือ“ ไม่มีสหสัมพันธ์” อย่าระบุการคาดการณ์ของสมมติฐานการวิจัยของคุณหรือสมมติฐานสำคัญอื่นใด

  2. p<0.05p<0.01p<0.001p

  3. ทำตามขั้นตอนนี้เสมอ

Gigerenzer, G (พฤศจิกายน 2004) " สถิติไร้เหตุผล " วารสารเศรษฐกิจและสังคม 33 (5): 587–606 ดอย: 10.1016 / j.socec.2004.09.033

แก้ไข: และเราจำเป็นต้องพูดถึงเสมอเพราะ "ไฮบริด" ลื่นและไม่ถูกต้องดังนั้นการใช้ nil null เพื่อรับค่า p จึงเป็นวิธีที่ดีที่สุดในการเปรียบเทียบขนาดเอฟเฟกต์ที่มีขนาดตัวอย่างที่แตกต่างกัน เป็นลักษณะ "ทดสอบ" ที่แนะนำปัญหา

แก้ไข 2: @amoeba ค่า p สามารถปรับได้ตามสถิติสรุปในกรณีนี้สมมติฐานว่างเปล่าเป็นเพียงจุดสังเกตโดยพลการ: http://arxiv.org/abs/1311.0081 อย่างไรก็ตามทันทีที่คุณเริ่มพยายามหาข้อสรุปหรือตัดสินใจ (เช่น "ทดสอบ" สมมติฐานว่าง) มันจะหยุดไม่ได้ ในตัวอย่างการเปรียบเทียบสองกลุ่มเราต้องการทราบว่าทั้งสองกลุ่มต่างกันอย่างไรและคำอธิบายต่าง ๆ ที่เป็นไปได้อาจมีความแตกต่างของขนาดและประเภทนั้น

ค่า p สามารถใช้เป็นสถิติสรุปที่บอกเราถึงความแตกต่าง อย่างไรก็ตามการใช้มันเพื่อ "หักล้าง / ปฏิเสธ" ความแตกต่างที่เป็นศูนย์นั้นไม่ได้มีวัตถุประสงค์เพื่อที่ฉันจะสามารถบอกได้ นอกจากนี้ฉันคิดว่าการออกแบบการศึกษาจำนวนมากเหล่านี้ที่เปรียบเทียบการวัดค่าเฉลี่ยของสิ่งมีชีวิตในเวลาเดียวกันนั้นถูกเข้าใจผิด เราควรต้องการสังเกตว่าแต่ละอินสแตนซ์ของระบบมีการเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไปแล้วมาพร้อมกับกระบวนการที่อธิบายรูปแบบที่สังเกตได้ (รวมถึงความแตกต่างของกลุ่ม)


2
+1, ขอบคุณสำหรับคำตอบและลิงก์ ดูเหมือนว่าฉันยังไม่ได้อ่านบทความนี้ฉันจะดู ดังที่ฉันได้กล่าวไปก่อนหน้านี้ฉันรู้สึกว่า "ไม่มีศูนย์" เป็นปัญหามุมฉากของปัญหา "ไฮบริด" แต่ฉันคิดว่าฉันควรอ่านงานเขียนของ Gigerenzer อีกครั้งเพื่อตรวจสอบว่า จะพยายามหาเวลาในวันต่อ ๆ ไป นอกเหนือจากนั้น: คุณช่วยอธิบายย่อหน้าสุดท้ายของคุณ ("แก้ไข") ได้ไหม? ฉันเข้าใจถูกต้องหรือไม่ว่าคุณหมายถึงการมีศูนย์เป็นศูนย์เมื่อเปรียบเทียบขนาดเอฟเฟกต์สองขนาดก็โอเค แต่การมีศูนย์เป็นศูนย์เมื่อเปรียบเทียบขนาดเอฟเฟ็กต์เป็นศูนย์นั้นไม่เป็นไร
อะมีบาพูดว่า Reinstate Monica

1

ฉันเห็นว่าผู้ที่มีความเชี่ยวชาญมากกว่าตัวเองให้คำตอบ แต่ฉันคิดว่าคำตอบของฉันมีศักยภาพที่จะเพิ่มสิ่งเพิ่มเติมดังนั้นฉันจะเสนอสิ่งนี้ในมุมมองของคนธรรมดาอีกคนหนึ่ง

แนวทางไฮบริดนั้นไม่สอดคล้องกันหรือไม่?   ฉันจะบอกว่ามันขึ้นอยู่กับว่านักวิจัยจะทำตัวไม่สอดคล้องกับกฎที่พวกเขาเริ่มต้นด้วยหรือไม่: โดยเฉพาะกฎใช่ / ไม่ใช่ที่เข้ามาเล่นโดยการตั้งค่าอัลฟ่า

ไม่ต่อเนื่องกัน

เริ่มต้นด้วย Neyman-Pearson นักวิจัยตั้งค่า alpha = 0.05 เรียกใช้การทดสอบคำนวณ p = 0.052 นักวิจัยมองไปที่ค่า p และใช้การอนุมานของชาวประมง (มักจะโดยปริยาย) พิจารณาผลลัพธ์ที่จะไม่เข้ากันกับข้อสมมติฐานการทดสอบที่เพียงพอว่าพวกเขาจะยังคงเรียกร้อง "บางอย่าง" ที่เกิดขึ้น ผลลัพธ์ก็คือ "ดีพอ" แม้ว่าค่า p จะมากกว่าค่าอัลฟา บ่อยครั้งที่สิ่งนี้ถูกจับคู่กับภาษาเช่น "มีนัยสำคัญเกือบ" หรือ "แนวโน้มที่มีต่อความสำคัญ" หรือข้อความบางอย่างตามบรรทัดเหล่านั้น

อย่างไรก็ตามการตั้งค่าอัลฟาก่อนดำเนินการทดสอบหมายความว่าได้เลือกวิธีการทำงานของอุปนัยของ Neyman-Pearson การเลือกที่จะเพิกเฉยกับค่าอัลฟาหลังจากคำนวณค่า p แล้วจึงอ้างว่าบางสิ่งยังคงน่าสนใจทำลายวิธีการทั้งหมดที่เริ่มต้นด้วย หากนักวิจัยเริ่มต้นเส้นทาง A (Neyman-Pearson) แต่จากนั้นข้ามไปยังเส้นทางอื่น (ฟิชเชอร์) เมื่อพวกเขาไม่ชอบเส้นทางที่พวกเขาอยู่ฉันจะพิจารณาว่าไม่ต่อเนื่องกัน พวกเขาจะไม่สอดคล้องกับกฎ (โดยนัย) ที่พวกเขาเริ่มต้นด้วย

สอดคล้องกัน (อาจ)

เริ่มต้นด้วย NP นักวิจัยตั้งค่า alpha = 0.05 เรียกใช้การทดสอบคำนวณ p = 0.0014 นักวิจัยตั้งข้อสังเกตว่า p <alpha และปฏิเสธการทดสอบสมมติฐาน (โดยทั่วไปจะไม่มีผลกระทบใด ๆ ) และยอมรับสมมติฐานทางเลือก (ผลที่ได้คือจริง) ณ จุดนี้นักวิจัยนอกเหนือจากการตัดสินใจที่จะรักษาผลที่เป็นผลกระทบที่แท้จริง (NP) ตัดสินใจที่จะอนุมาน (ฟิชเชอร์) ว่าการทดลองให้หลักฐานที่แข็งแกร่งมากว่าผลเป็นจริง พวกเขาได้เพิ่มความแตกต่างนิดหน่อยให้กับวิธีการที่พวกเขาเริ่มต้นด้วย แต่ไม่ได้ขัดแย้งกับกฎที่กำหนดไว้โดยเลือกค่าอัลฟาที่จุดเริ่มต้น

สรุป

หากหนึ่งเริ่มต้นด้วยการเลือกค่าอัลฟาแล้วคนหนึ่งได้ตัดสินใจที่จะใช้เส้นทาง Neyman-Pearson และปฏิบัติตามกฎสำหรับวิธีการที่ หากในบางครั้งพวกเขาละเมิดกฎเหล่านั้นโดยใช้การอนุมานของชาวประมงเป็นข้ออ้างว่าพวกเขามีพฤติกรรมที่ไม่สอดคล้องกัน / ไม่ต่อเนื่องกัน

ฉันคิดว่าใครจะไปอีกขั้นหนึ่งและประกาศว่าเพราะมันเป็นไปได้ที่จะใช้ลูกผสมอย่างไม่ต่อเนื่องดังนั้นวิธีการที่จะเชื่อมโยงกันโดยเนื้อแท้ แต่ดูเหมือนจะลึกเข้าไปในด้านปรัชญาซึ่งฉันไม่คิดว่าตัวเองมีคุณสมบัติแม้แต่ เสนอความคิดเห็นเกี่ยวกับ

ปลายหมวกกับ Michael Lew บทความ 2006 ของเขาช่วยให้ฉันเข้าใจปัญหาเหล่านี้ดีกว่าแหล่งข้อมูลอื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.