ความผิดทางสถิติทั่วไปคืออะไร?


227

ฉันเป็นนักศึกษาระดับปริญญาตรีด้านจิตวิทยาและเมื่อฉันศึกษาต่อทางสถิติมากขึ้นเรื่อย ๆ ฉันรู้สึกประหลาดใจมากขึ้นจากความไม่เพียงพอของการฝึกฝนอย่างเป็นทางการของฉัน ทั้งประสบการณ์ส่วนตัวและมือสองชี้ให้เห็นว่าความขัดสนของสถิติที่เข้มงวดในการฝึกอบรมระดับปริญญาตรีและบัณฑิตศึกษาค่อนข้างแพร่หลายในด้านจิตวิทยา เช่นนี้ฉันคิดว่ามันจะมีประโยชน์สำหรับผู้เรียนอิสระอย่างตัวฉันเองในการสร้างรายการ "สถิติบาป" การทำเป็นตารางการฝึกสถิติที่สอนให้นักเรียนที่จบการศึกษาเป็นแบบฝึกมาตรฐานที่จริง ๆ แล้วถูกแทนที่โดยดีกว่า แข็งแกร่ง ฯลฯ ) วิธีการที่ทันสมัยหรือแสดงว่าไม่ถูกต้องตามตรง เมื่อคาดหวังว่าสาขาอื่น ๆ อาจประสบกับสถานการณ์ที่คล้ายกันฉันเสนอวิกิชุมชนซึ่งเราสามารถรวบรวมรายการความผิดทางสถิติในสาขาวิชาได้


5
ฉันทราบว่า "บาป" อาจจะมีการอักเสบและการวิเคราะห์ทางสถิติบางประการนั้นไม่ใช่ขาวดำ ความตั้งใจของฉันคือการขอร้องกรณีที่การฝึกฝนที่สอนกันโดยทั่วไปนั้นไม่เหมาะสมอย่างชัดเจน
Mike Lawrence

5
นอกจากนี้คุณยังสามารถเพิ่มชีววิทยา / วิทยาศาสตร์เพื่อชีวิตนักเรียนในการผสมถ้าคุณชอบ;)
นิโก้

1
บางทีมัน retitle วิทยาศาสตร์เพื่อชีวิตบาปสถิติ ... หรือสิ่งอื่นที่เฉพาะเจาะจงมากขึ้น ... ?
จอห์น

1
@whuber มีคำตอบที่ดีดังนั้นฉันจึงรวมพวกเขาทั้งสองเข้าด้วยกัน

1
สวัสดี @Amanda คุณช่วยบอกหน่อยได้ไหมว่ามีอะไรในการพูดคุย? ไม่มีใครชอบความเป็นไปได้ที่จะถูกรีด
naught101

คำตอบ:


118

ไม่สามารถดู (แปลง) ข้อมูลได้


+1 ทำได้ดีมาก! ฉันตกใจที่ยังไม่ได้พูดถึง
whuber

1
สำคัญมาก!
deps_stats

1
อาจเป็นสิ่งที่พบได้บ่อยที่สุด
Carlos Cinelli

115

การตีความค่า p ส่วนใหญ่เป็นบาป! การใช้งานแบบทั่วไปของค่า p มีข้อบกพร่องไม่ดี ความจริงที่ว่าในความคิดของฉันโทรเข้ามาถามคำถามวิธีการมาตรฐานในการสอนการทดสอบสมมติฐานและการทดสอบอย่างมีนัยสำคัญ

Haller และ Krause พบว่าผู้สอนสถิติเกือบจะเป็นไปได้ที่นักเรียนจะตีความค่า p ผิดไป (ทำการทดสอบในกระดาษของพวกเขาและดูว่าคุณทำอย่างไร) สตีฟกู๊ดแมนทำให้เป็นกรณีที่ดีสำหรับการยกเลิกการใช้ p-value แบบธรรมดา (mis-) เพื่อความเป็นไปได้ กระดาษของฮับบาร์ดนั้นมีค่าควรดูด้วย

Haller และ Krauss ตีความอย่างมีนัยสำคัญ: เป็นนักเรียนปัญหาร่วมกับครูของพวกเขา ระเบียบวิธีวิจัยทางจิตวิทยา (2545) 7 (1) pp. 1-20 ( PDF )

ฮับบาร์ดและบายารี่ ความสับสนเกี่ยวกับมาตรการหลักฐาน (p's) กับข้อผิดพลาด (α's) ในการทดสอบทางสถิติแบบดั้งเดิม สถิติอเมริกัน (2546) ฉบับ 57 (3)

คนดี. ต่อสถิติทางการแพทย์ที่อ้างอิงหลักฐาน 1: การเข้าใจผิดของค่า P Ann Intern Med (1999) vol. 130 (12) หน้า 995-1004 ( PDF )

ดูเพิ่มเติมที่:

Wagenmakers, EJ วิธีการแก้ปัญหาในทางปฏิบัติในการแก้ไขปัญหาค่า p แถลงการณ์และการทบทวนทางจิตวิทยา, 14 (5), 779-804

สำหรับบางกรณีที่ชัดเจนซึ่งแม้แต่การตีความ "ถูกต้อง" ในนามของ p-value ได้ถูกทำให้ไม่ถูกต้องเนื่องจากตัวเลือกของผู้ทดลอง

Update (2016) : ในปี 2016 สมาคมอเมริกันสถิติออกแถลงการณ์เกี่ยวกับ P-ค่าให้ดูที่นี่ นี่คือวิธีการตอบสนองต่อ "ห้ามค่า p" ที่ออกโดยวารสารจิตวิทยาเกี่ยวกับปีก่อนหน้า


2
@Michael (+1) ฉันเพิ่มลิงก์ไปยังบทคัดย่อและ PDF ที่ไม่แปลง หวังว่าคุณจะไม่รังเกียจ
chl

7
+1 แต่ฉันต้องการแสดงความคิดเห็นที่สำคัญ เกี่ยวกับการเปิดสายหนึ่งก็เช่นกันอาจกล่าวได้ว่า "เกือบทั้งหมด" (ในความหมายทฤษฎีวัด) การตีความใด ๆแนวคิดที่ดีที่กำหนดไม่ถูกต้องเพราะเพียงหนึ่งถูกต้อง ประการที่สองคุณอ้างถึงอะไรเมื่อคุณพูดว่า "การใช้งานทั่วไป" และ "วิธีการมาตรฐาน" การอ้างอิงที่คลุมเครือเหล่านี้ดูเหมือนมนุษย์ฟาง พวกเขาไม่สอดคล้องกับสิ่งที่สามารถพบได้ในวรรณคดีเกี่ยวกับการศึกษาสถิติเช่น
whuber

4
@Whuber ดูกระดาษ Goodman มันสอดคล้องกับประสบการณ์ของฉันในด้านเภสัชวิทยาค่อนข้างดี วิธีการบอกว่า "ผลลัพธ์ที่ P <0.05 ถูกนำมาเป็นนัยสำคัญทางสถิติ" จากนั้นนำเสนอผลลัพธ์ด้วย + สำหรับ p <0.05, ++ สำหรับ p <0.01 และ +++ สำหรับ p <0.0001 คำสั่งแสดงถึงการควบคุมอัตราความผิดพลาดของ la Neyman และ Pearson แต่การใช้ระดับต่าง ๆ ของ p แนะนำวิธีการของชาวประมงโดยที่ค่า p เป็นดัชนีของความแข็งแกร่งของหลักฐานเทียบกับสมมติฐานว่าง เมื่อสามีชี้ให้เห็นคุณไม่สามารถควบคุมอัตราความผิดพลาดได้พร้อมกันและประเมินความแข็งแกร่งของหลักฐาน
Michael Lew

8
@Michael มีการตีความทางเลือกที่หลากหลายและใจดีกว่าสำหรับการรายงานประเภทนั้น ตัวอย่างเช่นผู้เขียนอาจทราบว่าผู้อ่านอาจต้องการใช้เกณฑ์ความสำคัญของตนเองดังนั้นจึงทำการตั้งค่าสถานะของค่า p เพื่อช่วยพวกเขา อีกทางหนึ่งผู้เขียนอาจตระหนักถึงปัญหาการเปรียบเทียบหลายอย่างที่เป็นไปได้และใช้ระดับที่แตกต่างกันในการปรับเหมือน Bonferroni บางทีความผิดบางส่วนสำหรับการใช้ค่า p ในทางที่ผิดควรวางไว้ที่เท้าของผู้อ่านไม่ใช่ผู้เขียน
whuber

4
@Wuber ฉันยอมรับทั้งหมด แต่เฉพาะสิ่งที่คุณแนะนำนั้นเป็นจริงในบางกรณีเล็กน้อย (เป็นรุ่นที่ จำกัด ของ 'ทั้งหมด') มีวารสารบางฉบับที่ระบุว่าควรรายงานค่า p ที่ระดับหนึ่ง, สองหรือสามดาวแทนที่จะเป็นค่าที่แน่นอนดังนั้นวารสารเหล่านั้นจึงมีความรับผิดชอบร่วมกับผลลัพธ์ อย่างไรก็ตามความต้องการที่พิจารณาอย่างไม่ดีและการใช้ค่า p ที่ไร้เดียงสาอาจเป็นผลมาจากการที่ไม่มีคำอธิบายที่ชัดเจนเกี่ยวกับความแตกต่างระหว่างอัตราความผิดพลาดและหลักฐานในข้อความสถิติเบื้องต้นเบื้องต้นที่อยู่บนชั้นวางของฉัน
Michael Lew

73

กับดักที่อันตรายที่สุดที่ฉันพบเมื่อทำงานกับแบบจำลองการทำนายคือไม่สำรองชุดข้อมูลทดสอบไว้ล่วงหน้าเพื่ออุทิศให้กับการประเมินประสิทธิภาพขั้นสุดท้าย

มันง่ายมากที่จะประเมินค่าความแม่นยำในการทำนายค่าสูงของแบบจำลองของคุณถ้าคุณมีโอกาสใช้ข้อมูลการทดสอบเมื่อปรับแต่งพารามิเตอร์เลือกก่อนเลือกตัวเลือกก่อนเลือกเกณฑ์การเรียนรู้ที่จะหยุด ...

เพื่อหลีกเลี่ยงปัญหานี้ก่อนเริ่มทำงานกับชุดข้อมูลใหม่คุณควรแบ่งข้อมูลของคุณเป็น:

  • ชุดพัฒนา
  • ชุดการประเมินผล

จากนั้นแบ่งชุดการพัฒนาของคุณเป็น "ชุดพัฒนาการฝึกอบรม" และ "ชุดพัฒนาทดสอบ" ซึ่งคุณใช้ชุดพัฒนาการฝึกอบรมเพื่อฝึกอบรมโมเดลที่หลากหลายด้วยพารามิเตอร์ที่แตกต่างกันและเลือกชุดที่ดีที่สุดตามประสิทธิภาพในชุดพัฒนาการทดสอบ คุณสามารถค้นหากริดด้วยการตรวจสอบความถูกต้องไขว้ แต่เฉพาะในชุดการพัฒนา อย่าใช้ชุดการประเมินผลในขณะที่การเลือกรุ่นไม่เสร็จ 100%

เมื่อคุณมั่นใจในการเลือกรุ่นและพารามิเตอร์แล้วให้ดำเนินการตรวจสอบความถูกต้องไขว้ 10 เท่าของชุดการประเมินเพื่อให้ทราบถึงความแม่นยำในการทำนายที่แท้จริงของโมเดลที่เลือก

นอกจากนี้หากข้อมูลของคุณเป็นชั่วคราวคุณควรเลือกแบ่งการพัฒนา / ประเมินผลตามรหัสเวลา: "เป็นการยากที่จะคาดการณ์โดยเฉพาะเกี่ยวกับอนาคต"


5
ฉันเห็นด้วยกับหลักการนี้ แต่ในกรณีของชุดข้อมูลขนาดเล็ก (ฉันมักจะมีเพียง 20-40 กรณี) การใช้ชุดการประเมินแยกต่างหากนั้นใช้ไม่ได้จริง ซ้อนกันตรวจสอบข้ามจะได้รับรอบนี้ แต่อาจนำไปสู่การประมาณการในแง่ร้ายในชุดข้อมูลขนาดเล็ก
BGreene

11
โดยทั่วไปแล้วจะใช้ชุดข้อมูลขนาดใหญ่เพื่อให้การแยกข้อมูลมีความน่าเชื่อถือ นั่นเป็นเหตุผลที่การตรวจสอบภายในที่เข้มงวดด้วย bootstrap นั้นน่าสนใจ
Frank Harrell

โดยเฉพาะอย่างยิ่งเมื่อชุดการพัฒนาเป็นข้อมูลในอดีตและการประเมินผลจะกำหนดข้อมูลในอนาคต ทำไมไม่หลังจากปรับแต่งโมเดลทั้งหมดให้ฝึกฝนโมเดลสุดท้ายด้วยพารามิเตอร์คงที่ในชุดพัฒนาทั้งหมดและทำนายชุดประเมินทั้งหมดด้วย ในสถานการณ์จริงคุณไม่สามารถตรวจสอบข้ามข้อมูลในอนาคตตามที่คุณอธิบายได้ดังนั้นคุณจะใช้ข้อมูลที่ผ่านมาที่เกี่ยวข้องทั้งหมด
David Ernst

64

การรายงานค่า p เมื่อคุณทำการขุดข้อมูล (ค้นพบสมมติฐาน) แทนสถิติ (ทดสอบสมมติฐาน)


2
คุณ (หรือบางคน) บรรจงได้ไหม?
ทอน


สิ่งที่เกี่ยวกับค่า p ถูกแก้ไขสำหรับการทดสอบสมมติฐานหลาย (ด้วยรสชาติของวิธีการ Bonferroni หรือการแก้ไขขั้นสูงมากขึ้น)? ฉันมักจะคิดว่ามันใช้ได้แม้ในบริบทของการขุดข้อมูล
ทอน - sac

ฉันชอบความคิดทั่วไป แต่เป็นการบิดเบือนที่จะถือเอาสถิติด้วยการทดสอบสมมติฐานเมื่อสิ่งหลังเป็นส่วนย่อยของอดีต
rolando2

46

การทดสอบสมมติฐานเมื่อเทียบกับ (ตัวอย่างเช่นในการตั้งค่า Gaussian)H 1 : μ 0H0:μ=0H1:μ0

เพื่อพิสูจน์ว่าในแบบจำลอง (เช่นมิกซ์ "ไม่ได้ถูกปฏิเสธ" และ "เป็นจริง")H 0 H 0μ=0H0H0

ตัวอย่างที่ดีมากของการให้เหตุผลแบบนี้ (แย่มาก) คือเมื่อคุณทดสอบว่าความแปรปรวนของ Gaussians ทั้งสองนั้นเท่ากัน (หรือไม่) ก่อนการทดสอบว่าค่าเฉลี่ยของพวกเขาเท่ากันหรือไม่กับสมมติฐานของความแปรปรวนที่เท่ากัน

อีกตัวอย่างหนึ่งเกิดขึ้นเมื่อคุณทดสอบภาวะปกติ (เทียบกับความไม่ปกติ) เพื่อปรับความปกติ นักสถิติทุกคนทำอย่างนั้นในชีวิตคืออะไร? มันเป็น baaad :) (และควรผลักดันให้ผู้คนตรวจสอบความทนทานของการเสียแบบไม่เสียน)


6
ตรรกะเดียวกัน (รับ "การขาดหลักฐานในความโปรดปราน H1" เป็น "หลักฐานการขาด H1") โดยพื้นฐานแล้วเป็นการทดสอบความดีที่พอดี เหตุผลมักเกิดขึ้นเมื่อผู้คนกล่าวว่า "การทดสอบไม่สำคัญเราจึงสามารถสรุปได้ว่าไม่มีผลกระทบของปัจจัย X / ไม่มีอิทธิพลของตัวแปร Y" ฉันเดาว่าความบาปนั้นรุนแรงน้อยกว่าหากมาพร้อมกับการให้เหตุผลเกี่ยวกับพลังของการทดสอบ (เช่นการประมาณค่าขนาดตัวอย่างเพื่อให้ได้พลังงานหนึ่งที่ให้ผลขนาดที่เกี่ยวข้อง)
caracal

หากคุณไม่ได้ให้ข้อสรุปเกี่ยวกับพลังฉันจะบอกว่าการแฮงค์นั้นเป็นจริงเมื่อมันไม่ได้ถูกปฏิเสธนั้นเลวร้ายมากในขณะที่การ Clamingนั้นเป็นจริงในขณะที่นั้นถูกปฏิเสธนั้นผิดเล็กน้อย :) H 1 H 0H0H1H0
robin girard

ยิ่งใหญ่ !! ใช่มันทำให้ฉันคลั่งไคล้ ..
jpillow

3
ฉันพยายามที่จะรู้หนังสือสถิติและยังคงตกอยู่สำหรับคนนี้เป็นครั้งคราว ทางเลือกคืออะไร? เปลี่ยนแบบจำลองของคุณดังนั้นค่า Null เก่าจะกลายเป็นหรือไม่ เพียงตัวเลือกอื่น ๆ ที่ฉันสามารถคิดเป็นอำนาจการศึกษาของคุณพอที่จะทำให้เกิดความล้มเหลวที่จะปฏิเสธ null คือในทางปฏิบัติใกล้พอที่จะยืนยันโมฆะ เช่นถ้าคุณต้องการให้แน่ใจว่าการเพิ่มรีเอเจนต์ในเซลล์ของคุณจะไม่ฆ่ามากกว่า 2% ของพวกเขาพลังในอัตราลบที่น่าพอใจ H1
DocBuckets

@DocBuckets การทดสอบความเท่าเทียมกันกับการทดสอบสองด้านหนึ่งนั้นมีความเข้มงวดกว่าวิธีการใช้พลังงาน แต่คุณต้องตั้งค่าขนาดเอฟเฟกต์ที่เกี่ยวข้องขั้นต่ำด้านล่างซึ่งคุณสามารถพูดถึงการเทียบเท่าเชิงปฏิบัติ
David Ernst

46

ข้อผิดพลาดเล็กน้อยที่รบกวนฉัน:

  1. การสมมติตัวประมาณแบบเอนเอียงจะดีกว่าตัวประมาณแบบเอนเอียงเสมอ

  2. สมมติว่าสูงหมายถึงโมเดลที่ดี RR ต่ำหมายถึงโมเดลที่ไม่ดีR 2R2R2

  3. การตีความ / ใช้สหสัมพันธ์อย่างไม่ถูกต้อง

  4. การประมาณจุดรายงานโดยไม่มีข้อผิดพลาดมาตรฐาน

  5. การใช้วิธีการที่ใช้สมมติ Multivariate Normality บางประเภท (เช่นการวิเคราะห์ Discriminant เชิงเส้น) เมื่อมีวิธีการที่แข็งแกร่งกว่า, มีประสิทธิภาพดีกว่า, ไม่มีวิธี / แบบกึ่งพารามิเตอร์

  6. ใช้ p-value เป็นตัวชี้วัดของความแข็งแรงระหว่างการทำนายและการตอบสนองที่เป็นมากกว่าที่จะเป็นตัวชี้วัดของหลักฐานเท่าใดมีของบางอย่างความสัมพันธ์


5
คุณจะแยกสิ่งเหล่านี้ออกเป็นตัวเลือกแยกกันไหม?
russellpierce

41

การแบ่งขั้วของตัวแปรทำนายอย่างต่อเนื่องเพื่อการวิเคราะห์ "ลดความซับซ้อน" หรือเพื่อแก้ปัญหา "ปัญหา" ของความไม่เชิงเส้นตรงในผลกระทบของการทำนายต่อเนื่อง


18
ฉันไม่คิดว่านี่เป็น "บาป" จริง ๆ เพราะผลลัพธ์ที่ได้ไม่ผิด อย่างไรก็ตามมันทิ้งข้อมูลที่มีประโยชน์มากมายดังนั้นจึงไม่ใช่วิธีปฏิบัติที่ดี
Rob Hyndman

2
ตามเส้นเหล่านี้การใช้กลุ่มมากออกแบบขนาดของเอฟเฟ็กต์ที่ประเมินมากกว่าในขณะที่การใช้ขนาดเฉลี่ยหรือแบ่งขนาดต่ำกว่าประมาณการ
russellpierce

2
นี่ไม่ใช่แม้แต่บาปถ้ามีประชากรสองคนขึ้นไปที่แตกต่างกัน สมมติว่าคุณมีชั้นเรียนที่แยกกันไม่ออกหรือกลุ่มย่อยจากนั้นก็สามารถแยกแยะได้ ตัวอย่างเล็ก ๆ น้อย ๆ : ฉันจะใช้ตัวบ่งชี้สำหรับไซต์ / สถานที่ / เมือง / ประเทศหรือ lat / long หรือไม่
Iterator

3
+1 และมันจะกลายเป็นบาปร้ายแรงเมื่อพวกเขาเริ่มเลือกตัดการแบ่งขั้วเพื่อปรับความแตกต่างบางอย่างซึ่งจะถูกทดสอบ
Erik

5
@Iterator คุณเริ่มที่จะได้รับเหตุผลที่แท้จริงที่จะรวม (สองประเภทหรือมากกว่า) ซึ่งเป็นเพราะมีเบื้องต้นเหตุผลที่จะเชื่อว่าทฤษฎีความแปรปรวนที่มีความหมาย compartmentalized เป็นหมวดหมู่เหล่านั้น ตัวอย่างเช่นเราทำสิ่งนี้ตลอดเวลาโดยสมมติว่าเซลล์หนึ่งล้านล้านล้านเซลล์นั้นประกอบกันเป็นรายบุคคลหรือเป็นระยะเวลา 24 ชั่วโมงที่ต่อเนื่องกันที่นี่บนโลกถูกตีความว่าเป็นหน่วย แต่การรวมพลโดยพลการไม่ได้เป็นเพียงข้อมูล "ทิ้ง" (เช่นพลังงานเชิงสถิติ) แต่สามารถนำไปสู่อคติ (ร้ายแรง) เกี่ยวกับความสัมพันธ์ระหว่างปรากฏการณ์
Alexis

41

ไม่ตอบคำถามจริงๆ แต่มีหนังสือเล่มหนึ่งเกี่ยวกับเรื่องนี้:

Phillip I. Good, James William Hardin (2003) ข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง) ไวลีย์ ไอ9780471460688


6
+1 ฉันแน่ใจว่าได้อ่านหนังสือเล่มนี้หลังจากหนังสือออกมา ฉันได้รับโอกาสมากมายที่จะทำผิดพลาดทางสถิติดังนั้นฉันรู้สึกขอบคุณเสมอที่จะให้พวกเขาชี้ให้เห็นก่อนที่ฉันจะทำให้พวกเขา!
whuber


41

สถิติ Ritualized

"บาป" นี้คือเมื่อคุณใช้สิ่งที่คุณได้รับการสอนโดยไม่คำนึงถึงความเหมาะสมเพราะมันเป็นสิ่งที่ทำ มันเป็นสถิติจากการท่องจำหนึ่งระดับเหนือกว่าที่ให้เครื่องเลือกสถิติของคุณให้คุณ

ตัวอย่างคือแนะนำนักเรียนระดับสถิติที่พยายามทำทุกอย่างให้พอดีกับ t-test และ ANOVA Toolkit หรือเมื่อใดก็ตามที่พบว่าตัวเองกำลัง "โอ้ฉันมีข้อมูลที่เป็นหมวดหมู่ฉันควรใช้ X" โดยไม่หยุดดู ข้อมูลหรือพิจารณาคำถามที่ถูกถาม

การเปลี่ยนแปลงของบาปนี้เกี่ยวข้องกับการใช้รหัสที่คุณไม่เข้าใจในการสร้างผลลัพธ์ที่คุณเข้าใจเพียงอย่างเดียว แต่รู้ว่า "คอลัมน์ที่ห้าประมาณ 8 แถวลงไป" หรืออะไรก็ตามที่เป็นคำตอบที่คุณควรจะมองหา


6
น่าเสียดายที่ถ้าคุณไม่สนใจในการอนุมานเชิงสถิติหรือหายากตรงเวลาและ / หรือทรัพยากรพิธีกรรมดูเหมือนจะน่าสนใจมาก ...
ความน่าจะเป็นที่จะเกิดขึ้น

สำหรับฉันคำอธิบายของ Epigrad คือคนที่ใส่ใจอย่างมากเกี่ยวกับการอนุมานและละเลยสิ่งต่าง ๆ เช่นการสะท้อนการค้นพบและการพิจารณาถึงความเป็นเหตุเป็นผล
rolando2

35

อาจถดถอยแบบขั้นตอนและรูปแบบอื่น ๆ ของการทดสอบหลังจากการเลือกรูปแบบ

การเลือกตัวแปรอิสระสำหรับการสร้างแบบจำลองโดยไม่ต้องมีข้อสันนิษฐานเบื้องต้นที่อยู่เบื้องหลังความสัมพันธ์ที่มีอยู่สามารถนำไปสู่การเข้าใจผิดอย่างมีเหตุผลหรือความสัมพันธ์แบบลวงตาท่ามกลางความผิดพลาดอื่น ๆ

การอ้างอิงที่มีประโยชน์ (จากมุมมองทางชีวภาพ / ชีวสถิติ):

  1. Kozak, M. , & Azevedo, R. (2011) การใช้การเลือกตัวแปรแบบขั้นตอนเพื่อสร้างแบบจำลองการวิเคราะห์เส้นทางแบบลำดับนั้นสมเหตุสมผลหรือไม่ Physiologia plantarum, 141 (3), 197–200 ดอย: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P. , Bradbury, RB, & Freckleton, RP (2006) ทำไมเรายังคงใช้การสร้างแบบจำลองขั้นตอนในระบบนิเวศและพฤติกรรม? วารสารนิเวศวิทยาสัตว์, 75 (5), 1182–9 ดอย: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย Springer 2001


32

สิ่งที่ฉันเห็นจำนวนที่น่าแปลกใจในเอกสารการประชุมและแม้กระทั่งวารสารกำลังทำการเปรียบเทียบหลายอย่าง (เช่นความสัมพันธ์แบบ bivariate) จากนั้นรายงาน p <.05s ทั้งหมดว่า "สำคัญ" (ไม่สนใจความถูกต้องหรือความผิดของช่วงเวลานั้น)

ฉันรู้ว่าคุณหมายถึงอะไรเกี่ยวกับผู้สำเร็จการศึกษาด้านจิตวิทยาเช่นกัน - ฉันสำเร็จการศึกษาระดับปริญญาเอกทางด้านจิตวิทยาแล้วและฉันก็แค่เรียนรู้เท่านั้น มันค่อนข้างแย่ฉันคิดว่าจิตวิทยาจำเป็นต้องวิเคราะห์ข้อมูลเชิงปริมาณอย่างจริงจังมากขึ้นถ้าเราจะใช้มัน (ซึ่งชัดเจนเราควรจะ)


9
นี่เป็นสิ่งสำคัญอย่างยิ่ง ฉันจำได้ว่าเคยอ่านการศึกษาเกี่ยวกับว่ารอมฎอนไม่ดีสำหรับทารกที่แม่อดอาหารหรือไม่ มันดูน่าเชื่อถือ (อาหารน้อยลง, ลดน้ำหนักแรกเกิด) แต่จากนั้นฉันดูภาคผนวก สมมติฐานนับพันและอีกไม่กี่เปอร์เซ็นต์อยู่ในช่วง "สำคัญ" คุณจะได้รับ "ข้อสรุป" แปลก ๆ เช่น "มันไม่ดีสำหรับเด็กถ้าเดือนรอมฎอนเป็นเดือนที่ 2, 4 หรือ 6"
Carlos

29

เป็นนักสำรวจ แต่แสร้งทำเป็นยืนยัน สิ่งนี้สามารถเกิดขึ้นได้เมื่อมีการปรับเปลี่ยนกลยุทธ์การวิเคราะห์ (เช่นการปรับแบบจำลองการเลือกตัวแปรและอื่น ๆ ) การขับเคลื่อนข้อมูลหรือการขับเคลื่อนผลลัพธ์ แต่ไม่ได้ระบุสิ่งนี้อย่างเปิดเผยและจากนั้นรายงานเฉพาะผลลัพธ์ "ดีที่สุด" (เช่น มันเป็นการวิเคราะห์เพียงอย่างเดียว สิ่งนี้เกี่ยวข้องกับประเด็นด้วยเช่นกันหากการทดสอบหลายครั้งที่ Chris Beeley ทำและส่งผลให้เกิดผลบวกที่ผิดพลาดในรายงานทางวิทยาศาสตร์


26

สิ่งที่ฉันเห็นบ่อยครั้งและบดเกียร์ของฉันเสมอคือการสันนิษฐานว่าผลกระทบที่สำคัญทางสถิติในกลุ่มหนึ่งและผลกระทบหลักที่ไม่มีนัยสำคัญทางสถิติในอีกกลุ่มหนึ่งแสดงถึงการมีปฏิสัมพันธ์อย่างมีนัยสำคัญของกลุ่ม x


24

โดยเฉพาะอย่างยิ่งในด้านระบาดวิทยาและสาธารณสุข - ใช้เลขคณิตแทนมาตราส่วนลอการิทึมเมื่อรายงานกราฟของการวัดความสัมพันธ์ที่สัมพันธ์กัน (อัตราส่วนความเสี่ยงอัตราส่วนอัตราเดิมพันหรืออัตราส่วนความเสี่ยง)

ข้อมูลเพิ่มเติมที่นี่


5
ไม่พูดถึงไม่ติดฉลากเลยxkcd.com/833
radek

23

ความสัมพันธ์หมายถึงสาเหตุซึ่งไม่เลวเท่าการยอมรับสมมติฐานที่เป็นโมฆะ


แต่บางครั้ง ... บางครั้งทิศทางที่เป็นไปได้ของสาเหตุมีความน่าจะเป็นที่แตกต่างกันอย่างมาก แน่นอนว่าฉันจะไม่คิดว่าความสัมพันธ์ระหว่างอายุกับส่วนสูงอาจเกิดจากความสูง ... หรือตัวแปรบางตัวที่แทรกแซง นอกจากนี้ฉันคิดว่านี่เป็นสิ่งหนึ่งที่การฝึกอบรมด้านพฤติกรรมศาสตร์โดยทั่วไปค่อนข้างอ่อนไหว
จอห์น

แน่นอนอนุมานอะไรบางอย่างจากA and B are correlatedมักจะเห็นเพียงA causes Bแต่ไม่B causes A... (และลืมเกี่ยวกับCซึ่งเป็นสาเหตุAและB)
อังเดร Holzner

12
Google ทำให้ $ 65B เป็นปีที่ไม่ได้ดูแลเกี่ยวกับความแตกต่าง ...
นีล McGuigan

5
ฉันเห็นด้วยกับคะแนนของคุณและพวกเขาทั้งหมดถูกต้อง แต่กำไรของ Google หมายถึง: correlation => สาเหตุ?
suncoolsu

3
Google ทำให้เงินทั้งหมดนั้นไม่สนใจเรื่องของสาเหตุเลย แน่นอนทำไมมันจะ? การทำนายคือสิ่งที่ ...
conjugateprior

23

การวิเคราะห์ข้อมูลอัตรา (ความแม่นยำ ฯลฯ ) โดยใช้ ANOVA ดังนั้นสมมติว่าข้อมูลอัตรามีข้อผิดพลาดการกระจายแบบเกาส์เซียนเมื่อมีการแจกแจงแบบทวินาม Dixon (2008)ให้การอภิปรายเกี่ยวกับผลที่ตามมาของความบาปนี้และการสำรวจแนวทางการวิเคราะห์ที่เหมาะสมยิ่งขึ้น


4
สิ่งนี้จะลดพลังของการวิเคราะห์ลงได้มากแค่ไหน? เงื่อนไขใดเป็นปัญหามากที่สุด ในหลายกรณีการเบี่ยงเบนจากสมมติฐานของ ANOVA จะไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ในระดับที่สำคัญ
Michael Lew

ขั้นตอนการวิเคราะห์ทางเลือกคืออะไร?
Henrik

@Michael Lew & Henrik: ฉันเพิ่งอัปเดตรายการนี้เพื่อรวมลิงก์ไปยัง Dixon (2008)
Mike Lawrence

2
แต่ในระยะสั้นมันเป็นปัญหาที่พบมากที่สุดเมื่อความน่าจะเป็นที่สังเกตได้ต่ำหรือสูงเนื่องจากช่วงของค่าถูกบีบอัดและไม่สามารถทำตามสมมติฐานแบบเกาส์ได้
russellpierce

นี่เป็นเพียงเรื่องเลวร้ายอย่างที่การประมาณแบบทวินามปกติ - น่าจะดีถ้าแต่ละกรณีนั้นมีน้ำหนักโดยตัวส่วนที่ใช้ในการคำนวณอัตรา คาดว่าจะทำงานได้ไม่ดีในอัตราที่ต่ำกว่า 10% และสูงกว่า 90%
ความน่าจะเป็นที่เป็นไปได้

18

สิ่งที่ได้รับความนิยมในปัจจุบันคือการวางแผนช่วงความเชื่อมั่น 95% รอบค่าประสิทธิภาพดิบในการออกแบบมาตรการซ้ำ ๆ เมื่อพวกเขาเกี่ยวข้องกับความแปรปรวนของผลกระทบเท่านั้น ตัวอย่างเช่นพล็อตของเวลาการเกิดปฏิกิริยาในการออกแบบมาตรการซ้ำ ๆ ที่มีช่วงความเชื่อมั่นที่ระยะข้อผิดพลาดที่ได้รับมาจาก MSE ของมาตรการซ้ำ ANOVA ช่วงความมั่นใจเหล่านี้ไม่ได้แสดงถึงสิ่งที่สมเหตุสมผล แน่นอนว่าพวกเขาไม่ได้เป็นตัวแทนของเวลาตอบสนองที่แน่นอน คุณสามารถใช้คำว่าข้อผิดพลาดเพื่อสร้างช่วงความมั่นใจรอบ ๆ เอฟเฟกต์ แต่ทำได้ยาก


มีบทความมาตรฐานที่สามารถอ้างถึงเพื่อห้ามไม่ให้ผู้ตรวจสอบเรียกร้องให้มีการปฏิบัติที่เหมือนกันทั้งหมดนี้ได้หรือไม่?
russellpierce

บทวิจารณ์เดียวที่ฉันรู้คือ Blouin & Riopelle (2005) แต่พวกเขาไม่เข้าใจถึงเรื่องนี้ โดยทั่วไปฉันไม่ยืนยันที่จะไม่แสดงพวกเขา แต่ทำสิ่งที่ถูกต้องเช่นในกราฟแสดงผลของ Masson & Loftus (2003 ดูรูปที่ 4 แผงด้านขวา ... หากพวกเขาถูกลบออกจากด้านซ้ายคุณต้องทำถูกต้อง )
จอห์น

เพียงเพื่อให้ชัดเจนปัญหาของ CI เหล่านั้นก็คือพวกเขาใช้อย่างหมดจดด้วยเหตุผลเชิงอนุมานด้วยความเคารพต่อความแตกต่างระหว่างเงื่อนไขและดังนั้นจึงเลวร้ายยิ่งกว่า PLSD ... ในความเป็นจริงฉันชอบพวกเขา อย่างน้อยพวกเขาก็ซื่อสัตย์
จอห์น

17

ในขณะที่ฉันสามารถเกี่ยวข้องกับสิ่งที่ไมเคิลลิวพูดมากที่สุดการละทิ้งค่า p ในความโปรดปรานของอัตราส่วนความน่าจะเป็นยังคงพลาดปัญหาทั่วไปมากขึ้นนั่นคือการเน้นผลลัพธ์ที่น่าจะเป็นไปได้มากกว่าขนาดของเอฟเฟ็กต์ ข้อผิดพลาดประเภทนี้มาในรูปร่างและขนาดทั้งหมดและฉันคิดว่าเป็นข้อผิดพลาดทางสถิติที่ร้ายกาจที่สุด การวาดภาพบนเจโคเฮนและเอ็มเคสและคนอื่น ๆ ผมเคยเขียนชิ้นนี้ที่http://integrativestatistics.com/insidious.htm


3
จริง ๆ แล้วฉันไม่ชัดเจนว่าอัตราส่วนความน่าจะเป็น (LR) ไม่บรรลุทุกอย่างที่ขนาดของเอฟเฟกต์ประสบผลสำเร็จในขณะที่ใช้สเกลที่ตีความได้ง่าย (ข้อมูลมี X เป็นหลักฐานมากกว่า Y สำหรับ Z) ขนาดของเอฟเฟกต์มักจะเป็นเพียงรูปแบบอัตราส่วนของการอธิบายความแปรปรวนที่ไม่ได้อธิบายและ (ในกรณีซ้อน) LR คืออัตราส่วนของความแปรปรวนที่ไม่สามารถอธิบายได้ระหว่างโมเดลที่มีเอฟเฟกต์และที่ไม่ได้ อย่างน้อยไม่ควรมีความสัมพันธ์ที่แข็งแกร่งระหว่างขนาดของเอฟเฟกต์และ LR และถ้าเป็นเช่นนั้นสิ่งที่หายไปจากการย้ายไปที่อัตราส่วนความน่าจะเป็น
Mike Lawrence

Mike - คุณทำให้ฉันสนใจ แต่คะแนนของคุณขยายไปถึงขนาดเอฟเฟกต์ที่เรียบง่ายเหมือนกับความแตกต่างระหว่างกลุ่มหรือไม่? บุคคลเหล่านี้สามารถตีความได้ง่ายและสามารถกำหนดช่วงความมั่นใจได้
rolando2

อ๊ะด้วยขนาดเอฟเฟ็กต์คุณหมายถึงขนาดเอฟเฟ็กต์สัมบูรณ์ค่าที่ไม่มีความหมายต่อตัวเอง แต่สามารถทำให้มีความหมายโดยการแปลงเป็นขนาดเอฟเฟ็กต์สัมพัทธ์ (โดยหารด้วยการวัดความแปรปรวนบางอย่าง ช่วงความมั่นใจสำหรับขนาดเอฟเฟกต์สัมบูรณ์ ข้อโต้แย้งของฉันข้างต้นนำไปใช้กับข้อดีของ LRs กับขนาดผลกระทบสัมพัทธ์ อาจมียูทิลิตี้ในการคำนวณผล CIs ในกรณีที่มูลค่าที่แท้จริงของผลกระทบนั้นเป็นที่สนใจ (เช่นการทำนาย) แต่ฉันยังคงสนับสนุน LR ในระดับที่ใช้งานง่ายมากขึ้นสำหรับการพูดคุยเกี่ยวกับหลักฐานเพื่อต่อต้านผลกระทบ
Mike Lawrence

ฉันเดาว่าการใช้ LRs กับ CIs น่าจะแตกต่างกันไปตามบริบทซึ่งอาจสรุปได้อย่างเป็นประโยชน์ดังนี้: ขั้นตอนการสำรวจเพิ่มเติมของวิทยาศาสตร์ที่ทฤษฎีมีลักษณะคร่าวๆโดยการมีอยู่ / ไม่มีปรากฏการณ์อาจต้องการ LRs เพื่อหาหลักฐานเชิงปริมาณ ในทางตรงกันข้าม CIs อาจเป็นที่ต้องการในขั้นสูงของวิทยาศาสตร์ขั้นสูงซึ่งทฤษฎีนั้นได้รับการขัดเกลาอย่างเพียงพอที่จะอนุญาตการทำนายที่เหมาะสมรวมถึงช่วงของผลที่คาดหวังหรือตรงกันข้ามเมื่อช่วงของผลกระทบที่แตกต่างกันสนับสนุนทฤษฎีต่างๆ ในที่สุดการทำนายที่สร้างจากแบบจำลองใด ๆ จำเป็นต้องมี CIs
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

ความล้มเหลวในการทดสอบสมมติฐานว่าข้อผิดพลาดมักจะกระจายและมีความแปรปรวนคงที่ระหว่างการรักษา สมมติฐานเหล่านี้ไม่ได้รับการทดสอบเสมอดังนั้นการปรับตัวแบบกำลังสองน้อยที่สุดจึงมักถูกนำมาใช้เมื่อมันไม่เหมาะสมจริง ๆ


11
มีอะไรไม่เหมาะสมเกี่ยวกับการประมาณกำลังสองน้อยที่สุดเมื่อข้อมูลไม่ปกติหรือ heteroskedastic มันไม่ได้มีประสิทธิภาพเต็มที่ แต่ก็ยังคงความเป็นกลางและสอดคล้องกัน
Rob Hyndman

3
หากข้อมูลมีความแตกต่างกันคุณสามารถจบด้วยการทำนายตัวอย่างไร้เดียงสามากเนื่องจากตัวแบบการถดถอยจะพยายามอย่างหนักเกินไปที่จะลดข้อผิดพลาดของตัวอย่างในพื้นที่ที่มีความแปรปรวนสูงและไม่ยากพอสำหรับกลุ่มตัวอย่างที่มีความแปรปรวนต่ำ ซึ่งหมายความว่าคุณสามารถจบลงด้วยโมเดลลำเอียงที่แย่มาก นอกจากนี้ยังหมายความว่าแถบข้อผิดพลาดในการทำนายจะผิด
Dikran Marsupial

6
ไม่มันไม่เอนเอียง แต่ความแปรปรวนมีขนาดใหญ่กว่าถ้าคุณใช้วิธีที่มีประสิทธิภาพมากขึ้นสำหรับเหตุผลที่คุณอธิบาย ใช่ช่วงเวลาการทำนายผิด
Rob Hyndman

4
ใช่ (ฉันใช้ลำเอียงในภาษาพูดมากกว่าความหมายทางสถิติที่หมายถึงแบบจำลองนั้นมีความลำเอียงอย่างเป็นระบบต่อการสังเกตในภูมิภาคที่มีความแปรปรวนสูงของพื้นที่คุณลักษณะ - mea culpa!) - มันจะแม่นยำกว่าที่จะบอกว่าความแปรปรวนที่สูงขึ้น มีโอกาสเพิ่มขึ้นในการได้แบบจำลองที่ไม่ดีโดยใช้ชุดข้อมูล จำกัด ดูเหมือนจะเป็นคำตอบที่สมเหตุสมผลสำหรับคำถามของคุณ ฉันไม่ได้มองว่าความเป็นกลางเป็นสิ่งที่สบายใจมาก - สิ่งสำคัญคือโมเดลควรให้การคาดการณ์ที่ดีกับข้อมูลที่ฉันมีจริงและบ่อยครั้งที่ความแปรปรวนมีความสำคัญมากกว่า
Dikran Marsupial

14

หลักสูตร psychometrics เบื้องต้นของฉันในระดับปริญญาตรีใช้เวลาอย่างน้อยสองสัปดาห์ในการสอนวิธีดำเนินการถดถอยแบบขั้นตอน มีสถานการณ์ใดบ้างที่การถดถอยแบบขั้นตอนเป็นความคิดที่ดี?


6
"ความคิดที่ดี" ขึ้นอยู่กับสถานการณ์ เมื่อคุณต้องการเพิ่มการทำนายมันไม่ได้เป็นความคิดที่น่ากลัว - แม้ว่ามันอาจนำไปสู่การกระชับกว่า มีบางกรณีที่หาได้ยากซึ่งเป็นสิ่งที่หลีกเลี่ยงไม่ได้ - ในกรณีที่ไม่มีทฤษฎีที่จะชี้แนะการเลือกแบบจำลอง ฉันจะไม่นับการถดถอยแบบขั้นตอนเป็น "บาป" แต่ใช้เมื่อทฤษฎีเพียงพอที่จะเลือกรูปแบบไดรฟ์
russellpierce

20
บางทีความบาปกำลังทำการทดสอบทางสถิติกับแบบจำลองที่ได้จากการถดถอยแบบขั้นตอน
Rob Hyndman

3
ไม่เป็นไรถ้าคุณใช้การตรวจสอบข้ามและไม่คาดการณ์ อย่าเผยแพร่ค่า p แม้ว่าจะไม่มีความหมาย
Neil McGuigan

ฉันกำลังทำงานในโครงการที่ใช้การถดถอยแบบขั้นตอน เหตุผลก็เพราะฉันมี D >> N โดยที่ D คือ dimensionality และ N คือขนาดตัวอย่าง (ดังนั้นตัดออกโดยใช้แบบจำลองหนึ่งตัวกับตัวแปรทั้งหมด) ชุดย่อยของคุณลักษณะนั้นมีความสัมพันธ์กันอย่างมากฉันต้องการวิธีที่มีหลักการทางสถิติ จากการเลือกคุณสมบัติ 2-3 "ที่ดีที่สุด" และฉันไม่ต้องการรายงานค่า P อย่างน้อยก็ไม่มีการแก้ไขแบบอนุรักษ์นิยม
dsimcha

12

ศาสตราจารย์สถิติเก่าของฉันมี "กฎของหัวแม่มือ" สำหรับจัดการกับค่าผิดปกติ: หากคุณเห็นค่าที่ผิดพลาดในแผนการกระจายของคุณให้ครอบคลุมด้วยนิ้วหัวแม่มือของคุณ :)


นี่คือคล้ายกับ Winsorization ซึ่งไม่น่ากลัวเกินไป
Ari B. Friedman

12

นี่อาจเป็นคำตอบสำหรับสถิติป๊อปอัปมากกว่าที่คุณต้องการ แต่:

โดยใช้ค่าเฉลี่ยเป็นตัวบ่งชี้ที่ตั้งเมื่อข้อมูลที่เป็นเบ้สูง

นี้ไม่จำเป็นต้องเป็นปัญหาถ้าคุณและผู้ชมของคุณรู้ว่าสิ่งที่คุณกำลังพูดถึง แต่เรื่องนี้โดยทั่วไปไม่ได้เป็นกรณีและค่ามัธยฐานมักจะมีแนวโน้มที่จะให้ความคิดที่ดีขึ้นของสิ่งที่เกิดขึ้น

ตัวอย่างที่ฉันชอบคือค่าแรงซึ่งมักจะถูกรายงานว่าเป็น "ค่าจ้างเฉลี่ย" ขึ้นอยู่กับความไม่เท่าเทียมกันของรายได้ / ความมั่งคั่งในประเทศนี้อาจแตกต่างจากค่าจ้างเฉลี่ยซึ่งเป็นตัวบ่งชี้ที่ดีกว่ามากสำหรับผู้คนที่อยู่ในชีวิตจริง ยกตัวอย่างเช่นในประเทศออสเตรเลียที่เรามีความไม่เท่าเทียมกันค่อนข้างต่ำเฉลี่ยคือ10-15% ต่ำกว่าค่าเฉลี่ย ในสหรัฐอเมริกาความแตกต่างคือ starker มากค่ามัธยฐานน้อยกว่า 70% ของค่าเฉลี่ยและช่องว่างที่เพิ่มขึ้น

การรายงานเกี่ยวกับค่าจ้าง "เฉลี่ย" (ค่าเฉลี่ย) จะทำให้ได้ภาพที่มีสีแดงกว่าที่ได้รับการรับประกันและยังอาจทำให้ผู้คนจำนวนมากรู้สึกผิด ๆ ว่าพวกเขาไม่ได้รับรายได้มากเท่ากับคน "ปกติ"


มีการอภิปรายที่เกี่ยวข้องกับกึ่งมันใช้กับการวิเคราะห์แนวโน้มที่นี่: tamino.wordpress.com/2012/03/29/…
naught101

2
สิ่งนี้ไม่เพียงเกี่ยวข้องกับความเบ้ แต่เป็นปัญหาทั่วไปที่ค่าเฉลี่ยหรือการวัดอื่น ๆ ของแนวโน้มกลางไม่เพียงพอโดยไม่พิจารณาการกระจายตัว ตัวอย่างเช่นหากค่ามัธยฐานของสองกลุ่มเท่ากัน แต่ช่วงควอไทล์ระหว่าง 100 ครั้งใหญ่สำหรับประชากรหนึ่งคน แค่ดูค่ามัธยฐานคุณจะบอกว่ามันเป็น "การกระจายตัวของประชากรเดียวกัน" ในความเป็นจริงพวกเขาจะแตกต่างกันมาก ไม่ต้องพูดถึงหลาย ๆ โหมดที่สร้างปัญหา ...
ความน่าจะเป็นทาง

แต่สำหรับวัตถุประสงค์บางประการนั้นมีความเกี่ยวข้อง: ค่าจ้างเป็นตัวแปรที่ครอบคลุมความหมายที่ว่าจำนวนเงินค่าจ้างนั้นมีความหมาย สำหรับคำถามที่รายได้ค่าจ้างรวมของกลุ่ม (กลุ่มย่อย) บางกลุ่มมีความเกี่ยวข้องหมายความว่าเป็นสิ่งที่ถูกต้อง: ยอดรวมสามารถเรียกคืนได้จากค่าเฉลี่ยไม่ใช่จากค่ามัธยฐาน
kjetil b halvorsen

@kjetilbhalvorsen: ทำไมไม่ลองใช้ยอดรวมทั้งหมดล่ะ?
naught101

n

10

p-value คือความน่าจะเป็นที่สมมติฐานว่างเป็นจริงและ (1-p) คือความน่าจะเป็นที่สมมติฐานทางเลือกเป็นจริงซึ่งความล้มเหลวในการปฏิเสธสมมติฐานว่างหมายถึงสมมุติฐานทางเลือกนั้นเป็นเท็จเป็นต้น


1
1

ที่น่าสนใจคุณสามารถให้ฉันอ้างอิงเพื่ออ่านเกี่ยวกับมันได้หรือไม่
Dikran Marsupial

2
(ที่นี่คุณไป) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] ส่วนตัวในขณะที่ฉันพบว่ามันน่าสนใจฉันต่อสู้กับคำถามที่ว่าทำไมการกระจายของอัตราส่วนความน่าจะเป็นหลังคือปริมาณ ความน่าสนใจ.
ความน่าจะเป็นที่จะเกิดขึ้น

10

ในทำนองเดียวกันกับ @dirkan - การใช้ค่า p เป็นตัวชี้วัดที่เป็นทางการของหลักฐานของสมมติฐานว่างเป็นจริง มันมีคุณลักษณะฮิวริสติกที่ดีและมีคุณสมบัติที่ดีตามสัญชาตญาณ แต่ก็เป็นหลักฐานที่ไม่สมบูรณ์เพราะมันไม่ได้อ้างอิงกับสมมติฐานทางเลือก ในขณะที่ข้อมูลอาจไม่น่าเป็นไปได้ภายใต้ค่าว่าง (นำไปสู่ ​​p-value ขนาดเล็ก) ข้อมูลอาจไม่น่าเป็นไปได้มากขึ้นภายใต้สมมติฐานทางเลือก


ฉันไม่ได้ตอบเพราะฉันไม่ต้องการไปที่ปัญหาในการคิดอย่างใดอย่างหนึ่งและสำหรับเรื่องที่ลุยผ่านทุกคนที่ได้รับไปแล้วเพื่อให้แน่ใจว่าฉันจะไม่ทำซ้ำ! แต่ฉันคิดว่าฉันจะมีประโยชน์ มีหนังสือจากดีและฮาร์ดินที่เรียกว่า "ข้อผิดพลาดทั่วไปในสถิติและวิธีหลีกเลี่ยงพวกเขา" คุณสามารถหาตัวอย่างที่ดีมากมายได้ที่นั่น มันเป็นหนังสือยอดนิยมที่มีอยู่แล้วในรุ่นที่สี่ของมัน
Michael Chernick

นอกจากนี้หนังสือของ Altman กับ Chapman & Hall / CRC "สถิติเชิงปฏิบัติในการวิจัยทางการแพทย์" ยังมีบทเกี่ยวกับวรรณคดีการแพทย์ที่มีการเปิดเผยความผิดทางสถิติมากมายที่เกิดขึ้นในเอกสารเผยแพร่
Michael Chernick

9

ใช้แผนภูมิวงกลมเพื่อแสดงความถี่สัมพัทธ์ เพิ่มเติมที่นี่


2
จะเป็นการดีหากรวมเหตุผลในสถานที่
naught101

9

การใช้สถิติ / ความน่าจะเป็นในการทดสอบสมมติฐานเพื่อวัด "ความจริงสัมบูรณ์" สถิติก็ไม่สามารถทำเช่นนี้พวกเขาสามารถนำไปใช้ในการตัดสินใจเลือกระหว่างทางเลือกซึ่งจะต้องระบุจาก "นอก" กระบวนทัศน์ทางสถิติ ข้อความเช่น "สมมติฐานว่างถูกพิสูจน์จริงโดยสถิติ" นั้นไม่ถูกต้อง สถิติสามารถบอกคุณได้ว่า "สมมติฐานว่างเป็นที่ชื่นชอบจากข้อมูลเมื่อเทียบกับสมมติฐานทางเลือก" ถ้าคุณสมมติว่าสมมติฐานว่างหรือทางเลือกนั้นต้องเป็นจริงคุณสามารถพูดว่า "null ได้รับการพิสูจน์แล้ว" แต่นี่เป็นเพียงผลสืบเนื่องเล็กน้อยของสมมติฐานของคุณไม่ใช่ข้อมูลใด ๆ ที่แสดงให้เห็น


9

α=0.05

และในทำนองเดียวกันกับ (หรือเกือบจะเหมือนกัน) คำตอบของ @ ogriselดำเนินการค้นหาแบบกริดและการรายงานผลที่ดีที่สุดเท่านั้น


ฉันคิดว่าคุณหมายถึงการเชื่อมโยงไปยังการ์ตูนที่แตกต่างกันแม้ว่ามันจะเป็นอมตะ
rolando2

อาจเป็นไปได้ว่าถ้าฉันจำได้ดีพอที่ฉันมีอยู่ในใจแล้ว: xkcd.com/882
Andrew

8

(ด้วยโชคเล็กน้อยนี่จะเป็นข้อโต้แย้ง)

ใช้วิธี Neyman-Pearson ในการวิเคราะห์ทางสถิติของการทดลองทางวิทยาศาสตร์ หรือแย่กว่านั้นคือใช้ไฮบริดของ Neyman-Pearson และ Fisher


ขออภัยที่ไม่รู้ แต่มีอะไรผิดปกติกับโครงสร้างของ Neyman-Pearson สำหรับการวิเคราะห์การทดลองทางวิทยาศาสตร์
Andre Holzner

@Andre ฉันคิดว่าข้อความนี้อาจเกี่ยวข้องอย่างใกล้ชิดกับอีกข้อเสนอโดย @Michael Lew ที่อื่นในหัวข้อนี้ ( stats.stackexchange.com/questions/4551/… )
whuber

8

การร้องขอและอาจได้รับแผนภูมิการไหล : สิ่งกราฟิกที่คุณพูดว่าระดับของตัวแปรของคุณคืออะไรและความสัมพันธ์แบบไหนที่คุณกำลังมองหาและคุณตามลูกศรลงเพื่อรับการทดสอบชื่อแบรนด์หรือสถิติแบรนด์ . บางครั้งมีเส้นทาง 'parametric' และ 'non-parametric' ลึกลับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.