ตัวอย่างผลที่ตามมาราคาแพงจากการใช้เครื่องมือทางสถิติอย่างไม่เหมาะสม


12

ฉันสงสัยว่าผู้ใช้เครื่องมือทางสถิติส่วนใหญ่เป็นผู้ใช้เสริม (ผู้ที่มีการฝึกอบรมด้านสถิติอย่างเป็นทางการจนถึงไม่มีการฝึกอบรมเล็กน้อย) มันเป็นเรื่องดึงดูดสำหรับนักวิจัยและผู้เชี่ยวชาญด้านอื่น ๆ ที่จะใช้วิธีการทางสถิติกับข้อมูลของพวกเขาเพียงเพราะพวกเขาเห็นว่า "ทำมาก่อน" ในเอกสารที่ผ่านการตรวจสอบโดยผู้เขียนบทความวรรณกรรมสีเทาเว็บหรือการประชุม อย่างไรก็ตามการทำเช่นนั้นโดยไม่มีความเข้าใจที่ชัดเจนเกี่ยวกับสมมติฐานที่ต้องการและข้อ จำกัด ของเครื่องมือทางสถิติสามารถนำไปสู่ผลลัพธ์ที่ผิดพลาดได้ - ข้อผิดพลาดมักไม่ได้รับการยอมรับ!

ฉันพบว่านักศึกษาระดับปริญญาตรี (โดยเฉพาะอย่างยิ่งในสังคมศาสตร์และวิทยาศาสตร์ธรรมชาติ) เป็นทั้งที่ไม่รู้ถึงความผิดพลาดทางสถิติหรือพบข้อผิดพลาดที่ไม่แน่นอนเหล่านี้ (ซึ่งส่วนใหญ่เป็นกรณีหลัง) แม้ว่าตัวอย่างของการใช้เครื่องมือทางสถิติอย่างไม่เหมาะสมสามารถพบได้ในหนังสือตำราระดับเบื้องต้นหลายเล่มเว็บหรือ StackExchange แต่ฉันมีเวลายากที่จะหาตัวอย่างในโลกแห่งความจริงที่มีผลลัพธ์ที่เป็นอันตราย (เช่นค่าใช้จ่ายในดอลลาร์ผลกระทบต่อชีวิตและอาชีพสูญหาย) . ด้วยเหตุนี้ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริงที่เน้นการใช้วิธีการทางสถิติที่ผิด:

  1. วิธีการทางสถิติที่ใช้มักจะกล่าวถึงในหลักสูตรสถิติเบื้องต้น (เช่นสถิติเชิงอนุมานการถดถอย ฯลฯ ... )
  2. ผลลัพธ์ที่ได้มีผลกระทบค่าใช้จ่าย (ดอลลาร์หายไปชีวิตได้รับผลกระทบอาชีพแตก ฯลฯ ... )
  3. ข้อมูลที่มีความพร้อมสำหรับการใช้งานเป็นตัวอย่างการทำงานในหลักสูตร (มีวัตถุประสงค์เพื่อให้นักเรียนทำงานผ่านตัวอย่างจริงของโลกที่มีผลกระทบโลกแห่งความจริง.)

ตัวอย่างที่ไม่ใช่ทางสถิติอย่างหนึ่งที่ฉันต้องการนำมาให้นักเรียนเมื่อพูดคุยถึงความสำคัญของการกำหนดหน่วยในโครงการวิจัยอย่างถูกต้องคือ“ mishap metric”ที่นำไปสู่การสูญเสียดาวเทียม $ 125M! สิ่งนี้มักจะเรียกใช้: - ปัจจัยจากนักเรียนและดูเหมือนว่าจะมีความประทับใจยาวนาน (อย่างน้อยตลอดช่วงชีวิตการศึกษาสั้น ๆ )


2
อีกตัวอย่างที่ไม่ใช่ทางสถิติจากเอ็ดเวิร์ด Tufte, Powerpoint ไม่วิทยาศาสตร์จรวด แม้ว่ามันจะเกี่ยวข้องกับความก้าวหน้าเชิงตรรกะมากกว่าการคิดเชิงสถิติโดยทั่วไปมากกว่าความผิดที่คุณพูดถึง คุณคุ้นเคยกับหนังสือเล่มนี้หรือไม่The Cult of นัยสำคัญทางสถิติ ?
Andy W

@ Andy ฉันไม่คุ้นเคยกับ "The Cult of นัยสำคัญทางสถิติ" คุณรู้หรือไม่ว่าองค์ประกอบ 2 / และ 3 / ในคำถามของฉันได้รับการแก้ไขในหนังสือเล่มนั้นหรือไม่
MannyG

ฉันไม่รู้เกี่ยวกับ 3 แต่ถ้าคุณอ่านบทวิจารณ์หนังสือที่ฉันเชื่อมโยงกับมันจะตอบคำถามของคุณ 2 (หรืออ่านชื่อหนังสือที่เหลืออยู่!) จริง ๆ แล้วหนังสือทั้งเล่มมีวัตถุประสงค์เพื่อเป็นคำถามของคุณ # 2 ในการอ้างอิง เพื่อตีความการทดสอบที่สำคัญ
Andy W

@ Andy ที่เป็นหนังสือที่ฉันจะพูดถึง
Peter Flom - Reinstate Monica

@AndyW แม้ว่าการตรวจสอบที่คุณเชื่อมโยงจะอ้างอิงหนึ่งในตัวอย่างที่แท้จริงของหนังสือเล่มนี้เกี่ยวกับการใช้สถิติที่ไม่เหมาะสม หากค่าใช้จ่ายที่เป็นผลตามที่ระบุไว้ในหนังสือพวกเขาจะขึ้นอยู่กับการวิเคราะห์อิสระหรือความคิดเห็นของผู้เขียน?
MannyG

คำตอบ:


8

ฉันไม่แน่ใจเกี่ยวกับความพร้อมใช้งานของข้อมูล แต่ตัวอย่างที่ดี (ถ้าเป็นคำที่ถูกต้อง) ของสถิติที่ไม่ดีคือการศึกษาของ Harvard Nurses 'เกี่ยวกับประสิทธิภาพของการใช้ฮอร์โมนทดแทน (HRT) ในผู้หญิงวัยหมดประจำเดือน

ความคิดทั่วไปคืออะไร การศึกษาของพยาบาลชี้ให้เห็นว่า HRT มีประโยชน์ต่อสตรีวัยหมดประจำเดือน ปรากฎว่าผลลัพธ์นี้เกิดขึ้นเนื่องจากกลุ่มควบคุมแตกต่างจากกลุ่มการรักษาอย่างมากและความแตกต่างเหล่านี้ไม่ได้มีผลต่อการวิเคราะห์ ในการทดลองแบบสุ่มครั้งต่อไป HRT นั้นเชื่อมโยงกับมะเร็งหัวใจวายเส้นเลือดอุดตันและเส้นเลือดอุดตัน ด้วยการแก้ไขที่เหมาะสมการศึกษาของพยาบาลเปิดเผยรูปแบบเหล่านี้เช่นกัน

ฉันไม่สามารถหาค่าประมาณสำหรับการเสียชีวิตของสหรัฐฯที่เกี่ยวข้องกับ HRT ได้ แต่ขนาดของมันอยู่ที่หมื่นคน หนึ่งบทความเชื่อมโยงผู้เสียชีวิต 1,000 รายในสหราชอาณาจักรไปยัง HRT

นี้นิตยสารนิวยอร์กไทม์บทความให้พื้นหลังสถิติที่ดีของปัญหาของการรบกวนปัจจุบันในการศึกษา

มีการอภิปรายทางวิชาการในเรื่องปัญหานี้ของอเมริกันวารสารระบาดวิทยา บทความเปรียบเทียบผลลัพธ์ของการศึกษาพยาบาลของหอสังเกตการณ์กับความคิดริเริ่มด้านสุขภาพของผู้หญิงตามการทดลองแบบสุ่ม

นอกจากนี้ยังมีการสนทนา (โดยบุคคลเดียวกันหลายคน) ในประเด็นของBiometrics See Freedman และ Petitti ความเห็นโดยเฉพาะ [ รุ่นเตรียม ]


1
ฉันเถียงกับการใช้ตัวอย่างนี้จริง ๆ มีงานมากขึ้นตั้งแต่ปี 2005 โดยเฉพาะอย่างยิ่งโดยมิเกลเฮอร์นานดูการศึกษาเชิงวิเคราะห์เช่นเดียวกับการทดลองแบบสุ่ม: แอปพลิเคชันสำหรับการรักษาด้วยฮอร์โมนวัยหมดประจำเดือนและโรคหลอดเลือดหัวใจ , ระบาดวิทยา (2008) สรุป: "โดยสรุปการค้นพบของเราชี้ให้เห็นว่าความแตกต่างระหว่างการประเมิน WHI และ NHS ITT นั้นสามารถอธิบายได้อย่างชัดเจนจากความแตกต่างในการกระจายของเวลาตั้งแต่วัยหมดประจำเดือนและระยะเวลาของการติดตามผล พลุกพล่านดูเหมือนจะมีบทบาทเล็กน้อย "
Fomite

โดยไม่คำนึงถึงความรู้สึกเกี่ยวกับการศึกษาที่กล่าวถึงความแตกต่างระหว่างพวกเขามีความซับซ้อนและซับซ้อนกว่าสิ่งที่อาจเป็นประโยชน์ในการตั้งค่าของ OP เสนอ
Fomite

@EpiGrad นี่ไม่ใช่สาขาของฉันและฉันแน่ใจว่าคุณรู้เพิ่มเติมเกี่ยวกับตัวอย่างนี้มากกว่าที่ฉันทำ แต่ฉันคิดว่ากระดาษที่คุณอ้างถึงทำให้ประเด็นอื่น ๆ ในรายงานของ OSALRE พวกเขาเหวี่ยงผู้หญิงจากการศึกษา NHS ที่ไม่ผ่านเกณฑ์ของการศึกษา WHI สัดส่วนของผู้หญิงที่ถูกทอดทิ้งจะต้องแตกต่างกันไปตามการรักษาและกลุ่มควบคุมของ NHS (หรือผลลัพธ์จะไม่เปลี่ยนแปลง) พวกเขากำลังแก้ปัญหาการเลือกที่พบในการศึกษาพลุกพล่าน [[ต่อ]]
Charlie

1
กระดาษที่ฉันชอบแนะนำอย่างน้อยสำหรับฉันมีบางสิ่งที่เพิ่มเติมในบรรทัดของ "ตรวจสอบให้แน่ใจว่าคุณกำลังถามคำถามเดียวกัน" แทนที่จะเป็นปัญหาของการรบกวนทันที อย่าเข้าใจฉันผิดประเด็นของ NHS / WHI นั้นน่าสนใจอย่างยิ่งเพราะเป็นคำถามเชิงสถิติและการปฏิบัติด้านสาธารณสุข มันซับซ้อนกว่าความขัดแย้งครั้งแรกที่ดูเหมือนว่าจะแนะนำและฉันคิดว่ามันค่อนข้างไม่เหมาะสมสำหรับจุดที่ 1 ของการร้องขอของ OP จุดที่ 3 ก็ถูกต้องเช่นกัน
Fomite

2
@EpiGrad ยุติธรรมเพียงพอ แต่ฉันสงสัยอย่างจริงจังว่าคุณจะพบการศึกษาที่มีข้อผิดพลาดทางสถิติที่เห็นได้ชัดซึ่งไม่จำเป็นต้องมีการขุดเพื่อทำความเข้าใจว่ามีผลกระทบที่กว้างขวางและมีนัยสำคัญ บางทีผู้ตอบแบบสอบถามคนอื่นอาจฆ่าคนมองโลกในแง่ดีของฉันในนักวิจัย แต่ (heh)
Charlie

8

ตัวอย่างที่ทางประวัติศาสตร์ที่ยอดเยี่ยม afforded โดย 1933 สิ่งพิมพ์ของฮอเรซ Secrist ของชัยชนะของ Mediocrity ในการทำธุรกิจ ในเวลานั้น Secrist เป็นนักสถิติที่มีชื่อเสียงเป็นที่รู้จักผู้เขียนตำราเรียน (ค. 2462 ฉันจำได้) มีส่วนเกี่ยวข้องในสมาคมสถิติอเมริกันและหัวหน้ากลุ่มวิจัยทางสถิติที่ Northwestern University เขาและพนักงานของเขาใช้เวลาในทศวรรษที่ผ่านมาในการรวบรวมข้อมูลทางธุรกิจซึ่งทำซ้ำและวิเคราะห์อย่างรอบคอบในหนังสือเล่มนี้ มันหมายถึงการเป็นพ่อครัวศิลปวัตถุโดยนักสถิติที่มีความทะเยอทะยาน

บทวิจารณ์ของแฮโรลด์โฮเทลลิ่งของหนังสือเล่มนี้ซึ่งปรากฏใน JASA ต่อมาในปีนั้นชี้ให้เห็นว่า Secrist ได้บันทึกเพียงตัวอย่างหลายร้อยตัวอย่างของการถดถอยถึงค่าเฉลี่ย (หัวข้อพื้นฐานในหลักสูตรสถิติเบื้องต้นทุกวันนี้ Secrist คัดค้านในคำตอบที่เผยแพร่แล้ว การตอบสนองของ Hotelling ต่อความคลาสสิค

การ "พิสูจน์" ดังกล่าวเป็นผลทางคณิตศาสตร์จากการศึกษาเชิงตัวเลขที่มีราคาแพงและยืดเยื้อ ... นั้นคล้ายคลึงกับการพิสูจน์ตารางการคูณโดยจัดเรียงช้างในแถวและคอลัมน์แล้วทำแบบเดียวกันกับสัตว์ชนิดอื่น ๆ อีกมากมาย แม้ว่าการแสดงอาจจะให้ความบันเทิงและมีค่าการเรียนการสอนบางอย่าง แต่ก็ไม่ได้มีส่วนสำคัญต่อสัตววิทยาหรือคณิตศาสตร์

[JASA v. 29 # 186, มิถุนายน 1934, p. 199]

Secrist ดูเหมือนว่าจะจางหายไปอย่างรวดเร็วจากที่เกิดเหตุทางสถิติหลังจากนั้นไม่นาน ("อาชีพที่ถูกทำลาย" ชี้ไปที่ข้อที่ 2 ในคำถาม) หนังสือของเขายังคงมีอยู่ (ไม่กี่ปีที่ผ่านมาฉันได้รับสำเนาที่ดีสะอาดอ่านได้เล็กน้อยผ่านทาง Interlibrary Loan) จากนั้นคุณสามารถแยกชุดข้อมูลตัวอย่างได้หลายชุด (จุดที่ 3 ของคำถาม)

สตีเว่น Stigler เล่าเรื่องนี้ในหนังสือและกระดาษประวัติความเป็นมาของสถิติในปี 1933


4

ดูเหมือนว่าฉันจะใช้สายในความผิดพลาดการลงทุนในตลาดหุ้น 2008 อาจเป็นตัวอย่างให้ข้อมูล ไม่สามารถแสดงความคิดเห็นว่าข้อสรุปนั้นถูกต้องหรือไม่ แต่ความคิดในการใช้สหสัมพันธ์ข้อมูลซึ่งไม่ใช่ตัวอย่างที่เป็นตัวแทนดูเหมือนจะเป็นสิ่งที่อาจเหมาะสมกับสถานการณ์ที่คุณแนะนำ นอกจากนี้ยังเป็นข้อมูลล่าสุดและอาจทำให้พวกเขาสนใจ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.