ตัวอย่างของการปฏิบัติที่ผิดสมัยในสถิติมีอะไรบ้าง


55

ฉันหมายถึงวิธีปฏิบัติที่ยังคงรักษาสถานะของพวกเขาแม้ว่าปัญหา (โดยปกติการคำนวณ) พวกเขาได้รับการออกแบบเพื่อรับมือกับได้รับการแก้ไขส่วนใหญ่

ตัวอย่างเช่นการแก้ไขความต่อเนื่องของ Yates ถูกคิดค้นเพื่อการทดสอบที่แน่นอนของฟิชเชอร์ด้วยการทดสอบแต่มันไม่สามารถใช้งานได้อีกต่อไปเนื่องจากซอฟต์แวร์สามารถจัดการการทดสอบของฟิชเชอร์ได้ในขณะนี้ด้วยตัวอย่างขนาดใหญ่ การปรากฏตัว "เนื่องจากตำราเรียนเช่นการวิเคราะห์ข้อมูลหมวดหมู่ของ Agresti มักจะยอมรับว่าการแก้ไขของ Yates" ไม่จำเป็นอีกต่อไป ")χ2

ตัวอย่างอื่น ๆ ของการปฏิบัติเช่นนี้มีอะไรบ้าง


จริง ๆ แล้วฉันไม่แน่ใจว่าการทดสอบแบบไคสแควร์ล้าสมัยเนื่องจากความสามารถในการคำนวณเพื่อทำการทดสอบที่แน่นอนของฟิชเชอร์เช่นระยะขอบของคุณได้รับการแก้ไขอย่างแท้จริงหรือไม่ ดูคำตอบของคำถามอื่นโดย @gung เช่นนี้ (ฉันค่อนข้างแน่ใจว่าเรามีหัวข้อที่พูดถึงปัญหาในรายละเอียดมากขึ้น แต่ฉันไม่สามารถหาได้เนื่องจากเรามีคำถามมากมาย "ฉันควรใช้ไคสแควร์หรือฉันควรใช้การทดสอบที่แน่นอนของฟิชเชอร์" ที่ปรากฏขึ้นเมื่อ ฉันค้นหา!)
Silverfish

@Silverfish: ฉันไม่ได้หมายถึงล้าสมัยมีเพียงการแก้ไขของ Yates เท่านั้น ฉันเชื่อว่าการศึกษาได้แสดงให้เห็นว่าการแก้ไขของเยตส์นั้นเข้มงวดเกินไปเมื่อไม่มีการแก้ไขระยะขอบ บทความของ Michael Haber การแก้ไขอย่างต่อเนื่องและการทดสอบทางสถิติได้ให้ความเห็น χ2
ฟรานซิส


ใช้ OLS แทน LAD ใช่ไหม
PatrickT

5
@ PatrickT: ฉันมีปัญหามากมายในการโทรหา OLS anachronistic แน่นอนว่ามีกรณีพิเศษเมื่อ LAD เหนือกว่าอย่างชัดเจน แต่สามารถพูดในทิศทางอื่นได้
หน้าผา AB

คำตอบ:


49

เป็นที่ถกเถียงกันอย่างมากว่าการใช้ระดับนัยสำคัญของเกณฑ์เช่นหรือP = 0.01เป็นอาการเมาค้างทางประวัติศาสตร์จากช่วงเวลาที่นักวิจัยส่วนใหญ่ขึ้นอยู่กับตารางค่าวิกฤตที่คำนวณไว้ก่อนหน้านี้ ตอนนี้ซอฟต์แวร์ที่ดีจะให้ค่า Pโดยตรง แท้จริงแล้วซอฟต์แวร์ที่ดีช่วยให้คุณสามารถปรับแต่งการวิเคราะห์ของคุณและไม่ขึ้นอยู่กับการทดสอบแบบเรียนP=0.05P=0.01P

P

ฉันจะตั้งค่าสถานะว่าฉันมาที่นี่เพื่อสัมผัสกับปัญหาที่ซับซ้อนและแย้งซึ่งเป็นจุดสนใจของหนังสือทั้งเล่มและอาจเป็นกระดาษหลายพันเล่ม แต่ดูเหมือนว่าเป็นตัวอย่างที่ดีสำหรับกระทู้นี้


4
เยี่ยมมาก! สำหรับการอ้างอิงหัวข้อนี้มีมูลค่าการกล่าวขวัญ: เกี่ยวกับค่า p ทำไม 1% และ 5% ทำไมไม่ 6% หรือ 10%
ฟรานซิส

5
@ JM ฉันมั่นใจ 95% ว่าคุณถูกต้องแม้ว่าฉันจะไม่มั่นใจ 99% ก็ตาม
Mark L. Stone

5
α=0.038561

4
@CliffAB ฉันไม่คิดว่าจุดหลักของค่า P ที่แน่นอนคือคุณตัดสินใจแล้วว่ามันเป็นระดับที่สำคัญที่คุณต้องการนำมาใช้สำหรับการตัดสินใจ ฉันไม่ได้แนะนำหรือสนับสนุนอย่างแน่นอน ส่วนหนึ่งของการโต้แย้งที่นี่ไม่ใช่แค่ว่า 0.05 และ 0.01 อยู่ในระดับปกติที่สุด แต่การทดสอบนั้นมีวิธีหนึ่งในการประเมินความแข็งแรงของหลักฐานเทียบกับสมมติฐานว่างมากกว่าที่จะทำการตัดสินใจแบบไบนารี ในทางปฏิบัติระดับ 0.05 และ 0.01 ยังคงมีการใช้งานอย่างหนักในหลายสาขา
Nick Cox

4
@Nick Cox และอย่าลืมระดับ 0.1 สำหรับฝูงชนที่ผ่อนคลาย
Mark L. Stone

24

วิธีหนึ่งที่ฉันคิดว่าผู้เยี่ยมชมไซต์นี้จะเห็นด้วยกับฉันคือการถดถอยแบบขั้นตอน มันยังทำอยู่ตลอดเวลา แต่คุณไม่ต้องค้นหาผู้เชี่ยวชาญจากเว็บไซต์นี้เพื่อพูดถึงการใช้งานที่เลวร้าย วิธีการเช่น LASSO เป็นที่ต้องการมาก


4
ฮา !! คุณขอแนะนำให้เปลี่ยน Anachronism (การถดถอยแบบขั้นตอน) เป็น Anachronism รุ่นต่อไป (LASSO) ซึ่งเป็น Anachronism ในเวลาของตัวเองซึ่งสมัครพรรคพวกยังไม่ได้ตระหนักถึงมัน ดูstats.stackexchange.com/questions/162861/...
Mark L. Stone

3
@ MarkL.Stone: เฮ้ชายอย่างน้อยก็ 20 ปีในทิศทางที่ถูกต้อง ฉันไม่คุ้นเคยกับวิธีการเหล่านี้ดังนั้นฉันจะต้องอ่านพวกเขาก่อนที่ฉันจะให้การรับรองของพวกเขา
หน้าผา AB

2
หลังจากอ่านบทความได้อย่างรวดเร็วฉันลังเลเล็กน้อยที่จะตัดสินใจว่า LASSO ล้าสมัยอย่างเป็นทางการแม้ว่าจะเห็นได้ชัดว่าไม่ใช่ตัวเลือกที่ดีที่สุดเสมอไป บางทีใน 5 ปีฉันจะโทร LASSO ที่ล้าสมัยกว่านี้ได้สบายกว่า
หน้าผา AB

2
@ amoeba: ฉันคิดว่า Mark หมายถึงการฝึกฝนการใช้ LASSO เป็นเครื่องมือสำหรับการถดถอยชุดย่อยที่ดีที่สุด ตัวอย่างเช่นฉันจำไม่ได้ว่ากำลังอ่านใครบางคนพูดคุยเกี่ยวกับการปรับ LASSO ก่อนจากนั้นอ้างอิงโมเดลที่ไม่ถูกลงโทษโดยใช้พารามิเตอร์การถดถอยที่ไม่เป็นศูนย์ การถดถอยที่ดีที่สุดของเซตย่อยอาจเป็นวิธีที่ตรงกว่าในการทำสิ่งนี้ (แม้ว่าคุณจะพูดว่ามันไม่ชัดเจนว่านี่เป็นความคิดที่ดีแม้ว่ามันจะเป็นสิ่งที่นักวิเคราะห์ต้องการจะทำก็ตาม)
หน้าผา AB

2
... และกระดาษนำเสนออย่างน้อยหนึ่งสถานการณ์ (เช่นการจำลองภายใต้พารามิเตอร์บางอย่าง) ที่ชัดเจนออกมาดำเนินการ LASSO แม้ว่าฉันคิดว่าเราทุกคนรู้ว่าวิธีการที่เราควรจะเอาผลดังกล่าวด้วยตนเองอย่างจริงจัง
หน้าผา AB

17

มุมมองของฉันคืออย่างน้อยที่สุดในเศรษฐมิติใช้ (มัน) มันเป็นบรรทัดฐานมากขึ้นที่จะใช้เมทริกซ์ความแปรปรวนร่วมที่แข็งแกร่งหรือเชิงประจักษ์มากกว่า "การปฏิบัติสมัย" ของการพึ่งพา (asymptotically) กับข้อกำหนดที่ถูกต้องของเมทริกซ์ความแปรปรวนร่วม แน่นอนว่าไม่ใช่โดยไม่มีข้อโต้แย้ง: ดูคำตอบบางส่วนที่ฉันเชื่อมโยงที่นี่ที่ CrossValidated แต่เป็นแนวโน้มที่ชัดเจน

E[uu]=σ2In

ตัวอย่างอื่น ๆ ได้แก่ ข้อมูลพาเนล, Imbens และ Wooldridge เขียนตัวอย่างในสไลด์บรรยายของพวกเขาโต้แย้งกับการใช้เมทริกซ์ความแปรปรวนร่วมแบบสุ่มผลกระทบ (โดยปริยายสมมติว่าการสะกดผิดบางส่วนในองค์ประกอบความแปรปรวนเป็นค่าเริ่มต้น):

σc2σu2

โดยใช้แบบจำลองเชิงเส้นทั่วไป (สำหรับการกระจายซึ่งเป็นของครอบครัวชี้แจง) มักจะแนะนำให้ใช้มักจะเรียกว่าประมาณการแซนวิชมากกว่าอาศัยสมมติฐานการกระจายที่ถูกต้อง (การปฏิบัติสมัยที่นี่): ดูตัวอย่างคำตอบนี้หรือคาเมรอนหมาย ในการนับข้อมูลเนื่องจากการประมาณค่าความน่าจะเป็นแบบหลอกเทียมอาจมีความยืดหยุ่นค่อนข้างมากในกรณีของการสะกดผิด (เช่นใช้ปัวซองถ้าลบทวินามลบอย่างถูกต้อง)

การแก้ไขข้อผิดพลาดมาตรฐาน [White] เช่นนั้นต้องทำเพื่อการถดถอยของปัวซองเนื่องจากสามารถสร้างความแตกต่างที่ใหญ่กว่าการแก้ไข heteroskedasticity ที่คล้ายกันสำหรับ OLS

ตัวอย่างเช่นกรีนเขียนไว้ในตำราเรียนของเขาในบทที่ 14 (มีอยู่ในเว็บไซต์ของเขา) พร้อมหมายเหตุสำคัญและให้รายละเอียดเพิ่มเติมเกี่ยวกับข้อดีและข้อเสียของการฝึกนี้:

มีแนวโน้มในวรรณกรรมปัจจุบันที่จะคำนวณ [Sandwich] ตัวประมาณนี้เป็นประจำโดยไม่คำนึงถึงฟังก์ชั่นความน่าจะเป็น * [... ] * เราจะเน้นอีกครั้งว่าตัวประมาณแบบแซนวิชในตัวของมันเอง อาศัยอำนาจตามความเป็นจริงหากฟังก์ชันความน่าจะเป็นเป็นสิ่งที่ขาดหายไปและเงื่อนไขอื่น ๆ สำหรับตัวประมาณค่า M ไม่เป็นไปตาม


4
ที่น่าสนใจ แต่คำถามคือสิ่งที่ผิดสมัยไม่ใช่สิ่งที่เป็นมาตรฐานมากขึ้นในขณะนี้ดังนั้นคำตอบจะต้องคว่ำ
นิคค็อกซ์

1
สวัสดี Nick ขอบคุณสำหรับความคิดเห็นของคุณ (และการแก้ไขของคุณ) ฉันได้แก้ไขข้อความเพื่อเน้นการปฏิบัติที่ผิดสมัยฉันหวังว่ามันจะชัดเจนขึ้นเล็กน้อย ฉันไม่ได้กลับข้อความทั้งหมดเนื่องจากการฝึกแบบเดิมนั้นใกล้จะไม่ทำอะไรเป็นพิเศษเกี่ยวกับข้อผิดพลาดมาตรฐาน
Arne Jonas Warnke

ในบางกรณีมันไม่เป็นธรรมชาติและเป็นไปไม่ได้ที่จะใช้ทางเลือกที่แข็งแกร่งบอกอนุกรมเวลา ดังนั้นฉันคิดว่ามันไม่ได้กลายเป็น "ที่นิยมมากขึ้น" แต่เพียงแค่ "ได้รับความนิยมมากขึ้นในบางพื้นที่"
Henry.L

13

m>1mm=1

m=30


มาที่นี่เพื่อโพสต์นี้ นอกจากนี้: ฉันไม่มั่นใจว่ามีสถานการณ์ใดที่ FWER ต้องการวิธีการ FDR ที่ใหม่กว่า (เนื่องจากความสามารถในการขยายและการปรับตัว)
Alexis

13

การปฏิบัติที่ผิดสมัยส่วนใหญ่อาจเกิดจากวิธีการสอนสถิติและความจริงที่ว่าการวิเคราะห์นั้นดำเนินการโดยผู้คนจำนวนมากที่เข้าเรียนเพียงแค่สองสามชั้น เรามักจะสอนชุดของแนวคิดทางสถิติมาตรฐานและขั้นตอนเพราะพวกเขาสร้างลำดับเชิงตรรกะในการเพิ่มความซับซ้อนทางความคิดที่ทำให้เกิดความรู้สึกในการสอน (เปรียบเทียบเราจะทราบความแปรปรวนของประชากรได้อย่างไร ) ฉันมีความผิดในตัวเอง: บางครั้งฉันสอนสถิติ 101 และ 102 และฉันมักจะพูดว่า 'มีวิธีที่ดีกว่าในการทำเช่นนี้ แต่มันเกินขอบเขตของคลาสนี้' สำหรับนักเรียนที่ไม่ได้ไปไกลกว่าลำดับเบื้องต้น (เกือบทั้งหมด) พวกเขาจะถูกทิ้งให้อยู่กับกลยุทธ์ขั้นพื้นฐาน แต่ถูกแทนที่

  1. สำหรับสถิติ 101 ตัวอย่างอาจเป็นวิธีการที่ผิดธรรมดาที่พบบ่อยที่สุดคือการทดสอบสมมติฐานบางอย่างและจากนั้นเรียกใช้การวิเคราะห์ทางสถิติแบบดั้งเดิมเพราะการทดสอบนั้นไม่สำคัญ วิธีการที่ทันสมัย ​​/ ขั้นสูง / ที่สามารถป้องกันได้มากขึ้นคือการใช้วิธีการที่แข็งแกร่งกับสมมติฐานดังกล่าวตั้งแต่เริ่มต้น ข้อมูลอ้างอิงบางส่วนสำหรับข้อมูลเพิ่มเติม:

  2. สำหรับสถิติ 102 ตัวอย่างวิธีการสร้างแบบจำลองใด ๆ ที่ล้าสมัยแล้ว:

    • Yp
    • Y
    • การใช้พหุนามลำดับสูงกว่าเพื่อจับความโค้งเมื่อเทียบกับเส้นโค้งแบบลูกบาศก์
    • pR2
    • ด้วยข้อมูลการวัดซ้ำ ๆ การจัดหมวดหมู่ของตัวแปรอย่างต่อเนื่องเพื่อให้ rmANOVA สามารถใช้หรือหาค่าเฉลี่ยของการวัดหลายครั้งเทียบกับการใช้ตัวแบบเชิงเส้นผสม
    • เป็นต้น

ประเด็นในทุกกรณีเหล่านี้คือผู้คนกำลังทำสิ่งที่สอนครั้งแรกในชั้นเรียนเบื้องต้นเพราะพวกเขาไม่รู้วิธีการขั้นสูงและเหมาะสมมากขึ้น


5

ตัวอย่างที่น่าสนใจมากคือการทดสอบรูทยูนิตในเศรษฐมิติ ในขณะที่มีตัวเลือกมากมายสำหรับทดสอบกับหรือสำหรับรูทยูนิตในพหุนามแบบล้าหลังของอนุกรมเวลา (เช่นการทดสอบเพิ่ม (แบบเติม)) Dickey Fuller หรือการทดสอบ KPSS) ปัญหาสามารถหลีกเลี่ยงได้โดยสมบูรณ์เมื่อใช้การวิเคราะห์แบบเบย์ . ซิมส์ชี้ให้เห็นในกระดาษยั่วยุหัวข้อการทำความเข้าใจหน่วย Rooters: ทัวร์เฮลิคอปเตอร์จาก 1991

การทดสอบรูทยูนิตยังคงใช้ได้และถูกใช้ในเศรษฐมิติ ในขณะที่ฉันจะกล่าวถึงสิ่งนี้ส่วนใหญ่สำหรับคนที่ไม่เต็มใจที่จะปรับตัวให้เข้ากับการปฏิบัติแบบเบย์ แต่นักเศรษฐศาสตร์เชิงอนุรักษ์นิยมหลายคนปกป้องการปฏิบัติของการทดสอบรูทยูนิทโดยกล่าวว่ามุมมองแบบเบส์ของโลก (นั่นคือนักเศรษฐศาสตร์คิดว่าโลกเป็นสถานที่ที่มีพารามิเตอร์คงที่ไม่ใช่พารามิเตอร์แบบสุ่มที่ควบคุมโดยพารามิเตอร์หลายมิติ)


5
ฉันสนใจที่จะพูดคุยสั้น ๆ ว่าการปฏิบัติของเบย์นั้นเลี่ยงการทดสอบเหล่านี้อย่างไร กล่าวอีกนัยหนึ่งคุณจะสร้างกรณีสำหรับการอ้างสิทธิ์นี้ได้อย่างไร
Mike Hunter

ฉันต้องยอมรับว่ามันเป็นเวลานานแล้วตั้งแต่ฉันอ่านกระดาษ แต่ประเด็นหลักคือการใช้ flat ก่อนการวิเคราะห์ Bayesian ของอนุกรมเวลาหนึ่งสามารถใช้ค่า t มาตรฐาน
Jeremias K

5

การจ่ายค่าธรรมเนียมใบอนุญาตสำหรับระบบซอฟต์แวร์เชิงสถิติที่มีคุณภาพสูง #R


1

การสอน / การดำเนินการสองด้านการทดสอบสำหรับความแตกต่างโดยไม่ต้องไปพร้อม ๆ กันการทดสอบความเท่าเทียมกันในดินแดน frequentist การทดสอบสมมติฐานคือความมุ่งมั่นลึกเพื่อยืนยันอคติ

มีความแตกต่างกันเล็กน้อยในการที่การวิเคราะห์พลังงานที่เหมาะสมพร้อมด้วยคำจำกัดความของขนาดเอฟเฟกต์ที่รอบคอบสามารถป้องกันสิ่งนี้ได้และให้การอนุมานแบบเดียวกันมากขึ้นหรือน้อยลง แต่ (a) การวิเคราะห์พลังงานมักจะไม่สนใจในการนำเสนอผลการวิจัย ได้ไม่เคยเห็นการวิเคราะห์การใช้พลังงานสำหรับตัวอย่างเช่นแต่ละค่าสัมประสิทธิ์ประมาณสำหรับแต่ละตัวแปรในการถดถอยพหุคูณ แต่มันเป็นเรื่องง่ายที่จะทำสำหรับการทดสอบการทำงานร่วมกันเพื่อความแตกต่างและการทดสอบสำหรับความเท่าเทียมกัน (เช่นการทดสอบความสัมพันธ์กัน)


0

ใช้แบบจำลองแบบลบเนนามลบไม่ใช่แบบปัวซง (แข็งแรง) แบบปัวซองเพื่อระบุพารามิเตอร์ที่น่าสนใจในการนับตัวแปรเพียงเพราะมีการกระจายตัวมากเกินไป?

ดูเป็นข้อมูลอ้างอิง: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

การพิสูจน์ว่าปัวซองมีความแข็งแกร่งมากขึ้นในกรณีที่มีผลกระทบคงที่เมื่อเร็ว ๆ นี้เนื่องจากมีการอ้างถึง: Wooldridge, JM,“ การประเมินแบบกระจายฟรีของแบบจำลองข้อมูลแผง Nonlinear” วารสารเศรษฐมิติ 90 (1999), 77-97


-6

นี่คือช่วงเวลาไม่กี่:

  • สมมุติฐานของนิวเพลโตโลนิกส์ว่ามีประชากร "ของจริง" อยู่ในอีเธอร์เชิงทฤษฎีนั่นคือนิรันดร์คงที่และไม่มีการเปลี่ยนแปลงซึ่งตัวอย่างที่ไม่สมบูรณ์ของเราสามารถประเมินได้ไม่มากนักเพื่อการเรียนรู้และความรู้ล่วงหน้า

  • การลดทอนความเชื่อมั่นในเอกสารเช่นOccam's Razorไม่สอดคล้องกับเวลา หรือสามารถสรุปได้ว่า "ในบรรดาสมมติฐานที่แข่งขันกันควรเลือกข้อที่มีสมมติฐานน้อยที่สุด" ทางเลือกอื่นรวมถึงหลักการของ Epicurus ' ของการอธิบายหลายอย่างซึ่งกล่าวโดยคร่าวๆว่า "ถ้ามีทฤษฎีมากกว่าหนึ่งทฤษฎีที่สอดคล้องกับข้อมูล

  • ระบบการตรวจสอบโดยเพื่อนทั้งหมดต้องการการยกเครื่องอย่างยิ่ง

* แก้ไข *

  • ด้วยข้อมูลจำนวนมากที่มีคุณสมบัติหลายสิบล้านคุณสมบัติจึงไม่จำเป็นต้องใช้ขั้นตอนการเลือกตัวแปรอีกต่อไป

  • นอกจากนี้สถิติเชิงอนุมานนั้นไม่มีความหมาย


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.