ดีกว่าหรือไม่ที่จะเลือกการแจกแจงตามทฤษฎีความเหมาะสมหรืออย่างอื่น?


12

นี่คือคำถามเกี่ยวกับปรัชญา แต่ฉันสนใจว่าคนอื่น ๆ มีประสบการณ์มากขึ้นคิดอย่างไรเกี่ยวกับการเลือกการกระจาย ในบางกรณีดูเหมือนชัดเจนว่าทฤษฎีอาจทำงานได้ดีที่สุด (ความยาวหางของหนูจะกระจายตามปกติ) ในหลายกรณีอาจไม่มีทฤษฎีที่จะอธิบายชุดข้อมูลดังนั้นคุณเพียงใช้สิ่งที่เหมาะกับสิ่งที่คุณมีค่อนข้างดีโดยไม่คำนึงถึงสิ่งที่มันถูกพัฒนาขึ้นเพื่ออธิบาย? ฉันสามารถจินตนาการถึงข้อผิดพลาดบางอย่างของการไปกับสิ่งเหล่านี้และแน่นอนว่าดูเหมือนว่าจะมีปัญหาที่บางทีคุณควรใช้การกระจายเชิงประจักษ์ถ้าคุณไม่มีความคิด

ดังนั้นฉันเดาสิ่งที่ฉันถามจริง ๆ : มีใครบางคนมีวิธีติดต่อกัน / คิดเกี่ยวกับปัญหานี้หรือไม่? และมีทรัพยากรใดบ้างที่คุณสามารถแนะนำได้ว่าให้การปฏิบัติที่ดีต่อสิ่งนี้?


4
มันขึ้นอยู่กับว่าทำไมคนเราถึงเหมาะสมหรือสมมติว่ามีการกระจายและสิ่งที่มันตั้งใจจะเป็นตัวแทน เราสนามคำถามมากมายในเว็บไซต์นี้ที่ปรากฏคนรู้สึกว่าพวกเขามีให้พอดีกับการกระจายข้อมูลหรือปริมาณมา (เช่นเหลือถดถอย) เมื่อในความเป็นจริงการออกกำลังกายจะไม่มีจุดหมาย (หรือแย่ลงหลอกลวง) เท่าที่การแก้ปัญหาทางสถิติที่พวกเขาจริงๆมีความกังวล บางทีคุณอาจอธิบายประเภทของคดีที่คุณมีอยู่ในใจ?
whuber

1
สวัสดี Whuber ขอบคุณสำหรับความคิดเห็น เนื่องจากฉันเริ่มทำงานการประเมินความเสี่ยงที่เป็นไปได้เพียงเล็กน้อยฉันจึงต้องใส่ข้อมูลทั้งหมดของฉันให้สอดคล้องกับการแจกแจงและทำให้ฉันอยากรู้ว่ามีมุมมองที่สอดคล้องกันมากขึ้นเกี่ยวกับวิธีการเลือกการกระจายสินค้า ดังนั้นฉันเดาว่าจะให้ความกระจ่างฉันสนใจเฉพาะในเวลาที่คุณควรใช้การกระจายและวิธีการเกี่ยวกับมันอย่างถูกต้อง อย่างที่ฉันพูดบางกรณีทำได้ง่ายจากทฤษฎีอีกครั้งที่ฉันใช้การกระจายเชิงประจักษ์เพราะมันดูดีที่สุด แต่การตัดสินใจของฉันมันเป็นเรื่องที่จับจดมากกว่าที่ฉันต้องการ
HFBrowning

1
นั่นเป็นกระป๋องหนอนที่น่าสนใจเพราะสิ่งที่คุณทำจริงๆ (ค่อนข้างเป็นนามธรรม) กำลังพยายามเผยแพร่ความไม่แน่นอนของการสุ่มตัวอย่างผ่านการคำนวณ เหตุผลในการดูขั้นตอนจากระดับสูงนี้ก็คือมันแสดงให้เห็นถึงข้อผิดพลาดพื้นฐานที่มักเกิดขึ้น: โดยการแทนที่ข้อมูลด้วยการแจกแจงหนึ่งไม่สามารถรวมความไม่แน่นอนในพารามิเตอร์การกระจายโดยประมาณ การบัญชีสำหรับสิ่งนี้เรียกว่า "ลำดับที่สอง" PRA โดยผู้ปฏิบัติงานบางคน ฉันอยากจะแนะนำให้คุณ จำกัด คำถามของคุณให้แคบลงเพื่อมุ่งเน้นไปที่ปัญหาเหล่านี้แทนที่จะถามเกี่ยวกับการจัดจำหน่ายโดยทั่วไป
whuber

1
แพคเกจที่ฉันใช้สำหรับ PRA ของฉันเป็นแพ็คเกจลำดับที่สอง monte carlo ( mc2dใน R) ดังนั้นฉันจึงกำหนดค่าการกระจายของฉันไม่ว่าจะเป็น "ไม่แน่นอน", "ความแปรปรวน" หรือทั้งสองอย่าง ดังนั้นหวังว่าฉันจะบัญชีสำหรับปัญหานั้นเท่าที่จะทำได้ อย่างไรก็ตามความตั้งใจดั้งเดิมของฉันสำหรับคำถามนี้คือการได้รับมุมมองในระดับที่สูงขึ้นและฉันนำการประเมินความเสี่ยงมาเพื่อให้เข้าใจว่าทำไมฉันถึงสนใจ และบางทีอาจจะไม่มีวิธีที่ดีกว่า "บางครั้งคุณทำเช่นนี้บางครั้งคุณทำแบบนั้น" แต่ผมก็หวังว่าคนที่มีข้อเสนอแนะ :) โดยเฉพาะอย่างยิ่งเพราะฉันไม่สามารถได้อย่างง่ายดายตรวจสอบเมื่อมันอาจจะดีกว่า -
HFBrowning

3
นี่เป็นสถานที่ที่เหมาะสมสำหรับโพสต์ของคุณ คุณกำลังบอกว่าคุณมีปัญหาในการแก้ไขหรือไม่? ฉันสงสัยว่ากระบวนการของคุณประเมินปริมาณความไม่แน่นอนในการใช้การแจกแจงเชิงประจักษ์อย่างไร นอกจากนี้ยังมาพร้อมกับความแปรปรวนของการสุ่มตัวอย่าง (ซึ่งอาจมีความลึกในหางซึ่งมักจะสำคัญที่สุดในการประเมินความเสี่ยง) แม้ว่าคุณจะไม่ได้ประมาณพารามิเตอร์ใด ๆ
whuber

คำตอบ:


6

แน่นอนขึ้นอยู่กับข้อมูลในคำถามและเท่าไหร่รู้หรือต้องการที่จะคิดเกี่ยวกับพวกเขา ดังที่@whuber กล่าวในการแชทเมื่อเร็ว ๆ นี้ "ในกรณีที่เกี่ยวข้องกับกฎหมายทางกายภาพคุณเกือบจะสามารถคาดเดาได้อย่างสมเหตุสมผลเกี่ยวกับวิธีการที่เหมาะสมในการสร้างแบบจำลองข้อมูล" (ฉันสงสัยว่านี่เป็นเรื่องจริงของเขามากกว่าที่ฉันคิดไว้! นอกจากนี้ฉันหวังว่านี่จะไม่ถูกนำไปใช้ในทางที่ผิดไปจากบริบทเดิม ... ) ในกรณีอื่น ๆ เช่นการสร้างแบบจำลองแฝงในสังคมศาสตร์ การแจกแจงเชิงประจักษ์เป็นวิธีการทำความเข้าใจความแตกต่างของปรากฏการณ์ที่รู้จักกันน้อย มันค่อนข้างง่ายเกินไปที่จะถือว่าการกระจายตัวแบบปกติและยกเลิกความไม่เหมาะสมในรูปแบบโดยรวมเล็กน้อยและค่อนข้างจะค่อนข้างดีที่จะไล่คนผิดเป็นคนผิดโดยไม่มีเหตุผลมากกว่าพวกเขา

แน่นอนว่าพฤติกรรมนี้ส่วนใหญ่ได้รับแรงบันดาลใจจากสมมติฐานของการวิเคราะห์ที่เราต้องการนำไปใช้ บ่อยครั้งที่คำถามที่น่าสนใจที่สุดไปไกลกว่าคำอธิบายหรือการจำแนกการกระจายของตัวแปร สิ่งนี้มีอิทธิพลต่อคำตอบที่ถูกต้องสำหรับสถานการณ์ที่กำหนด อาจมีเหตุผล (เช่นความต้องการ ) ที่จะถือว่าการแจกแจงแบบปกติเมื่อมันไม่พอดีโดยเฉพาะอย่างยิ่ง (หรือไม่เหมาะสมไม่ดี) เนื่องจากวิธีการที่และวิธีการนั้นไม่สมบูรณ์แบบเช่นกัน อย่างไรก็ตามความเสี่ยงในการทำเช่นนี้เป็นประจำคือการลืมถามคำถามที่น่าสนใจที่เราสามารถถามเกี่ยวกับการกระจายตัวของตัวแปรเดียว

ตัวอย่างเช่นพิจารณาความสัมพันธ์ระหว่างความมั่งคั่งและความสุข: คำถามที่คนส่วนใหญ่มักต้องการถาม มันอาจปลอดภัยที่จะสมมติความมั่งคั่งตามการกระจายแกมม่า(Salem & Mount, 1974)หรือการแจกแจงเบต้าทั่วไป(Parker, 1999)แต่จริง ๆ แล้วมันปลอดภัยหรือไม่ที่จะสมมติว่าความสุขกระจายตามปกติ? จริง ๆ แล้วมันไม่จำเป็นที่จะต้องสมมติเอาไว้เพื่อตอบคำถามเดิม แต่บางครั้งผู้คนก็ทำแล้วเพิกเฉยต่อประเด็นที่สำคัญเช่นอคติการตอบสนองและความแตกต่างทางวัฒนธรรม ยกตัวอย่างเช่นบางวัฒนธรรมมีแนวโน้มที่จะให้การตอบสนองที่รุนแรงมากขึ้นหรือน้อยลง (ดู @ คำตอบ @ chl เกี่ยวกับการวิเคราะห์ปัจจัยของแบบสอบถามที่ประกอบด้วยรายการ Likert ) และบรรทัดฐานแตกต่างกันไปตามการแสดงออกทางอารมณ์เปิดบวกและลบ(ทักเกอร์ Ozer, Lyubomirsky & Boehm 2006 ) สิ่งนี้อาจเพิ่มความสำคัญของความแตกต่างในลักษณะการกระจายเชิงประจักษ์เช่นความเบ้และความโด่ง ถ้าฉันเปรียบเทียบความสัมพันธ์ของความมั่งคั่งกับการจัดอันดับความสุขแบบอัตนัยในรัสเซียจีนและสหรัฐอเมริกาฉันอาจต้องการประเมินความแตกต่างของแนวโน้มกลางของการจัดอันดับความสุข ในการทำเช่นนั้นฉันลังเลที่จะทำการแจกแจงแบบปกติในแต่ละครั้งเพื่อการวิเคราะห์ความแปรปรวนแบบทางเดียว (แม้ว่ามันอาจจะค่อนข้างแข็งแกร่งสำหรับการละเมิด) เมื่อมีเหตุผลที่คาดหวังว่าการกระจายแบบ "อ้วนขึ้น" ในประเทศจีนการแจกแจงแบบเบ้เชิงบวกในรัสเซียและการแจกแจงแบบเบ้ในเชิงลบในสหรัฐอเมริกาเนื่องจากบรรทัดฐานที่ขึ้นอยู่กับวัฒนธรรมและอคติการตอบสนองต่างๆ เพื่อประโยชน์ในการทดสอบที่มีนัยสำคัญ (แม้ว่าฉันอาจต้องการรายงานขนาดของผลกระทบโดยสุจริต) ฉันควรใช้วิธีการแบบไม่มีพารามิเตอร์และเพื่อความเข้าใจความสุขส่วนตัวในแต่ละบุคคล ค่อนข้างอธิบายการแจกแจงเชิงประจักษ์มากกว่าพยายามจัดหมวดหมู่มันเป็นการกระจายเชิงทฤษฎีอย่างง่าย ๆ และเพิกเฉยหรือลบล้างความไม่เหมาะสมใด ๆ นั่นคือการเสียข้อมูล IMO

การอ้างอิง
- Parker, SC (1999) เบต้าทั่วไปเป็นแบบจำลองสำหรับการกระจายรายได้ จดหมายเศรษฐศาสตร์, 62 (2), 197–200
- Salem, ABZ, & Mount, TD (1974) รูปแบบการแจกแจงรายได้ที่สะดวก: ความหนาแน่นของแกมม่า Econometrica, 42 (6), 1115–1127
- Tucker, KL, Ozer, DJ, Lyubomirsky, S. , & Boehm, JK (2006) การทดสอบความไม่แน่นอนของการวัดความพึงพอใจในระดับชีวิต: การเปรียบเทียบรัสเซียและอเมริกาเหนือ การวิจัยตัวชี้วัดทางสังคม, 78 (2), 341–360 แปลจากhttp://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf


ขอบคุณสำหรับคำตอบของคุณนิค ฉันพบตัวอย่างที่มีประโยชน์เป็นพิเศษ
HFBrowning

3

ความยาวหางของหนูจะกระจายตามปกติ

ฉันสงสัยว่า การแจกแจงปกติเกิดขึ้นจากเอฟเฟ็กต์สารเติมแต่งอิสระมากมาย ระบบทางชีวภาพประกอบด้วยลูปป้อนกลับแบบโต้ตอบจำนวนมาก นอกจากนี้ยังมีบางรัฐที่มีเสถียรภาพมากกว่าคนอื่น ๆ (เช่นผู้ดึงดูด) ดังนั้นการกระจายหางแบบยาวหรือแบบหลายรูปแบบบางชนิดอาจอธิบายความยาวหางได้ ในความเป็นจริงการแจกแจงแบบปกติน่าจะเป็นตัวเลือกเริ่มต้นที่แย่มาก ๆ ที่จะอธิบายสิ่งต่าง ๆ ทางชีวภาพและการใช้ในทางที่ผิดนั้นมีส่วนรับผิดชอบต่อ "ค่าผิดปกติ" ที่ถูกรายงานในวรรณคดีนั้น ความชุกของการกระจายตัวในธรรมชาตินี้เป็นตำนานและไม่เพียง แต่อยู่ในความรู้สึก อย่างไรก็ตามไม่ได้ติดตามว่าค่าเฉลี่ยและ sd นั้นไม่มีประโยชน์เหมือนสถิติสรุป

โดยเฉพาะอย่างยิ่งเพราะฉันไม่สามารถระบุได้อย่างง่ายดายว่าเมื่อใดควร "เชื่อถือข้อมูล" (เช่นนี้ชุดข้อมูลที่ขี้ขลาดขวาที่ฉันมี แต่ n = 160 ที่ให้ข้อมูลดูเหมือนไม่เพียงพอ) และไปกับการทดลองหรือ พอดีกับการแจกแจงแบบเบต้าเหมือนเพื่อนร่วมงานของฉันขอยืนยัน ฉันสงสัยว่าเขาเลือกอย่างนั้นเพราะมันถูก จำกัด บน [0,1] ทุกอย่างดูเหมือนจะเป็นจริงเท่านั้น หวังว่านี่จะช่วยชี้แจงเจตนาของฉัน!

การกระจายการทดลองเชิงประจักษ์ให้คำแนะนำในกระบวนการพื้นฐานซึ่งจะช่วยอำนวยความสะดวกในการพัฒนาการแจกแจงเชิงทฤษฎี จากนั้นการกระจายเชิงทฤษฎีจะถูกเปรียบเทียบกับการแจกแจงเชิงประจักษ์เพื่อทดสอบหลักฐานสำหรับทฤษฎี

หากจุดประสงค์ของคุณกำลังประเมินความน่าจะเป็นของผลลัพธ์บางอย่างจากหลักฐานที่มีอยู่ในปัจจุบันและคุณไม่มีเหตุผลที่จะเลือกการแจกแจงแบบนั้นฉันเดาว่าฉันไม่เห็นว่าการตั้งสมมติฐานเพิ่มเติมจะมีประโยชน์อย่างไร ดูเหมือนว่ามันจะทำให้สับสน

อย่างไรก็ตามหากคุณพยายามที่จะอธิบายหรือสรุปข้อมูลจากนั้นมันอาจสมเหตุสมผลที่จะเหมาะสมกับการแจกแจง


1
แม้ว่าฉันจะตอบได้เพียงคำตอบเดียว แต่ฉันก็อยากจะขอบคุณที่ชี้ให้เห็นว่าการแจกแจงแบบปกตินั้นเกิดขึ้นได้อย่างไร มันบังคับให้ฉันต้องคิดให้รอบคอบมากขึ้นเกี่ยวกับความหมายของสิ่งที่อยู่บนพื้นฐานของทฤษฎี
HFBrowning

3

ในบางกรณีดูเหมือนชัดเจนว่าทฤษฎีอาจทำงานได้ดีที่สุด (ความยาวหางของหนูจะกระจายตามปกติ)

ความยาวหางจะไม่กระจายตามปกติอย่างแน่นอน

การแจกแจงแบบปกติมีความเป็นไปได้ที่ไม่ใช่ศูนย์ในการรับค่าลบ; ความยาวหางไม่

สายที่โด่งดังของจอร์จบ็อกซ์" ทุกรุ่นผิด แต่มีประโยชน์ " ทำให้ประเด็นค่อนข้างดี กรณีที่เราอาจยืนยันความมีมาตรฐาน (แทนที่จะเป็นเพียงแค่ค่านิยมทั่วไป) นั้นหายากมากจริง ๆ แล้วเกือบเป็นสิ่งมีชีวิตในตำนานภาพลวงตาบางครั้งเกือบมองออกจากมุมตา

ในหลายกรณีอาจไม่มีทฤษฎีที่จะอธิบายชุดข้อมูลดังนั้นคุณเพียงใช้สิ่งที่เหมาะกับสิ่งที่คุณมีค่อนข้างดีโดยไม่คำนึงถึงสิ่งที่มันถูกพัฒนาขึ้นเพื่ออธิบาย?

ในกรณีที่ปริมาณที่คุณสนใจไม่อ่อนไหวเป็นพิเศษต่อตัวเลือก (ตราบใดที่คุณสมบัติในวงกว้างของการกระจายสอดคล้องกับสิ่งที่ทราบ) จากนั้นใช่คุณสามารถใช้สิ่งที่เหมาะสม

ในกรณีที่มีระดับความไวสูงกว่า 'เพียงแค่ใช้สิ่งที่เหมาะกับ' ไม่เพียงพอสำหรับตัวเอง เราอาจใช้วิธีการบางอย่างที่ไม่ได้ตั้งสมมติฐานเป็นพิเศษ (อาจเป็นขั้นตอนแจกแจงฟรีเช่นการเรียงสับเปลี่ยนการบูตสแตรปหรือวิธีการสุ่มใหม่หรือกระบวนการที่มีประสิทธิภาพ) อีกวิธีหนึ่งเราอาจหาจำนวนความอ่อนไหวต่อสมมติฐานการกระจายเช่นผ่านการจำลอง (แน่นอนฉันคิดว่านี่เป็นความคิดที่ดีโดยทั่วไป)

ดูเหมือนจะมีปัญหาที่บางทีคุณควรใช้การกระจายเชิงประจักษ์ถ้าคุณไม่มีความคิด

ฉันจะไม่อธิบายว่าเป็นปัญหาโดยอาศัยการอนุมานจากการแจกแจงเชิงประจักษ์แน่นอนว่าวิธีการที่ถูกต้องเหมาะสมกับปัญหาหลายประการ (การเรียงสับเปลี่ยน / การสุ่มตัวอย่าง

บางคนมีวิธีติดต่อกัน / คิดเกี่ยวกับปัญหานี้อย่างต่อเนื่องหรือไม่

ในกรณีส่วนใหญ่ฉันมักจะพิจารณาคำถามเช่น:

1) ฉันเข้าใจอะไร * เกี่ยวกับวิธีการ (หรือปริมาณประเภทสถานที่อื่น ๆ ) สำหรับข้อมูลของแบบฟอร์มนี้

* (ไม่ว่าจะมาจากทฤษฎีหรือประสบการณ์ของข้อมูลรูปแบบนี้หรือคำแนะนำจากผู้เชี่ยวชาญหรือหากจำเป็นจากข้อมูลเองแม้ว่าจะมีปัญหาที่ต้องจัดการ)

2) สิ่งที่เกี่ยวกับการแพร่กระจาย (ความแปรปรวน, IQR, ฯลฯ ) - มันทำงานอย่างไร?

3) คุณสมบัติเกี่ยวกับการกระจายอื่น ๆ (ขอบเขต, ความเบ้, ความแตกต่าง, ฯลฯ )

4) สิ่งที่เกี่ยวกับการพึ่งพาอาศัยความหลากหลายของประชากรแนวโน้มที่จะมีค่าที่แตกต่างกันมากในบางครั้ง ฯลฯ

การพิจารณาประเภทนี้อาจเป็นแนวทางในการเลือกระหว่างโมเดลปกติ GLM โมเดลอื่นหรือแนวทางที่มีประสิทธิภาพหรือไม่ใช้การกระจาย (เช่นวิธีการ bootstrapping หรือการเปลี่ยนรูป / การสุ่มรวมถึงขั้นตอนการจัดอันดับ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.