การแจกแจงแบบปกติและการแปลงแบบโมโนโทนิก


9

ฉันได้ยินมาว่ามีปริมาณมากที่เกิดขึ้นตามธรรมชาติกระจายอยู่ตามปกติ นี่เป็นธรรมโดยใช้ทฤษฎีขีด จำกัด กลางซึ่งบอกว่าเมื่อคุณเฉลี่ยตัวแปรสุ่มจำนวนมากคุณจะได้รับการแจกแจงแบบปกติ ยกตัวอย่างเช่นลักษณะที่ถูกกำหนดโดยผลของสารเติมแต่งของยีนจำนวนมากอาจมีการกระจายโดยประมาณปกติเนื่องจากค่าของยีนอาจมีพฤติกรรมคล้ายกับตัวแปรสุ่มไอด

ตอนนี้สิ่งที่ทำให้ฉันสับสนก็คือทรัพย์สินของการกระจายตามปกติไม่ชัดเจนว่าไม่แปรเปลี่ยนภายใต้การแปลงแบบโมโนโทนิก ดังนั้นหากมีสองวิธีในการวัดสิ่งที่เกี่ยวข้องโดยการแปลงแบบโมโนโทนิกพวกเขาไม่น่าจะได้รับการแจกแจงแบบปกติทั้งคู่ ตัวอย่างเช่นเราสามารถวัดขนาดของเม็ดฝนตามเส้นผ่าศูนย์กลางพื้นที่ผิวหรือปริมาตร สมมติว่ารูปร่างที่คล้ายกันสำหรับเม็ดฝนทุกอันพื้นที่ผิวเป็นสัดส่วนกับกำลังสองของเส้นผ่านศูนย์กลางและปริมาตรเป็นสัดส่วนกับลูกบาศก์ของเส้นผ่านศูนย์กลาง ดังนั้นวิธีการวัดเหล่านี้ทั้งหมดจึงไม่สามารถกระจายได้ตามปกติ

ดังนั้นคำถามของฉันคือวิธีการปรับขนาด (เช่นตัวเลือกเฉพาะของการแปลงแบบโมโนโทนิก) ซึ่งการกระจายตัวเป็นปกตินั้นต้องมีความสำคัญทางกายภาพหรือไม่ ตัวอย่างเช่นควรกระจายความสูงตามปกติหรือตารางของความสูงหรือลอการิทึมของความสูงหรือรากที่สองของความสูง มีวิธีตอบคำถามโดยการทำความเข้าใจกระบวนการที่ส่งผลต่อความสูงหรือไม่?


ตามที่ฉันเข้าใจอยู่เสมอทฤษฎีบทขีด จำกัด กลางไม่ได้อ้างถึงบางอย่างเกี่ยวกับค่าเฉลี่ยของตัวแปรสุ่มจำนวนมากของ iid ค่อนข้างจะกล่าวว่าเมื่อการสุ่มตัวอย่างหมายถึงการกระจายตัวของค่าเฉลี่ยกลายเป็นเรื่องปกติ ดังนั้นฉันจึงถามว่าสิ่งที่มาก่อนสำหรับคำถามของคุณมีหรือไม่
Henrik

แต่ถ้าค่าเฉลี่ยตัวอย่างกลายเป็นเรื่องปกติโดยไม่คำนึงถึงการกระจายตัวของการแจกแจงพื้นฐานนั่นคือไม่เหมือนกับการพูดว่า 'การเฉลี่ยค่าตัวแปรสุ่มจำนวนมากของ iid' ทำให้เราได้การแจกแจงแบบปกติ สำหรับฉันพวกเขาดูเหมือนจะเป็นคำสั่งที่เทียบเท่า

ไม่ใช่ในสายตาของฉัน (แต่ฉันต้องการที่จะเชื่อมั่นเป็นอย่างอื่น) ในกรณีหนึ่ง (CLT ที่ฉันคิดว่าถูกหมายถึงโดย CLT) คุณวาดตัวอย่างจากการแจกแจงครั้งเดียว วิธีการของพวกเขามีการกระจายตามปกติ สิ่งที่ฉันเข้าใจจากคำถามและการอ้างอิง "ค่าเฉลี่ยของตัวแปรสุ่มจำนวนมากของ iid" คือ sth differnt: แต่ละอินสแตนซ์จากตัวแปรสุ่มของ iid ที่แตกต่างกันจะกำหนดลักษณะ (หรือทำขึ้น) ดังนั้นไม่มีค่าเฉลี่ย (เช่นการคำนวณค่าเฉลี่ย) จากการแจกแจงเดี่ยวและดังนั้นจึงไม่มีการใช้ CLT ฉันคิดว่าคำตอบของ mbq ​​ชี้ไปที่ปัญหาเดียวกัน
Henrik

1
การกระจายไม่จำเป็นต้องเหมือนกันหากมีเงื่อนไข ดูที่: en.wikipedia.org/wiki/…

1
@Henrik มีความแตกต่างอย่างมีนัยสำคัญระหว่างตัวอย่างเดี่ยวจากRV อิสระแต่ละตัวและการกระจายแบบอิสระที่เหมือนกันและการวัดอิสระอิสระของ RV เดี่ยวหรือไม่
walkytalky

คำตอบ:


5

คำถามที่ดีมาก ฉันรู้สึกว่าคำตอบนั้นขึ้นอยู่กับว่าคุณสามารถระบุกระบวนการพื้นฐานที่ทำให้เกิดการวัดที่เป็นปัญหาหรือไม่ ตัวอย่างเช่นหากคุณมีหลักฐานว่าความสูงคือการรวมกันเชิงเส้นของปัจจัยหลายประการ (เช่นความสูงของผู้ปกครองความสูงของปู่ย่าตายาย ฯลฯ ) ดังนั้นจึงเป็นเรื่องปกติที่จะถือว่าความสูงนั้นกระจายตามปกติ ในทางตรงกันข้ามถ้าคุณมีหลักฐานหรือทฤษฎีที่ว่าบันทึกความสูงเป็นการรวมกันเชิงเส้นของตัวแปรหลายอย่าง (เช่นความสูงของพ่อแม่ผู้ปกครอง, บันทึกของความสูงของปู่ย่าตายายและอื่น ๆ ) จากนั้นบันทึกความสูงจะกระจายตามปกติ

ในสถานการณ์ส่วนใหญ่เราไม่ทราบกระบวนการพื้นฐานที่ขับเคลื่อนการวัดความสนใจ ดังนั้นเราสามารถทำหนึ่งในหลาย ๆ สิ่ง:

(a) หากการกระจายเชิงประจักษ์ของความสูงดูเป็นเรื่องปกติเราจะใช้ความหนาแน่นปกติสำหรับการวิเคราะห์ต่อไปซึ่งสมมติว่าความสูงนั้นเป็นการรวมเชิงเส้นของตัวแปรหลายตัว

(b) หากการกระจายเชิงประจักษ์ไม่ปกติเราสามารถลองการแปลงตามที่mbqแนะนำ(เช่น log (สูง)) ในกรณีนี้เราสันนิษฐานว่าตัวแปรแปรสภาพ (เช่น log (height)) เป็นชุดค่าผสมเชิงเส้นของตัวแปรหลายตัว

(c) ถ้า (a) หรือ (b) ไม่ช่วยเราต้องละทิ้งข้อได้เปรียบที่ CLT และข้อสันนิษฐานเกี่ยวกับภาวะปกติให้เราและจำลองตัวแปรโดยใช้การแจกแจงแบบอื่น


5

การลดขนาดของตัวแปรเฉพาะเมื่อเป็นไปได้ควรเกี่ยวข้องกับสเกลที่เข้าใจได้บางส่วนด้วยเหตุผลที่ช่วยทำให้โมเดลที่เป็นผลลัพธ์นั้นสามารถตีความได้ อย่างไรก็ตามการเปลี่ยนแปลงที่เกิดขึ้นไม่จำเป็นต้องมีนัยสำคัญทางกายภาพอย่างแน่นอน โดยพื้นฐานแล้วคุณต้องมีส่วนร่วมในการแลกเปลี่ยนระหว่างการละเมิดข้อสันนิษฐานทั่วไปและการตีความของแบบจำลองของคุณ สิ่งที่ฉันชอบทำในสถานการณ์เหล่านี้คือมีข้อมูลต้นฉบับข้อมูลที่ถูกแปลงในแบบที่สมเหตุสมผลและข้อมูลที่ถูกแปลงในลักษณะที่เป็นเรื่องปกติที่สุด หากข้อมูลถูกแปลงในลักษณะที่สมเหตุสมผลเหมือนกับผลลัพธ์เมื่อข้อมูลถูกแปลงในลักษณะที่ทำให้เป็นเรื่องปกติมากที่สุด ฉันรายงานในลักษณะที่สามารถตีความได้ด้วยหมายเหตุด้านว่าผลลัพธ์จะเหมือนกันในกรณีของข้อมูลที่แปลงสภาพ (และ / หรือไม่ถูกแปล) อย่างเหมาะสมที่สุด เมื่อข้อมูลที่ไม่ได้รับการแปลข้อมูลทำงานผิดปกติเป็นพิเศษฉันจะทำการวิเคราะห์ด้วยข้อมูลที่แปลงแล้ว แต่ทำอย่างดีที่สุดเพื่อรายงานผลลัพธ์ในหน่วยที่ไม่ถูกแปลง

นอกจากนี้ฉันคิดว่าคุณมีความเข้าใจผิดในคำสั่งของคุณว่า "ปริมาณที่เกิดขึ้นตามธรรมชาติมีการกระจาย" สิ่งนี้ถือเป็นจริงในกรณีที่ค่าถูก "พิจารณาจากผลการเติมแต่งของจำนวนมาก" ของปัจจัยอิสระ นั่นคือค่าเฉลี่ยและผลรวมถูกกระจายโดยไม่คำนึงถึงการแจกแจงพื้นฐานที่พวกเขาวาดซึ่งเป็นค่าส่วนบุคคลที่ไม่คาดว่าจะกระจายตามปกติ ดังที่เป็นตัวอย่างบุคคลที่ดึงจากการแจกแจงทวินามไม่ได้ดูปกติทั้งหมด แต่การกระจายตัวของผลรวม 30 ดึงจากการแจกแจงทวินามนั้นดูค่อนข้างปกติ


5

ฉันต้องยอมรับว่าฉันไม่เข้าใจคำถามของคุณ:

  • ตัวอย่างเม็ดฝนของคุณไม่พอใจอย่างมากเนื่องจากสิ่งนี้ไม่ได้แสดงให้เห็นถึงความจริงที่ว่าพฤติกรรมแบบเกาส์นั้นมาจาก "ค่าเฉลี่ยของตัวแปรสุ่มจำนวนมากของไอโอดี"

  • หากปริมาณที่คุณสนใจนั้นเป็นค่าเฉลี่ยที่ผันผวนรอบค่าเฉลี่ยในแบบเกาส์เซียนคุณสามารถคาดหวังว่ามีพฤติกรรมแบบเกาส์เซียนXY1++YNNf(Y1)++f(YN)N

  • ถ้าความผันผวนของรอบค่าเฉลี่ยอยู่ที่ประมาณเกาส์เซียนและเล็กดังนั้นความผันผวนของรอบค่าเฉลี่ย (โดยการขยายตัวของเทย์เลอร์)Xf(X)

  • คุณสามารถยกตัวอย่างจริง ๆ ของพฤติกรรมแบบเกาส์ (จากชีวิตจริง) ที่มาจากการหาค่าเฉลี่ย: นี่ไม่ใช่เรื่องธรรมดามาก! พฤติกรรมแบบเกาส์มักใช้ในสถิติเป็นการประมาณคร่าวๆครั้งแรกเพราะการคำนวณนั้นง่ายมาก เมื่อนักฟิสิกส์ใช้การประมาณค่าฮาร์มอนิกนักสถิติใช้การประมาณแบบเกาส์เซียน


หลักการเอนโทรปีสูงสุดก็เป็นอีกสาเหตุหนึ่งที่ใช้การแจกแจงแบบเกาส์ ตัวอย่างเช่นอะไรคือเหตุผลที่ดีในการใช้ข้อผิดพลาดแบบเกาส์ในตัวแบบเชิงเส้นยกเว้นความสามารถในการรองรับได้
Alekk

5

Vipul คุณไม่แม่นยำอย่างสมบูรณ์ในคำถามของคุณ

นี่เป็นธรรมโดยใช้ทฤษฎีขีด จำกัด กลางซึ่งบอกว่าเมื่อคุณเฉลี่ยตัวแปรสุ่มจำนวนมากคุณจะได้รับการแจกแจงแบบปกติ

ฉันไม่แน่ใจทั้งหมดนี่คือสิ่งที่คุณพูด แต่โปรดจำไว้ว่าเม็ดฝนในตัวอย่างของคุณไม่ใช่ตัวแปรสุ่ม ค่าเฉลี่ยที่คำนวณโดยการสุ่มตัวอย่างจำนวนเม็ดฝนเหล่านั้นเป็นตัวแปรสุ่มและเนื่องจากวิธีการคำนวณโดยใช้ขนาดตัวอย่างที่มีขนาดใหญ่พอการกระจายตัวของค่าเฉลี่ยตัวอย่างนั้นเป็นเรื่องปกติ

กฎของจำนวนมากบอกว่าค่าของตัวอย่างนั้นหมายถึงการลู่เข้ากับค่าเฉลี่ยของประชากร (แข็งแรงหรืออ่อนแอขึ้นอยู่กับประเภทของการลู่เข้า)

CLT บอกว่าค่าเฉลี่ยตัวอย่างเรียกว่า XM (n) ซึ่งเป็นตัวแปรสุ่มมีการแจกแจงว่า G (n) เมื่อ n เข้าใกล้อนันต์การแจกแจงนั้นจะเป็นการแจกแจงแบบปกติ CLT นั้นเกี่ยวกับการบรรจบกันของการกระจายไม่ใช่แนวคิดพื้นฐาน

การสังเกตที่คุณวาด (เส้นผ่าศูนย์กลางพื้นที่ปริมาตร) ไม่จำเป็นต้องเป็นเรื่องปกติ แต่อย่างใด พวกเขาอาจจะไม่ได้ถ้าคุณวางแผนพวกเขา แต่ค่าเฉลี่ยตัวอย่างจากการสังเกตทั้งสามจะมีการแจกแจงแบบปกติ และปริมาตรจะไม่เท่ากับลูกบาศก์ของเส้นผ่าศูนย์กลางและพื้นที่จะไม่เป็นสี่เหลี่ยมจัตุรัส กำลังสองของผลบวกจะไม่เท่ากับผลรวมของช่องสี่เหลี่ยมยกเว้นว่าคุณโชคดีอย่างแปลกประหลาด


4

เพียงแค่ CLT (หรือทฤษฎีบทอื่นใด) ไม่ได้ระบุว่าปริมาณทั้งหมดในเอกภพนั้นจะกระจายตามปกติ แน่นอนว่านักสถิติมักใช้การแปลงแบบโมโนโทนิกเพื่อปรับปรุงความเป็นมาตรฐานดังนั้นพวกเขาจึงสามารถใช้เครื่องมือที่พวกเขาชื่นชอบ


4

ฉันคิดว่าคุณคิดถึง (ครึ่งหนึ่ง) ของสถิติการใช้งานของการแจกแจงแบบปกติ แต่ฉันชอบคำถามของคุณ

ฉันไม่คิดว่ามันเป็นความคิดที่ดีที่จะยอมรับความเป็นระบบอย่างเป็นระบบและฉันยอมรับว่ามันถูกทำบางครั้ง (อาจเป็นเพราะการแจกแจงแบบปกตินั้นง่ายต่อการใช้งาน unimodal ... ) โดยไม่มีการยืนยัน ดังนั้นคำพูดของคุณเกี่ยวกับแผนที่โมโนโทนิคนั้นยอดเยี่ยมมาก!

อย่างไรก็ตามการใช้งานที่มีประสิทธิภาพของภาวะปกติมาเมื่อคุณสร้างตัวเองสถิติใหม่เช่นหนึ่งที่ปรากฏขึ้นเมื่อคุณใช้ส่วนที่เคาน์เตอร์ empiriral ของความคาดหวัง: ความหมายเชิงประจักษ์ ดังนั้นค่าเฉลี่ยเชิงประจักษ์และการปรับให้เรียบโดยทั่วไปมากขึ้นคือสิ่งที่ทำให้ปกติปรากฏขึ้นทุกที่ ...


2

ทั้งตัวแปรสุ่มและการแปลงหลายอย่างของมันอาจเป็นปกติ แน่นอนถ้าความแปรปรวนมีขนาดเล็กเมื่อเทียบกับค่าเฉลี่ยอาจเป็นไปได้ว่าการเปลี่ยนแปลงที่หลากหลายมากดูปกติดี

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 ฮิสโทแกรมแสดงใกล้ - ปกติ

( คลิกเพื่อดูรุ่นที่ใหญ่กว่า )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.