การแจกแจงปกติไม่อนุญาตสำหรับค่าลบหรือไม่
แก้ไข. มันไม่มีขอบเขตบน
ในส่วนหนึ่งของตำราเรียนของฉันบอกว่าการแจกแจงแบบปกติอาจจะดีสำหรับการทำแบบจำลองคะแนนสอบ
อย่างไรก็ตามข้อความก่อนหน้านี้อย่างไรก็ตามบางครั้งก็เป็นกรณีนี้ หากคุณมีองค์ประกอบหลายอย่างในการทดสอบไม่เกี่ยวข้องกันมากเกินไป (เช่นคุณไม่ได้เป็นคำถามเดียวกันเป็นสิบ ๆ ครั้งและไม่มีส่วนใดที่ต้องการคำตอบที่ถูกต้องในส่วนก่อนหน้า) และไม่ใช่เรื่องง่ายหรือยากมาก ( ดังนั้นเครื่องหมายส่วนใหญ่จะอยู่ใกล้กับจุดกึ่งกลาง) จากนั้นเครื่องหมายมักจะถูกประมาณด้วยการแจกแจงแบบปกติ บ่อยครั้งมากพอที่การวิเคราะห์ทั่วไปควรทำให้เกิดความกังวลเล็กน้อย
เรารู้ว่ามันไม่ปกติแต่นั่นไม่ใช่ปัญหาโดยอัตโนมัติ - ตราบใดที่พฤติกรรมของขั้นตอนที่เราใช้นั้นใกล้เคียงกับสิ่งที่ควรจะเป็นเพื่อจุดประสงค์ของเรา (เช่นข้อผิดพลาดมาตรฐานช่วงความมั่นใจระดับนัยสำคัญ และพลังงาน - สิ่งใดก็ตามที่จำเป็น - ทำใกล้กับสิ่งที่เราคาดหวังให้)
ในส่วนถัดไปมันจะถามว่าการจัดจำหน่ายแบบใดที่เหมาะสมในการสร้างแบบจำลองการเคลมประกันรถยนต์ เวลานี้มันบอกว่าการแจกแจงที่เหมาะสมจะเป็นแกมม่าหรืออินเวอร์สเกาส์เนื่องจากพวกมันมีค่าบวกอย่างต่อเนื่องเท่านั้น
ใช่ แต่ยิ่งไปกว่านั้นพวกเขามักจะเอียงอย่างหนักและความแปรปรวนมีแนวโน้มที่จะเพิ่มขึ้นเมื่อค่าเฉลี่ยเพิ่มขึ้น
นี่คือตัวอย่างของการกระจายการอ้างสิทธิ์สำหรับการอ้างสิทธิ์รถยนต์:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(รูปที่ 5 จาก Garrido, Genest & Schulz (2016) "โมเดลเชิงเส้นทั่วไปสำหรับความถี่และความรุนแรงของการเรียกร้องค่าสินไหมทดแทน", การประกันภัย: คณิตศาสตร์และเศรษฐศาสตร์, ปีที่ 70, ก.ย. , p205-215 https: //www.sciencedirect com / วิทยาศาสตร์ / บทความ / pii / S0167668715303358 )
นี่แสดงให้เห็นว่าหางขวาและขวาหนักทั่วไป อย่างไรก็ตามเราต้องระวังให้มากเพราะนี่คือการกระจายแบบขอบและเรากำลังเขียนแบบจำลองสำหรับการแจกแจงแบบมีเงื่อนไขซึ่งโดยทั่วไปแล้วจะน้อยกว่ามาก ของการแจกแจงแบบมีเงื่อนไขเหล่านี้) อย่างไรก็ตามโดยทั่วไปแล้วเป็นกรณีที่ถ้าเราดูขนาดการเรียกร้องในกลุ่มย่อยของผู้ทำนาย (อาจจัดประเภทตัวแปรต่อเนื่อง) ว่าการแจกแจงยังคงเอียงอย่างรุนแรงและค่อนข้างเทลทางด้านขวาค่อนข้างมาก น่าจะเหมาะสมกว่าแบบเกาส์เซียนมาก
* อาจมีการแจกแจงอื่น ๆ อีกจำนวนมากซึ่งจะเหมาะสมกว่าแบบเกาส์เซียน - การกลับแบบเกาส์เป็นตัวเลือกอื่น - แม้ว่าจะเป็นเรื่องธรรมดา รุ่น lognormal หรือ Weibull ในขณะที่ไม่ใช่ GLM อย่างที่เป็นอยู่ก็มีประโยชน์เช่นกัน
[แทบจะไม่เคยมีกรณีใดที่การแจกแจงเหล่านี้มีคำอธิบายที่สมบูรณ์แบบ พวกมันประมาณไม่ถูกต้อง แต่ในหลาย ๆ กรณีก็ดีพอที่การวิเคราะห์นั้นมีประโยชน์และใกล้เคียงกับคุณสมบัติที่ต้องการ]
ฉันเชื่อว่าคะแนนสอบจะต่อเนื่องกับค่าบวกเท่านั้นดังนั้นทำไมเราถึงใช้การแจกแจงแบบปกติที่นั่น?
เพราะ (ภายใต้เงื่อนไขที่ฉันพูดถึงมาก่อน - ส่วนประกอบจำนวนมากไม่ขึ้นอยู่กับว่าไม่ยากหรือง่าย) การกระจายมีแนวโน้มที่จะใกล้เคียงกับสมมาตร