เมื่อใดที่ควรเขียน“ เราถือว่าการแจกแจงแบบปกติ” ของการวัดเชิงประจักษ์?


9

มันฝังแน่นอยู่ในการสอนวิชาประยุกต์เช่นยาการวัดปริมาณไบโอ - แพทย์ในประชากรตามปกติ "ระฆังโค้ง" การค้นหาสตริง" Google เราถือว่าการแจกแจงแบบปกติ"ของ Google ส่งคืน23,900ผล! พวกเขาดูเหมือนว่า"จากจุดข้อมูลจำนวนมากเราคาดว่าจะมีการแจกแจงแบบปกติสำหรับความผิดปกติของอุณหภูมิ"ในการศึกษาเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศ หรือ"เราสันนิษฐานว่าการแจกจ่ายวันที่ฟักลูกไก่ปกติ"บนเอกสารที่อาจเป็นที่ถกเถียงกันน้อยเกี่ยวกับเพนกวิน หรือ "เราสันนิษฐานว่าการกระจายปกติของ GDP แรงกระแทกการเจริญเติบโต"หมายถึงการเปลี่ยนเศรษฐกิจมหภาคในตลาด (นำขึ้นกับหน่วยความจำหนังสือเล่มนี้ ... และสิ่งอื่น ๆ )

เมื่อเร็ว ๆ นี้ฉันพบว่าตัวเองตั้งคำถามกับการรักษาข้อมูลการนับที่กระจายตามปกติเนื่องจากลักษณะเชิงบวกของพวกเขาอย่างเคร่งครัด แน่นอนว่าการนับข้อมูลนั้นไม่ต่อเนื่องทำให้เป็นเรื่องปกติมากขึ้น แต่ถึงแม้จะทิ้งประเด็นหลังนี้ไว้ทำไมการวัดเชิงประจักษ์อย่างต่อเนื่องเช่นน้ำหนักส่วนสูงหรือความเข้มข้นของกลูโคสซึ่งถือว่าเป็นต้นแบบ "ต่อเนื่อง" ถือว่าเป็นเรื่องปกติ พวกเขาไม่สามารถสังเกตการรับรู้เชิงลบได้มากกว่าการนับ!

ฉันเข้าใจว่าเมื่อค่าเบี่ยงเบนมาตรฐานต่ำกว่าค่าเฉลี่ยแสดงค่าลบเล็กน้อย ("การตรวจสอบช่วง 95%") อาจเป็นข้อสมมติที่ใช้งานได้จริงและฮิสโทแกรมความถี่อาจรองรับหากไม่เบ้จนเกินไป แต่คำถามดูเหมือนจะไม่สำคัญและการค้นหาอย่างรวดเร็วให้สิ่งที่น่าสนใจ

ในธรรมชาติเราสามารถค้นหาข้อความต่อไปนี้บนจดหมายจาก DF Heath : "ฉันต้องการชี้ให้เห็นว่าสำหรับการวิเคราะห์ทางสถิติของข้อมูลบางประเภทการสันนิษฐานว่าข้อมูลนั้นมาจากประชากรปกติมักจะผิดและทางเลือกอื่น ข้อสันนิษฐานของการกระจายล็อกปกติดีกว่าทางเลือกนี้ใช้กันอย่างแพร่หลายโดยนักสถิตินักเศรษฐศาสตร์และนักฟิสิกส์ แต่ด้วยเหตุผลบางอย่างมักจะถูกละเว้นโดยนักวิทยาศาสตร์ของสาขาอื่น ๆ "

Limpert ตั้งข้อสังเกตว่า"แบบจำลองการบันทึกปกติอาจทำหน้าที่เป็นค่าประมาณในแง่ที่ว่านักวิทยาศาสตร์หลายคนรับรู้ปกติว่าเป็นการประมาณที่ถูกต้องในขณะนี้"ในขณะที่สังเกตการใช้พลังงานต่ำของการทดสอบแบบปกติที่ดี การกระจายที่ถูกต้องชัดเจนเมื่อต้องจัดการกับตัวอย่างเล็ก ๆ

ดังนั้นคำถามคือ"เมื่อไหร่ที่จะยอมรับการกระจายตัวปกติของการวัดเชิงประจักษ์ในวิทยาศาสตร์ประยุกต์ที่ไม่มีหลักฐานสนับสนุนเพิ่มเติม?" และทำไมถึงมีทางเลือกอื่นเช่นล็อกปกติไม่ได้และอาจจะไม่ถูกระงับ?


คำตอบนั้นขึ้นอยู่กับประเภทของสิ่งที่คุณกำลังทำและความไวต่อการเบี่ยงเบนที่อาจเกิดขึ้นจากภาวะปกติ (เช่นถ้าคุณกำลังทดสอบความเท่ากันของความแปรปรวนโดยใช้การทดสอบ F ของอัตราส่วนคุณควรมีการแจกแจงที่ดีกว่า ใกล้เคียงกับปกติมาก ... แต่ถ้าคุณสร้าง t-interval สำหรับความแตกต่างของค่าเฉลี่ยโดยมีกลุ่มตัวอย่างขนาดใหญ่คุณอาจไม่จำเป็นต้องให้มันใกล้เคียงกับค่าปกติเลย) ... และในความอดทนของคุณ (หรือผู้ชม) สำหรับผลกระทบที่มีต่อการอนุมานที่คุณทำ
Glen_b -Reinstate Monica

คำตอบ:


6

ฉันพบว่าคำถามของคุณน่าสนใจจริงๆ ลองพิจารณาบางสิ่ง:

  1. การบอกว่าตัวแปรที่สังเกตได้นั้นมีความต่อเนื่องในชีวิตจริงจะเป็นสิ่งที่ผิดเสมอไป
  2. ตอนนี้เพิ่มคุณสมบัติของตัวแปรสุ่มปกติ : range , การแจกแจงแบบสมมาตร (เฉลี่ย = โหมด = มัธยฐาน) ฟังก์ชันความหนาแน่นของความน่าจะเป็นมี จุดโรคติดเชื้อที่และ\N(μ,σ2)(;+)fX(x)x=μσx=μ+σ
  3. ในการบอกว่าตัวแปรสุ่มตามหลังการแจกแจงล็อก - ปกติแสดงว่าตัวแปรตามด้วยการแจกแจงปกติXY=log(X)

ด้วยที่กล่าวว่าจะบอกว่าตัวแปรที่สังเกตใด ๆ ดังต่อไปนี้การกระจายปกติหรือเข้าสู่ระบบปกติฟังดูบ้าชนิด ในทางปฏิบัติสิ่งที่ทำคือคุณวัดความเบี่ยงเบนของความถี่ที่สังเกตจากความถี่ที่คาดไว้ถ้าตัวแปรนั้นมาจากประชากรปกติ (หรือการกระจายตัวอื่น ๆ ) หากคุณสามารถบอกได้ว่าการเบี่ยงเบนเหล่านั้นเป็นเพียงการสุ่มเพราะคุณเป็นตัวอย่างคุณสามารถพูดได้ว่ามีหลักฐานไม่เพียงพอที่จะปฏิเสธสมมุติฐานว่างว่าตัวแปรนี้มาจากประชากรปกติซึ่งแปลเป็นเราจะทำงานเสมือนว่า ( สมมติว่า) ตัวแปรดังต่อไปนี้การกระจายปกติ

ตอบคำถามแรกของคุณ, ฉันไม่คิดว่ามีใครบางคนที่เป็นตัวหนาที่จะบอกว่าตัวแปรจะถือว่าการกระจายตามปกติโดยไม่มีหลักฐานเพิ่มเติม หากต้องการพูดอะไรเช่นนี้คุณต้องมีอย่างน้อย qq-plot ฮิสโตแกรมการทดสอบความเหมาะสมหรือการรวมกันของสิ่งเหล่านั้น

เพื่อตอบคำถามที่สองความสนใจโดยเฉพาะในการแจกแจงแบบปกติคือการทดสอบแบบดั้งเดิมจำนวนมากตั้งอยู่บนสมมติฐานของความเป็นปกติของตัวแปรเช่นการทดสอบ t หรือ χ2- ทดสอบความแปรปรวน ดังนั้นภาวะปกติจะทำให้งานง่ายขึ้นนั่นคือทั้งหมด


ขอบคุณสำหรับคำตอบที่สัมผัสกับประเด็นสำคัญมากมาย อย่างไรก็ตามฉันมักจะคิดว่าสิ่งต่าง ๆ ใน "โลกแห่งความเป็นจริง" ของวิทยาศาสตร์ประยุกต์นั้นมีโครงสร้างน้อยกว่าและมักใช้การแทนเจนต์โดยตรงเพื่อใช้เป็นบรรทัดฐาน
Antoni Parellada

1
สิ่งที่ฉันไม่ได้กล่าวถึงคือส่วนอื่น ๆ ของประวัติศาสตร์หากการแจกแจงแบบปกติ: เป็นการ จำกัด การกระจายของมาตรฐานของผลรวมของตัวแปรสุ่มแบบสุ่มตามที่ระบุไว้ในทฤษฎีบทของขีด จำกัด กลาง หากคุณสามารถพูดได้ว่าตัวแปรของคุณเป็นผลรวมของตัวแปรสุ่มหลาย ๆ แบบของ iid เช่นในการให้เหตุผลหลังการเคลื่อนไหวบราวน์แล้วคุณสามารถพูดได้ว่ามันเป็นตัวแปรสุ่มแบบปกติ นั่นเป็นทางลัดเดียวที่ฉันรู้ ฉันสามารถรวมไว้ในคำตอบหากคุณต้องการ
toneloy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.