อะไรคือความสำคัญของฟังก์ชั่นในสถิติ?


19

ในชั้นเรียนแคลคูลัสของเราเราพบฟังก์ชันหรือ "bell curve" และฉันถูกบอกว่ามีแอปพลิเคชันบ่อยในสถิติอี-x2

ฉันอยากถามว่า: ฟังก์ชั่นมีความสำคัญในสถิติหรือไม่? ถ้าใช่มันเกี่ยวกับที่ทำให้มีประโยชน์และมีแอปพลิเคชันอะไรบ้าง e - x 2อี-x2อี-x2

ฉันไม่สามารถหาข้อมูลมากเกี่ยวกับการทำงานบนอินเทอร์เน็ต แต่หลังจากทำวิจัยบางอย่างผมพบความเชื่อมโยงระหว่างเส้นโค้งระฆังทั่วไปและสิ่งที่เรียกว่าการกระจายปกติ หน้าวิกิพีเดียเชื่อมโยงเหล่านี้ประเภทของฟังก์ชั่นเพื่อการประยุกต์ใช้สถิติกับไฮไลต์โดยผมว่าฯ :

"การแจกแจงแบบปกติถือเป็นการแจกแจงความน่าจะเป็นที่โดดเด่นที่สุดในสถิติมีหลายเหตุผลสำหรับสิ่งนี้: 1ขั้นแรกการแจกแจงแบบปกติเกิดขึ้นจากทฤษฎีบทขีด จำกัด กลางซึ่งระบุว่าภายใต้เงื่อนไขอ่อนจำนวนผลรวมของตัวแปรสุ่มจำนวนมาก จากการแจกแจงแบบเดียวกันนั้นมีการแจกแจงแบบปกติโดยไม่คำนึงถึงรูปแบบของการแจกแจงดั้งเดิม "

ดังนั้นถ้าฉันรวบรวมข้อมูลจำนวนมากจากการสำรวจบางประเภทหรือสิ่งที่คล้ายกันพวกเขาสามารถกระจายอย่างเท่าเทียมกันระหว่างฟังก์ชั่นเช่น ? ฟังก์ชันนั้นมีความสมมาตรดังนั้นความสมมาตรคือประโยชน์ในการแจกแจงแบบปกติอะไรที่ทำให้มันมีประโยชน์ในทางสถิติ? ฉันแค่คาดเดาอี-x2

โดยทั่วไปแล้วอะไรที่ทำให้มีประโยชน์ในด้านสถิติ? หากการแจกแจงแบบปกติเป็นพื้นที่เพียงอย่างเดียวแล้วอะไรทำให้ไม่ซ้ำกันหรือมีประโยชน์โดยเฉพาะในฟังก์ชั่นประเภท gaussian อื่น ๆ ในการแจกแจงแบบปกติ? e - x 2อี-x2อี-x2


ดีที่จะเริ่มที่ควรอ่าน "หมายถึง" ไม่ "ผลรวม"
อุโมงค์

2
ผลรวมเกินไป ท้ายที่สุดมันก็แค่ค่าเฉลี่ยคูณด้วยจำนวนตัวอย่าง
Erik

1
คำพูดแสดงให้เห็นว่าคำสำคัญสำหรับการค้นหารวมถึง "การแจกแจงแบบปกติ" แสดงว่าการค้นหาที่นี่พบว่ากว่า 600 หัวข้อ - ค่าเฉลี่ยของหนึ่งต่อวันตั้งแต่เริ่มต้นเว็บไซต์นี้ ช่วงเวลาสั้น ๆ การอ่านเพลงฮิตเหล่านี้จะช่วยให้ทุกคนชื่นชมบทบาทของ "เส้นโค้งระฆัง" ในสถิติอย่างรวดเร็ว
whuber

4
จากกระทู้ที่มีคะแนนสูงสุดที่เกี่ยวข้องกับการแจกแจงแบบปกติ : "ทุกคนเชื่อในกฎข้อผิดพลาดแบบเอ็กซ์โพเนนเชียล [กล่าวคือการแจกแจงแบบปกติ]: นักทดลองเพราะพวกเขาคิดว่ามันสามารถพิสูจน์ได้ด้วยคณิตศาสตร์และนักคณิตศาสตร์เพราะพวกเขาเชื่อว่า ถูกจัดตั้งขึ้นโดยการสังเกต "
whuber

ดูคำตอบสำหรับคำถามของฉัน "สิ่งที่เป็นลักษณะที่น่าแปลกใจที่สุดของการกระจายแบบเกาส์เซียน
robin girard

คำตอบ:


12

เหตุผลที่ฟังก์ชั่นนี้มีความสำคัญคือการกระจายตัวแบบปกติและคู่หูที่เชื่อมโยงอย่างใกล้ชิดซึ่งเป็นทฤษฎีบทขีด จำกัด กลาง (เรามีคำอธิบายที่ดีเกี่ยวกับ CLT ในคำถามอื่น ๆที่นี่)

ในสถิติ CLT โดยทั่วไปสามารถใช้ในการคำนวณความน่าจะเป็นโดยประมาณทำให้ข้อความเช่น "เรามั่นใจ 95% ว่า ... " เป็นไปได้ (ความหมายของ "มั่นใจ 95%" มักเข้าใจผิด แต่เป็นเรื่องที่แตกต่างกัน)

ฟังก์ชันคือ (รุ่นที่ปรับขนาด) ฟังก์ชันความหนาแน่นของการแจกแจงแบบปกติ หากปริมาณสุ่มสามารถสร้างแบบจำลองโดยใช้การแจกแจงปกติฟังก์ชั่นนี้จะอธิบายว่าค่าที่เป็นไปได้ที่แตกต่างกันของปริมาณดังกล่าวนั้นเป็นไปได้อย่างไร ผลลัพธ์ในภูมิภาคที่มีความหนาแน่นสูงมีแนวโน้มมากกว่าผลลัพธ์ในภูมิภาคที่มีความหนาแน่นต่ำประสบการณ์(-(x-μ)22σ2)

σ μ μ σ x = μ x μ σμและเป็นพารามิเตอร์ที่กำหนดตำแหน่งและขนาดของฟังก์ชันความหนาแน่น มันสมมาตรเกี่ยวกับดังนั้นการเปลี่ยนหมายความว่าคุณเปลี่ยนฟังก์ชันไปทางขวาหรือไปทางซ้าย กำหนดค่าของฟังก์ชั่นความหนาแน่นที่สูงสุด ( ) และวิธีการอย่างรวดเร็วมันจะไปเป็น 0ย้ายออกไปจาก\ในแง่นั้นการเปลี่ยนเปลี่ยนขนาดของฟังก์ชันσμμσx=μxμσ

สำหรับทางเลือกโดยเฉพาะและความหนาแน่น (ตามสัดส่วน)2} นี่ไม่ใช่ตัวเลือกที่น่าสนใจอย่างยิ่งสำหรับพารามิเตอร์เหล่านี้ แต่มีประโยชน์ในการให้ฟังก์ชันความหนาแน่นที่ดูง่ายกว่าเล็กน้อยσ = 1 / μ=0 e - x 2σ=1/2อี-x2

บนมืออื่น ๆ ที่เราสามารถไปจากความหนาแน่นปกติอื่น ๆ จากการเปลี่ยนแปลงของตัวแปรซิก} เหตุผลที่ตำราเรียนของคุณบอกว่าและไม่ใช่เป็นเรื่องที่ดีมาก ฟังก์ชั่นที่สำคัญคือนั้นง่ายต่อการเขียน x = u - μอี-x2x=ยู-μ2σอี-x2ประสบการณ์(-(x-μ)22σ2)อี-x2


1
(+1) ประโยคแรกของย่อหน้าสุดท้าย: ผมอาจจะบอกว่าเป็นสัดส่วนกับในสถานที่มี
พระคาร์ดินัล

@cardinal: ขอบคุณคุณพูดถูก! ฉันแก้ไขคำตอบ
MånsT

1
+1, ฉันชอบคำตอบนี้จริงๆ สิ่งหนึ่งที่อาจคุ้มค่าที่จะชี้ให้เห็นก็คือไฟล์ PDF ของปกตินั้นมักเขียนด้วย12πσ22πσ2

3

ประสบการณ์(-x2)ประสบการณ์(-x2)

และการแจกแจงแบบปกตินั้นมีความสำคัญเนื่องจาก ("ภายใต้เงื่อนไขที่ไม่รุนแรง") ผลรวมของตัวแปรสุ่มแบบอิสระและแบบกระจายจำนวนมากเข้าใกล้ปกติเมื่อ "หลายคน" เข้าใกล้อนันต์

ไม่ใช่ทุกอย่างที่กระจายตามปกติ ตัวอย่างเช่นผลการสำรวจของคุณอาจไม่ได้อย่างน้อยถ้าการตอบสนองไม่ได้อยู่ในระดับต่อเนื่อง แต่สิ่งที่ชอบจำนวนเต็ม 1-5 แต่ค่าเฉลี่ยของผลลัพธ์จะกระจายไปตามการสุ่มตัวอย่างซ้ำ ๆ เพราะค่าเฉลี่ยนั้นเป็นเพียงผลรวมที่ปรับขนาด (normalized) และการตอบกลับของแต่ละบุคคลนั้นไม่ขึ้นกับใคร แน่นอนว่าตัวอย่างมีขนาดใหญ่พอแน่นอนเพราะการพูดอย่างเคร่งครัดภาวะปกติจะปรากฏเฉพาะเมื่อขนาดของตัวอย่างไม่มีที่สิ้นสุด

ดังที่คุณเห็นจากตัวอย่างการแจกแจงแบบปกติอาจปรากฏขึ้นเป็นผลมาจากการประมาณค่าหรือกระบวนการสร้างแบบจำลองแม้ว่าข้อมูลจะไม่กระจายตามปกติ ดังนั้นการแจกแจงแบบปกติจึงมีอยู่ทั่วไปในสถิติ ในสถิติแบบเบย์การแจกแจงพารามิเตอร์ด้านหลังจำนวนมากเป็นปกติโดยประมาณหรือสามารถสันนิษฐานได้ว่าเป็น


อี-x2

พวกเขาไม่ได้มีความหมายเหมือนกันขอบคุณที่ชี้ให้เห็น (ความตั้งใจของฉันไม่ได้ถูกต้องแม่นยำเพียงเข้าใจไม่ใช่สถิติมีคำตอบที่แม่นยำดีอยู่แล้ว.)
scellus

-1

n01/nn


ห้องแชทได้รับการสร้างขึ้นสำหรับความคิดเห็นสำหรับคำถามนี้ที่chat.stackexchange.com/rooms/3720/… . ฉันได้ลบความคิดเห็นทั้งหมด (50!) และล็อคโพสต์นี้เพื่อป้องกันการใช้กลไกการแสดงความคิดเห็นในทางที่ผิด
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.