“ การแจกจ่ายปกติ” จำเป็นต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดหรือไม่?


17

ฉันกำลังถกเถียงกับอาจารย์สถิติระดับบัณฑิตศึกษาเกี่ยวกับ "การแจกแจงแบบปกติ" ฉันขอยืนยันว่าการได้รับการแจกแจงแบบปกติอย่างแท้จริงต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดข้อมูลทั้งหมดจะต้องอยู่ภายใต้เส้นโค้งรูประฆังและสมมาตรรอบ ๆ ค่าเฉลี่ยอย่างสมบูรณ์ ดังนั้นในทางเทคนิคแล้วไม่มีการแจกแจงแบบปกติในการศึกษาจริงและเราควรเรียกพวกมันอย่างอื่นบางทีอาจจะ "ใกล้เคียงปกติ"

เธอบอกว่าฉันจู้จี้จุกจิกมากเกินไปและถ้าความเบ้ / ความโด่งต่ำกว่า 1.0 มันเป็นการแจกแจงแบบปกติและเอาคะแนนไปสอบ ชุดข้อมูลคือจำนวนรวมของน้ำตก / ปีในการสุ่มตัวอย่างจากบ้านพักคนชรา 52 แห่งซึ่งเป็นกลุ่มตัวอย่างที่สุ่มของประชากรขนาดใหญ่ ความเข้าใจใด ๆ

ปัญหา:

คำถาม: 3. คำนวณหาค่าความเบ้และความโด่งของข้อมูลนี้ รวมฮิสโตแกรมด้วยเส้นโค้งปกติ อภิปรายสิ่งที่คุณค้นพบ มีการกระจายข้อมูลตามปกติหรือไม่

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

มีหลายโหมด ค่าที่น้อยที่สุดจะปรากฏขึ้น

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

คำตอบของฉัน:

ข้อมูลเป็น platykurtic และมีการบิดเบือนในเชิงบวกเพียงเล็กน้อยเท่านั้นและไม่ใช่การแจกแจงแบบปกติเพราะค่าเฉลี่ยและค่ามัธยฐานและโหมดไม่เท่ากันและข้อมูลไม่ได้กระจายอย่างเท่าเทียมกันทั่วค่าเฉลี่ย ในความเป็นจริงแทบไม่มีข้อมูลใดที่จะเป็นการแจกแจงแบบปกติที่สมบูรณ์แบบแม้ว่าเราจะสามารถพูดถึง "การแจกแจงแบบปกติโดยประมาณ" เช่นความสูงน้ำหนักอุณหภูมิหรือความยาวของนิ้วนางผู้ใหญ่ในกลุ่มประชากรขนาดใหญ่

คำตอบของอาจารย์:

คุณถูกต้องว่าไม่มีการแจกแจงแบบปกติอย่างสมบูรณ์ แต่เราไม่ได้มองหาความสมบูรณ์แบบ เราต้องดูข้อมูลเพิ่มเติมจากฮิสโตแกรมและการวัดแนวโน้มกลาง สถิติความเบ้และความโด่งเป็นอย่างไรบอกคุณเกี่ยวกับการแจกแจง เนื่องจากทั้งคู่อยู่ระหว่างค่าวิกฤตของ -1 และ +1 ข้อมูลนี้จึงถือว่าเป็นการกระจายตามปกติ


3
ฉันต้องการทราบถ้อยคำที่แน่นอนของอาจารย์ของคุณ โดยหลักการแล้วการแจกแจงแบบปกติมีค่าเฉลี่ยมัธยฐานและโหมดเหมือนกัน (แต่มีการแจกแจงอื่น ๆ อีกมากมาย) และมีความเบ้ 0 และ (เรียกว่าเกิน) kurtosis 0 (และการแจกแจงอื่น ๆ ) ที่ดีที่สุดกับการกระจาย (เช่น) เบ้เล็กน้อยหรือโด่งเป็นประมาณปกติ โปรดทราบว่าข้อมูลจริงเกือบทั้งหมดมีความใกล้เคียงที่สุดกับการแจกแจงแบบตั้งชื่อในโรงเลี้ยงสัตว์ตามทฤษฎี
Nick Cox

22
ฉันไม่เห็นด้วยกับ @ user2974951 ใน บริษัท ที่มีข้อความดีๆทุกเรื่องฉันรู้ว่าฉันมีความสุขอย่างสมบูรณ์ที่คิดว่าการแจกแจงแบบปกติมีค่ามัธยฐานและโหมด และนั่นนำไปใช้อย่างกว้างขวางกับการแจกแจงแบบต่อเนื่องแม้ว่าฉันจะไม่สงสัยเลยว่าสามารถระบุตัวอย่างทางพยาธิวิทยาได้
Nick Cox

4
ขอบคุณสำหรับรายละเอียดที่เฉพาะเจาะจงซึ่งแสดงให้เห็นถึงความดีงามทั้งสองด้าน แต่ฉันไม่ได้ให้คะแนนคุณ อย่างไรก็ตามฉันไม่เห็นด้วยอย่างยิ่งกับคำวิจารณ์ค่านิยมที่ศาสตราจารย์ของคุณใช้เนื่องจากข้อ จำกัดสำหรับความเบ้และความโด่งไม่มีจุดยืนใด ๆ เลยนอกจากเป็นกฎง่ายๆที่อาจถูกนำมาใช้ ขึ้นอยู่กับสิ่งที่คุณทำกับข้อมูลความเบ้< 1อาจไปพร้อมกับต้องการแปลงข้อมูลและความเบ้> 1อาจไปพร้อมกับการทิ้งข้อมูลไว้และคล้ายกันกับ kurtosis ±1<1>1
Nick Cox

6
ถ้าเราปล่อยให้ตัวเองยอมรับศิลปะของ nitpicking อย่างจริงจังเราควรสังเกตว่าไม่มีการตกเชิงลบและการตกหล่นนั้นไม่ต่อเนื่องดังนั้นการแจกแจงแบบพฤตินัยจึงไม่ปกติ สิ่งนี้ทำให้คำถามเป็นโมฆะในตอนแรก ในบันทึกที่ร้ายแรงกว่านั้นคำถามนี้เป็นตัวอย่างที่ประดิษฐ์ขึ้นอย่างชัดเจนโดยมีวัตถุประสงค์เพื่อตรวจสอบกฎง่ายๆ ในความเป็นจริงขึ้นอยู่กับวัตถุประสงค์ของการศึกษาของเรามันอาจมีเหตุผลหรือไม่ที่จะถือว่าการกระจายตัวปกติ ในความเป็นจริงเราจะไม่มีทางรู้ว่าเรามีเพียงตัวอย่าง
Ioannis

5
@ user2974951 คุณควรพิจารณาลบความคิดเห็นแรกของคุณเนื่องจากคุณไม่เห็นด้วยกับตอนนี้ จนถึงตอนนี้มันหลอกผู้อ่านสามคนให้ส่งสัญญาณว่าพวกเขาเห็นด้วยกับมัน!
whuber

คำตอบ:


25

ปัญหาในการพูดคุยกับอาจารย์เป็นหนึ่งในคำศัพท์มีความเข้าใจผิดที่เกิดขึ้นในการถ่ายทอดความคิดที่มีประโยชน์ ในสถานที่ต่าง ๆ คุณทั้งคู่ทำผิดพลาด

ดังนั้นสิ่งแรกที่ต้องพูดถึง: สิ่งสำคัญคือต้องมีความชัดเจนเกี่ยวกับการกระจายตัว

ปกติการจัดจำหน่ายเป็นวัตถุทางคณิตศาสตร์ที่เฉพาะเจาะจงซึ่งคุณสามารถพิจารณาเป็นแบบจำลองสำหรับประชากรที่ไม่มีที่สิ้นสุดของค่า (ไม่มีประชากรที่แน่นอนสามารถมีการกระจายอย่างต่อเนื่อง)

สิ่งที่การกระจายนี้ทำ (เมื่อคุณระบุพารามิเตอร์) คือการกำหนด (ผ่านนิพจน์พีชคณิต) สัดส่วนของค่าประชากรที่อยู่ภายในช่วงเวลาใด ๆ ที่กำหนดในบรรทัดจริง มีความเป็นไปได้น้อยที่จะกำหนดค่าความน่าจะเป็นที่ค่าเดียวจากประชากรนั้นจะอยู่ในช่วงเวลาใดก็ตาม

ตัวอย่างที่สังเกตไม่ได้มีการแจกแจงแบบปกติ ตัวอย่างอาจถูกดึงออกมาจากการแจกแจงแบบปกติหากมีอยู่ หากคุณดู cdf เชิงประจักษ์ของตัวอย่างมันไม่ต่อเนื่อง หากคุณวางไว้ (ในฮิสโตแกรม) ตัวอย่างจะมี "การแจกแจงความถี่" แต่นั่นไม่ใช่การแจกแจงแบบปกติ การแจกแจงสามารถบอกเราบางอย่าง (ในแง่ความน่าจะเป็น) เกี่ยวกับตัวอย่างสุ่มจากประชากรและตัวอย่างอาจบอกเราบางอย่างเกี่ยวกับประชากร

การตีความที่สมเหตุสมผลของวลีเช่น "ตัวอย่างที่กระจายแบบปกติ" * คือ "ตัวอย่างแบบสุ่มจากประชากรที่กระจายตัวแบบปกติ"

* (โดยทั่วไปฉันพยายามหลีกเลี่ยงที่จะพูดด้วยตัวเองด้วยเหตุผลที่หวังไว้ชัดเจนว่าที่นี่ฉันมักจะ จำกัด ตัวเองให้อยู่ในการแสดงออกประเภทที่สอง)

มีข้อกำหนดที่กำหนดไว้ (ถ้ายังหลวม) ให้เราดูคำถามโดยละเอียด ฉันจะตอบคำถามที่เฉพาะเจาะจง

การแจกแจงปกติต้องมีค่าเฉลี่ย = มัธยฐาน = โหมด

นี่เป็นเงื่อนไขในการแจกแจงความน่าจะเป็นปกติแม้ว่าจะไม่ใช่ข้อกำหนดในตัวอย่างที่ดึงมาจากการแจกแจงแบบปกติ ตัวอย่างอาจไม่สมมาตรอาจมีค่าเฉลี่ยแตกต่างจากค่ามัธยฐานเป็นต้น [เราสามารถรู้ได้ว่าเราจะคาดหวังว่าพวกเขาจะห่างกันมากแค่ไหนถ้ากลุ่มตัวอย่างมาจากประชากรปกติจริง ๆ ]

ข้อมูลทั้งหมดจะต้องอยู่ภายใต้เส้นโค้งระฆัง

ฉันไม่แน่ใจว่าสิ่งที่ "อยู่ภายใต้" หมายถึงในแง่นี้

และสมมาตรรอบ ๆ ค่าเฉลี่ยอย่างสมบูรณ์แบบ

ไม่มี คุณกำลังพูดถึงข้อมูลที่นี่และตัวอย่างจากประชากรปกติ (สมมาตรแน่นอน) จะไม่สมมาตรอย่างสมบูรณ์แบบ

ดังนั้นในทางเทคนิคแล้วไม่มีการแจกแจงปกติในการศึกษาจริง

ฉันเห็นด้วยกับข้อสรุปของคุณแต่เหตุผลไม่ถูกต้อง มันไม่ได้เป็นผลมาจากความจริงที่ว่าข้อมูลไม่สมมาตรอย่างสมบูรณ์แบบ (ฯลฯ ); มันเป็นความจริงที่ว่าประชากรตัวเองไม่ปกติอย่างสมบูรณ์

ถ้าเอียง / kurtosis น้อยกว่า 1.0 จะเป็นการแจกแจงแบบปกติ

ถ้าเธอพูดแบบนี้เธอก็ผิดแน่นอน

ตัวอย่างความเบ้อาจจะใกล้เคียงกับ 0 มากกว่านั้น (การ "น้อยกว่า" ให้มีค่าเฉลี่ยสัมบูรณ์ไม่ใช่ค่าจริง) และค่าความเกินตัวอย่างอาจมีค่าใกล้เคียงกับ 0 มากกว่านั้น (อาจจะไม่ว่าโดยบังเอิญหรือ การก่อสร้างอาจมีค่าเกือบเป็นศูนย์) และการกระจายตัวอย่างที่วาดนั้นอาจไม่ธรรมดา

เราสามารถไปต่อได้ - แม้ว่าเราจะต้องรู้อย่างน่าอัศจรรย์ว่าความเบ้ของประชากรและความโด่งเป็นเรื่องปกติ แต่ก็ไม่ได้บอกตัวเองว่าประชากรเป็นปกติหรือแม้แต่บางสิ่งที่ใกล้เคียงปกติ

ชุดข้อมูลคือจำนวนรวมของน้ำตก / ปีในการสุ่มตัวอย่างจากบ้านพักคนชรา 52 แห่งซึ่งเป็นกลุ่มตัวอย่างที่สุ่มของประชากรขนาดใหญ่

การกระจายจำนวนประชากรของการนับไม่ปกติ จำนวนนั้นเป็นแบบไม่ต่อเนื่องและไม่เป็นลบการแจกแจงแบบปกตินั้นต่อเนื่องและทั่วทั้งเส้นจริง

แต่เรามุ่งเน้นไปที่ปัญหาที่ผิดที่นี่จริงๆ แบบจำลองความน่าจะเป็นเป็นแบบนั้น ขอให้เราไม่ได้สร้างความสับสนให้รุ่นของเรากับสิ่งที่จริง

ปัญหาไม่ได้ "เป็นข้อมูลปกติหรือไม่" (ไม่สามารถเป็นได้) หรือแม้แต่ "ประชากรที่ดึงข้อมูลมาเป็นปกติหรือไม่" (นี่แทบจะไม่เกิดขึ้นเลย)

คำถามที่มีประโยชน์มากขึ้นในการพูดคุยคือ "การอนุมานของฉันจะได้รับผลกระทบอย่างไรถ้าฉันปฏิบัติต่อประชากรตามการกระจายตามปกติ"

นอกจากนี้ยังเป็นคำถามที่ตอบยากกว่ามากและอาจต้องทำงานมากกว่าการใช้การวินิจฉัยง่ายๆ

สถิติตัวอย่างที่คุณแสดงนั้นไม่สอดคล้องกับความปกติ (คุณสามารถดูสถิติเช่นนั้นหรือ "แย่ลง" ไม่น่ากลัวถ้าคุณมีตัวอย่างสุ่มขนาดนั้นจากประชากรปกติ) แต่นั่นไม่ได้หมายความว่าประชากรจริง ซึ่งตัวอย่างถูกวาดโดยอัตโนมัติ "ใกล้พอ" เป็นปกติสำหรับวัตถุประสงค์เฉพาะ มันจะเป็นสิ่งสำคัญที่จะต้องพิจารณาวัตถุประสงค์ (คำถามที่คุณตอบ) และความทนทานของวิธีการที่ใช้กับมันและถึงแม้ว่าเราอาจยังไม่แน่ใจว่ามันเป็น "ดีพอ"; บางครั้งอาจเป็นการดีกว่าที่จะไม่คาดเดาสิ่งที่เราไม่มีเหตุผลที่ดีที่จะคาดเดามาก่อน (เช่นบนพื้นฐานของประสบการณ์กับชุดข้อมูลที่คล้ายกัน)

มันไม่ใช่การแจกแจงแบบปกติ

ข้อมูล - ข้อมูลที่ดึงมาจากประชากรปกติ - ไม่เคยมีคุณสมบัติของประชากรแน่นอน จากตัวเลขเหล่านี้เพียงอย่างเดียวคุณไม่มีพื้นฐานที่ดีในการสรุปว่าประชากรไม่ปกติ

ในทางกลับกันเราไม่ได้มีพื้นฐานที่มั่นคงพอสมควรที่จะบอกว่ามัน "ใกล้พอ" ตามปกติ - เรายังไม่ได้พิจารณาถึงวัตถุประสงค์ของการใช้กฎเกณฑ์ทั่วไปดังนั้นเราจึงไม่ทราบว่าคุณลักษณะการกระจายแบบใดนั้นอาจมีความอ่อนไหว

ตัวอย่างเช่นถ้าฉันมีตัวอย่างสองตัวอย่างสำหรับการวัดที่ถูก จำกัด ขอบเขตฉันรู้ว่าจะไม่แยกกันอย่างหนัก (ไม่ใช่เพียงการรับค่าที่แตกต่างกันสองสามอย่าง) และใกล้กับสมมาตรฉันอาจมีความสุขที่จะใช้ตัวอย่างสองตัวอย่าง ทดสอบทีที่ขนาดตัวอย่างที่ไม่เล็ก มันมีความแข็งแกร่งปานกลางถึงความเบี่ยงเบนเล็กน้อยจากสมมติฐาน (ค่อนข้างระดับที่แข็งแกร่งไม่ใช่พลังงานที่แข็งแกร่ง) แต่ฉันจะระมัดระวังมากขึ้นเกี่ยวกับการใช้เหตุผลเชิงบรรทัดฐานเมื่อทดสอบความเท่าเทียมกันของการแพร่กระจายเนื่องจากการทดสอบที่ดีที่สุดภายใต้สมมติฐานนั้นค่อนข้างอ่อนไหวต่อสมมติฐาน

เนื่องจากทั้งคู่อยู่ระหว่างค่าวิกฤตของ -1 และ +1 ข้อมูลนี้จึงถูกพิจารณาว่ามีการเผยแพร่ตามปกติ "

หากนั่นเป็นเกณฑ์ที่ผู้ตัดสินใจใช้แบบจำลองการกระจายแบบปกติบางครั้งมันจะนำคุณไปสู่การวิเคราะห์ที่ค่อนข้างแย่

ค่าของสถิติเหล่านั้นให้เบาะแสบางอย่างแก่เราเกี่ยวกับประชากรที่ดึงตัวอย่าง แต่นั่นก็ไม่ได้เป็นเช่นเดียวกันกับที่บอกว่าค่าของพวกเขานั้นเป็น 'แนวทางที่ปลอดภัย' ในการเลือกการวิเคราะห์


ตอนนี้เพื่อแก้ไขปัญหาพื้นฐานด้วยคำถามที่เป็นวลีที่ดียิ่งขึ้นเช่นเดียวกับคำถามที่คุณมี:

กระบวนการทั้งหมดในการดูตัวอย่างเพื่อเลือกแบบจำลองนั้นเต็มไปด้วยปัญหา - การทำเช่นนั้นจะเปลี่ยนแปลงคุณสมบัติของตัวเลือกการวิเคราะห์ที่ตามมาใด ๆ ตามสิ่งที่คุณเห็น! เช่นสำหรับการทดสอบสมมติฐานระดับนัยสำคัญค่า p และค่ากำลังไม่ใช่สิ่งที่คุณจะเลือก / คำนวณให้เป็นเพราะการคำนวณเหล่านั้นเป็นการวิเคราะห์ล่วงหน้าที่ไม่ได้อิงกับข้อมูล

ดูตัวอย่างเช่น Gelman และ Loken (2014), " The Crisis Crisis in Science ," นักวิทยาศาสตร์ชาวอเมริกันเล่มที่ 102, หมายเลข 6, p 460 (DOI: 10.1511 / 2014.111.460) ซึ่งกล่าวถึงปัญหาเกี่ยวกับการวิเคราะห์ข้อมูล


สวัสดีปีเตอร์ขอโทษด้วยที่ฉันไม่เห็นโพสต์ของคุณที่นั่น
Glen_b -Reinstate Monica

การสนทนานี้ได้รับการย้ายไปแชท
Glen_b -Reinstate Monica

41

คุณพลาดจุดและอาจจะเป็น "ยาก" ซึ่งไม่เป็นที่นิยมในอุตสาหกรรม เธอแสดงตัวอย่างของเล่นเพื่อฝึกคุณในการประเมินความเป็นมาตรฐานของชุดข้อมูลซึ่งจะบอกว่าชุดข้อมูลนั้นมาจากการแจกแจงแบบปกติหรือไม่ การดูช่วงเวลาการกระจายสินค้าเป็นวิธีหนึ่งในการตรวจสอบความเป็นมาตรฐานเช่นการทดสอบ Jarque Beraขึ้นอยู่กับการประเมินดังกล่าว

ใช่การกระจายตัวปกติสมมาตรอย่างสมบูรณ์แบบ อย่างไรก็ตามหากคุณวาดตัวอย่างจากการแจกแจงแบบปกติจริงตัวอย่างนั้นอาจไม่สมมาตรกันอย่างสมบูรณ์ นี่คือจุดที่คุณขาดหายไปโดยสิ้นเชิง คุณสามารถทดสอบสิ่งนี้ได้อย่างง่ายดายด้วยตัวคุณเอง เพียงสร้างตัวอย่างจากการแจกแจงแบบเกาส์และตรวจสอบช่วงเวลาของมัน พวกเขาจะไม่สมบูรณ์แบบ "ปกติ" แม้จะมีการแจกแจงที่แท้จริง

นี่เป็นตัวอย่างของ Python ที่ไร้สาระ ฉันกำลังสร้างตัวอย่าง 100 ตัวอย่างจาก 100 ตัวเลขสุ่มจากนั้นได้ค่าเฉลี่ยและค่ามัธยฐาน ฉันพิมพ์ตัวอย่างแรกเพื่อแสดงว่าค่าเฉลี่ยและค่ามัธยฐานนั้นแตกต่างกันแล้วแสดงฮิสโตแกรมของความแตกต่างระหว่างค่าเฉลี่ยและค่ามัธยฐาน คุณจะเห็นว่ามันค่อนข้างแคบ แต่โดยทั่วไปแล้วความแตกต่างจะไม่เป็นศูนย์ ทราบว่าตัวเลขที่มีอย่างแท้จริงมาจากการกระจายปกติ

รหัส:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

เอาท์พุท: ป้อนคำอธิบายรูปภาพที่นี่

PS

ตอนนี้ไม่ว่าตัวอย่างจากคำถามของคุณควรได้รับการพิจารณาว่าเป็นเรื่องปกติหรือไม่นั้นขึ้นอยู่กับบริบท ในบริบทของสิ่งที่ได้รับการสอนในห้องพักชั้นเรียนของคุณที่คุณกำลังผิดเพราะอาจารย์ของคุณอยากจะดูว่าคุณรู้กฎของการทดสอบนิ้วหัวแม่มือที่เธอให้ซึ่งเป็นที่ลาดและส่วนที่เกินความจำเป็นโด่งที่จะอยู่ใน -1 ถึง 1 พิสัย.

โดยส่วนตัวฉันไม่เคยใช้กฎง่ายๆนี้ (ฉันไม่สามารถเรียกได้ว่าเป็นการทดสอบ) และไม่รู้ด้วยซ้ำว่ามีอยู่จริง เห็นได้ชัดว่าบางคนในบางสาขาใช้มันได้ ถ้าคุณจะเสียบชุดคำอธิบายชุดข้อมูลของคุณลงในการทดสอบ JB มันจะปฏิเสธความปกติ ดังนั้นคุณไม่ผิดที่จะแนะนำว่าชุดข้อมูลนั้นไม่ปกติแน่นอน แต่คุณผิดในแง่ที่ว่าคุณไม่สามารถใช้กฎที่คาดหวังจากคุณตามสิ่งที่ได้รับการสอนในชั้นเรียน

ถ้าฉันเป็นคุณฉันจะเข้าหาอาจารย์อย่างสุภาพและอธิบายตัวเองรวมทั้งแสดงผลการทดสอบ JB ฉันยอมรับว่าจากการทดสอบของเธอคำตอบของฉันนั้นผิด หากคุณพยายามโต้เถียงกับเธอในแบบที่คุณโต้เถียงโอกาสของคุณอยู่ในระดับต่ำมากเพื่อให้ได้คะแนนกลับมาในการทดสอบเนื่องจากเหตุผลของคุณอ่อนแอเกี่ยวกับค่ามัธยฐานและค่าเฉลี่ยและตัวอย่างมันแสดงว่าขาดความเข้าใจตัวอย่างกับประชากร หากคุณเปลี่ยนเพลงแล้วคุณจะมีกรณี


23
(+1) ตรงประเด็น ความสับสนของตัวแปรสุ่มและตัวอย่างของการรับรู้จากตัวแปรสุ่มนั้น
ซีอาน

15
เสื้อ

มันจะยุติธรรมที่จะบอกว่าถ้าตัวอย่างของคุณกระจายอย่างสมบูรณ์แบบปกตินั่นคือหลักฐานสตริงที่ตัวอย่างไม่สุ่ม?
JimmyJames

@JimmyJames เมื่อ 4 ปีที่แล้วมีบทความทางวิทยาศาสตร์ที่อ้างว่าการสนทนา 20 นาทีกับผู้หาเสียงเกย์สามารถเปลี่ยนความรู้สึกของคุณที่มีต่อคนเกย์ ปรากฎว่าผู้เขียนสร้างข้อมูลการสำรวจของพวกเขา พวกเขาขี้เกียจเกินไปและสร้างเสียงเกาส์เซียนอย่างสมบูรณ์และนั่นคือสิ่งที่พวกเขาถูกจับได้ - ดูความผิดปกติใน LaCour (2014) โดย Broockman et al
Aksakal

@Aksakal ฉันไม่แน่ใจว่าเป็นสิ่งเดียวกับที่ฉันถาม ในกรณีนี้ฉันคิดว่าข้อโต้แย้งในกรณีนั้นคือข้อมูลจริงไม่เคยเป็นปกติอย่างสมบูรณ์ ฉันเริ่มจากคำแถลงของคุณ "อย่างไรก็ตามถ้าคุณดึงตัวอย่างจากการแจกแจงปกติจริงตัวอย่างนั้นน่าจะไม่สมมาตรอย่างสมบูรณ์" หากฉันสุ่มตัวอย่างจากการแจกแจงแบบปกติที่สมบูรณ์แบบฉันจะไม่คาดหวังว่าจุดข้อมูลต่อเนื่องแต่ละจุดจะตกหล่นในตำแหน่งที่จำเป็นต้องกรอกข้อมูลในเส้นโค้งปกติที่สมบูรณ์แบบ ดูเหมือนว่าจะเป็นขั้นตอนการคัดเลือกที่ไม่ใช่แบบสุ่มสำหรับฉัน
JimmyJames

6

ครูชัดเจนจากองค์ประกอบของเขา / เธอและอาจไม่ควรสอนสถิติ มันแย่กว่าที่ฉันจะสอนอะไรผิดไปกว่าจะไม่สอนอะไรเลย

ปัญหาเหล่านี้สามารถแก้ไขได้อย่างง่ายดายหากความแตกต่างระหว่าง "ข้อมูล" และ "กระบวนการที่สร้างข้อมูล" นั้นชัดเจนยิ่งขึ้น Data กำหนดเป้าหมายกระบวนการที่สร้างข้อมูล การแจกแจงแบบปกติเป็นแบบจำลองสำหรับกระบวนการนี้

มันไม่มีเหตุผลที่จะพูดถึงว่าข้อมูลถูกกระจายตามปกติ ด้วยเหตุผลหนึ่งข้อมูลจะไม่ต่อเนื่องเสมอ ด้วยเหตุผลอื่นการแจกแจงแบบปกติจะอธิบายจำนวนอนันต์ของปริมาณที่สังเกตได้ไม่ใช่ชุด จำกัด ของปริมาณที่สังเกตได้

นอกจากนี้คำตอบสำหรับคำถาม "เป็นกระบวนการที่สร้างข้อมูลซึ่งเป็นกระบวนการที่กระจายตามปกติ" ก็คือ "ไม่" เสมอโดยไม่คำนึงถึงข้อมูล สองเหตุผลง่ายๆ: (i) การวัดใด ๆ ที่เราทำนั้นไม่จำเป็นต้องแยกออกจากกัน (ii) สมมาตรที่สมบูรณ์แบบเช่นวงกลมที่สมบูรณ์ไม่มีอยู่ในธรรมชาติที่สังเกตได้ มีข้อบกพร่องเสมอ

ที่ดีที่สุดคำตอบสำหรับคำถาม "ข้อมูลเหล่านี้บอกอะไรคุณเกี่ยวกับความปกติของกระบวนการสร้างข้อมูล" ดังนี้: "ข้อมูลเหล่านี้สอดคล้องกับสิ่งที่เราคาดหวังว่าจะได้รับข้อมูลมาจาก กระบวนการกระจายแบบปกติ " คำตอบนั้นอย่างถูกต้องไม่ได้ข้อสรุปว่าการแจกแจงเป็นเรื่องปกติ

ปัญหาเหล่านี้เข้าใจได้ง่ายมากโดยใช้การจำลอง เพียงจำลองข้อมูลจากการแจกแจงแบบปกติและเปรียบเทียบกับข้อมูลที่มีอยู่ หากข้อมูลมีค่า (0,1,2,3, ... ) แสดงว่ารูปแบบปกตินั้นผิดเพราะไม่ได้สร้างตัวเลขเช่น 0,1,2,3, ... ; แต่จะสร้างตัวเลขด้วยทศนิยมที่ดำเนินต่อไปตลอดกาล (หรืออย่างน้อยที่สุดเท่าที่คอมพิวเตอร์จะอนุญาต) การจำลองดังกล่าวควรเป็นสิ่งแรกที่คุณทำเมื่อเรียนรู้เกี่ยวกับคำถามเรื่องสภาพแวดล้อม จากนั้นคุณสามารถตีความกราฟและสถิติสรุปได้อย่างถูกต้องมากขึ้น


10
ฉันไม่ลดระดับคำตอบของคุณ แต่พิจารณาว่าคุณกำลังตัดสินอาจารย์ที่จบจากคำพูดของนักเรียน เป็นไปได้อย่างไรที่นักเรียนถูกและครูผิด เป็นไปได้หรือไม่ที่นักเรียนจะบิดเบือนความจริงของอาจารย์และบริบทของการสนทนา?
Aksakal

จากประสบการณ์ของฉันและจากคำพูดของนักเรียนฉันพูดได้ว่าครูมีแนวโน้มที่ผิด มีอาจารย์ที่มีการฝึกอบรมอย่างเป็นทางการเล็กน้อยที่สอนหลักสูตรแม้แต่หลักสูตรระดับบัณฑิตศึกษาในมหาวิทยาลัยทุกแห่ง หากหน่วยงานที่ได้รับการรับรองเท่านั้นที่รู้ความจริง!
Peter Westfall

6
@ Possum-Pie ฉันเดาได้เลยว่าคุณคาดหวังอะไรจากคุณ อาจเป็นสถิติ 101-ish ในสถิติดังนั้นคุณต้องดูความเบ้และความโด่ง หากพวกเขาไม่ใกล้พอที่ 0 และ 3 คุณก็บอกว่ามันไม่ปกติ นั่นคือทั้งหมดที่ ในความเป็นจริงนั่นคือสิ่งที่ทดสอบ JB ทำในลักษณะที่เป็นทางการมากขึ้น จุดประสงค์ของการฝึกคือเพื่อให้คุณจำได้ว่าเกาส์เซียนมีความเบี่ยงเบน 0 และความโด่งดัง 3 คุณกำลังเปลี่ยนการออกกำลังกายที่โง่เขลา แต่ไม่จำเป็นนี้ให้กลายเป็นการอภิปรายเชิงปรัชญา
Aksakal

2
ความคิดเห็นของครู "เพราะทั้งคู่อยู่ระหว่างค่าวิกฤตของ -1 และ +1 ข้อมูลนี้ถูกพิจารณาว่ามีการเผยแพร่ตามปกติ" แสดงให้เห็นอย่างแน่นอน (i) ขาดความเข้าใจหรือ (ii) เต็มใจที่จะสอนสิ่งที่เขา / เธอรู้ ผิด. ฉันไม่คิดว่ามันเป็นการสนทนาเชิงปรัชญาที่จะถามคำถามความพร้อมของครูหรือวิธีการสอน
Peter Westfall

3
ภาษา "ความสอดคล้อง" เป็นสิ่งที่ดี แต่ดังที่ Possum-Pie ตั้งข้อสังเกตครูบอกนักเรียนว่า "จากการทดสอบ / วินิจฉัยนี้ข้อมูลเป็นเรื่องปกติ" ซึ่งผิดปกติหลายครั้ง ครู (จิตวิทยาและอื่น ๆ ) จำเป็นต้อง (i) แยกกระบวนการสร้างข้อมูลจากข้อมูล (ii) บอกนักเรียนว่าแบบจำลองปกติและแบบอื่นเป็นแบบจำลองสำหรับกระบวนการสร้างข้อมูล (iii) บอกพวกเขาว่าการแจกแจงแบบปกติอยู่เสมอ ผิดเป็นแบบอย่างโดยไม่คำนึงถึงการวินิจฉัยและ (iv) บอกพวกเขาว่าประเด็นของแบบฝึกหัดคือการวินิจฉัยระดับของความไม่ปกติไม่ตอบใช่ / ไม่ใช่ จากนั้นอธิบายว่าทำไมมันถึงสำคัญ
Peter Westfall

4

ฉันเป็นวิศวกรดังนั้นในโลกของฉันสถิติที่นำมาใช้คือสิ่งที่ฉันเห็นมากที่สุดและได้รับคุณค่าที่เป็นรูปธรรมมากที่สุด หากคุณกำลังจะนำไปใช้งานคุณจะต้องมีพื้นฐานในการปฏิบัติทางทฤษฎีอย่างแน่นหนา: ไม่ว่าจะเป็นเครื่องบินที่สง่างามหรือไม่เครื่องบินก็ต้องบินได้และไม่ผิดพลาด

เมื่อฉันคิดเกี่ยวกับคำถามนี้วิธีที่ฉันเข้าหามันเช่นเดียวกับนักพนันเชิงเทคนิคของฉันที่ทำเช่นนี้คือคิดเกี่ยวกับ "มันมีลักษณะอย่างไรในโลกแห่งความเป็นจริงด้วยการปรากฏตัวของเสียง"

สิ่งที่สองที่ฉันทำคือบ่อยครั้งในการสร้างแบบจำลองที่ช่วยให้ฉันได้รับมือกับคำถาม

นี่เป็นการสำรวจสั้น ๆ :

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

มันให้สิ่งนี้เป็นผลลัพธ์: ป้อนคำอธิบายรูปภาพที่นี่

หมายเหตุ: ระมัดระวังเกี่ยวกับแกน x เนื่องจากมีการปรับขนาดล็อกไม่ใช่ปรับขนาดแบบสม่ำเสมอ

ฉันรู้ว่าค่าเฉลี่ยและค่ามัธยฐานเป็นค่าเดียวกัน รหัสบอกว่ามัน การรับรู้เชิงประจักษ์นั้นมีความอ่อนไหวอย่างมากต่อขนาดตัวอย่างและถ้าไม่มีตัวอย่างที่ไม่มีที่สิ้นสุดอย่างแท้จริงพวกเขาจะไม่สามารถจับคู่กับทฤษฎีได้อย่างสมบูรณ์แบบ

คุณสามารถคิดได้ว่าความไม่แน่นอนในค่ามัธยฐานของซองจดหมายนั้นเป็นค่าเฉลี่ยหรือโดยประมาณในทางกลับกัน หากค่าประมาณที่ดีที่สุดของค่าเฉลี่ยอยู่ภายใน 95% CI ของค่ามัธยฐานสำหรับค่าเฉลี่ยข้อมูลจะไม่สามารถบอกความแตกต่างได้ ข้อมูลบอกว่าพวกมันเหมือนกันในทางทฤษฎี หากคุณได้รับข้อมูลเพิ่มเติมให้ดูที่สิ่งที่กล่าว


1
กราฟที่น่าสนใจ ฉันคิดว่าค่าเฉลี่ยน่าจะใหญ่กว่าค่ามัธยฐานในตอนแรกเมื่อพิจารณาค่าเฉลี่ยของการไล่ล่า ... ในคำอื่น ๆ แถบสีแดงจะหมายถึงค่าเฉลี่ยและสีเขียวเป็นค่ามัธยฐาน ฉันพลาดอะไรไป
Possum-Pie

1
@ Possum-Pie โปรดจำไว้ว่าค่าผิดปกติอาจเป็นไปในทิศทางใดทางหนึ่ง ... การกระจายตัวแบบปกติมีทั้งหางซ้ายและหางขวา!
Silverfish

2
@ Will นั่นคือการดำเนินการตามมาตรฐานของ boxplot
Glen_b -Reinstate Monica

1
@Glen_b ฉันได้เห็นหนังสือเรียนมากมายที่ไม่ได้สอนการใช้จุดสำหรับผู้ผิดกฎหมายดังนั้นสามารถเข้าใจคนที่ไม่คุ้นเคยกับพวกเขา แต่ตาม Hadleyจุดที่ได้รับมีแม้เมื่อ Tukey แนะนำ "พล็อตวงจร" ของเขาในปี 1970
สีเงิน

1
ใช่รุ่นที่ไม่มีค่าผิดปกติ (โดยสรุปจากตัวเลข 5 ตัว) น่าจะเป็นพล็อตเรื่องของ Mary Spear (1952) (หมายเหตุว่ากระดาษคิดถึงบางส่วนที่สำคัญทางประวัติศาสตร์พ
ล็อต

4

ในสถิติทางการแพทย์เราให้ความเห็นเกี่ยวกับรูปร่างและการกระจายตัวเท่านั้น ความจริงที่ว่าไม่มีตัวอย่าง จำกัด อันเนื่องมาใด ๆ ที่เป็นปกติไม่เกี่ยวข้องและอวดรู้ ฉันจะทำเครื่องหมายคุณผิดสำหรับที่

หากการแจกแจงมีลักษณะ "ส่วนใหญ่" ปกติเรายินดีที่จะเรียกมันว่าปกติ เมื่อฉันอธิบายการแจกแจงสำหรับผู้ชมที่ไม่ใช่เชิงสถิติฉันรู้สึกสบายใจที่จะโทรหาบางสิ่งบางอย่างประมาณปกติแม้ว่าฉันจะรู้ว่าการแจกแจงแบบปกติไม่ใช่แบบจำลองความน่าจะเป็นพื้นฐาน ไม่มีฮิสโตแกรมหรือชุดข้อมูลที่จะตรวจสอบ

เป็นเคล็ดลับฉันจะผ่านการตรวจสอบต่อไปนี้อย่างใกล้ชิด:

  • ใครคือผู้ผิดจำนวนเท่าไหร่และค่านิยมของพวกเขาคืออะไร?
  • ข้อมูล bimodal หรือไม่
  • ข้อมูลดูเหมือนจะเป็นรูปทรงเอียงหรือไม่เพื่อให้การแปลงบางอย่าง (เช่นบันทึก) ดีกว่าจะหาจำนวน "ระยะทาง" ระหว่างการสังเกตหรือไม่?
  • มีการตัดหรือซ้อนอย่างเห็นได้ชัดเพื่อให้การตรวจหรือห้องปฏิบัติการล้มเหลวในการตรวจสอบค่าบางช่วงได้อย่างน่าเชื่อถือหรือไม่?

ดูเหมือนว่าในสนามที่มีคณิตศาสตร์มากผู้คนจะเข้มงวดมากขึ้นระหว่างการพูดอะไรบางอย่างว่า "การแจกแจงแบบปกติ" ซึ่งมีการผสมผสานที่เข้มงวดอย่างมากและการพูดว่า "เกือบปกติ" ฉันไม่เคยบอกว่า 1.932 คือ 2 แต่ฉันอาจบอกว่ามันเกือบ 2
Possum-Pie

1
"ไม่เกี่ยวข้องและอวดรู้" อย่างจริงจัง? ฉันเห็นด้วยกับ Possum-Pie ฉันจะไม่บอกว่า 1.932 นั้นเหมือนกับ 2.0 การบอกว่าข้อมูลเป็น "ปกติ" ทำให้เกิดความสับสนทุกอย่างตั้งแต่ความหมายของการแจกแจงแบบปกติเป็นแบบจำลองสำหรับกระบวนการที่สร้างข้อมูลไปจนถึงความจริงที่ว่าการแจกแจงปกติไม่เคยเป็นแบบจำลองกระบวนการของเราอย่างแม่นยำ ทุกคนควรได้รับการสอนว่าเมื่อพวกเขาเรียนรู้การแจกแจงแบบปกติดังนั้นพวกเขาจึงไม่ทำสิ่งที่ไร้สาระ
Peter Westfall

2
@ PeterWestfall ฉันคิดว่าส่วนหนึ่งของปัญหาที่นี่คือ "ข้อมูลที่มาจากการแจกแจงแบบปกติ" แทบจะไม่เป็นความจริงอย่างแท้จริงและแม้ว่ามันจะเป็นจริง แต่ก็เป็นไปไม่ได้ที่จะพิสูจน์ได้อย่างแน่นอน ดังนั้นเนื่องจากวลีนั้นแทบจะไม่เป็นความจริงเลยผู้คนจะใช้ "ข้อมูลเป็นเรื่องปกติ" แทนการใช้มือสั้น ๆ เพื่อหมายถึง "ข้อมูลดูเหมือนจะใกล้เคียงกับมาตรฐานสำหรับการใช้งานจริง" หรือ "การแจกแจงแบบปกติดี - โมเดลเพียงพอสำหรับ DGP ของเรา "
Silverfish

เหตุใดจึงต้องสอนสิ่งที่ผิดเมื่อมันง่ายมากที่จะสอนสิ่งที่ถูกต้อง?
Peter Westfall

3
@PeterW ประเด็นทางภาษาไม่ใช่แค่เรื่องการสอน แต่เป็นเรื่องของวิธีการใช้วลี (และตั้งใจจะตีความ) ในชีวิตประจำวัน: "ข้อมูลเป็นเรื่องปกติ" แทบไม่เคยใช้แปลว่า "ฉันรู้แน่ ๆ ว่า ประชากรที่ข้อมูลถูกสุ่มตัวอย่างมานั้นเป็นเรื่องปกติ "เพราะแทบจะไม่ได้หมายความว่า มันจะดีกว่าถ้าคนกล่าวว่า "ข้อมูลดูเหมือนปกติ" หรือแม้กระทั่ง "ดูข้อมูลnormalish " (คือดูเหมือนว่าพอใกล้เคียงกับปกติที่เราไม่สนใจเกี่ยวกับการเบี่ยงเบนจากปกติ) แต่โดยเฉพาะอย่างยิ่งในการตั้งค่าที่ใช้คนมักจะบอกว่า สิ่งเช่นนั้น
Silverfish

2

ฉันคิดว่าคุณและอาจารย์กำลังพูดในบริบทที่แตกต่างกัน ความเท่าเทียมกันของค่าเฉลี่ย = มัธยฐาน = โหมดคือลักษณะของการแจกแจงเชิงทฤษฎีและนี่ไม่ใช่ลักษณะเฉพาะเท่านั้น คุณไม่สามารถพูดได้ว่าถ้าสำหรับการกระจายใด ๆ ข้างต้นถือทรัพย์สินแล้วการกระจายเป็นเรื่องปกติ การแจกแจงแบบ T ก็มีความสมมาตร แต่ก็ไม่ปกติ คุณกำลังพูดถึงคุณสมบัติทางทฤษฎีของการแจกแจงแบบปกติซึ่งคงจริงเสมอสำหรับการแจกแจงแบบปกติ

อาจารย์ของคุณกำลังพูดถึงการกระจายข้อมูลตัวอย่าง เขาถูกต้องคุณจะไม่ได้รับข้อมูลในชีวิตจริงซึ่งคุณจะพบกับโหมดเฉลี่ย = ค่ามัธยฐาน = นี้เป็นเพียงเนื่องจากข้อผิดพลาดการสุ่มตัวอย่าง ในทำนองเดียวกันมันเป็นไปได้ยากมากที่คุณจะได้ค่าสัมประสิทธิ์ความเบ้เป็นศูนย์สำหรับข้อมูลตัวอย่าง อาจารย์ของคุณกำลังให้กฎง่ายๆแก่คุณเพื่อให้ได้แนวคิดเกี่ยวกับการแจกแจงจากสถิติตัวอย่าง ซึ่งไม่เป็นความจริงโดยทั่วไป (โดยไม่ได้รับข้อมูลเพิ่มเติม)


3
ศาสตราจารย์กล่าวว่าเป็น femaie
Nick Cox

ทำไมคุณไม่ได้รับค่าเฉลี่ย = ค่ามัธยฐาน = โหมดส่วนใหญ่เป็นเพราะการแจกแจงจำนวนมากบิดเบือนจริง ๆ ! (เคร่งครัดหมายถึง = มัธยฐาน = โหมดเป็นไปได้ด้วยการแจกแจงแบบเบ้เช่นกันแม้จะมีตำราหลายเล่มพูดอยู่)
Nick Cox

1
ฉันไม่เห็นด้วยว่าการขาดความเท่าเทียมกันของค่าเฉลี่ย / มัธยฐาน / โหมด = ข้อผิดพลาดการสุ่มตัวอย่าง สมมติว่าคุณสุ่มสถานพยาบาล 52 แห่งสำหรับอัตราการตก ที่อยู่อาศัย 27, 34, และ 52 มีพนักงานประจำระยะสั้นและมักจะมีจำนวนน้ำตกสูงกว่าค่าเฉลี่ยเสมอ บ้านเหล่านั้นดันไปทางหางและไม่ได้เกิดจากข้อผิดพลาดในการสุ่มตัวอย่าง
Possum-Pie

1
@Possum Pie ข้อมูลอะไรที่อยู่ที่นี่รอง แต่คุณกำลังให้สัญญาณต่างกันในที่ต่าง ๆ ที่นี่คุณกำลังพูดถึงสถานพยาบาลหลายแห่ง - แต่ในคำถามของคุณคุณระบุว่า "อยู่ในสถานพยาบาล" การไม่ชัดเจนเกี่ยวกับรายละเอียดแม้แต่เหตุการณ์ก็ไม่ได้ช่วยอะไร
Nick Cox

@Nick Cox ขออภัยฉันชี้แจงมัน จำนวนน้ำตก / ปีในตัวอย่างของสถานพยาบาล 52 แห่ง
Possum-Pie

1

เพื่อวัตถุประสงค์ในทางปฏิบัติกระบวนการพื้นฐานเช่นนี้มักจะประมาณอย่างประณีตโดยการกระจายปกติโดยไม่มีใครยกคิ้ว

อย่างไรก็ตามถ้าคุณต้องการที่จะอวดรู้กระบวนการพื้นฐานในกรณีนี้ไม่สามารถกระจายได้ตามปกติเพราะมันไม่สามารถสร้างค่าลบได้ (จำนวนการตกไม่สามารถเป็นลบได้) ฉันจะไม่แปลกใจถ้าอย่างน้อยในความเป็นจริงการกระจายตัวแบบสองทางที่มีจุดสูงสุดที่สองใกล้กับศูนย์


มันเป็นโหมด bimodal ที่ 4 ฟอลส์และ 13 ฟอลส์ ไม่มีรายงานการตกศูนย์
Possum-Pie
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.