ปัญหาในการพูดคุยกับอาจารย์เป็นหนึ่งในคำศัพท์มีความเข้าใจผิดที่เกิดขึ้นในการถ่ายทอดความคิดที่มีประโยชน์ ในสถานที่ต่าง ๆ คุณทั้งคู่ทำผิดพลาด
ดังนั้นสิ่งแรกที่ต้องพูดถึง: สิ่งสำคัญคือต้องมีความชัดเจนเกี่ยวกับการกระจายตัว
ปกติการจัดจำหน่ายเป็นวัตถุทางคณิตศาสตร์ที่เฉพาะเจาะจงซึ่งคุณสามารถพิจารณาเป็นแบบจำลองสำหรับประชากรที่ไม่มีที่สิ้นสุดของค่า (ไม่มีประชากรที่แน่นอนสามารถมีการกระจายอย่างต่อเนื่อง)
สิ่งที่การกระจายนี้ทำ (เมื่อคุณระบุพารามิเตอร์) คือการกำหนด (ผ่านนิพจน์พีชคณิต) สัดส่วนของค่าประชากรที่อยู่ภายในช่วงเวลาใด ๆ ที่กำหนดในบรรทัดจริง มีความเป็นไปได้น้อยที่จะกำหนดค่าความน่าจะเป็นที่ค่าเดียวจากประชากรนั้นจะอยู่ในช่วงเวลาใดก็ตาม
ตัวอย่างที่สังเกตไม่ได้มีการแจกแจงแบบปกติ ตัวอย่างอาจถูกดึงออกมาจากการแจกแจงแบบปกติหากมีอยู่ หากคุณดู cdf เชิงประจักษ์ของตัวอย่างมันไม่ต่อเนื่อง หากคุณวางไว้ (ในฮิสโตแกรม) ตัวอย่างจะมี "การแจกแจงความถี่" แต่นั่นไม่ใช่การแจกแจงแบบปกติ การแจกแจงสามารถบอกเราบางอย่าง (ในแง่ความน่าจะเป็น) เกี่ยวกับตัวอย่างสุ่มจากประชากรและตัวอย่างอาจบอกเราบางอย่างเกี่ยวกับประชากร
การตีความที่สมเหตุสมผลของวลีเช่น "ตัวอย่างที่กระจายแบบปกติ" * คือ "ตัวอย่างแบบสุ่มจากประชากรที่กระจายตัวแบบปกติ"
* (โดยทั่วไปฉันพยายามหลีกเลี่ยงที่จะพูดด้วยตัวเองด้วยเหตุผลที่หวังไว้ชัดเจนว่าที่นี่ฉันมักจะ จำกัด ตัวเองให้อยู่ในการแสดงออกประเภทที่สอง)
มีข้อกำหนดที่กำหนดไว้ (ถ้ายังหลวม) ให้เราดูคำถามโดยละเอียด ฉันจะตอบคำถามที่เฉพาะเจาะจง
การแจกแจงปกติต้องมีค่าเฉลี่ย = มัธยฐาน = โหมด
นี่เป็นเงื่อนไขในการแจกแจงความน่าจะเป็นปกติแม้ว่าจะไม่ใช่ข้อกำหนดในตัวอย่างที่ดึงมาจากการแจกแจงแบบปกติ ตัวอย่างอาจไม่สมมาตรอาจมีค่าเฉลี่ยแตกต่างจากค่ามัธยฐานเป็นต้น [เราสามารถรู้ได้ว่าเราจะคาดหวังว่าพวกเขาจะห่างกันมากแค่ไหนถ้ากลุ่มตัวอย่างมาจากประชากรปกติจริง ๆ ]
ข้อมูลทั้งหมดจะต้องอยู่ภายใต้เส้นโค้งระฆัง
ฉันไม่แน่ใจว่าสิ่งที่ "อยู่ภายใต้" หมายถึงในแง่นี้
และสมมาตรรอบ ๆ ค่าเฉลี่ยอย่างสมบูรณ์แบบ
ไม่มี คุณกำลังพูดถึงข้อมูลที่นี่และตัวอย่างจากประชากรปกติ (สมมาตรแน่นอน) จะไม่สมมาตรอย่างสมบูรณ์แบบ
ดังนั้นในทางเทคนิคแล้วไม่มีการแจกแจงปกติในการศึกษาจริง
ฉันเห็นด้วยกับข้อสรุปของคุณแต่เหตุผลไม่ถูกต้อง มันไม่ได้เป็นผลมาจากความจริงที่ว่าข้อมูลไม่สมมาตรอย่างสมบูรณ์แบบ (ฯลฯ ); มันเป็นความจริงที่ว่าประชากรตัวเองไม่ปกติอย่างสมบูรณ์
ถ้าเอียง / kurtosis น้อยกว่า 1.0 จะเป็นการแจกแจงแบบปกติ
ถ้าเธอพูดแบบนี้เธอก็ผิดแน่นอน
ตัวอย่างความเบ้อาจจะใกล้เคียงกับ 0 มากกว่านั้น (การ "น้อยกว่า" ให้มีค่าเฉลี่ยสัมบูรณ์ไม่ใช่ค่าจริง) และค่าความเกินตัวอย่างอาจมีค่าใกล้เคียงกับ 0 มากกว่านั้น (อาจจะไม่ว่าโดยบังเอิญหรือ การก่อสร้างอาจมีค่าเกือบเป็นศูนย์) และการกระจายตัวอย่างที่วาดนั้นอาจไม่ธรรมดา
เราสามารถไปต่อได้ - แม้ว่าเราจะต้องรู้อย่างน่าอัศจรรย์ว่าความเบ้ของประชากรและความโด่งเป็นเรื่องปกติ แต่ก็ไม่ได้บอกตัวเองว่าประชากรเป็นปกติหรือแม้แต่บางสิ่งที่ใกล้เคียงปกติ
ชุดข้อมูลคือจำนวนรวมของน้ำตก / ปีในการสุ่มตัวอย่างจากบ้านพักคนชรา 52 แห่งซึ่งเป็นกลุ่มตัวอย่างที่สุ่มของประชากรขนาดใหญ่
การกระจายจำนวนประชากรของการนับไม่ปกติ จำนวนนั้นเป็นแบบไม่ต่อเนื่องและไม่เป็นลบการแจกแจงแบบปกตินั้นต่อเนื่องและทั่วทั้งเส้นจริง
แต่เรามุ่งเน้นไปที่ปัญหาที่ผิดที่นี่จริงๆ แบบจำลองความน่าจะเป็นเป็นแบบนั้น ขอให้เราไม่ได้สร้างความสับสนให้รุ่นของเรากับสิ่งที่จริง
ปัญหาไม่ได้ "เป็นข้อมูลปกติหรือไม่" (ไม่สามารถเป็นได้) หรือแม้แต่ "ประชากรที่ดึงข้อมูลมาเป็นปกติหรือไม่" (นี่แทบจะไม่เกิดขึ้นเลย)
คำถามที่มีประโยชน์มากขึ้นในการพูดคุยคือ "การอนุมานของฉันจะได้รับผลกระทบอย่างไรถ้าฉันปฏิบัติต่อประชากรตามการกระจายตามปกติ"
นอกจากนี้ยังเป็นคำถามที่ตอบยากกว่ามากและอาจต้องทำงานมากกว่าการใช้การวินิจฉัยง่ายๆ
สถิติตัวอย่างที่คุณแสดงนั้นไม่สอดคล้องกับความปกติ (คุณสามารถดูสถิติเช่นนั้นหรือ "แย่ลง" ไม่น่ากลัวถ้าคุณมีตัวอย่างสุ่มขนาดนั้นจากประชากรปกติ) แต่นั่นไม่ได้หมายความว่าประชากรจริง ซึ่งตัวอย่างถูกวาดโดยอัตโนมัติ "ใกล้พอ" เป็นปกติสำหรับวัตถุประสงค์เฉพาะ มันจะเป็นสิ่งสำคัญที่จะต้องพิจารณาวัตถุประสงค์ (คำถามที่คุณตอบ) และความทนทานของวิธีการที่ใช้กับมันและถึงแม้ว่าเราอาจยังไม่แน่ใจว่ามันเป็น "ดีพอ"; บางครั้งอาจเป็นการดีกว่าที่จะไม่คาดเดาสิ่งที่เราไม่มีเหตุผลที่ดีที่จะคาดเดามาก่อน (เช่นบนพื้นฐานของประสบการณ์กับชุดข้อมูลที่คล้ายกัน)
มันไม่ใช่การแจกแจงแบบปกติ
ข้อมูล - ข้อมูลที่ดึงมาจากประชากรปกติ - ไม่เคยมีคุณสมบัติของประชากรแน่นอน จากตัวเลขเหล่านี้เพียงอย่างเดียวคุณไม่มีพื้นฐานที่ดีในการสรุปว่าประชากรไม่ปกติ
ในทางกลับกันเราไม่ได้มีพื้นฐานที่มั่นคงพอสมควรที่จะบอกว่ามัน "ใกล้พอ" ตามปกติ - เรายังไม่ได้พิจารณาถึงวัตถุประสงค์ของการใช้กฎเกณฑ์ทั่วไปดังนั้นเราจึงไม่ทราบว่าคุณลักษณะการกระจายแบบใดนั้นอาจมีความอ่อนไหว
ตัวอย่างเช่นถ้าฉันมีตัวอย่างสองตัวอย่างสำหรับการวัดที่ถูก จำกัด ขอบเขตฉันรู้ว่าจะไม่แยกกันอย่างหนัก (ไม่ใช่เพียงการรับค่าที่แตกต่างกันสองสามอย่าง) และใกล้กับสมมาตรฉันอาจมีความสุขที่จะใช้ตัวอย่างสองตัวอย่าง ทดสอบทีที่ขนาดตัวอย่างที่ไม่เล็ก มันมีความแข็งแกร่งปานกลางถึงความเบี่ยงเบนเล็กน้อยจากสมมติฐาน (ค่อนข้างระดับที่แข็งแกร่งไม่ใช่พลังงานที่แข็งแกร่ง) แต่ฉันจะระมัดระวังมากขึ้นเกี่ยวกับการใช้เหตุผลเชิงบรรทัดฐานเมื่อทดสอบความเท่าเทียมกันของการแพร่กระจายเนื่องจากการทดสอบที่ดีที่สุดภายใต้สมมติฐานนั้นค่อนข้างอ่อนไหวต่อสมมติฐาน
เนื่องจากทั้งคู่อยู่ระหว่างค่าวิกฤตของ -1 และ +1 ข้อมูลนี้จึงถูกพิจารณาว่ามีการเผยแพร่ตามปกติ "
หากนั่นเป็นเกณฑ์ที่ผู้ตัดสินใจใช้แบบจำลองการกระจายแบบปกติบางครั้งมันจะนำคุณไปสู่การวิเคราะห์ที่ค่อนข้างแย่
ค่าของสถิติเหล่านั้นให้เบาะแสบางอย่างแก่เราเกี่ยวกับประชากรที่ดึงตัวอย่าง แต่นั่นก็ไม่ได้เป็นเช่นเดียวกันกับที่บอกว่าค่าของพวกเขานั้นเป็น 'แนวทางที่ปลอดภัย' ในการเลือกการวิเคราะห์
ตอนนี้เพื่อแก้ไขปัญหาพื้นฐานด้วยคำถามที่เป็นวลีที่ดียิ่งขึ้นเช่นเดียวกับคำถามที่คุณมี:
กระบวนการทั้งหมดในการดูตัวอย่างเพื่อเลือกแบบจำลองนั้นเต็มไปด้วยปัญหา - การทำเช่นนั้นจะเปลี่ยนแปลงคุณสมบัติของตัวเลือกการวิเคราะห์ที่ตามมาใด ๆ ตามสิ่งที่คุณเห็น! เช่นสำหรับการทดสอบสมมติฐานระดับนัยสำคัญค่า p และค่ากำลังไม่ใช่สิ่งที่คุณจะเลือก / คำนวณให้เป็นเพราะการคำนวณเหล่านั้นเป็นการวิเคราะห์ล่วงหน้าที่ไม่ได้อิงกับข้อมูล
ดูตัวอย่างเช่น Gelman และ Loken (2014), " The Crisis Crisis in Science ," นักวิทยาศาสตร์ชาวอเมริกันเล่มที่ 102, หมายเลข 6, p 460 (DOI: 10.1511 / 2014.111.460) ซึ่งกล่าวถึงปัญหาเกี่ยวกับการวิเคราะห์ข้อมูล