คำถามติดแท็ก normality-assumption

วิธีการทางสถิติหลายอย่างสมมติว่ามีการกระจายข้อมูลตามปกติ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับสมมติฐานและการทดสอบความเป็นมาตรฐานหรือเกี่ยวกับความปกติเป็นคุณสมบัติ * ใช้ [การแจกแจงแบบปกติ] สำหรับคำถามเกี่ยวกับการแจกแจงแบบปกติ

16
การทดสอบตามปกติคือ 'ไร้ประโยชน์เป็นหลัก' หรือไม่?
อดีตเพื่อนร่วมงานเคยโต้เถียงกับฉันดังนี้: เรามักจะใช้การทดสอบเชิงบรรทัดฐานกับผลลัพธ์ของกระบวนการที่ภายใต้ค่า null จะสร้างตัวแปรสุ่มที่เป็น แบบอะซีพโทติกหรือใกล้เคียงปกติ ในยุคของหน่วยความจำราคาถูก, ข้อมูลขนาดใหญ่และการประมวลผลได้อย่างรวดเร็วการทดสอบภาวะปกติควร เสมอปฏิเสธ null ของการกระจายปกติสำหรับขนาดใหญ่ ( แต่ไม่ใหญ่เมามัน) ตัวอย่าง ดังนั้นจึงควรใช้การทดสอบเชิงบรรทัดฐานในทางที่ผิดสำหรับตัวอย่างเล็ก ๆ น้อย ๆ เท่านั้นเมื่อพวกมันมีพลังงานต่ำและควบคุมอัตราการพิมพ์ที่น้อยลง นี่เป็นอาร์กิวเมนต์ที่ถูกต้องหรือไม่? นี่เป็นข้อโต้แย้งที่รู้จักกันดีหรือไม่? มีการทดสอบที่รู้จักกันดีสำหรับสมมติฐานว่าง 'fuzzier' มากกว่าปกติหรือไม่?

4
เพียร์สันหรือสเปียร์แมนมีความสัมพันธ์กับข้อมูลที่ไม่ปกติ
ฉันได้รับคำถามนี้บ่อยครั้งเพียงพอในการให้คำปรึกษาด้านสถิติที่ฉันคิดว่าฉันโพสต์ไว้ที่นี่ ฉันมีคำตอบซึ่งโพสต์ด้านล่าง แต่ฉันกระตือรือร้นที่จะได้ยินสิ่งที่คนอื่นพูด คำถาม:หากคุณมีตัวแปรสองตัวที่ไม่ได้มีการแจกแจงแบบปกติคุณควรใช้ Rho ของ Spearman สำหรับความสัมพันธ์หรือไม่?

3
จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?
ฉันมีคำถามแปลก ๆ สมมติว่าคุณมีตัวอย่างขนาดเล็กที่ตัวแปรตามที่คุณจะวิเคราะห์ด้วยตัวแบบเชิงเส้นอย่างง่ายเอียงซ้ายอย่างมาก ดังนั้นคุณคิดว่าไม่ได้กระจายตามปกติเพราะนี้จะส่งผลให้การกระจายตามปกติYแต่เมื่อคุณคำนวณพล็อต QQ-Normal มีหลักฐานแสดงว่าส่วนที่เหลือจะกระจายตามปกติ ดังนั้นทุกคนสามารถสันนิษฐานได้ว่าคำว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติแม้ว่าจะไม่ใช่ ดังนั้นมันหมายความว่าอย่างไรเมื่อคำว่าข้อผิดพลาดดูเหมือนว่าจะกระจายตามปกติ แต่ไม่ได้?uuuyyyyyyyyy


3
Box-Cox ชอบการแปลงสำหรับตัวแปรอิสระหรือไม่?
Box-Cox มีการแปลงสำหรับตัวแปรอิสระหรือไม่? นั่นคือการแปลงที่ปรับตัวแปรให้เหมาะสมที่สุดเพื่อให้เหมาะสมกับแบบจำลองเชิงเส้นมากขึ้นหรือไม่xxxy~f(x) ถ้าเป็นเช่นนั้นมีฟังก์ชั่นในการทำสิ่งนี้ด้วยRหรือไม่?

3
ทำไมเราถึงสนใจข้อผิดพลาดการกระจายแบบปกติ (และ homoskedasticity) มากในการถดถอยเชิงเส้นเมื่อเราไม่ต้องทำ
ฉันคิดว่าฉันหงุดหงิดทุกครั้งที่ได้ยินคนพูดว่าการไม่ปฏิบัติตามกฎเกณฑ์ของผู้ตกค้างและ / หรือ heteroskedasticity ละเมิดสมมติฐานของ OLS ในการประมาณค่าพารามิเตอร์ในแบบจำลอง OLS ไม่จำเป็นต้องใช้สมมติฐานเหล่านี้ในทฤษฎีบท Gauss-Markov ฉันเห็นว่าสิ่งนี้สำคัญในการทดสอบสมมติฐานสำหรับแบบจำลอง OLS เนื่องจากการสมมติว่าสิ่งเหล่านี้ทำให้เรามีสูตรที่เป็นระเบียบสำหรับการทดสอบ t-test การทดสอบ F และสถิติทั่วไปของ Wald แต่มันก็ไม่ยากเกินไปที่จะทำการทดสอบสมมติฐานโดยที่ไม่มีพวกเขา หากเราลดลงเพียง homoskedasticity เราสามารถคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งและข้อผิดพลาดมาตรฐานคลัสเตอร์ได้อย่างง่ายดาย หากเราทิ้งกฎเกณฑ์โดยสิ้นเชิงเราสามารถใช้การบูตสแตรปปิ้งและกำหนดพารามิเตอร์แบบอื่นสำหรับข้อผิดพลาดอัตราส่วนความน่าจะเป็นและการทดสอบตัวคูณแบบลากรองจ์ มันเป็นเพียงความอัปยศที่เราสอนด้วยวิธีนี้เพราะฉันเห็นคนจำนวนมากที่ต้องดิ้นรนกับข้อสันนิษฐานที่พวกเขาไม่ต้องพบเจอในตอนแรก ทำไมเราถึงเน้นสมมติฐานเหล่านี้อย่างมากเมื่อเรามีความสามารถในการใช้เทคนิคที่แข็งแกร่งกว่าได้อย่างง่ายดาย? ฉันขาดสิ่งสำคัญไปหรือเปล่า

3
ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง
หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ: ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ... จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่ มีคำถามหลายข้อปรากฏขึ้น: กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด))) ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง? หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

5
การตีความ QQplot - มีกฎของหัวแม่มือในการตัดสินใจที่ไม่ปกติหรือไม่?
ฉันได้อ่านเธรดบน QQplots เพียงพอที่นี่เพื่อทำความเข้าใจว่า QQplot สามารถให้ข้อมูลได้มากกว่าการทดสอบตามปกติอื่น ๆ อย่างไรก็ตามฉันไม่มีประสบการณ์กับการตีความ QQplots ฉันเที่ยวมาก ฉันพบกราฟจำนวนมากของ QQplots ที่ไม่ปกติ แต่ไม่มีกฎที่ชัดเจนเกี่ยวกับวิธีการตีความพวกเขานอกเหนือจากสิ่งที่ดูเหมือนว่าจะเป็นการเปรียบเทียบกับการแจกแจงแบบรู้พร้อมกับ "ความรู้สึกทางเดิน" ฉันต้องการทราบว่าคุณมีกฎ (หรือที่คุณรู้) กฎง่ายๆที่จะช่วยให้คุณตัดสินใจไม่ปกติ คำถามนี้เกิดขึ้นเมื่อฉันเห็นกราฟทั้งสองนี้: ฉันเข้าใจว่าการตัดสินใจที่ไม่เป็นมาตรฐานนั้นขึ้นอยู่กับข้อมูลและสิ่งที่ฉันต้องการจะทำกับพวกเขา อย่างไรก็ตามคำถามของฉันคือ: โดยทั่วไปแล้วการสังเกตที่ออกจากเส้นตรงเมื่อใดจะมีหลักฐานมากพอที่จะทำให้การประมาณค่าปกติไม่มีเหตุผล? สำหรับสิ่งที่คุ้มค่าการทดสอบชาปิโร - วิลค์ล้มเหลวในการปฏิเสธสมมติฐานที่ไม่เป็นมาตรฐานในทั้งสองกรณี

5
หากการทดสอบ t-test และ ANOVA สำหรับสองกลุ่มนั้นเท่ากันทำไมสมมติฐานของพวกเขาจึงไม่เท่ากัน?
ฉันแน่ใจว่าฉันมีสิ่งนี้ล้อมรอบหัวของฉันทั้งหมด แต่ฉันก็ไม่สามารถคิดออก t-test เปรียบเทียบการแจกแจงปกติสองรายการโดยใช้การแจกแจง Z นั่นเป็นเหตุผลที่มีการสันนิษฐานของปกติในข้อมูล ANOVA นั้นเทียบเท่ากับการถดถอยเชิงเส้นพร้อมตัวแปรจำลองและใช้ผลรวมของกำลังสองเหมือน OLS นั่นเป็นเหตุผลว่าทำไมจึงมีข้อสันนิษฐานเกี่ยวกับภาวะปกติของ ResidualS ฉันใช้เวลาหลายปี แต่ฉันคิดว่าในที่สุดฉันก็เข้าใจข้อเท็จจริงพื้นฐานเหล่านั้นแล้ว เหตุใดจึงต้องทดสอบ t-test เทียบเท่า ANOVA กับสองกลุ่ม พวกเขาจะเท่าเทียมกันได้อย่างไรถ้าพวกเขาไม่คิดแม้แต่เรื่องเดียวกันกับข้อมูล

4
การทำให้เป็นมาตรฐานและการปรับขนาด
อะไรคือความแตกต่างระหว่างข้อมูล 'การทำให้เป็นมาตรฐาน' และ 'มาตราส่วน' ของข้อมูล? จนถึงตอนนี้ฉันคิดว่าทั้งสองคำอ้างถึงกระบวนการเดียวกัน แต่ตอนนี้ฉันรู้แล้วว่ามีบางอย่างที่ฉันไม่รู้ / เข้าใจ นอกจากนี้หากมีความแตกต่างระหว่างการปรับสภาพและการปรับขนาดเมื่อใดที่เราควรใช้การปรับสภาพ แต่ไม่ปรับขนาดและในทางกลับกัน โปรดอธิบายอย่างละเอียดด้วยตัวอย่าง

6
วิธีการทดสอบโดยใช้ R เพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติหรือไม่
ฉันมีชุดข้อมูลที่มีโครงสร้างต่อไปนี้: a word | number of occurrence of a word in a document | a document id ฉันจะทำการทดสอบสำหรับการแจกแจงแบบปกติใน R ได้อย่างไร? อาจเป็นคำถามง่าย ๆ แต่ฉันเป็นมือใหม่ R

5
การถดถอยเมื่อส่วนที่เหลือ OLS จะไม่กระจายตามปกติ
มีหลายเธรดในไซต์นี้ที่กล่าวถึงวิธีการตรวจสอบว่ามีการแจกแจงOLS แบบกระจายตามปกติหรือไม่ อีกวิธีหนึ่งในการประเมินความเป็นไปได้ของการใช้รหัส R ในคำตอบที่ยอดเยี่ยมนี้ นี่คือการอภิปรายเกี่ยวกับความแตกต่างในทางปฏิบัติระหว่างมาตรฐานและสารตกค้างที่สังเกตได้ แต่สมมุติว่าส่วนที่เหลือไม่ได้กระจายตามปกติอย่างในตัวอย่างนี้ ที่นี่เรามีการสังเกตหลายพันครั้งและชัดเจนว่าเราต้องปฏิเสธสมมติฐานที่กระจายตัวตามปกติ วิธีหนึ่งในการแก้ไขปัญหาคือการใช้ตัวประมาณค่าที่คาดเดายากบางรูปแบบตามที่อธิบายไว้ในคำตอบ อย่างไรก็ตามฉันไม่ได้ จำกัด เพียง OLS และในความเป็นจริงฉันต้องการเข้าใจประโยชน์ของวิธีการ glm อื่น ๆ หรือไม่ใช่เชิงเส้น วิธีที่มีประสิทธิภาพมากที่สุดในการสร้างแบบจำลองข้อมูลที่ละเมิดกฎเกณฑ์ OLS ของการคิดค่าคงที่คืออะไร หรืออย่างน้อยสิ่งที่ควรเป็นขั้นตอนแรกในการพัฒนาวิธีการวิเคราะห์การถดถอยที่ดี?

4
การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ
ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?

3
ค่าปกติของตัวแปรตาม = ค่าปกติของเศษเหลือ?
ดูเหมือนว่าปัญหานี้จะทำให้หัวของมันน่าเกลียดอยู่ตลอดเวลาและฉันพยายามที่จะประหารชีวิตเพื่อความเข้าใจสถิติของตัวเอง (และมีสติ!) สมมติฐานของตัวแบบเชิงเส้นทั่วไป (t-test, ANOVA, การถดถอย ฯลฯ ) รวมถึง "สมมติฐานของความปกติ" แต่ฉันได้พบว่าสิ่งนี้ไม่ค่อยได้อธิบายอย่างชัดเจน ฉันมักจะเจอสถิติตำรา / คู่มือ / ฯลฯ เพียงแค่ระบุว่า "ข้อสันนิษฐานของภาวะปกติ" นำไปใช้กับแต่ละกลุ่ม (เช่นตัวแปร X เด็ดขาด) และเราเราควรจะตรวจสอบการออกเดินทางจากปกติสำหรับแต่ละกลุ่ม คำถาม : สมมติฐานนี้อ้างถึงค่าของ Y หรือค่าตกค้างของ Y หรือไม่ สำหรับกลุ่มใดเป็นไปได้ไหมที่จะมีการแจกแจงค่า Y ที่ไม่ปกติอย่างรุนแรง(เช่นเอียง) แต่การกระจายตัวของ Y ที่เหลืออยู่โดยประมาณ (หรืออย่างน้อยกว่าปกติ) แหล่งข้อมูลอื่น ๆ อธิบายว่าข้อสันนิษฐานที่เกี่ยวข้องกับส่วนที่เหลือของแบบจำลอง (ในกรณีที่มีกลุ่มเช่น t-tests / ANOVA) และเราควรตรวจสอบการออกจากภาวะปกติของสิ่งตกค้างเหล่านี้ (เช่นเพียง QQ plot / test …


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.