ค่าปกติของตัวแปรตาม = ค่าปกติของเศษเหลือ?


34

ดูเหมือนว่าปัญหานี้จะทำให้หัวของมันน่าเกลียดอยู่ตลอดเวลาและฉันพยายามที่จะประหารชีวิตเพื่อความเข้าใจสถิติของตัวเอง (และมีสติ!)

สมมติฐานของตัวแบบเชิงเส้นทั่วไป (t-test, ANOVA, การถดถอย ฯลฯ ) รวมถึง "สมมติฐานของความปกติ" แต่ฉันได้พบว่าสิ่งนี้ไม่ค่อยได้อธิบายอย่างชัดเจน

ฉันมักจะเจอสถิติตำรา / คู่มือ / ฯลฯ เพียงแค่ระบุว่า "ข้อสันนิษฐานของภาวะปกติ" นำไปใช้กับแต่ละกลุ่ม (เช่นตัวแปร X เด็ดขาด) และเราเราควรจะตรวจสอบการออกเดินทางจากปกติสำหรับแต่ละกลุ่ม

คำถาม :

  1. สมมติฐานนี้อ้างถึงค่าของ Y หรือค่าตกค้างของ Y หรือไม่

  2. สำหรับกลุ่มใดเป็นไปได้ไหมที่จะมีการแจกแจงค่า Y ที่ไม่ปกติอย่างรุนแรง(เช่นเอียง) แต่การกระจายตัวของ Y ที่เหลืออยู่โดยประมาณ (หรืออย่างน้อยกว่าปกติ)

    แหล่งข้อมูลอื่น ๆ อธิบายว่าข้อสันนิษฐานที่เกี่ยวข้องกับส่วนที่เหลือของแบบจำลอง (ในกรณีที่มีกลุ่มเช่น t-tests / ANOVA) และเราควรตรวจสอบการออกจากภาวะปกติของสิ่งตกค้างเหล่านี้ (เช่นเพียง QQ plot / test เพื่อ วิ่ง).

  3. ค่าภาวะปกติของค่าคงที่สำหรับแบบจำลองบ่งบอกความเป็นค่าปกติของค่าตกค้างสำหรับกลุ่มหรือไม่? กล่าวอีกนัยหนึ่งเราควรตรวจสอบแบบจำลองที่เหลืออยู่ (ตรงกันข้ามกับคำแนะนำในตำรามากมาย) หรือไม่

    หากต้องการวางสิ่งนี้ในบริบทให้พิจารณาตัวอย่างสมมุตินี้:

    • ฉันต้องการเปรียบเทียบความสูงของต้นไม้ (Y) ระหว่างสองประชากร (X)
    • ในประชากรหนึ่งการกระจายตัวของ Y นั้นเอียงไปทางขวาอย่างแรง (กล่าวคือต้นไม้ส่วนใหญ่สั้นมากน้อยมาก) ในขณะที่อีกประชากรหนึ่งนั้นปกติ
    • ความสูงนั้นสูงกว่าโดยรวมในประชากรที่กระจายตัวตามปกติ (แนะนำว่าอาจมีความแตกต่าง 'ของจริง')
    • การแปลงข้อมูลไม่ได้ช่วยปรับปรุงการกระจายตัวของประชากรกลุ่มแรกอย่างมีนัยสำคัญ
  4. ประการแรกมันเป็นสิ่งที่ถูกต้องในการเปรียบเทียบกลุ่มที่ได้รับการกระจายความสูงที่แตกต่างกันอย่างสิ้นเชิง?

  5. ฉันจะเข้าใกล้ "สมมติฐานของภาวะปกติ" ที่นี่ได้อย่างไร ความสูงของการเรียกคืนในประชากรหนึ่งไม่กระจายตามปกติ ฉันจะตรวจสอบค่าคงที่สำหรับประชากรทั้งสองแยกกันหรือค่าคงที่สำหรับแบบจำลอง (t-test) หรือไม่


โปรดอ้างอิงคำถามตามหมายเลขในการตอบกลับประสบการณ์แสดงให้ฉันเห็นว่าผู้คนหลงทางหรือหลงทางได้ง่าย (โดยเฉพาะฉัน!) โปรดจำไว้ว่าฉันไม่ใช่นักสถิติ แต่ผมมีความสมเหตุสมผลความคิด (เช่นไม่ใช่ทางเทคนิค!) การทำความเข้าใจของสถิติ

ป.ล. ฉันค้นหาเอกสารสำคัญและอ่านหัวข้อต่อไปนี้ซึ่งไม่ได้ประสานความเข้าใจของฉัน:


2
" คำถามที่ 1) ไม่สมมติฐานที่อ้างถึงคุณค่าของ Y หรือเหลือของ Y หรือไม่? " - พูดอย่างเคร่งครัดค่าแม้ว่าที่สองคือสิ่งที่คุณตรวจสอบ สิ่งที่ถือว่าเป็นเรื่องปกติคือข้อผิดพลาดที่ไม่สามารถสังเกตเห็นได้หรือการกระจายของเงื่อนไข Y ที่เท่ากันในการทำนายแต่ละครั้ง การแจกแจงแบบไม่มีเงื่อนไขของ Y ไม่ถือว่าเป็นเรื่องปกติ
Glen_b

1
+1 ขอบคุณที่ใช้ความพยายามในการจัดระเบียบและรวมเธรด (มาก) บางส่วนที่เกิดปัญหานี้ขึ้น มันเป็นคำถามที่พบบ่อยอย่างแน่นอน
whuber

ฉันแค่อยากจะขอบคุณสำหรับคำถามนี้ ทั้งเรื่องที่มันเป็นที่อยู่และวิธีการจัดระเบียบและเชื่อมโยงเป็นอย่างดี ฉันรู้ว่าคุณถามมานานแล้ว แต่มันเป็นเพียงคำถามที่ดีมาก!
hmmmm

คำตอบ:


14

จุดหนึ่งที่อาจช่วยให้คุณเข้าใจ:

ถ้ากระจายตามปกติและและเป็นค่าคงตัวดังนั้นก็จะกระจายตามปกติด้วย (แต่อาจมีค่าเฉลี่ยและความแปรปรวนต่างกัน)xaby=xab

เนื่องจากค่าคงที่เป็นเพียงค่า y ลบค่าเฉลี่ยโดยประมาณ (ค่ามาตรฐานยังถูกหารด้วยค่าประมาณของข้อผิดพลาดมาตรฐาน) ดังนั้นหากค่า y ถูกแจกแจงตามปกติแล้วค่าส่วนที่เหลือจะอยู่ในรูปแบบอื่น ๆ ดังนั้นเมื่อเราพูดถึงทฤษฎีหรือสมมติฐานมันไม่สำคัญว่าเราจะพูดถึงเรื่องใดเพราะมีนัยหนึ่ง

ดังนั้นสำหรับคำถามนี้นำไปสู่:

  1. ใช่ทั้งสองอย่าง
  2. ไม่ (อย่างไรก็ตามค่า y แต่ละค่าจะมาจากบรรทัดฐานด้วยวิธีการที่แตกต่างกันซึ่งสามารถทำให้พวกเขาดูไม่ปกติหากจัดกลุ่มเข้าด้วยกัน)
  3. ความสามัญของเศษซากหมายถึงภาวะปกติของกลุ่มอย่างไรก็ตามสามารถตรวจสอบค่าตกค้างหรือค่า y โดยกลุ่มในบางกรณี (การรวมกลุ่มอาจคลุมเครือไม่เป็นบรรทัดฐานที่เห็นได้ชัดในกลุ่ม) หรือมองด้วยกันในกรณีอื่น ๆ ต่อกลุ่มเพื่อพิจารณา แต่คุณสามารถบอกได้ทั้งหมด)
  4. ขึ้นอยู่กับสิ่งที่คุณหมายถึงโดยเปรียบเทียบขนาดตัวอย่างของคุณใหญ่แค่ไหนและความรู้สึกของคุณใน "ประมาณ" ข้อสันนิษฐานทั่วไปนั้นจำเป็นสำหรับการทดสอบ / ช่วงเวลาในผลลัพธ์เท่านั้นคุณสามารถใส่แบบจำลองและอธิบายจุดที่ประเมินว่ามีภาวะปกติหรือไม่ ทฤษฎีบทขีด จำกัด กลางบอกว่าถ้าขนาดตัวอย่างใหญ่เพียงพอการประมาณการจะเป็นปกติประมาณแม้ว่าจะไม่มีเศษเหลืออยู่ก็ตาม
  5. ขึ้นอยู่กับว่าคุณพยายามตอบคำถามอะไรและคุณ "พอใจ" โดยประมาณอย่างไร

อีกประเด็นที่สำคัญที่จะเข้าใจ (แต่มักจะมีการเรียนรู้ในการเรียนรู้) คือมี 2 ประเภทของเศษเหลืออยู่ที่นี่: ส่วนที่เหลือตามทฤษฎีซึ่งมีความแตกต่างระหว่างค่าที่สังเกตและแบบจำลองทางทฤษฎีที่แท้จริงและค่าที่สังเกตได้ซึ่งมีความแตกต่าง ระหว่างค่าที่สังเกตได้กับค่าประมาณจากรุ่นที่ติดตั้งอยู่ในปัจจุบัน เราคิดว่าส่วนที่เหลือตามทฤษฎีนั้นเป็นเรื่องปกติ ค่าคงที่ที่สังเกตได้ไม่ใช่ i, i หรือการแจกแจงแบบปกติ (แต่มีค่าเฉลี่ยเป็น 0) อย่างไรก็ตามเพื่อวัตถุประสงค์ในทางปฏิบัติค่าที่เหลือที่สังเกตได้จะประเมินค่าทางทฤษฎีและยังคงมีประโยชน์สำหรับการวินิจฉัย


สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อผิดพลาดและส่วนที่เหลือฉันคิดว่ามันมีประโยชน์ในการอ่านบทความนี้ใน wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster

1
สวัสดีคุณช่วยอธิบายอย่างละเอียดได้ไหม "ส่วนที่เหลือเป็นเพียงค่า y ลบค่าเฉลี่ยโดยประมาณ" ฉันคิดว่าส่วนที่เหลือเป็น ? นี่เป็นสิ่งเดียวกันหรือไม่? ขอโทษถ้าฉันขาดอะไรบางอย่างที่ควรจะชัดเจน yy^
ออสติน

@ เจคสมการของคุณเป็นเพียงวิธีที่กะทัดรัดกว่าในการระบุสิ่งที่ฉันพูด คือ "ค่า y" และคือ "ค่าเฉลี่ยโดยประมาณ" ของค่า y ที่ชุดของตัวทำนายนั้น (และคือ "ลบ") y -y^
เกร็กสโนว์

ในไตรมาสที่ 1 (ซึ่งเรียงลำดับความรู้ในคำตอบของไตรมาสที่ 2): เห็นได้ชัดว่าเป็นของเหลือ แต่ไม่ใช่ของ Y เลย เมื่อค่าความแปรปรวนร่วมแตกต่างกันระหว่างการสังเกตคุณอาจมีการกระจายตัวแบบเล็กน้อยแบบโมดัลถึงแม้ว่าส่วนที่เหลือเป็นเรื่องปกติ ดังนั้นเราไม่สามารถมองเพียงแค่ Ys เพียงแค่ที่เหลือ
Björn

@Bjorn นี่เป็นการชี้แจงที่ดี ตัวแปร y เป็นเรื่องปกติมีเงื่อนไขบน x ดังนั้นค่า y-raw ที่เป็นส่วนผสมของ normals และพล็อตของ y-values ​​อาจไม่แสดงภาวะปกติแม้ว่าพวกเขาจะพอดีกับสมมติฐานที่ว่าเป็นเงื่อนไขปกติบน x สำหรับการวินิจฉัยโดยทั่วไปเราจะใช้ส่วนที่เหลือ (เพราะส่วนที่มีเงื่อนไขถูกลบส่วนใหญ่) ข้อสันนิษฐานของเงื่อนไข (ตามเงื่อนไข) หมายถึงทั้งค่าคงที่ทางทฤษฎีและค่า y
เกร็กสโนว์

7

คำตอบสั้น ๆ :

  1. ส่วนเหลือ
  2. ไม่
  3. ขึ้นอยู่กับวิธีการทั้งสองมีข้อดีและข้อเสีย
  4. ทำไมไม่ การเปรียบเทียบค่ามัธยฐานแทนที่จะเป็นวิธีที่เหมาะสมกว่า
  5. จากสิ่งที่คุณได้บอกกับเราว่าอาจมีการฝ่าฝืนกฎเกณฑ์ปกติ

คำตอบอีกต่อไป:

สมมติฐานคือตัวแปรตาม (y) มีการกระจายตามปกติแต่ด้วยวิธีการที่แตกต่างกันสำหรับกลุ่มที่แตกต่างกัน ดังนั้นหากคุณวางแผนเพียงแค่การกระจายตัวของ y มันสามารถดูแตกต่างจากโค้งปกติรูประฆังมาตรฐานของคุณได้อย่างง่ายดาย ส่วนที่เหลือแสดงการกระจายตัวของ y ที่มีความแตกต่างในวิธีการ "กรองออก"

อีกวิธีหนึ่งคุณสามารถดูการกระจายของ y ในแต่ละกลุ่มแยกกัน สิ่งนี้จะกรองความแตกต่างระหว่างกลุ่ม ข้อดีคือวิธีนี้คุณจะได้รับข้อมูลเกี่ยวกับการกระจายในแต่ละกลุ่มซึ่งในกรณีของคุณดูเหมือนว่าเกี่ยวข้อง ข้อเสียคือแต่ละกลุ่มมีข้อสังเกตน้อยกว่าชุดข้อมูลรวมที่คุณจะได้รับเมื่อดูข้อมูลส่วนที่เหลือ ยิ่งกว่านั้นคุณจะไม่สามารถเปรียบเทียบกลุ่มอย่างมีความหมายหากคุณมีหลายกลุ่มเช่นเนื่องจากคุณป้อนตัวแปรตัวทำนายจำนวนมากไปยังแบบจำลองของคุณหรือตัวแปรตัวทำนายแบบต่อเนื่อง (กึ่ง) กับแบบจำลองของคุณ ดังนั้นหากแบบจำลองของคุณประกอบด้วยตัวแปรตัวทำนายหมวดหมู่เดียวและจำนวนการสังเกตในแต่ละกลุ่มมีขนาดใหญ่พอก็อาจมีความหมายในการตรวจสอบการกระจายของ y ในแต่ละกลุ่มแยกกัน


7
อย่างเคร่งครัดส่วนที่เหลือเป็นเพียงการประเมินข้อผิดพลาดหรือการรบกวนที่ไม่ทราบและไม่สามารถทราบได้ดังนั้นแม้ว่าความเป็นมาตรฐานจะถูกต้องในหลักการคุณจะไม่สามารถได้รับส่วนที่เหลือตามปกติ ที่สำคัญกว่านั้นความเป็นปกติของข้อผิดพลาดเป็นข้อสมมติฐานที่สำคัญน้อยที่สุดในวิธีการเหล่านี้
Nick Cox

@NickCox (+1) เห็นด้วยกับการนับทั้งสอง
Maarten Buis

1

โดยนิยามของสมมติฐานตัวแปรสุ่มคือการรวมกันเชิงเส้นของและส่วนที่เหลือทั้งหมดอื่น ๆ จะคงที่ ถ้าไม่สุ่มและเงื่อนไขข้อผิดพลาดเป็นเรื่องปกติแล้วก็เป็นปกติX X YYX
XY

คำถามที่ 1)
ข้อสมมติฐานอ้างอิงถึงสองสิ่ง ก่อนอื่นให้พิจารณาความเป็นปกติของเงื่อนไขข้อผิดพลาด ประการที่สองคือความเป็นเส้นตรงและความสมบูรณ์ของโมเดล ทั้งสองสิ่งมีความจำเป็นสำหรับการอนุมาน แต่ถ้าสมมติฐานเหล่านี้จะพบแล้วทั้งเหลือและจะกระจายตามปกติและการแก้ปัญหาสามารถคำนวณได้ง่ายมากเพราะพวกเขาขึ้นอยู่กับเงื่อนไขข้อผิดพลาดให้X ยกตัวอย่างเช่นการกระจายของในรูปแบบ OLS ปกติอาจจะ2) หากกลุ่มของคุณไม่ปกติสิ่งนี้อาจทำให้ไม่มีเงื่อนไขได้Y ϵeYϵX
YY|XN(Xβ,σ2)
XY. ในความเป็นจริงนี้มีแนวโน้มที่จะเกิดขึ้น อย่างไรก็ตามสิ่งสำคัญคือการกระจายของเป็นเรื่องปกติY|X

คำถามที่ 2)
ใช่มันเป็นไปได้ที่จะมีค่าเบ้สำหรับเพราะXส่วนที่เหลือจะเป็นเรื่องปกติถ้าพบสมมติฐานทั้งหมด (คุณจะทดสอบและตั้งสมมติฐานอีกครั้งได้อย่างไร!) สำหรับคำถามของคุณในส่วนนี้จะมีคำตอบที่ชัดเจนในหัวข้อนี้: จะเกิดอะไรขึ้นถ้าหากมีการกระจายของสารตกค้างตามปกติ แต่ y ไม่ใช่?YX

คำถามที่ 3)
สิ่งสำคัญสำหรับการใช้ตัวแบบเชิงเส้นที่ต้องการความเป็นปกติคือส่วนที่เหลือซึ่งไม่เป็นปกติซึ่งจะอยู่ในกลุ่มหรือไม่เป็นตัวบ่งชี้ที่สำคัญว่าแบบจำลองของคุณอาจไม่เหมาะกับข้อมูลของคุณ
หากคุณกำลังทำ ANOVA แน่นอนว่าสิ่งที่เหลืออยู่โดยรวมของคุณไม่จำเป็นต้องเป็นเรื่องปกติ ในการถดถอยคุณควรมีแบบจำลองที่ดีกว่าโดยมีค่าซากปกติโดยรวม มิฉะนั้นตัวประมาณช่วงเวลาและการทดสอบของคุณจะผิด นี่อาจเป็นกรณีของความสัมพันธ์อัตโนมัติบางอย่างหรือตัวแปรอคติขาดหายไป หากแบบจำลองนั้นถูกต้อง 100% (รวมถึงตัวแบ่งโครงสร้างและการถ่วงน้ำหนักถ้าจำเป็น) มันไม่ไกลเกินกว่าที่จะยอมรับข้อผิดพลาดปกติแม้จะอยู่ตรงกลางประมาณ 0 คำถามที่มักจะกลายเป็นจริง: เราจะไปกับสิ่งเหล่านี้ได้ไหม ใหญ่พอไหม ไม่มีคำตอบที่ชัดเจน แต่สำหรับวิธีการที่ถูกต้อง 100% ใช่สิ่งตกค้างทั้งหมดควรเป็นปกติ

คำถามที่ 4 และ 5)
ขึ้นอยู่กับความหมายของคุณโดยการเปรียบเทียบ ด้วยข้อสันนิษฐานของข้อผิดพลาดปกติคุณสามารถทดสอบตามสมมติฐานของการแจกแจงสองแบบที่แตกต่างกัน คุณสามารถใช้การประมาณ GLS สำหรับการถดถอยเพื่ออธิบายพารามิเตอร์การกระจายต่าง ๆ - ถ้าคุณมีแบบจำลองที่ถูกต้อง ... และฉันเดาว่ากลุ่มของคุณทำงานเป็นตัวบ่งชี้ / ตัวแปรไบนารีหรือไม่
จากนั้นอาจเป็นเรื่องยากมากที่จะให้เหตุผลว่าการแจกแจงส่วนที่เหลือจะเป็นเรื่องปกติผลที่ตามมาคือแม้ว่าคุณจะสามารถทำสิ่งต่างๆกับข้อมูลของคุณได้ แต่มันก็ไม่ได้อยู่บนพื้นฐานของ OLS ปกติ
แต่ขึ้นอยู่กับสิ่งที่คุณต้องการจะทำกับข้อมูล

สิ่งที่สำคัญคือ: คุณยังไม่เข้าใจสมมติฐานของโมเดลเชิงเส้นที่คุณใช้อยู่ คุณสามารถทำให้ปัญหาดีขึ้นได้โดยสมมติคุณสมบัติตัวอย่างขนาดใหญ่แบบซีมโทติค แต่ถ้าฉันเดาเพราะคุณกำลังขอคำตอบที่ชัดเจนนั่นไม่ใช่สิ่งที่คุณมีอยู่ในใจ
ในกรณีของตัวอย่างของคุณถ้าคุณมีข้อมูลซึ่งอาจอธิบาย skewedness ที่คุณจะฟื้นเป็นปกติในที่เหลือของคุณและใน X แต่ถ้าคุณเพียงแค่ใช้ตัวบ่งชี้ไบนารีสำหรับการถดถอยคุณกำลังใช้โมเดลที่ผิด แน่นอนคุณสามารถทำการทดสอบกับสิ่งนี้ แต่เมื่อมันมาถึงการถดถอยผลช่วงเวลาของคุณจะไม่ถูกต้องเป็นหลักคุณจะขาดข้อมูลสำหรับแบบจำลองที่สมบูรณ์Y|X

ฉันคิดว่าวิธีการที่ดีคือการดูพีชคณิตของ OLS ปกติโดยมุ่งเน้นไปที่การกระจายตัวที่เกิดขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.