เหตุใดบางคนทดสอบสมมติฐานตัวแบบถดถอยเหมือนกับข้อมูลดิบของพวกเขาและคนอื่น ๆ ทดสอบพวกเขาในส่วนที่เหลือ


12

ฉันเป็นนักศึกษาปริญญาเอกสาขาจิตวิทยาเชิงทดลองและฉันพยายามอย่างหนักเพื่อพัฒนาทักษะและความรู้เกี่ยวกับวิธีการวิเคราะห์ข้อมูลของฉัน

จนกระทั่งปีที่ 5 ของฉันในด้านจิตวิทยาฉันคิดว่ารูปแบบการถดถอย (เช่น ANOVA) ถือว่าเป็นสิ่งต่อไปนี้:

  • ความปกติของข้อมูล
  • ความแปรปรวนเป็นเนื้อเดียวกันสำหรับข้อมูลและอื่น ๆ

หลักสูตรระดับปริญญาตรีของฉันทำให้ฉันเชื่อว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อมูล อย่างไรก็ตามในปีที่ 5 ผู้สอนของฉันบางคนขีดเส้นใต้ข้อเท็จจริงที่ว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อผิดพลาด (ประมาณโดยค่าตกค้าง) และไม่ใช่ข้อมูลดิบ

เมื่อเร็ว ๆ นี้ฉันกำลังพูดถึงคำถามสมมติฐานกับเพื่อนร่วมงานของฉันบางคนที่ยอมรับว่าพวกเขาค้นพบความสำคัญของการตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือเฉพาะในปีสุดท้ายของมหาวิทยาลัย

ถ้าฉันเข้าใจดีโมเดลที่เหมือนการถดถอยจะทำให้ข้อสันนิษฐานผิดพลาด ดังนั้นจึงเหมาะสมที่จะตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือ ถ้าใช่ทำไมบางคนตรวจสอบสมมติฐานเกี่ยวกับข้อมูลดิบ? เป็นเพราะขั้นตอนการตรวจสอบดังกล่าวประมาณว่าเราจะได้อะไรจากการตรวจสอบสิ่งที่เหลืออยู่?

ฉันจะขัดจังหวะด้วยความสงสัยเกี่ยวกับปัญหานี้กับบางคนที่มีความรู้ที่แม่นยำกว่าเพื่อนร่วมงานของฉันและฉันฉันขอขอบคุณล่วงหน้าสำหรับคำตอบของคุณ

คำตอบ:


13

โดยพื้นฐานแล้วคุณอยู่ในเส้นทางที่ถูกต้อง คุณจะพบกับการสนทนาเกี่ยวกับลักษณะของภาวะปกติในNormality ของตัวแปรตาม = ปกติของเศษเหลือ?

สมมติฐานบางประการของโมเดลเชิงเส้นคลาสสิกนั้นเกี่ยวกับข้อผิดพลาดจริง ๆ (โดยใช้ส่วนที่เหลือเป็นความเข้าใจของพวกเขา)

  • พวกเขาไม่เกี่ยวข้องกันหรือไม่? (เกี่ยวข้องกับการอนุมานและการปรับให้เหมาะสมที่สุดของเครื่องมือประมาณค่า OLS)
  • พวกเขามีความแปรปรวนเท่ากันหรือไม่ (เกี่ยวข้องกับการอนุมานและการปรับให้เหมาะสมที่สุดของเครื่องมือประมาณค่า OLS)
  • พวกเขามีศูนย์กลางอยู่ที่ประมาณ 0? (ข้อสมมติฐานหลักในการรับตัวประมาณและการคาดการณ์ที่ไม่เอนเอียง)
  • หากตัวอย่างมีขนาดเล็กมาก: เป็นปกติหรือกระจายอย่างสมมาตรอย่างน้อยที่สุดหรือไม่ (เกี่ยวข้องกับการอนุมาน)

เงื่อนไขอื่น ๆ เกี่ยวกับ "ข้อมูลดิบ":

  • ไม่มีค่าผิดปกติในการถดถอยหรือไม่? (การสำรวจระดับสูงสามารถทำลายโมเดลทั้งหมดได้)
  • ไม่มีความหลากหลายทางชีวภาพที่สมบูรณ์แบบ? (อาจทำให้เกิดปัญหาการคำนวณอย่างน้อยในบางแพคเกจซอฟต์แวร์)

ตอนนี้อาจารย์ระดับปริญญาตรีของคุณอาจถูกต้องเช่นกัน:

  • บางทีคุณอาจกำลังมุ่งเน้นไปที่การทดสอบแบบไม่แปรเช่นการทดสอบทีหนึ่งตัวอย่าง ที่นั่นสมมติฐานเกี่ยวกับข้อมูลดิบ
  • R2
  • คุณจะตรวจสอบ homoscedasticity ฯลฯ จากข้อมูลดิบอย่างไร บางทีคุณอาจเข้าใจผิดเขาหรือเธอ

โอเคขอบคุณมากสำหรับคำตอบและลิงค์ที่มีประโยชน์มาก เพื่อนร่วมงานของฉันบางคนและฉันเชื่อจนกระทั่งเมื่อไม่นานมานี้ว่าข้อมูลดิบควรมีความแปรปรวนเท่ากัน อย่างที่คุณบอกว่าเราอาจจะพลาดบางสิ่งบางอย่างในหลักสูตรของเรา ในหนังสือบางเล่มเราสามารถอ่านได้ดังนี้:
Psychokwak

"ขั้นตอนทางสถิติที่พบบ่อยที่สุดสร้างสมมติฐานสองข้อที่เกี่ยวข้องกับหัวข้อนี้: (a) ข้อสันนิษฐานว่าตัวแปร (หรือข้อผิดพลาดทางเทคนิคมากกว่า) มีการกระจายตามปกติและ (b) ข้อสมมติฐานของความเท่าเทียมกันของความแปรปรวน (homoscedasticity หรือ homogeneity ของความแปรปรวน) หมายถึงความแปรปรวนของตัวแปรนั้นจะคงที่ตลอดช่วงที่สังเกตของตัวแปรอื่น ๆ " มันหมายความว่าเมื่อพูดถึง "ตัวแปร" เขาหรือเธอพูดอย่างเป็นระบบเกี่ยวกับ "ข้อผิดพลาดของพวกเขา"? ถ้าเป็นเช่นนั้นฉันก็โอเค แต่ไม่ได้กล่าวถึงอย่างชัดเจนว่ามันอยู่ไกลจากที่เห็นได้ชัด (อย่างน้อยสำหรับฉัน)
Psychokwak

ในที่สุดฉันมีคำถามสุดท้ายเกี่ยวกับคำตอบของคุณ ถ้า t-test และ ANOVA เป็นกรณีเฉพาะของการถดถอยเหตุใดข้อสันนิษฐานจึงเกี่ยวกับข้อมูลในการทดสอบ t-test หนึ่งตัวอย่าง ขอบคุณอีกครั้งสำหรับคำตอบที่มีประโยชน์ของคุณ
Psychokwak

1
หากต้องการตอบความคิดเห็นล่าสุดของคุณ: สามารถดู t-test หนึ่งตัวอย่างเป็นกรณีพิเศษของการถดถอย แบบจำลองประกอบด้วยการสกัดกั้น (= หมายถึง) และคำผิดพลาดนั่นคือการตอบสนองเป็นข้อผิดพลาดที่เลื่อน เนื่องจากการเปลี่ยนแปลงที่ไม่เกี่ยวข้องกับข้อสันนิษฐานใด ๆ จึงเท่ากับการพูดคุยเกี่ยวกับข้อมูลหรือเศษเหลือ
Michael M

4

ฉันพบความแตกต่างระหว่างส่วนที่เหลือและข้อมูลดิบไม่เป็นประโยชน์เนื่องจากทั้งคู่อ้างถึงตัวอย่างจริงของคุณมากกว่าและไม่ใช่การกระจายตัวของประชากร มันจะดีกว่าที่จะคิดว่าเป็นความต้องการบางอย่างที่เป็น "ความต้องการในกลุ่ม" และอื่น ๆ "ระหว่างสมมติฐานกลุ่ม"

ยกตัวอย่างเช่น homonenity ความแปรปรวนเป็น "สมมติฐานระหว่างกลุ่ม" เพราะมันบอกว่าความแปรปรวนภายในกลุ่มจะเหมือนกันสำหรับทุกกลุ่ม

ความสามัญคือสมมติฐาน "ภายในกลุ่ม" ซึ่งกำหนดให้ภายในแต่ละกลุ่ม y มีการกระจายตามปกติ

โปรดทราบว่าการมีกฎเกณฑ์มากกว่า y ดิบทั้งหมดของคุณมักจะหมายความว่าคุณไม่มีผลกระทบใด ๆ - ดูการกระจายเพศโดยไม่แยกความแตกต่างระหว่างหญิงและชาย มันจะไม่ได้รับการกระจายตามปกติเพราะผลกระทบทางเพศที่แข็งแกร่ง แต่ในแต่ละเพศมันก็ค่อนข้างดี


1
ขอบคุณสำหรับคำตอบของคุณด้วย มันเป็นวิธีที่น่าสนใจในการดูคำถาม ฉันไม่เคยคิดถึงเรื่องปกติในลักษณะนี้ (กล่าวคือ "การมีกฎเกณฑ์เหนือ [ดิบ] ทั้งหมดดิบ y มักหมายถึง [เรา] ไม่มีผล")
Psychokwak
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.