ความเข้าใจผิดที่ Y ต้องแจกจ่ายตามปกติมาจากไหน

แหล่งที่เชื่อถือได้ดูเหมือนจะอ้างว่าตัวแปรตามต้องกระจายตามปกติ:

รุ่นสมมติฐาน: $Y$ มีการกระจายตามปกติข้อผิดพลาดที่มีการกระจายตามปกติ $e_i \sim N(0,\sigma^2)$ และอิสระและ $X$ ได้รับการแก้ไขและความแปรปรวนคงที่ $\sigma^2$ 2

การวิเคราะห์ข้อมูลที่ไม่ต่อเนื่องของ Penn State, STAT 504

ประการที่สองการวิเคราะห์การถดถอยเชิงเส้นกำหนดให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ

สถิติสรุปข้อสมมติฐานของการถดถอยเชิงเส้น

สิ่งนี้เหมาะสมเมื่อตัวแปรตอบกลับมีการแจกแจงแบบปกติ

Wikipedia, โมเดลเชิงเส้นทั่วไป

มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจผิดว่าทำไมหรือทำไมถึงเกิดการแพร่กระจาย? เป็นที่รู้จักหรือไม่?

ที่เกี่ยวข้อง

การถดถอยเชิงเส้นและสมมติฐานเกี่ยวกับตัวแปรตอบสนอง

— timwiz
แหล่งที่มา

เสียใจ คุณกำลังทำดีโฉนดที่นี่ ...

— jbowman

ฉันไม่รู้สถานการณ์ใด ๆ ที่ใช้การถดถอยเชิงเส้นที่ต้องการการกระจายตัวของ

หรือการรวมกันของตัวแปรทั้งหมดเป็นตัวแปรปกติหลายตัวแปร ดูเหมือนว่าฉันเข้าใจผิด

Y

$Y$

— Matthew Drury

@MichaelChernick "Y คือการกระจายตามปกติ" เป็นเท็จอย่างชัดแจ้ง ลองใช้ดูใน R: X <- runif(n=100)จากY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)นั้นเล่นกับฮิสโทแกรมเพื่อโน้มน้าวตัวเองว่าไม่มีการแจกแจงปกติหรือ X จากนั้นsummary(lm(Y ~ X))และให้ความสนใจอย่างใกล้ชิดกับการสกัดกั้นถึง 3 และความชันของ X เท่ากับ 0.5 สมมติฐานคือข้อผิดพลาดที่กระจายตามปกติ

— Alexis

@ อเล็กซิสฉันเชื่อว่าสิ่งที่ไมเคิลพยายามพูดก็คือสมมติฐานของ Normality หลายตัวแปรนั้นเพียงพอแต่ไม่จำเป็น ชัดเจนว่าคนเราควรอ่านใบเสนอราคาของ Wikipedia อย่างไร เห็นได้ชัดว่าการเสนอราคาครั้งที่สองนั้นผิดในการยืนยันสมมติฐานเหล่านั้นเป็นสิ่งที่จำเป็น ใบเสนอราคาแรกคลุมเครือ แต่สามารถอ่านได้อย่างไม่เห็นแก่ตัวในความหมายที่อธิบายโดย Michael

— whuber

ทั้งหมดที่ฉันพูดคือข้อสันนิษฐานเชิงบรรทัดฐานนั้นแสดงถึงคุณสมบัติบางอย่าง ตัวอย่างเช่นในการถดถอยเชิงเส้นอย่างง่ายถ้าคุณถือว่าเงื่อนไขข้อผิดพลาดคือ iid ปกติด้วยค่าเฉลี่ยศูนย์และความแปรปรวนคงที่การประมาณกำลังสองน้อยที่สุดของพารามิเตอร์การถดถอยคือโอกาสสูงสุด การรักษาสมมติฐานทั้งหมดยกเว้นความปกติน้อยที่สุดกำลังสองไม่ใช่ความเป็นไปได้สูงสุดอีกต่อไป แต่ยังคงความแปรปรวนขั้นต่ำที่ไม่เอนเอียง

— Michael Chernick

คำตอบ:

'Y ต้องกระจายตามปกติ'

ต้อง?

ในกรณีที่คุณพูดถึงว่ามันเป็นภาษาเลอะเทอะ (ตัวย่อ'ข้อผิดพลาดใน Y จะต้องกระจายตามปกติ' ) แต่พวกเขาไม่ได้ (จริงๆ) บอกว่าการตอบสนองจะต้องกระจายตามปกติหรืออย่างน้อยก็ดูเหมือนจะไม่ ฉันว่าคำพูดของพวกเขาตั้งใจเช่นนั้น

เนื้อหาหลักสูตรของ Penn State

$Y$ $Y_i$

E (Y_{i}) = β_{0} + β_{1} x_{i}

$E(Y_i) = \beta_0 + \beta_1 x_i$

Y_{i}

$Y_i$

Y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})

$Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2)$

$Y$ $Y_i$

เมื่ออธิบายตัวแปรบางตัวของ GLM (การถดถอยโลจิสติกไบนารี)

$Y$ $Binomial(n,\pi)$
ในความหมายบางอย่าง

$Y$ $Y$ $Y$

$Y_i$ $Y$

$Y_i$

หน้าเว็บสถิติ

เป็นคำอธิบายสั้น ๆ ง่ายมากและมีสไตล์ ฉันไม่แน่ใจว่าคุณควรทำสิ่งนี้อย่างจริงจัง ตัวอย่างเช่นมันพูดเกี่ยวกับ

.. ขอให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ ...

ดังนั้นมันจึงไม่ใช่แค่เพียงตัวแปรตอบสนอง

และตัวบ่งชี้ 'หลายตัวแปร' นั้นคลุมเครือ ฉันไม่แน่ใจว่าจะตีความได้อย่างไร

บทความวิกิพีเดีย

มีบริบทเพิ่มเติมอธิบายไว้ในวงเล็บ:

สามัญถดถอยเชิงเส้นคาดการณ์มูลค่าที่คาดว่าจะได้รับในปริมาณที่ไม่รู้จัก (ตัวแปรตอบสนองตัวแปรสุ่ม) เช่นการรวมกันเชิงเส้นของชุดของค่าสังเกต (พยากรณ์) นี่ก็หมายความว่าการเปลี่ยนแปลงค่าคงที่ในตัวทำนายจะนำไปสู่การเปลี่ยนแปลงค่าคงที่ในตัวแปรการตอบสนอง (เช่นตัวแบบการตอบสนองแบบเชิงเส้น) นี่คือความเหมาะสมเมื่อตัวแปรตอบสนองมีการแจกแจงแบบปกติ(สังหรณ์ใจเมื่อตัวแปรตอบสนองสามารถเปลี่ยนแปลงได้อย่างไม่มีกำหนดในทิศทางใดทิศทางหนึ่งโดยไม่มี "ศูนย์ค่า" คงที่หรือมากกว่าโดยทั่วไปสำหรับปริมาณใด ๆ ที่แตกต่างกันเพียงเล็กน้อยเท่านั้นเช่นมนุษย์ ความสูง)

$y+\epsilon$ $\epsilon \sim N(0,\sigma)$

บรรทัดดังกล่าวได้รับการเพิ่มในวันที่ 8 มีนาคม 2012แต่โปรดทราบว่าบรรทัดแรกของบทความ Wikipedia ยังคงอ่าน"ความยืดหยุ่นทั่วไปของการถดถอยเชิงเส้นธรรมดาที่อนุญาตให้ตัวแปรตอบสนองที่มีรูปแบบการกระจายข้อผิดพลาดอื่น ๆ นอกเหนือจากการแจกแจงแบบปกติ"และไม่ใช่ ผิดมาก (ไม่ได้ทุกที่)

ข้อสรุป

ดังนั้นขึ้นอยู่กับทั้งสามตัวอย่าง (ซึ่งแน่นอนอาจสร้างความเข้าใจผิดหรืออย่างน้อยอาจจะเข้าใจผิด) ฉันจะไม่พูดว่า"ความเข้าใจผิดนี้มีการแพร่กระจาย" หรืออย่างน้อยก็ไม่ถึงกับฉันว่าเจตนาของทั้งสามตัวอย่างคือการยืนยันว่า Y ต้องกระจายตามปกติ (แม้ว่าฉันจำได้ว่าปัญหานี้เกิดขึ้นก่อนหน้านี้ใน stackexchange การสลับระหว่างข้อผิดพลาดแบบกระจายปกติและตัวแปรตอบสนองแบบกระจาย ทำง่าย)

ดังนั้นการสันนิษฐานว่า 'Y ต้องกระจายตามปกติ' ดูเหมือนจะไม่เหมือนกับความเชื่อ / ความเข้าใจผิดที่แพร่หลาย (เช่นในสิ่งที่แพร่กระจายเหมือนปลาเฮอริ่งแดง) แต่ก็เหมือนกับข้อผิดพลาดทั่วไป (ซึ่งไม่ได้แพร่กระจายแต่ทำแยกกันทุกครั้ง )

ความคิดเห็นเพิ่มเติม

ตัวอย่างข้อผิดพลาดในเว็บไซต์นี้อยู่ในคำถามต่อไปนี้

จะเกิดอะไรขึ้นถ้าการกระจายตัวของสารตกค้างเป็นปกติ แต่ y ไม่ใช่?

ฉันคิดว่านี่เป็นคำถามเริ่มต้น มันไม่ได้มีอยู่ในเนื้อหาเช่นเนื้อหาหลักสูตรของ Penn State เว็บไซต์ Wikipedia และเมื่อเร็ว ๆ นี้ระบุไว้ในความคิดเห็นของหนังสือ 'การขยายการถดถอยเชิงเส้นด้วย R'

ผู้เขียนผลงานเหล่านั้นเข้าใจเนื้อหาได้อย่างถูกต้อง อันที่จริงพวกเขาใช้วลีเช่น 'Y ต้องกระจายตามปกติ' แต่ขึ้นอยู่กับบริบทและสูตรที่ใช้คุณสามารถเห็นว่าพวกเขาทั้งหมดหมายถึง 'Y, เงื่อนไขบน X, ต้องกระจายตามปกติ' และ 'marginal Y ต้อง แจกจ่ายปกติ ' พวกเขาไม่ได้เข้าใจความคิดผิด ๆ และอย่างน้อยความคิดนั้นก็ยังไม่แพร่หลายในหมู่นักสถิติและผู้คนที่เขียนหนังสือและเนื้อหาหลักสูตรอื่น ๆ แต่การเข้าใจผิดคำพูดที่คลุมเครือของพวกเขาอาจทำให้เกิดความเข้าใจผิด

— Sextus Empiricus
แหล่งที่มา

+1 ที่กล่าวว่า: ฉันคิดว่าเราทุกคนเคยเห็นคำถามมากมายที่ยืนยันความเป็นมาตรฐานของ Y รอบ ๆ ที่นี่ ... มีการเข้าใจผิดกันบ้าง :)

— อเล็กซิส

ใช่ฉันยอมรับว่าสมมติฐานของ 'y กระจายทั่วไป' เกิดขึ้นบ่อยครั้ง (ฉันไม่สามารถหาตัวอย่างได้ง่าย แต่อาจเป็นเพราะคนอธิบายสิ่งเหล่านี้ระหว่างบรรทัดและไม่ใช่ด้วยคำหลักง่าย ๆ ) อย่างไรก็ตามฉันเชื่อว่านี่เป็นสิ่งที่มากกว่า 'ทั่วไป' ไม่ใช่สิ่งที่ ' แพร่กระจาย ' ไปมาก และอย่างน้อยที่สุดแน่นอนสามตัวอย่างที่ได้รับจาก OP ไม่แข็งแรงมาก (ไม่แข็งแรงในแง่ของการบ่งชี้การแพร่กระจายของความเข้าใจผิดแม้ว่าพวกเขาจะอธิบายการใช้ภาษาทางพยาธิวิทยาของภาษาและวิธีการผิดพลาดอาจเกิดขึ้น)

— Sextus Empiricus

@Martijn Weterings: ฉันต้องการที่จะไม่เห็นด้วยกับคำสั่งของคุณ "ฉันจะไม่พูดว่าความเข้าใจผิดนี้ได้แพร่กระจาย" ในหนังสือของเขาการขยายการถดถอยเชิงเส้นด้วย R ซึ่งใช้ในการอ่านที่จำเป็นในโปรแกรมสถิติระดับบัณฑิตศึกษาจำนวนมาก Julian Faraway ระบุไว้ในหน้า xi ในคำนำของหนังสือเล่มนี้ว่า "แบบจำลองเชิงเส้นมาตรฐานไม่สามารถตอบสนองที่ไม่ปกติ เป็นจำนวนหรือสัดส่วน "

— ColorStatistics

n - 1

$n-1$

(r - 1) (c - 1)

$(r-1)(c-1)$

$y = \beta_0 + \beta_1 x_1 + ... \beta_p x_p + \epsilon$ $\epsilon$ การตอบสนองควรมีการแจกแจงเฉพาะที่กล่าวถึง

— Sextus Empiricus

มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจที่คลาดเคลื่อนนี้อย่างไร? เป็นที่รู้จักหรือไม่?

โดยทั่วไปเราจะสอนสถิติระดับปริญญาตรี "แบบง่าย" ในหลายสาขาวิชา ฉันอยู่ในจิตวิทยาและเมื่อฉันพยายามบอกนักศึกษาปริญญาตรีว่าค่าpคือ "ความน่าจะเป็นของข้อมูล - หรือข้อมูลที่มากขึ้น - เนื่องจากสมมติฐานว่างเปล่าเป็นจริง" เพื่อนร่วมงานบอกฉันว่าฉันครอบคลุมรายละเอียดมากกว่าที่ฉันต้องการ ครอบคลุม. ฉันทำให้มันยากขึ้นกว่าที่เป็นอยู่เป็นต้นเนื่องจากนักเรียนในชั้นเรียนมีความสะดวกสบายมากมาย (หรือขาดมัน) ด้วยสถิติอาจารย์โดยทั่วไปทำให้มันง่าย: "เราคิดว่ามันน่าเชื่อถือหากP <.05" สำหรับตัวอย่างเช่นแทนที่จะให้พวกเขามีความหมายที่แท้จริงของพี -value

ฉันคิดว่านี่เป็นที่ที่คำอธิบายว่าทำไมความเข้าใจผิดจึงแพร่กระจาย ตัวอย่างเช่นคุณสามารถเขียนโมเดลเป็น:

$Y = \beta_0 + \beta_1X + \epsilon$ $\epsilon \sim \text{N}(0, \sigma^2_\epsilon)$

สิ่งนี้สามารถเขียนใหม่เป็น:

$Y|X \sim \text{N}(\beta_0 + \beta_1X, \sigma^2_\epsilon)$

ซึ่งหมายความว่า "Y ตามเงื่อนไขบน X จะกระจายตามปกติด้วยค่าเฉลี่ยของค่าที่คาดการณ์และความแปรปรวนบางอย่าง"

นี่เป็นการยากที่จะอธิบายดังนั้นผู้คนที่จดชวเลขอาจจะพูดว่า: "Y จะต้องถูกแจกจ่ายตามปกติ" หรือเมื่อมีการอธิบายให้พวกเขาในตอนแรกผู้คนเข้าใจผิดส่วนที่มีเงื่อนไข - เนื่องจากเป็นเรื่องจริงที่ทำให้เกิดความสับสน

ดังนั้นในความพยายามที่จะไม่ทำให้สิ่งต่าง ๆ มีความซับซ้อนอย่างมากอาจารย์ผู้สอนก็แค่ทำให้สิ่งที่พวกเขาพูดง่ายขึ้นเพื่อไม่ให้นักเรียนส่วนใหญ่สับสนมากเกินไป จากนั้นผู้คนก็ยังคงศึกษาต่อในด้านสถิติหรือการฝึกฝนเชิงสถิติด้วยความเข้าใจผิด ตัวฉันเองไม่เข้าใจแนวคิดอย่างเต็มที่จนกว่าฉันจะเริ่มทำแบบจำลอง Bayesian ใน Stan ซึ่งคุณต้องเขียนสมมติฐานของคุณในลักษณะนี้:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

นอกจากนี้ในแพ็คเกจทางสถิติที่มี GUI (ดูที่คุณ SPSS) จะง่ายต่อการตรวจสอบว่าการแจกแจงส่วนขยายนั้นเป็นแบบกระจาย (ฮิสโตแกรมแบบธรรมดา) ได้ง่ายกว่าการตรวจสอบว่ามีการแจกแจงแบบปกติหรือไม่ บันทึกส่วนที่เหลือเรียกใช้ฮิสโตแกรมในส่วนที่เหลือเหล่านั้น)

ดังนั้นฉันคิดว่าความเข้าใจผิดส่วนใหญ่เกิดจากผู้สอนที่พยายามโกนรายละเอียดเพื่อป้องกันไม่ให้นักเรียนสับสนสับสนและเข้าใจได้ - ความสับสนในหมู่คนที่เรียนรู้วิธีการที่ถูกต้องและทั้งสองสิ่งนี้เสริมโดยง่ายในการตรวจสอบ แพ็คเกจทางสถิติที่ใช้งานง่ายที่สุด

— มาร์คไวท์
แหล่งที่มา

ฉันคิดว่าคุณถูกต้อง หลายคนไม่เข้าใจส่วนที่มีเงื่อนไข พวกเขาคิดว่าปกติกระจายตัว

— SmallChess

ฉันยอมรับว่านี่อาจเป็น 'หนึ่ง' ของโหมดที่ข้อผิดพลาดนี้เกิดขึ้น / สเปรด เนื้อหาหลักสูตรของ Penn State แต่ดูเหมือนว่าฉันจะไม่ใช่เพราะการทำให้เข้าใจง่าย 'โดยเจตนา' นี้และยังเป็นเพราะการเขียนสัญกรณ์เลอะเทอะ มันเป็นเหมือนบันทึกย่อขนาดเล็ก (แน่นอน) หรือชอบแสดงความคิดเห็นเพื่อ stackexchange, ลดความซับซ้อนของภาษา ในบางสถานที่พวกเขาใช้คำที่ถูกต้อง (ส่วนตัวแผนงานของฉัน / ไดอะแกรมที่ดีกว่าคำพูดของฉัน / สูตร แต่นั่นไม่ได้หมายความว่าสิ่งที่ฉันเขียนถ้ามันเป็นความผิดเป็นจำเป็นต้องเป็นความคิดที่ผิด)

— Sextus Empiricus

@MartijnWeterings เห็นด้วย - มันง่ายมากที่จะสร้างความสับสนให้ใครบางคนโดยไม่ได้ใช้ภาษาเฉพาะ เป็นการยากที่จะเจาะจงเฉพาะกับภาษาของคุณในบางสิ่งที่เป็นนามธรรมตามสมมติฐานทางสถิติและผู้ชาญฉลาดหลายคนทำผิดพลาดง่าย ๆ ซึ่งนำไปสู่ความเข้าใจผิดที่แพร่หลายเช่นนี้

— ทำเครื่องหมายสีขาว

MarkWhite ฉันซาบซึ้งในความสนใจของคุณโดยตรงกับวิธีที่เราสอน ... ฉันคิดว่ามันพูดในทางที่สำคัญต่อความสนใจของ OP ใน "การแพร่กระจายของความเข้าใจผิด" (นอกเหนือจากความแตกต่างของสิ่งที่เป็นและสิ่งที่ไม่ใช่ความเข้าใจผิด )

— Alexis

การวิเคราะห์การถดถอยเป็นเรื่องยากสำหรับผู้เริ่มต้นเนื่องจากมีผลลัพธ์ที่แตกต่างกันซึ่งมีนัยโดยข้อสันนิษฐานการเริ่มต้นที่แตกต่างกัน สมมติฐานเริ่มต้นที่อ่อนกว่าสามารถปรับผลลัพธ์ได้บางส่วน แต่คุณสามารถได้ผลลัพธ์ที่ดีขึ้นเมื่อคุณเพิ่มสมมติฐานที่แข็งแกร่งขึ้น ผู้ที่ไม่คุ้นเคยกับผลการคำนวณทางคณิตศาสตร์อย่างเต็มรูปแบบมักจะเข้าใจผิดสมมติฐานที่จำเป็นสำหรับผลลัพธ์ไม่ว่าจะโดยการวางตัวแบบที่อ่อนแอเกินกว่าที่จะรับผลลัพธ์ที่ต้องการหรือวางสมมติฐานที่ไม่จำเป็นบางอย่างในความเชื่อที่ว่าสิ่งเหล่านี้จำเป็น .

แม้ว่ามันจะเป็นไปได้ที่จะเพิ่มสมมติฐานที่แข็งแกร่งขึ้นเพื่อให้ได้ผลลัพธ์เพิ่มเติมการวิเคราะห์การถดถอยเกี่ยวข้องกับการกระจายแบบมีเงื่อนไขของเวกเตอร์การตอบสนอง ถ้าแบบจำลองมีมากกว่านี้ก็จะเข้าสู่อาณาเขตของการวิเคราะห์หลายตัวแปรและไม่ใช่แบบจำลองการถดถอยอย่างเคร่งครัด เรื่องนี้มีความซับซ้อนมากขึ้นโดยความจริงที่ว่ามันเป็นเรื่องธรรมดาที่จะอ้างถึงผลการกระจายในการถดถอยโดยไม่ต้องระมัดระวังที่จะระบุว่าพวกเขาเป็นเงื่อนไขแจกแจง (ให้ตัวแปรอธิบายในเมทริกซ์ออกแบบ) ในกรณีที่ตัวแบบไปไกลกว่าการแจกแจงแบบมีเงื่อนไข (โดยสมมติว่ามีการแจกแจงส่วนขอบสำหรับเวกเตอร์อธิบาย) ผู้ใช้ควรระมัดระวังในการระบุความแตกต่างนี้ โชคไม่ดีที่ผู้คนมักไม่ระวังในเรื่องนี้

แบบจำลองการถดถอยเชิงเส้นแบบ Homoskedastic:จุดเริ่มต้นที่เก่าที่สุดที่มักจะใช้คือการสมมติรูปแบบของแบบจำลองและช่วงเวลาที่ผิดพลาดสองช่วงแรกโดยไม่มีข้อสันนิษฐานเกี่ยวกับภาวะปกติเลย:

Y = x β + ε E (ε | x) = 0 V (ε | x) \propto I .

$\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\quad \quad \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{x}) = \boldsymbol{0} \quad \quad \mathbb{V}(\boldsymbol{\varepsilon} | \boldsymbol{x}) \propto \boldsymbol{I}.$

การตั้งค่านี้เพียงพอที่จะให้คุณได้รับตัวประมาณ OLS สำหรับค่าสัมประสิทธิ์ตัวประมาณค่าแบบไม่เอนเอียงสำหรับความแปรปรวนข้อผิดพลาดส่วนที่เหลือและช่วงเวลาของปริมาณสุ่มทั้งหมดเหล่านี้ (เงื่อนไขกับตัวแปรอธิบายในเมทริกซ์การออกแบบ) มันไม่ได้ช่วยให้คุณสามารถที่จะได้รับเงื่อนไขการจำหน่ายเต็มรูปแบบของปริมาณเหล่านี้ แต่ก็ไม่อนุญาตให้มีการอุทธรณ์ไปยังกระจาย asymptotic ถ้ามีขนาดใหญ่และบางสมมติฐานเพิ่มเติมจะถูกวางไว้บนพฤติกรรมการ จำกัด ของ{x} ในการไปต่อมันเป็นเรื่องธรรมดาที่จะสมมติรูปแบบการแจกแจงเฉพาะสำหรับเวกเตอร์ข้อผิดพลาด $n$ $\boldsymbol{x}$

ข้อผิดพลาดปกติ:การรักษาส่วนใหญ่ของแบบจำลองการถดถอยเชิงเส้นแบบ homoskedastic สันนิษฐานว่าเวกเตอร์ข้อผิดพลาดนั้นมีการแจกแจงแบบปกติซึ่งเมื่อรวมกับสมมติฐานที่ให้

ε | x \sim N (0, σ^{2} I) .

$\boldsymbol{\varepsilon} | \boldsymbol{x} \sim \text{N}(\boldsymbol{0}, \sigma^2 \boldsymbol{I}).$

ข้อสันนิษฐานเพิ่มเติมนี้เพียงพอที่จะทำให้แน่ใจว่า OLS ประมาณค่าสัมประสิทธิ์เป็น MLE สำหรับแบบจำลองและมันก็หมายความว่าตัวประมาณค่าสัมประสิทธิ์และส่วนที่เหลือมีการกระจายตามปกติและตัวประมาณค่าสำหรับความแปรปรวนข้อผิดพลาดจะมีการแจกแจงไคสแควร์ เงื่อนไขกับตัวแปรอธิบายในเมทริกซ์การออกแบบ) นอกจากนี้ยังทำให้มั่นใจได้ว่าเวกเตอร์การตอบสนองนั้นมีการแจกแจงแบบมีเงื่อนไขตามปกติ สิ่งนี้ให้ผลการกระจายแบบมีเงื่อนไขกับตัวแปรอธิบายในการวิเคราะห์ซึ่งอนุญาตให้สร้างช่วงความเชื่อมั่นและการทดสอบสมมติฐาน หากนักวิเคราะห์ต้องการหาข้อสรุปเกี่ยวกับการกระจายตัวของการตอบสนองพวกเขาจำเป็นต้องดำเนินการต่อไปและรับการแจกแจงสำหรับตัวแปรอธิบายในตัวแบบ

ตัวแปรอธิบายร่วมกันปกติ:การรักษาบางอย่างของแบบจำลองการถดถอยเชิงเส้นแบบ homoscedastic ไปไกลกว่าการรักษาแบบมาตรฐานและไม่มีเงื่อนไขเกี่ยวกับตัวแปรอธิบายคงที่ (เนื้อหานี้เป็นการเปลี่ยนจากการถดถอยแบบและการวิเคราะห์หลายตัวแปร) แบบจำลองที่พบบ่อยที่สุดของประเภทนี้สมมติว่าเวกเตอร์คำอธิบายเป็น IID เวกเตอร์สุ่มร่วมแบบปกติ ปล่อยให้เป็น TH เวกเตอร์อธิบาย (คนแถวของเมทริกซ์ออกแบบชั้น) เรา: $\boldsymbol{X}_{(i)}$ $i$ $i$

X_{(1)}, . . ., X_{(n)} \sim IID N (μ_{X}, Σ_{X}) .

$\boldsymbol{X}_{(1)}, ..., \boldsymbol{X}_{(n)} \sim \text{IID N}(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X).$

ข้อสันนิษฐานเพิ่มเติมนี้เพียงพอที่จะทำให้แน่ใจว่าเวกเตอร์การตอบสนองจะถูกกระจายแบบปกติเล็กน้อย นี่คือสมมติฐานที่แข็งแกร่งและมักจะไม่ได้กำหนดไว้ในปัญหาส่วนใหญ่ ตามที่ระบุไว้นี่ใช้โมเดลนอกอาณาเขตของตัวแบบการถดถอยและไปสู่การวิเคราะห์หลายตัวแปร

— Reinstate Monica
แหล่งที่มา

ฉันพบว่ามันลึกซึ้งมากในแบบที่คุณใช้สมมติฐานที่แข็งแกร่งขึ้นแบบหนึ่งต่อหนึ่งและอธิบายความหมาย

— ColorStatistics