การถดถอยเมื่อส่วนที่เหลือ OLS จะไม่กระจายตามปกติ


43

มีหลายเธรดในไซต์นี้ที่กล่าวถึงวิธีการตรวจสอบว่ามีการแจกแจงOLS แบบกระจายตามปกติหรือไม่ อีกวิธีหนึ่งในการประเมินความเป็นไปได้ของการใช้รหัส R ในคำตอบที่ยอดเยี่ยมนี้ นี่คือการอภิปรายเกี่ยวกับความแตกต่างในทางปฏิบัติระหว่างมาตรฐานและสารตกค้างที่สังเกตได้

แต่สมมุติว่าส่วนที่เหลือไม่ได้กระจายตามปกติอย่างในตัวอย่างนี้ ที่นี่เรามีการสังเกตหลายพันครั้งและชัดเจนว่าเราต้องปฏิเสธสมมติฐานที่กระจายตัวตามปกติ วิธีหนึ่งในการแก้ไขปัญหาคือการใช้ตัวประมาณค่าที่คาดเดายากบางรูปแบบตามที่อธิบายไว้ในคำตอบ อย่างไรก็ตามฉันไม่ได้ จำกัด เพียง OLS และในความเป็นจริงฉันต้องการเข้าใจประโยชน์ของวิธีการ glm อื่น ๆ หรือไม่ใช่เชิงเส้น

วิธีที่มีประสิทธิภาพมากที่สุดในการสร้างแบบจำลองข้อมูลที่ละเมิดกฎเกณฑ์ OLS ของการคิดค่าคงที่คืออะไร หรืออย่างน้อยสิ่งที่ควรเป็นขั้นตอนแรกในการพัฒนาวิธีการวิเคราะห์การถดถอยที่ดี?


5
นอกจากนี้ยังมีหลายหัวข้อที่พูดถึงว่าภาวะปกตินั้นไม่เกี่ยวข้องกับวัตถุประสงค์หลายประการ หากคุณมีการสังเกตอย่างอิสระและอย่างน้อยก็มีขนาดตัวอย่างในระดับปานกลางสิ่งเดียวที่สำคัญสำหรับการอนุมาน OLS คือว่าค่าตกค้างทั้งหมดมีความแปรปรวนเดียวกัน ไม่ใช่เรื่องธรรมดา หากคุณใช้การประมาณที่แข็งแกร่ง / heteroskedasticity-สอดคล้อง / แซนวิช / Huber-Eicker-White ของข้อผิดพลาดมาตรฐานแล้วแม้แต่ความต้องการแปรปรวนคงที่ไม่จำเป็น
แขกที่เข้าพัก

@guest ฉันแค่อ่านเกี่ยวกับประสิทธิภาพการทดสอบปกติในหัวข้อนั้น การวิเคราะห์การถดถอยไม่ได้ติดแท็ก
Robert Kubrick

ลองคนนี้ นี่คือการเชื่อมโยงภายนอก และเห็น OLS บทเช่นหุ้นและวัตสันรู้เบื้องต้นเกี่ยวกับเศรษฐ ฉันสาบานว่าฉันไม่ได้ทำสิ่งนี้ขึ้น!
แขกที่เข้าพัก

@guest ลิงก์ทั้งสองจัดการกับการแจกแจงปกติของผลลัพธ์ไม่ใช่ของเหลือ
Robert Kubrick

1
ไม่พวกเขาทำไม่ได้ ผู้เขียนมักจะอ้างถึง "การกระจายของ Y" เป็นชวเลขสำหรับ "การกระจายของ Y ตามเงื่อนไขบน X" หากต้องการกลับไปที่คำถามเดิมของคุณ เว้นแต่ว่าคุณจะมีตัวอย่างเล็ก ๆ หรือข้อมูลที่มีขนาดใหญ่มากการใช้ OLS กับข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพนั้นเป็นขั้นตอนแรกที่ดี ในกรณีเหล่านี้ Normality เป็นเพียงแค่ไม่มีปัญหา
แขกที่เข้าพัก

คำตอบ:


53

การประมาณกำลังสองน้อยสุดสามัญยังคงเป็นตัวประมาณที่เหมาะสมในการเผชิญกับข้อผิดพลาดที่ไม่ปกติ โดยเฉพาะทฤษฎีบทเกาส์ - มาร์คอฟระบุว่าการประมาณกำลังสองน้อยที่สุดธรรมดาคือตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้น (BLUE) ของสัมประสิทธิ์การถดถอย (ความหมายที่ดีที่สุดในแง่ดีที่สุดในแง่ของการลดความคลาดเคลื่อนเฉลี่ยกำลังสอง )

(1)มีค่าเฉลี่ยศูนย์

(2)ไม่เกี่ยวข้องกัน

(3)มีความแปรปรวนคงที่

โปรดสังเกตว่าไม่มีเงื่อนไขของภาวะปกติที่นี่ (หรือแม้แต่เงื่อนไขใด ๆ ที่ข้อผิดพลาดคือIID )

สภาพปกติมาลงเล่นเมื่อคุณกำลังพยายามที่จะได้รับความเชื่อมั่นและ / หรือ -values ในฐานะที่เป็น @MichaelChernick กล่าวถึง (+1, btw) คุณสามารถใช้การอนุมานที่แข็งแกร่งเมื่อข้อผิดพลาดที่ไม่ปกติตราบใดที่วิธีการจัดการปกติออกจากวิธีปกติ - ตัวอย่างเช่น (ที่เรากล่าวถึงในหัวข้อนี้ ) Huber - เครื่องมือประเมินสามารถให้ข้อสรุปที่มีประสิทธิภาพได้เมื่อการแจกแจงข้อผิดพลาดที่แท้จริงคือการผสมผสานระหว่างการแจกแจงแบบปกติและแบบหางยาว (ซึ่งตัวอย่างของคุณดูเหมือน) แต่อาจไม่เป็นประโยชน์สำหรับการออกจากระบบอื่น ๆ หนึ่งเป็นไปได้ที่น่าสนใจที่ไมเคิล alludes จะเป็นbootstrappingที่จะได้รับช่วงความเชื่อมั่นสำหรับประมาณการ OLS และเห็นว่านี้เปรียบเทียบกับฮิวอนุมานตามเอ็มpM

แก้ไข:ฉันมักจะได้ยินมันบอกว่าคุณสามารถพึ่งพาทฤษฎีบทกลาง จำกัด ในการดูแลข้อผิดพลาดที่ไม่ปกติ - มันไม่ได้เป็นจริงเสมอไป (ฉันไม่เพียงแค่พูดถึงเรื่องการตอบโต้ที่ทฤษฎีล้มเหลว) ในตัวอย่างข้อมูลจริงที่ OP อ้างถึงเรามีขนาดตัวอย่างขนาดใหญ่ แต่สามารถเห็นหลักฐานของการกระจายข้อผิดพลาดแบบหางยาว - ในสถานการณ์ที่คุณมีข้อผิดพลาดแบบหางยาวคุณไม่จำเป็นต้องพึ่งพาทฤษฎีขีด จำกัด กลางเพื่อให้ คุณอนุมานอย่างเป็นกลางโดยประมาณสำหรับขนาดตัวอย่างที่ จำกัด จริง ตัวอย่างเช่นหากข้อผิดพลาดเป็นไปตามค่า -distribution กับองศาความเป็นอิสระ (ซึ่งไม่ชัดเจนมากขึ้น2.01t2.01 ยาวกว่าข้อผิดพลาดที่เห็นในข้อมูลของ OP) การประมาณค่าสัมประสิทธิ์จะกระจายแบบปกติแบบ asymptotically แต่ใช้เวลานานกว่าในการ "เตะเข้า" มากกว่าการกระจายระยะสั้นแบบอื่น ๆ

ด้านล่างนี้ฉันสาธิตด้วยการจำลองแบบหยาบRเมื่อโดยที่ การกระจายตัวอย่างของยังคงเป็นหางค่อนข้างยาวแม้ว่าขนาดตัวอย่างคือ :ε ฉัน ~ T 2.01 β 1 n = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

ป้อนคำอธิบายรูปภาพที่นี่


2
+1 นี่เป็นภาพรวมที่ดีของหัวข้อ ฉันชอบการแก้ไขเป็นพิเศษ มีอะไรพิเศษเกี่ยวกับหรือไม่? ดูเหมือนว่าเฉพาะเจาะจงมาก df=2.01
gung - Reinstate Monica

2
@ gung, ขอบคุณ - ฉันเลือกเนื่องจากความแปรปรวนของตัวแปรสุ่ม -distributed ไม่มีอยู่เมื่อและดังนั้นจึงไม่ใช้ทฤษฎีบทขีด จำกัด กลาง t d f 2df=2.01tdf2
แมโคร

1
@guest นี่เป็นตัวอย่างที่วางแผนไว้เพียงเพื่อแสดงว่าคุณไม่สามารถเชื่อถือ CLT อย่างสุ่มสี่สุ่มห้าเมื่อคุณมีข้อผิดพลาดที่มีหางยาว ฉันเห็นด้วยว่านี่เป็นสิ่งที่รุนแรงสำหรับหลาย ๆ แอปพลิเคชั่น แต่ในตัวอย่าง ( stats.stackexchange.com/questions/29636/ … ) OP ที่อ้างถึงข้อมูลแสดงการกระจายข้อผิดพลาดแบบเทลด์ที่ยาวมาก - รูปร่างแตกต่างจากเล็กน้อยกระจายแต่มันไม่ได้ใช้หางยาวน้อยลงอย่างเห็นได้ชัดและเป็นผลมาจากข้อมูลจริง ฉันจะแก้ไข "แก้ไข" ของฉันเพื่อไฮไลต์ที่นี่ t2.01
แมโคร

2
@Macro ฉันเห็นด้วยเกี่ยวกับการใช้ CLT แบบตาบอด แต่ต้องใช้ข้อมูลปกติสำหรับช่วงความเชื่อมั่นและค่า - และไม่ใช่แค่ต้องการข้อมูลที่มีน้ำหนักเบามีค่ามากเกินไปและสนับสนุนเช่นการแปลงผกผัน - ปกติที่ทำให้ตีความยากขึ้น ยอดคงเหลือสำหรับการนัดหยุดงานอยู่ระหว่างการตอบคำถามที่ถูกต้องโดยประมาณกับคำถามผิด ๆ อย่างแม่นยำ ถ้าคนที่ใช่เกี่ยวข้องกับการเปรียบเทียบค่าเฉลี่ยของประชากรการใช้ OLS เป็นวิธีที่เหมาะสม p
แขกที่เข้าพัก

2
@guest ฉันไม่เคยเถียงกับ OLS ในความเป็นจริงฉันคิดว่าส่วนใหญ่ของคำตอบของฉันคือ OLS เป็นสิ่งที่สมเหตุสมผลที่จะทำโดยไม่คำนึงถึงสมมติฐานการกระจาย ฉันยังไม่เคยโต้แย้งว่ากฎเกณฑ์ที่เข้มงวดจะต้องปฏิบัติตามข้อสรุป - สิ่งที่ฉันพูดคือเมื่อคุณมีข้อผิดพลาดที่มีหางยาวการอนุมานที่ยึดตามการประมาณแบบปกติสามารถทำให้เข้าใจผิดได้ (ฉันไม่แน่ใจว่า / ถ้าไม่เห็นด้วย ทั้งหมดที่มีสิ่งที่คุณพูด) และหนึ่งจะได้รับการแนะนำให้พิจารณาทางเลือกอื่น (เช่น bootstrap) .
มาโคร

10

ฉันคิดว่าคุณต้องการดูคุณสมบัติทั้งหมดของส่วนที่เหลือ

  1. ภาวะปกติ
  2. ความแปรปรวนคงที่
  3. สัมพันธ์กับ covariate
  4. การรวมกันของข้างต้น

ถ้ามันเป็นเพียง 1 และมันเป็นเพราะหางหนักหรือความเบ้เนื่องจากหางที่หนักหน่วงการถดถอยที่แข็งแกร่งอาจเป็นวิธีที่ดีหรืออาจเป็นการเปลี่ยนแปลงสู่ภาวะปกติ หากเป็นความแปรปรวนที่ไม่คงที่ลองเปลี่ยนการแปรปรวนให้คงที่หรือพยายามจำลองฟังก์ชันการแปรปรวน หากเป็นเพียง 3 ที่แสดงถึงรูปแบบที่แตกต่างของรูปแบบที่เกี่ยวข้องกับ covariate ไม่ว่าปัญหาจะเริ่มต้นเวกเตอร์หรือ reiduals เป็นตัวเลือกเสมอ


สำหรับ 1 คุณสามารถอธิบายเพิ่มเติมเล็กน้อยเกี่ยวกับการแปลงเป็นค่าปกติสำหรับเศษซากที่มีเทลด์หนัก
Robert Kubrick

2
log แปรรูปหรือ Box-Cox ที่มีแลมบ์ดาตัวเล็กหดหาง ที่สามารถใช้ได้กับการกระจายที่หนักและเบาบาง ฉันไม่รู้ว่าการเปลี่ยนแปลงใด ๆ จะได้ผลสำหรับการแจกแจงแบบหนามาก
Michael Chernick

3
คำตอบที่ดีไมเคิล ฉันเริ่มใช้ bootstrap เป็นระยะ ๆ เพื่อเพิ่มความมั่นใจเกี่ยวกับการประมาณค่าการถดถอยและความเปรียบต่างทั่วไปและทำให้ง่ายต่อการทำในrmsแพ็คเกจR ของฉัน แต่อย่างที่คุณแนะนำการหาการเปลี่ยนแปลงที่ช่วยปรับปรุงความแปรปรวนของความเสถียรและบางครั้งการปรับปรุงมาตรฐานของสารตกค้างมักจะมีข้อดีหลายประการแม้ว่าเราจะบูต การประมาณกำลังสองน้อยที่สุดโดยใช้การแปลง "ผิด" อาจไม่มีประสิทธิภาพมากและนำไปสู่ข้อผิดพลาดสัมบูรณ์แบบสัมบูรณ์และค่ามัธยฐานเฉลี่ยขนาดใหญ่ในการทำนาย ฉันชอบที่จะใช้โมเดลการถดถอยแบบ semiparametric
Frank Harrell

2

ประสบการณ์ของฉันสอดคล้องกับ Michael Chernick อย่างสมบูรณ์ ไม่เพียง แต่ในบางครั้งการใช้การแปลงข้อมูลทำให้ข้อผิดพลาดในการสร้างแบบจำลองกระจายตามปกติมันยังสามารถแก้ไข heteroskedasticity

ขออภัยที่จะแนะนำเป็นอย่างอื่นเช่นรวบรวมข้อมูลที่บ้าหรือใช้วิธีการถดถอยที่มีประสิทธิภาพน้อยกว่านั้นถูกเข้าใจผิดในความคิดของฉันมีการฝึกวิทยาศาสตร์ / ศิลปะนี้


1

มาโคร (jsut ด้านบน) ระบุคำตอบที่ถูกต้อง แค่ความแม่นยำเพราะฉันมีคำถามเดียวกัน

สภาพของภาวะปกติของสารตกค้างมีประโยชน์เมื่อสารตกค้างยังเป็นแบบเดียวกันด้วยเช่นกัน ผลลัพธ์คือ OLS มีความแปรปรวนที่เล็กที่สุดระหว่างตัวประมาณทั้งหมด (เชิงเส้นหรือไม่ใช่เชิงเส้น)

สมมติฐาน OLS เพิ่มเติม:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. ค่าผิดปกติขนาดใหญ่หายาก
  4. คุณเป็นคนกระเทย
  5. คุณกระจายN(0,σ2)

หากตรวจสอบแล้ว 1-5 แล้ว OLS มีความแปรปรวนที่เล็กที่สุดระหว่างทั้งหมดของประมาณการ(เชิงเส้นหรือไม่เชิงเส้น)

ถ้ามีการตรวจสอบเพียง 1-4 รายการโดย Gauss-Markov แล้ว OLS เป็นตัวประมาณค่าเชิงเส้น (เท่านั้น!) ที่ดีที่สุด(BLUE)

ที่มา: หุ้นและวัตสัน, เศรษฐมิติ + หลักสูตรของฉัน (EPFL, เศรษฐมิติ)


ไม่มีข้อกำหนดสำหรับความปกติสำหรับสี่เหลี่ยมจัตุรัสที่น้อยที่สุดใน y ที่เหลือแม้ว่าปกติจะมีคุณสมบัติที่พึงประสงค์บางประการเช่นสำหรับการวิเคราะห์ความน่าจะเป็นสูงสุด หลังมักจะใช้สำหรับเกณฑ์ข้อมูล Akaike อย่างไรก็ตามนี่เป็นข้อ จำกัด ที่ไม่จำเป็นพบบ่อยครั้งและข้อกำหนดที่เป็นทางการมากขึ้นสำหรับ homoscedasticity ไม่ใช่เรื่องปกติซึ่งโชคดีตั้งแต่ในกรณีตรงกันข้าม
Carl

@Carl: การพูดอย่างเคร่งครัดไม่มีข้อกำหนดใด ๆ สำหรับ OLS แม้แต่ 1 หรือ 2 (ขอให้ Excel เรียกใช้การถดถอยและจะไม่มีการถามคำถาม): ปกติเป็นหนึ่งในคุณสมบัติหลายอย่างที่ทำให้การอนุมานมีเหตุผลเช่นการทำนายความมั่นใจ ช่วงเวลาการทดสอบ
PatrickT

@PatrickT ความสามารถในการคำนวณบางอย่างไม่ได้หมายถึงความหมาย ยกตัวอย่างเช่น OLS ถดถอยเชิงเส้นเกี่ยวกับสายกับ Cauchy กระจายข้อผิดพลาด -value เพิ่ม CI ที่คล้ายกันของความลาดชันและการสกัดกั้นที่จะยอมรับอะไรจริงก็ไม่ได้กลับสายเดิมหรือความลาดชัน เราอาจเรียกการคำนวณนี้ว่า Pyrrhic y
คาร์ล

เราต้องพูดในสิ่งเดียวกัน บางทีถ้อยคำจากความคิดเห็นแรกของคุณทำให้ฉันสับสน
PatrickT

1

สำหรับเงื่อนไขที่ไม่ปกติหนึ่งบางครั้งจะรีสอร์ทเพื่อการถดถอยที่แข็งแกร่งโดยเฉพาะอย่างยิ่งการใช้การเชื่อมโยงกับวิธีการ

เพื่อนำเสนอบริบทสำหรับการไม่ปกติมันอาจช่วยในการทบทวนสมมติฐานสำหรับการถดถอยเชิงเส้น OLSซึ่งคือ:

  • exogeneity อ่อนแอ สิ่งนี้หมายความว่าตัวแปรทำนาย, x , สามารถใช้เป็นค่าคงที่ได้มากกว่าตัวแปรสุ่ม ตัวอย่างเช่นนี่หมายความว่าตัวแปรของตัวทำนายจะถือว่าปราศจากข้อผิดพลาดนั่นคือไม่ได้ปนเปื้อนด้วยข้อผิดพลาดในการวัด สมมติฐานนี้เป็นข้อที่ละเมิดบ่อยที่สุดและนำไปสู่ข้อผิดพลาดตามที่ระบุหลังจากรายการข้อสันนิษฐานนี้
  • เส้นตรง ซึ่งหมายความว่าค่าเฉลี่ยของตัวแปรตอบกลับคือการรวมกันเชิงเส้นของพารามิเตอร์ (สัมประสิทธิ์การถดถอย) และตัวแปรทำนาย โปรดทราบว่าสมมติฐานนี้มีข้อ จำกัด น้อยกว่าในตอนแรกที่ดู เนื่องจากตัวแปรของตัวทำนายนั้นถือว่าเป็นค่าคงที่ (ดูด้านบน), ความเป็นเส้นตรงจึงเป็นข้อ จำกัด ของพารามิเตอร์เท่านั้น ตัวแปรของตัวทำนายสามารถเปลี่ยนแปลงได้เองตามอำเภอใจและในความเป็นจริงสามารถเพิ่มหลายชุดของตัวแปรทำนายพื้นฐานเดียวกันซึ่งแต่ละชุดมีการเปลี่ยนแปลงต่างกัน
  • ความแปรปรวนคงที่ (aka homoscedasticity) ซึ่งหมายความว่าค่าต่าง ๆ ของตัวแปรตอบกลับจะมีความแปรปรวนเหมือนกันในข้อผิดพลาดโดยไม่คำนึงถึงค่าของตัวแปรทำนาย ในทางปฏิบัติสมมติฐานนี้ไม่ถูกต้อง (เช่นข้อผิดพลาดคือ heteroscedastic) หากตัวแปรการตอบสนองอาจแตกต่างกันในวงกว้าง เพื่อตรวจสอบความแปรปรวนข้อผิดพลาดที่แตกต่างกันหรือเมื่อรูปแบบของการละเมิดข้อสันนิษฐานของแบบจำลองของ homoscedasticity (ข้อผิดพลาดเป็นตัวแปรที่เท่าเทียมกันรอบ 'เส้นที่เหมาะสมที่สุด' สำหรับทุกจุดของx) มันเป็นเรื่องที่รอบคอบที่จะมองหา "ผลกระทบจากการพัด" ระหว่างข้อผิดพลาดที่เหลือและค่าที่คาดการณ์ไว้ นี่คือการพูดว่าจะมีการเปลี่ยนแปลงอย่างเป็นระบบในส่วนที่เหลือหรือสัมบูรณ์กำลังสองเมื่อวางแผนกับตัวแปรทำนาย ข้อผิดพลาดจะไม่ถูกกระจายข้ามเส้นการถดถอยอย่างสม่ำเสมอ Heteroscedasticity จะส่งผลให้ค่าเฉลี่ยของความแปรปรวนที่แยกได้รอบจุดเพื่อให้ได้ความแปรปรวนเดียวที่ไม่ถูกต้องซึ่งแสดงถึงความแปรปรวนทั้งหมดของบรรทัด ส่วนที่เหลือจะปรากฏเป็นกระจุกและกระจายออกไปในแปลงที่คาดการณ์ไว้สำหรับค่าที่มากขึ้นและเล็กลงสำหรับจุดตามเส้นการถดถอยเชิงเส้นและค่าเฉลี่ยความคลาดเคลื่อนกำลังสองสำหรับแบบจำลองนั้นจะผิด
  • ความเป็นอิสระของข้อผิดพลาด สิ่งนี้จะถือว่าข้อผิดพลาดของตัวแปรตอบกลับไม่เกี่ยวข้องกัน (ความเป็นอิสระทางสถิติที่เกิดขึ้นจริงเป็นเงื่อนไขที่แข็งแกร่งกว่าเพียงแค่ขาดความสัมพันธ์และมักไม่จำเป็นต้องใช้แม้ว่ามันจะเป็นประโยชน์ถ้ามันเป็นที่รู้จักกันถือหลังนี้สามารถตรวจสอบด้วยการวิเคราะห์กลุ่มและการแก้ไขสำหรับการโต้ตอบ) กำลังสองน้อยที่สุด) มีความสามารถในการจัดการข้อผิดพลาดที่สัมพันธ์กันแม้ว่าโดยทั่วไปแล้วพวกเขาต้องการข้อมูลมากขึ้นเว้นแต่ว่าจะใช้การทำให้เป็นมาตรฐานบางอย่างเพื่อทำให้แบบจำลองมีอคติต่อข้อผิดพลาดที่ไม่เกี่ยวข้อง การถดถอยเชิงเส้นแบบเบย์เป็นวิธีการทั่วไปในการจัดการปัญหานี้
  • ความสัมพันธ์ทางสถิติระหว่างเงื่อนไขข้อผิดพลาดและ regressors มีบทบาทสำคัญในการพิจารณาว่าขั้นตอนการประมาณค่ามีคุณสมบัติการสุ่มตัวอย่างที่ต้องการเช่นเป็นกลางและสอดคล้องกันหรือไม่

  • การจัดเรียงหรือการแจกแจงความน่าจะเป็นของตัวแปรทำนาย x มีอิทธิพลอย่างมากต่อความแม่นยำของการประมาณβ การสุ่มตัวอย่างและการออกแบบการทดลองคือการพัฒนาฟิลด์ย่อยของสถิติที่ให้คำแนะนำสำหรับการรวบรวมข้อมูลในลักษณะที่จะทำให้การประมาณ precise แม่นยำขึ้น

เช่นนี้คำตอบที่แสดงให้เห็นถึงการจำลอง Student's-กระจายแกนข้อผิดพลาดจากการเป็นผู้นำสายการ OLS เส้นถดถอยที่มีช่วงความเชื่อมั่นสำหรับความลาดชันและตัดว่าการเพิ่มขึ้นในขนาดที่เป็นองศาอิสระ ( ) ลดลง สำหรับ , Student's-เป็น Cauchy กระจายและช่วงความเชื่อมั่นสำหรับความลาดชันกลายเป็นinfty)tydfdf=1t(,+)

มันเป็นกฎเกณฑ์ที่จะเรียกการแจกแจงของ Cauchy ในแง่ที่ว่าเมื่อเกิดข้อผิดพลาดในการสร้าง Cauchy นั้นการกระจายของ OLS ที่เหลือจากสายปลอมผ่านข้อมูลจะมีความน่าเชื่อถือน้อยลงเช่นขยะใน --- ขยะ ในกรณีเหล่านั้นสามารถใช้การถดถอยการถดถอยของTheil-Sen Theil-Sen นั้นแข็งแกร่งกว่า OLS สำหรับผู้ที่ไม่ได้อยู่ในภาวะปกติเช่นข้อผิดพลาดที่กระจายของ Cauchy จะไม่ทำให้ช่วงความมั่นใจลดลงและไม่เหมือน OLS ที่เป็นความถดถอยแบบ bivariate อย่างไรก็ตามในกรณีที่มี bivariate Passing-Bablok regressionสามารถทำให้เกิดความเป็นกลางได้มากกว่า แต่ไม่สามารถใช้กับความชันเชิงลบ มันถูกใช้มากที่สุดสำหรับการศึกษาเปรียบเทียบวิธีการ หนึ่งควรพูดถึงการถดถอย Demingที่นี่แตกต่างจาก Theil-Sen และ Passing-Bablok regressions มันเป็นทางออกที่แท้จริงสำหรับปัญหา bivariate แต่ขาดความแข็งแกร่งของการถดถอยอื่น ๆ เหล่านั้น ความทนทานสามารถเพิ่มขึ้นได้โดยการตัดทอนข้อมูลเพื่อรวมค่ากลางที่มากขึ้นเช่นฉันทามติตัวอย่างแบบสุ่ม(RANSAC)เป็นวิธีการวนซ้ำเพื่อประมาณค่าพารามิเตอร์ของแบบจำลองทางคณิตศาสตร์จากชุดข้อมูลที่สังเกตว่ามีค่าผิดปกติ

อะไรคือการถดถอยของ bivariate การขาดการทดสอบลักษณะของปัญหาที่แปรปรวนเป็นสาเหตุที่พบบ่อยที่สุดสำหรับการเจือจางการถดถอย OLS และได้รับการนำเสนอเป็นอย่างอื่นในเว็บไซต์นี้ แนวคิดเรื่องความลำเอียงของ OLS ในบริบทนี้ไม่ได้รับการยอมรับอย่างดีลองดูตัวอย่างจาก Frost และ Thompson ที่นำเสนอโดย Longford et al (2001) ซึ่งหมายถึงผู้อ่านที่จะวิธีการอื่น ๆ ขยายตัวแบบการถดถอยเพื่อรับทราบความแปรปรวนในการตัวแปรเพื่อให้ไม่มีอคติเกิดขึ้น 1 กล่าวอีกนัยหนึ่งการถดถอยเล็ก ๆ น้อย ๆ ในกรณี bivariate ไม่สามารถเพิกเฉยได้เมื่อทั้ง - และx1 x y x y y 2 x y x y = f ( x )1xy- ค่าจะถูกกระจายแบบสุ่ม ความจำเป็นในการถดถอยแบบ bivariate สามารถทดสอบได้โดยการใส่สายการถดถอย OLS เข้ากับส่วนที่เหลือจากการถดถอย OLS ของข้อมูล ถ้าเศษที่เหลือของ OLS มีความชันที่ไม่เป็นศูนย์ปัญหาก็คือค่า bivariate และการถดถอยของข้อมูล OLS จะมีขนาดความชันที่ตื้นเกินไปและการสกัดกั้นที่มีขนาดใหญ่เกินไปที่จะเป็นตัวแทนของความสัมพันธ์ในหน้าที่ ระหว่างและy ที่ในกรณีเหล่านั้นตัวประมาณค่าความผิดพลาดเชิงเส้นอย่างน้อยของค่าจริง ๆ จะยังคงมาจากการถดถอย OLS และค่า Rค่าจะเป็นค่าสูงสุดที่เป็นไปได้ แต่เส้นถดถอย OLS จะไม่แสดงฟังก์ชันเส้นจริงที่เกี่ยวข้องและxyy2xyตัวแปรสุ่ม เป็นตัวอย่างที่เคาน์เตอร์เมื่อเมื่อเกิดขึ้นท่ามกลางปัญหาอื่น ๆ ในอนุกรมเวลาที่มีค่าเท่ากันค่า OLS ของข้อมูลดิบไม่เหมาะสมเสมอไปมันอาจเป็นตัวแทนของเส้นที่ดีที่สุดแต่ก็ยังขึ้นอยู่กับ การแปลงตัวแปรตัวอย่างเช่นสำหรับการนับข้อมูลหนึ่งจะใช้สแควร์รูทของการนับเพื่อแปลงข้อผิดพลาดสำหรับข้อผิดพลาดการแจกแจงปัวซองให้เป็นเงื่อนไขปกติมากขึ้นและหนึ่งควรยังคงตรวจสอบความลาดชันที่ไม่เป็นศูนย์ xy=f(x)

  1. Longford, NT (2001) "จดหมาย" วารสารสมาคมสถิติรอยัลชุดที่ 164: 565 ดอย: 10.1111 / 1467-985x.00219
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.