สมมติฐานกำลังสองน้อยที่สุด


9

สมมติสัมพันธ์เชิงเส้นต่อไปนี้: โดยที่เป็นตัวแปรที่ขึ้นต่อกันเป็นตัวแปรอิสระเดี่ยวและเป็นคำผิดพลาดYi=β0+β1Xi+uiYiXiui

ตาม Stock & Watson (Introduction to Econometrics; บทที่ 4 ) ข้อสมมติฐานกำลังสองน้อยที่สามคือช่วงเวลาที่สี่ของและนั้นไม่ใช่ศูนย์และ จำกัดinfty)Xiui(0<E(Xi4)< and 0<E(ui4)<)

ฉันมีสามคำถาม:

  1. ฉันไม่เข้าใจบทบาทของสมมติฐานนี้อย่างเต็มที่ OLS ลำเอียงและไม่สอดคล้องกันหรือไม่หากสมมติฐานนี้ไม่ถือหรือเราต้องการสมมติฐานนี้ในการอนุมาน

  2. การเขียนสต็อคและวัตสัน "สมมติฐานนี้จำกัดความน่าจะเป็นของการวาดภาพการสังเกตด้วยค่าขนาดใหญ่มากของหรือ " อย่างไรก็ตามสัญชาตญาณของฉันก็คือสมมติฐานนี้มาก เรามีปัญหาหรือไม่ถ้าเรามีค่าผิดปกติจำนวนมาก (เช่นช่วงเวลาที่สี่มีขนาดใหญ่) แต่ถ้าค่าเหล่านี้ยังคง จำกัด ? โดยวิธีการ: คำจำกัดความพื้นฐานเป็นสิ่งที่ผิด?Xiui

  3. เราสามารถจัดรูปแบบใหม่ได้ดังนี้: "kurtosis ของและนั้นไม่ใช่ศูนย์และ จำกัด "Xiui


น่าเสียดายที่ฉันไม่สามารถเขียนคำตอบที่สมบูรณ์ได้ในขณะนี้ แต่เพื่อตอบคำถามคุณ: 1 ความสอดคล้องของ OLS นั้นไม่ว่าจะทำงานแบบใด 2 ไม่มีคำจำกัดความที่ชัดเจนของค่าผิดปกติ แต่ OLS ทำงานได้ดีในกลุ่มตัวอย่างขนาดใหญ่เมื่อมีค่าผิดปกติ 3 สำหรับชีวิตของฉันฉันไม่สามารถคิดตัวอย่างที่จะไม่เป็นความจริง แต่ใครบางคนสามารถพิสูจน์ได้ว่าฉันผิดดังนั้นไม่มีการรับประกัน
Repmat

5
ฉันโต้เถียง "แต่ OLS ทำงานได้ดีในกลุ่มตัวอย่างขนาดใหญ่เมื่อมีคนผิด" ... ใช้ค่าขนาดใหญ่พอใน x-space (เช่นการสังเกตที่มีอิทธิพล) และจุดเดียวที่สามารถบังคับให้ LS เข้ากับมันได้ ถ้ามันเป็นสิ่งที่เกินค่าในทิศทาง Y เส้นของคุณจะยังคงอยู่แม้ว่าจุดนั้นไม่ว่ามันจะสุดขั้วก็ตาม
Glen_b -Reinstate Monica

2
ค่าผิดปกติง่ายต่อการกำหนด ข้อสังเกตเหล่านี้ไม่สอดคล้องกับรูปแบบของข้อมูลจำนวนมาก ดังที่ตัวอย่างโดย Glen_b แสดงให้เห็นว่าจุดดังกล่าวมีอิทธิพลเกินควรโดยไม่ จำกัด เมื่อเทียบกับการสังเกตอื่น ๆ ทั้งหมดในชุดข้อมูลซึ่งนำไปสู่การประมาณการแบบเอนเอียง
user603

1
@ user603 แน่นอน ... และอะไรคืออะไร ... ฉันยังไม่เคยพบโปรแกรม / สคริปต์ที่ตรวจจับผู้ผิดโดยอัตโนมัติและทำอย่างชัดเจนว่าเราเห็นด้วยกันว่าเป็นวิธีที่ถูกต้อง ... ดังนั้นในขณะที่ฉันเห็นด้วยกับความรู้สึกของคุณ มันไม่ได้ช่วย OP
Repmat

@Repmat: โปรดอ่านคำถามของ OP อีกครั้ง ความคิดเห็นของฉันโดยตรงตอบหนึ่งในประโยคที่มีเครื่องหมายวรรคตอนคั่นด้วย
user603

คำตอบ:


9

คุณไม่จำเป็นต้องมีข้อสมมติฐานในช่วงเวลาที่ 4 เพื่อความสอดคล้องของตัวประมาณค่า OLS แต่คุณจำเป็นต้องมีข้อสมมติฐานในช่วงเวลาที่สูงขึ้นของx และ ϵ สำหรับค่าปกติเชิงเส้นกำกับและประมาณค่าอย่างสม่ำเสมอว่าเมทริกซ์ความแปรปรวนร่วมซีโมติกเป็นอย่างไร

ในบางแง่มุมนั่นคือจุดทางคณิตศาสตร์และทางเทคนิคไม่ใช่จุดที่ใช้งานได้จริง สำหรับ OLS จะทำงานได้ดีในกลุ่มตัวอย่างที่ จำกัด ในบางแง่มุมต้องมากกว่าสมมติฐานขั้นต่ำที่จำเป็นในการบรรลุความมั่นคงเชิงเส้นหรือเชิงบรรทัดฐานเช่นn.

เงื่อนไขที่เพียงพอสำหรับความสอดคล้อง:

หากคุณมีสมการการถดถอย:

yi=xiβ+ϵi

ตัวประมาณ OLSสามารถเขียนเป็น: b^

b^=β+(XXn)1(Xϵn)

เพื่อความสอดคล้องคุณจะต้องสามารถใช้กฎของตัวเลขขนาดใหญ่ของ Kolmogorov หรือในกรณีของอนุกรมเวลาที่มีการพึ่งพาอนุกรมสิ่งที่คล้ายกับทฤษฎีบท Ergodic ของ Karlin และ Taylor เพื่อ:

1nXXpE[xixi]1nXϵpE[xiϵi]

สมมติฐานอื่น ๆ ที่จำเป็นคือ:

  • E[xixi]นั้นเต็มยศและเมทริกซ์นั้นกลับด้านได้
  • regressors มีการกำหนดไว้อย่างเคร่งครัดหรือภายนอกเพื่อให้{0}E[xiϵi]=0

จากนั้นและคุณได้รับ(XXn)1(Xϵn)p0b^pβ

หากคุณต้องการทฤษฎีบทขีด จำกัด กลางเพื่อนำไปใช้แล้วคุณจะต้องตั้งสมมติฐานเกี่ยวกับช่วงเวลาที่สูงขึ้นเช่นที่\ ทฤษฎีขีด จำกัด กลางคือสิ่งที่ให้คุณเป็นค่าปกติเชิงเส้นกำกับของและช่วยให้คุณสามารถพูดคุยเกี่ยวกับข้อผิดพลาดมาตรฐาน สำหรับช่วงเวลาที่สองอยู่คุณจำเป็นต้องมีช่วงเวลาที่ 4 ของและอยู่ คุณต้องการยืนยันว่าที่ไหนE[gigi]gi=xiϵib^E[gigi]xϵn(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ขวา] เพื่อให้การทำงานต้องมีขอบเขตแน่นอนΣ

การอภิปรายที่ดี (ซึ่งมีแรงจูงใจในโพสต์นี้) จะได้รับในฮายาชิของเศรษฐ (ดูเพิ่มเติมที่ 149 สำหรับช่วงเวลาที่ 4 และการประมาณค่าความแปรปรวนร่วม)

อภิปรายผล:

ข้อกำหนดเหล่านี้ในช่วงเวลาที่ 4 อาจเป็นจุดทางเทคนิคมากกว่าจุดที่ใช้งานได้จริง คุณอาจจะไม่ได้พบกับการกระจายทางพยาธิวิทยาที่นี่เป็นปัญหาในข้อมูลทุกวัน? มันเป็นเรื่องธรรมดาสามัญหรือข้อสันนิษฐานอื่น ๆ ของ OLS ที่จะผิดไป

คำถามที่แตกต่างที่ไม่ต้องสงสัยตอบที่อื่นใน Stackexchange คือตัวอย่างที่คุณต้องการสำหรับกลุ่มตัวอย่างที่ จำกัด เพื่อให้ได้ผลลัพธ์ที่ใกล้เคียงที่สุด มีความรู้สึกที่ค่าผิดปกติที่ยอดเยี่ยมนำไปสู่การบรรจบกันช้า ตัวอย่างเช่นลองประเมินค่าเฉลี่ยของการแจกแจงแบบปกติที่มีความแปรปรวนสูงมาก ค่าเฉลี่ยตัวอย่างเป็นค่าประมาณค่าเฉลี่ยที่สอดคล้องกันของค่าเฉลี่ยของประชากร แต่ในกรณีบันทึกปกติที่มีความเคอร์ติสเกินบ้า ฯลฯ ... (ตามลิงค์) ผลลัพธ์ตัวอย่าง จำกัด มีค่าค่อนข้างมาก

อนันต์กับอนันต์เป็นความแตกต่างที่สำคัญอย่างมากในวิชาคณิตศาสตร์ นั่นไม่ใช่ปัญหาที่คุณพบในสถิติประจำวัน ปัญหาการปฏิบัติมีมากขึ้นในหมวดหมู่ขนาดเล็กและขนาดใหญ่ ความแปรปรวน, เคิร์ตซีอุสและอื่น ๆ ... เล็กพอที่จะทำให้ฉันสามารถประมาณค่าได้ตามขนาดตัวอย่างใช่หรือไม่

ตัวอย่างทางพยาธิวิทยาที่ตัวประมาณ OLS มีความสอดคล้อง แต่ไม่ปกติ

พิจารณา:

yi=bxi+ϵi
ไหนแต่ถูกดึงมาจากเสื้อกับการกระจาย 2 องศาอิสระจึง\ ประมาณการ OLS มาบรรจบกันน่าจะเป็นแต่การกระจายตัวอย่างสำหรับประมาณการ OLSไม่ได้กระจาย ด้านล่างคือการแจกแจงเชิงประจักษ์สำหรับจาก 10,000 การจำลองของการถดถอยโดยมีการสังเกต 10,000 ครั้งxiN(0,1)ϵiVar(ϵi)=bb^b^QQPlot สำหรับตัวประมาณ (ไม่รวมการกระจายในแบบปกติ)

การกระจายของไม่ปกติหางมีน้ำหนักมาก แต่ถ้าคุณเพิ่มระดับความอิสระเป็น 3 เพื่อให้ช่วงเวลาที่สองของมีอยู่แล้วขีด จำกัด กลางจะถูกนำมาใช้และคุณจะได้รับ: b^ϵiQQPlot สำหรับโปรแกรมประมาณค่า (รวมการกระจายแบบปกติ)

รหัสที่จะสร้างมัน:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
คำตอบที่ดี แต่สิ่งต่อไปนี้ขึ้นอยู่กับบริบท: คุณจะไม่พบกับการแจกแจงทางพยาธิวิทยาที่มีช่วงเวลาที่ 4 แบบไม่มีอยู่ในข้อมูลประจำวัน ข้อมูลทางการเงิน (บันทึกผลตอบแทนจากสินทรัพย์ทางการเงิน) มักเป็นข้อมูลที่หนักหน่วงไม่ให้มีช่วงเวลาที่แน่นอน 4 ดังนั้นความกังวลในช่วงเวลาที่ 4 จึงมีอยู่จริง (คุณอาจเพิ่มสิ่งนี้เป็นตัวอย่างแบบคัดลอกเชิงบิดามารดาในการอ้างสิทธิ์ของคุณ) นอกจากนี้คำถาม: ในตัวอย่างของคุณทำไมให้ผลปกติเชิงเส้นกำกับแม้ว่าจะไม่มีช่วงเวลาที่แน่นอน 4 t(3)
Richard Hardy

1
@RichardHardy คุณต้องการที่2] คุณต้องว่าช่วงเวลา 4จะมีชีวิตอยู่และเป็นพื้นขณะที่สองในเมื่อเป็น uncorrelated กับ_i' n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi
Matthew Gunn

6
  1. นี่เป็นข้อสมมติฐานที่เพียงพอ แต่ไม่ใช่ [1] น้อยที่สุด OLS ไม่ได้ลำเอียงภายใต้เงื่อนไขเหล่านี้ แต่ก็ไม่สอดคล้องกัน คุณสมบัติ asymptotic ของ OLS จะพังเมื่อสามารถมีอิทธิพลอย่างมากและ / หรือถ้าคุณสามารถได้รับส่วนที่เหลือที่มีขนาดใหญ่มาก คุณอาจไม่ได้พบกับการนำเสนออย่างเป็นทางการของทฤษฎีบทขีด จำกัด กลางของ Lindeberg Feller แต่นั่นคือสิ่งที่พวกเขากำลังพูดถึงที่นี่พร้อมกับช่วงเวลาที่สี่และเงื่อนไขของ Lindeberg บอกเราโดยพื้นฐานในสิ่งเดียวกัน: ไม่มีคะแนนอิทธิพลมากเกินไป คะแนน [2]X

  2. การวางรากฐานทางสถิติเหล่านี้ทำให้เกิดความสับสนอย่างมากเมื่อต้มลงเพื่อการใช้งานจริง ไม่มีคำนิยามของค่าผิดปกติมันเป็นแนวคิดที่ใช้งานง่าย เพื่อให้เข้าใจอย่างถ่องแท้การสังเกตจะต้องเป็นจุดยกระดับสูงหรือจุดอิทธิพลที่มีอิทธิพลสูงเช่นหนึ่งที่การวินิจฉัยการลบ (DF เบต้า) มีขนาดใหญ่มากหรือระยะทาง Mahalanobis ในตัวทำนายนั้นมีขนาดใหญ่ นั่นเป็นเพียงคะแนน Z) แต่ให้กลับไปสู่เรื่องจริง: ถ้าฉันทำการสำรวจแบบสุ่มของผู้คนและรายได้ของครอบครัวและจาก 100 คน 1 ในตัวอย่างที่ฉันเป็นเศรษฐีการคาดเดาที่ดีที่สุดของฉันคือเศรษฐีเป็นตัวแทนของ 1% ของประชากร . ในการบรรยาย biostatistcs อาจารย์ใหญ่เหล่านี้จะกล่าวถึงและเน้นว่าเครื่องมือวินิจฉัยใด ๆ ที่เป็นหลักสำรวจ [3]ไม่ใช่ "การวิเคราะห์ที่ยกเว้นค่าผิดปกติคือสิ่งที่ฉันเชื่อ" เป็น "การลบจุดหนึ่งเปลี่ยนการวิเคราะห์ของฉันอย่างสิ้นเชิง"

  3. Kurtosis เป็นปริมาณสเกลซึ่งขึ้นอยู่กับช่วงเวลาที่สองของการแจกแจง แต่การสันนิษฐานของความแปรปรวนที่ไม่เป็นศูนย์สำหรับค่าเหล่านี้เป็นสิ่งที่ไม่มีนัยใด ๆ เพราะมันเป็นไปไม่ได้สำหรับคุณสมบัตินี้ที่จะถือในช่วงเวลาที่สี่ โดยทั่วไปแล้วใช่ แต่โดยรวมแล้วฉันไม่เคยตรวจสอบ kurtosis หรือช่วงเวลาที่สี่ ฉันไม่พบพวกเขาที่จะเป็นประโยชน์หรือใช้งานง่าย ในวันนี้เมื่อพล็อตฮิสโตแกรมหรือสแกตเตอร์กระจายออกมาจากนิ้วมือของมันมันทำให้เราต้องใช้สถิติการวินิจฉัยเชิงคุณภาพกราฟิกโดยการตรวจสอบแปลงเหล่านี้

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


ดังที่ได้กล่าวไว้ก่อนหน้านี้สัญชาตญาณของคนผิดเกี่ยวกับการผิดปกติเมื่อมีมากกว่าหนึ่งคน พวกเขาไม่จำเป็นต้องโดดเด่นในพล็อตเบต้าของ DF หรือมีคะแนน z มากเพราะสถิติเหล่านี้สามารถถูกครอบงำโดยค่าผิดปกติ ดังที่เรากล่าวถึงก่อนหน้านี้ค่าผิดปกติถ้าปล่อยไว้โดยไม่ จำกัด จะสร้างค่าสัมประสิทธิ์แบบเอนเอียงเว้นแต่คุณจะลบออกหรือใช้เทคนิคการประมาณค่าที่มีประสิทธิภาพสำหรับพวกเขา
user603

1
ฉันคิดว่าโดยทั่วไปเมื่อแสดงความคิดเห็นคำตอบของคุณจะได้รับโดยรวมถึงพอยน์เตอร์ในวรรณกรรมที่เกี่ยวข้องเพื่อให้ OP รู้ว่ามีความคิดเห็นใดที่อยู่ในความคิดเหล่านี้
user603

@ user603 สำหรับความคิดเห็นแรกของคุณฉันไม่ได้ชี้ไปที่ DFbetas (หรือเครื่องมือวินิจฉัยใด ๆ ) เป็นวิธีพิเศษในการระบุค่าผิดปกติ แต่เป็นประโยชน์อย่างแน่นอน เมื่อดำเนินการอนุมานกึ่งพารามิเตอร์ (ค่าเฉลี่ยของแบบจำลองที่ถูกต้อง) ค่าความผิดไม่ได้ทำให้เกิดความลำเอียง LS คุณสามารถสร้างข้อมูลอ้างอิงหรือแม้แต่ตัวอย่างในกรณีอื่น ๆ นอกเหนือจาก LS ที่ไม่ใช่พารามิเตอร์ ความคิดเห็นที่สองของคุณเป็นสิ่งที่ดีและฉันจะใช้เวลาสักครู่ในการส่งการอ้างอิง
AdamO

ข้อความของคุณ "OLS ไม่ลำเอียงภายใต้เงื่อนไขเหล่านี้มันไม่สอดคล้องกัน" ไม่ถูกต้อง ช่วงเวลาที่สูงขึ้นเป็นสิ่งจำเป็นสำหรับภาวะปกติเชิงซีมโทติค พวกเขาไม่จำเป็นสำหรับความสอดคล้องในตัวอย่าง IID ที่ใช้กฎ Kolmogorov จำนวนมาก
Matthew Gunn
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.