ความแตกต่างระหว่างข้อมูลเฉลี่ยแล้วทำการปรับและปรับข้อมูลให้เหมาะสม


10

หากมีให้ปรับเส้นให้พอดีกับ "การทดลอง" แยกหลายครั้งจากนั้นทำการหาค่าเฉลี่ยพอดีหรือเฉลี่ยข้อมูลจากการทดลองแยกต่างหากจากนั้นทำการปรับข้อมูลเฉลี่ยให้พอดี ให้ฉันทำอย่างละเอียด:

ฉันทำการจำลองคอมพิวเตอร์ซึ่งสร้างเส้นโค้งดังที่แสดงด้านล่าง เราดึงปริมาณออกมาเรียกมันว่า "A" โดยการปรับพื้นที่เชิงเส้นของพล็อต (นาน ๆ ) ค่าเป็นความชันของภูมิภาคเชิงเส้น แน่นอนว่ามีข้อผิดพลาดที่เกี่ยวข้องกับการถดถอยเชิงเส้นนี้

โดยทั่วไปเราจะเรียกใช้การจำลองเหล่านี้ 100 ครั้งหรือมากกว่าด้วยเงื่อนไขเริ่มต้นที่แตกต่างกันเพื่อคำนวณค่าเฉลี่ยของ "A" ฉันได้รับการบอกว่าเป็นการดีกว่าที่จะเฉลี่ยข้อมูลดิบ (จากพล็อตด้านล่าง) เป็นกลุ่มที่พูด 10 แล้วเหมาะสำหรับ "A" และเฉลี่ย 10 "A" ด้วยกัน

ฉันไม่มีสัญชาตญาณว่ามีข้อดีหรือไม่และดีกว่าการปรับค่า "A" ให้เหมาะสมกับบุคคล 100 คนและหาค่าเฉลี่ยเหล่านั้น

ข้อมูล


ฉันไม่แน่ใจว่าฉันเข้าใจ: คุณวัด A ณ เวลาต่างๆและคุณประเมินว่าหรือไม่ ถ้าอย่างนั้นคุณทำเช่นนี้หลายครั้งและคุณหาค่าเฉลี่ยของทั้งหมดหรือไม่ β 1A=β0+β1tβ1

ขอโทษค่ะ เนื้อเรื่องด้านบนเป็นผลมาจากการจำลองเดี่ยว (เรียกว่าการทดลอง) เขตที่ไม่ใช่เชิงเส้นเริ่มต้นถูกยกเลิกเราจึงใส่เส้นตรงกับส่วนเชิงเส้นและรับความชัน "A" ดังนั้นการจำลองทั้งหมดทำให้ได้การประมาณ "A" เพียงครั้งเดียว แน่นอนคำถามของฉันหมุนรอบว่าค่าเฉลี่ยจำนวนมากแปลงแล้วคำนวณ A แตกต่างจากเพียงแค่การคำนวณ A สำหรับกลุ่มของแปลงและค่าเฉลี่ยพวกเขา หวังว่าชัดเจน
pragmatist1

1
ฉันไม่เห็นว่าทำไมสิ่งนี้ถึงสร้างความแตกต่าง? (หากสมมติฐานสำหรับการถดถอยเชิงเส้นเป็นจริง)

ฉันเดาว่าอุปกรณ์ไม่เคยผิดพลาดหรือไม่มาบรรจบกัน / ให้การประเมินที่สูงชันอย่างน่าขันเนื่องจากการทดลองแต่ละครั้งมีขนาดเล็ก? นั่นจะเป็นสิ่งที่รวมรุ่นแรก (หรือโมเดลลำดับชั้น) เข้าด้วยกันสามารถช่วยได้
Björn

1
คุณสามารถรวมข้อมูลทั้งหมดเข้าด้วยกันได้ แต่รวมส่วนประกอบบางอย่างเพื่อแยกความแตกต่างระหว่างการทดสอบ (การสกัดกั้นที่แตกต่างกันสำหรับการทดสอบแต่ละครั้ง วิธีนี้คุณสามารถประมาณความชันโดยรวมได้ แต่จะสามารถระบุเอฟเฟกต์ "แบทช์" หรือความแตกต่างระหว่างการทดสอบได้
bdeonovic

คำตอบ:


2

ลองนึกภาพเราอยู่ในบริบทแผงข้อมูลที่มีการเปลี่ยนแปลงข้ามเวลาและทั่วทั้ง บริษัทผมคิดของแต่ละช่วงเวลาเป็นการทดลองแยกต่างหาก ฉันเข้าใจคำถามของคุณว่าเทียบเท่ากับการประเมินผลกระทบโดยใช้:ฉันทีtit

  • การเปลี่ยนแปลงหน้าตัดในค่าเฉลี่ยอนุกรมเวลา
  • ค่าเฉลี่ยอนุกรมเวลาของการเปลี่ยนแปลงหน้าตัด

คำตอบโดยทั่วไปคือไม่

การตั้งค่า:

ในสูตรของฉันเราสามารถคิดถึงแต่ละช่วงเวลาเป็นการทดลองแยกต่างหากt

สมมติว่าคุณมีแผงความยาวมากกว่าบริษัท หากเราแยกแต่ละช่วงเวลาออกจากกันฯลฯ ... เราสามารถเขียนข้อมูลโดยรวมเป็น:n ( X t , y t )Tn(Xt,yt)

Y=[y1y2yn]X=[X1X2Xn]

ค่าเฉลี่ยของความพอดี:

1Ttbt=1Tt(XtXt)1Xtyt=1TtSt1(1nixt,iyt,i)where St=1nixt,ixt,i

พอดีกับค่าเฉลี่ย:

นี่ไม่ใช่โดยทั่วไปเท่ากับการประมาณการตามการเปลี่ยนแปลงหน้าตัดของค่าเฉลี่ยอนุกรมเวลา (เช่นระหว่างตัวประมาณ)

(1nix¯ix¯i)11nix¯iy¯i

โดยที่ฯลฯ ...x¯i=1Ttxt,i

การประมาณค่า OLS ที่รวมไว้:

สิ่งที่มีประโยชน์ที่ควรคิดคือการประมาณค่า OLS ที่รวมไว้ มันคืออะไร? จากนั้นใช้

b^=(XX)1XY=(1nTtXtXt)1(1nTtXtyi)
bt=(XtXt)1Xtyi
=(1nTtXtXt)1(1nTtXtXtbt)

ลองและเป็นค่าประมาณของเราในตัวอย่างเต็มและในช่วงเวลาตามลำดับ จากนั้นเรามี:S=1nTiXXSt=1nXtXtE[xx]t

b^=1Tt(S1St)bt

นี่เป็นเหมือนค่าเฉลี่ยของเวลาที่ต่างกันโดยประมาณแต่มันต่างกันเล็กน้อย ในแง่ที่หลวมคุณจะให้น้ำหนักมากขึ้นในช่วงเวลาที่มีความแปรปรวนสูงกว่าของตัวแปรด้านขวามือbt

กรณีพิเศษ: ตัวแปรด้านขวาเป็นค่าคงที่เวลาและเฉพาะเจาะจง

หากตัวแปรทางด้านขวาสำหรับแต่ละ บริษัทเป็นค่าคงที่ตลอดเวลา (เช่นสำหรับและใด ๆ) ดังนั้นสำหรับทั้งหมดและเราจะได้:iXt1=Xt2t1t2S=Stt

b^=1Ttbt

ความคิดเห็นสนุก:

นี่เป็นกรณีของFama และ Macbethเมื่อพวกเขาใช้เทคนิคนี้ในการประมาณค่าตัดขวางเพื่อรับข้อผิดพลาดมาตรฐานที่สอดคล้องกันเมื่อประเมินว่าผลตอบแทนที่คาดหวังนั้นแตกต่างกันอย่างไรกับความแปรปรวนร่วมของ บริษัท กับตลาด (หรือปัจจัยอื่น ๆ

ขั้นตอน Fama-Macbeth เป็นวิธีที่ใช้งานง่ายเพื่อรับข้อผิดพลาดมาตรฐานที่สอดคล้องกันในบริบทพาเนลเมื่อเงื่อนไขข้อผิดพลาดมีความสัมพันธ์ข้ามส่วน แต่เป็นอิสระตลอดเวลา เทคนิคที่ทันสมัยกว่าที่ให้ผลลัพธ์ที่คล้ายกันคือการจัดกลุ่มตรงเวลา


1

(หมายเหตุ: ฉันไม่มีชื่อเสียงพอที่จะแสดงความคิดเห็นดังนั้นฉันจึงโพสต์สิ่งนี้เป็นคำตอบ)

สำหรับคำถามเฉพาะที่วางคำตอบโดยfcopถูกต้อง: การปรับค่าเฉลี่ยเท่ากับค่าเฉลี่ยที่พอดี (อย่างน้อยสำหรับสแควร์สเชิงเส้นน้อยที่สุด) อย่างไรก็ตามเป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่าวิธีการ " ออนไลน์ " ที่ไร้เดียงสาอย่างใดอย่างหนึ่งเหล่านี้สามารถให้ผลลัพธ์ที่มีอคติได้เมื่อเปรียบเทียบกับการปรับข้อมูลทั้งหมดในครั้งเดียว ในฐานะที่เป็นสองเท่ากันฉันจะมุ่งเน้นไปที่วิธี "พอดีกับค่าเฉลี่ย" โดยพื้นฐานแล้วปรับเส้นโค้งเฉลี่ยจะละเว้นความไม่แน่นอนสัมพัทธ์ในค่าระหว่างจุดแตกต่างกัน ตัวอย่างเช่นถ้า ,และจากนั้นyxy1[x1]=y2[x1]=2y1[x2]=1y1[x2]=3 ˉ y [x1]= ˉ y [x2]=2xy¯[x]=y[x]yxy1[x1]=y2[x1]=2y1[x2]=1y1[x2]=3y¯[x1]=y¯[x2]=2แต่ใด ๆ เส้นโค้งที่พอดีควรดูแลมากขึ้นเกี่ยวกับความไม่เหมาะที่เมื่อเทียบกับx_2x 2x1x2

โปรดทราบว่าแพลตฟอร์มซอฟต์แวร์ทางวิทยาศาสตร์ส่วนใหญ่ควรมีเครื่องมือในการคำนวณ / อัปเดตสแควร์น้อยที่สุดที่เป็น "ออนไลน์" อย่างแท้จริง (รู้จักกันในชื่อสแควร์สมิทแบบเรียกซ้ำ ) ดังนั้นข้อมูลทั้งหมดสามารถใช้ (ถ้าเป็นที่ต้องการ)


1
คำตอบที่โพสต์โดย fcop ถูกลบ คุณอาจต้องการแก้ไขคำตอบของคุณเล็กน้อย
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.