การซ่อนโมเดลการถดถอยจากศาสตราจารย์ (Regression Battleship) [ปิด]


11

ฉันกำลังทำการบ้านที่อาจารย์ของฉันต้องการให้เราสร้างแบบจำลองการถดถอยที่แท้จริงจำลองตัวอย่างข้อมูลและเขาจะพยายามหารูปแบบการถดถอยที่แท้จริงของเราโดยใช้เทคนิคบางอย่างที่เราเรียนรู้ในชั้นเรียน เราก็ต้องทำเช่นเดียวกันกับชุดข้อมูลที่เขามอบให้เรา

เขาบอกว่าเขาสามารถสร้างแบบจำลองที่แม่นยำสำหรับความพยายามในอดีตทั้งหมดเพื่อพยายามหลอกล่อเขา มีนักเรียนบางคนที่สร้างแบบจำลองบ้า ๆ บอ ๆ แต่เขาก็สามารถสร้างแบบจำลองที่เรียบง่ายขึ้นซึ่งก็เพียงพอแล้ว

ฉันจะพัฒนารูปแบบที่ยุ่งยากให้เขาค้นหาได้อย่างไร ฉันไม่ต้องการที่จะถูกสุด ๆ ด้วยการทำ 4 เทอมกำลังสองการสังเกต 3 ครั้งและความแปรปรวนอันมหาศาล? ฉันจะสร้างชุดข้อมูลที่ไม่มีอันตรายซึ่งดูเหมือนว่าจะมีโมเดลเล็ก ๆ น้อย ๆ อยู่ข้างใต้ได้อย่างไร

เขามีกฎ 3 ข้อที่ต้องปฏิบัติตาม:

  1. ชุดข้อมูลของคุณต้องมีตัวแปร "Y" หนึ่งตัวและตัวแปร 20 "X" ที่ระบุว่าเป็น "Y", "X1", ... , "X20"

  2. ตัวแปรตอบกลับของคุณต้องมาจากตัวแบบการถดถอยเชิงเส้นที่ตรงตาม: ที่และ21Y
    ϵ ฉันN ( 0 , σ 2 ) p 21

    Yผม'=β0+β1Xผม1'+...+βพี-1Xผม,พี-1'+εผม
    εผม~ยังไม่มีข้อความ(0,σ2)พี21
  3. Variable ทั้งหมดที่ใช้สร้างมีอยู่ในชุดข้อมูลของคุณYXY

ควรสังเกตว่าตัวแปร X ทั้งหมดไม่จำเป็นต้องอยู่ในแบบจำลองที่แท้จริงของคุณ

ฉันกำลังคิดที่จะใช้บางอย่างเช่นแบบจำลองปัจจัย 3 มิติของ Fama-Frenchและให้เขาเริ่มต้นด้วยข้อมูลสต็อค (SPX และ AAPL) และต้องเปลี่ยนตัวแปรเหล่านั้นให้เป็นผลตอบแทนที่ผสมกันอย่างต่อเนื่องเพื่อทำให้สับสนมากขึ้นอีกเล็กน้อย แต่นั่นทำให้ฉันมีค่าที่ขาดหายไปในการสังเกตครั้งแรกและเป็นอนุกรมเวลา (ซึ่งเรายังไม่ได้พูดคุยกันในชั้นเรียน)

ไม่แน่ใจว่านี่เป็นสถานที่ที่เหมาะสมหรือไม่ในการโพสต์สิ่งนี้ ฉันรู้สึกว่ามันสามารถสร้างการสนทนาที่ดี

แก้ไข:ฉันยังไม่ได้ขอรุ่นที่สร้างไว้ล่วงหน้าโดยเฉพาะ ฉันอยากรู้มากขึ้นเกี่ยวกับหัวข้อ / เครื่องมือในสถิติที่จะช่วยให้ใครบางคนไปเกี่ยวกับเรื่องนี้


4
จะเป็นเรื่องยากถ้าเขา จำกัด คุณเป็นโมเดลเชิงเส้น ...
แฟรงค์เอช.

4
ถ้าอาจารย์ของคุณชนะถ้าค่าสัมประสิทธิ์ที่แท้จริงของคุณอยู่ในช่วงความมั่นใจ 95% ความหลากหลายทางหลายค่าจะไม่ช่วยเพราะความสัมพันธ์แบบหลายค่าจะเพิ่มขึ้นอย่างมาก หากในอีกทางหนึ่งการประเมินจะทำกับความแตกต่างระหว่างข้อมูลที่คาดการณ์และข้อมูลจริงกับตัวทำนายใหม่ (ข้อมูล "ที่เกิดขึ้นจริง" ที่สร้างขึ้นโดยใช้ DGP ที่แท้จริงของคุณ) ความหลากหลายทางเชื้อชาติจะเป็นวิธีที่ดีกว่ามาก ที่บรรทัดด้านล่าง: ค้นหาว่าฟังก์ชันเป้าหมายคืออะไรและปรับวิธีการของคุณให้เข้ากับมัน (สิ่งนี้ใช้โดยทั่วไปในชีวิต ... )
Stephan Kolassa

4
@dylanjm คุณช่วยกำหนดเงื่อนไขแห่งชัยชนะของคุณได้อย่างแม่นยำหรือไม่?
Matthew Gunn

11
จุดของการออกกำลังกายดังกล่าวคือให้คุณเรียนรู้โดยพยายามที่จะคิดว่าสิ่งที่ตัวเอง หากคุณเจาะผู้เชี่ยวชาญที่นี่กับเขาโอกาสของคุณที่จะยืดสมองของคุณโดยการรวบรวมข้อมูลต่าง ๆ ที่คุณได้รับเกี่ยวกับการถดถอยลดลงอย่างมาก (เช่นเดียวกับศาสตราจารย์ที่ไม่ยุติธรรม) นอกจากนี้ในสถาบันการศึกษาที่มีชื่อเสียงใด ๆ ที่นำเสนองานให้เขาในฐานะของคุณเมื่อคนอื่นทำบางส่วนอาจอยู่ระหว่างการประพฤติมิชอบทางวิชาการและการฉ้อโกง (โดยเฉพาะถ้ามันคุ้มค่ากับส่วนหนึ่งของเครื่องหมาย) ระวังให้มากเกี่ยวกับวิธีที่คุณถามสิ่งนี้
Glen_b -Reinstate Monica

4
แม้จะได้รับความนิยมของคำถามนี้ฉันรู้สึกว่าจำเป็นต้องปิดมัน ณ จุดนี้เพราะแม้หลังจากที่มีการขอคำชี้แจงที่เกี่ยวข้องกับกฎของเกมซ้ำแล้วซ้ำอีก (เกณฑ์ใดที่จะใช้ในการประเมินความสำเร็จคุณต้องจัดหาตัวอย่างจำนวนเท่าใด) ข้อมูลยังไม่ปรากฏในคำถาม เป้าหมายของเราแคบและเน้นมากกว่า "สร้างการสนทนา": โปรดปรึกษาศูนย์ช่วยเหลือของเราสำหรับคำถามประเภทที่เราสามารถพูดถึงในเว็บไซต์นี้
whuber

คำตอบ:


6

เพียงแค่ทำให้เกิดข้อผิดพลาดที่มีขนาดใหญ่กว่าส่วนที่อธิบาย ยกตัวอย่างเช่น: ที่X ฉันJ = บาป( ฉัน+ J ) , ฉัน= 1..1000และσ = 1000000 แน่นอนคุณต้องจำสิ่งที่เป็นเชื้อสายของคุณเพื่อให้คุณสามารถพิสูจน์ให้อาจารย์ของคุณว่าคุณถูกและเขาผิดYผม=Xผม1+εผมXผมJ=บาป(ผม+J)ผม=1..1000σ=1000000

โชคดีที่ได้ระบุเฟสด้วยอัตราส่วนสัญญาณรบกวน / สัญญาณนี้


สิ่งนี้ดูเหมือนจะไม่ได้ผลสำหรับเกณฑ์การชนะของ CI ใช่ไหม? เราจะได้รับ CIs ขนาดใหญ่ที่แน่นอนครอบคลุม 1 และแน่นอนความไม่แน่นอนเชิงตัวเลข
เตฟาน Kolassa

ความไม่เสถียรจะไม่เป็นปัญหาสิ่งที่ฉันทำคือการฝังสัญญาณด้วยเสียง นี้จะออกมาเป็นเสียงสีขาวบริสุทธิ์
Aksakal

4
สิ่งนี้ถือว่าเป็นแบบจำลองราคาถูกที่ไม่พึงปรารถนาโดย OP
Sextus Empiricus

5

หากเป้าหมายของเขาคือการกู้คืนกระบวนการสร้างข้อมูลที่แท้จริงที่สร้าง หลอกศาสตราจารย์ของคุณนั้นเป็นเรื่องเล็กน้อย เพื่อเป็นตัวอย่างให้พิจารณาการรบกวนϵ iN ( 0 , 1 )และสมการโครงสร้างต่อไปนี้:YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

หมายเหตุ DGP ที่แท้จริงของซึ่งรวมถึงเพียงX 1 , นิด ๆ ตามเงื่อนไข 2 เงื่อนไขที่ 3 เป็นที่พอใจนอกจากนี้ตั้งแต่X 1เป็นตัวแปรเพียงเพื่อสร้างYและคุณจะให้X 1และX 2YX1X1YX1X2

ยังไม่มีวิธีที่อาจารย์ของคุณสามารถบอกได้ว่าเขาควรรวมเฉพาะเท่านั้นX 2หรือX 1และX 2เพื่อกู้คืน DGP ที่แท้จริงของY (ถ้าคุณจบลงด้วยการใช้ตัวอย่างนี้ให้เปลี่ยนจำนวนตัวแปร) เป็นไปได้มากที่เขาจะให้คำตอบสำหรับการถดถอยกับตัวแปรทั้งหมดเนื่องจากพวกมันจะปรากฏเป็นตัวทำนายที่สำคัญ คุณสามารถขยายตัวแปรนี้ได้ถึง 20 ตัวแปรหากคุณต้องการคุณอาจต้องการตรวจสอบคำตอบนี้ที่นี่และเครื่องที่ผิดธรรมดาของ Simpsonที่นี่X1X2X1X2 Y

E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY ฯลฯ คุณสามารถโต้กลับได้ว่าไม่ใช่สิ่งที่เขาพูดเนื่องจากเขากล่าวว่า:

ตัวแปร Y ต้องมาจากตัวแบบการถดถอยเชิงเส้นที่สอดคล้องกับ (... ) ตัวแปรที่ใช้ในการสร้าง Y (... ) แบบจำลองที่แท้จริงของคุณ(... )

และคุณอาจจุดประกายการสนทนาที่ดีในชั้นเรียนเกี่ยวกับความเป็นเหตุเป็นผลDGP ที่แท้จริงหมายถึงอะไร


คุณกำลังนำเสนอแบบจำลองที่สอดคล้องกับอันดับที่ 2 ในโพสต์
Aksakal

3

ใช้ตัวแปรที่มีความหลากหลายทางชีวภาพและความสัมพันธ์แบบเฮเทอโรเซซิตีเช่นรายได้กับอายุ: ทำวิศวกรรมฟีเจอร์ที่เจ็บปวดที่ให้ปัญหาการปรับสเกล: ให้ NA สำหรับโรยด้วยความเบาบาง เส้นตรงทำให้ความท้าทายมากขึ้น แต่อาจทำให้เจ็บปวดได้ นอกจากนี้ผู้ผิดจะเพิ่มปัญหาให้เขาล่วงหน้า


ฉันคิดว่า heteroscedasticity อยู่นอกขอบเขตของปัญหา แต่แน่นอนว่าการยอมรับความหลากหลายทางชีวภาพเป็นหนึ่งในวิธีที่ดีที่สุดในการทำให้ข้อมูลจำเพาะที่แท้จริงหายาก
JDL


0

เลือกโมเดลเชิงเส้นใดก็ได้ ให้ชุดข้อมูลแก่เขาซึ่งตัวอย่างส่วนใหญ่อยู่รอบ ๆ x = 0 ให้ตัวอย่างแก่เขาประมาณ x = 1,000,000

สิ่งที่ดีที่นี่ที่ตัวอย่างรอบ ๆ x = 1,000,000 ไม่ใช่ค่าผิดปกติ มันถูกสร้างขึ้นจากแหล่งเดียวกัน อย่างไรก็ตามเนื่องจากเครื่องชั่งแตกต่างกันมากข้อผิดพลาดประมาณ 1M จะไม่สอดคล้องกับข้อผิดพลาดประมาณ 0

Yผม'=β0+β1Xผม1'+εผม

เรามีชุดข้อมูลของตัวอย่าง n ใกล้ x = 0 เราจะเลือก 2 คะแนนในค่า "ไกลพอ" เราคิดว่าจุดสองจุดนี้มีข้อผิดพลาดบางอย่าง

ค่า "ไกลพอ" เป็นค่าที่ข้อผิดพลาดในการประมาณค่าไม่ผ่านโดยตรงในสองจุดนี้มีขนาดใหญ่กว่าข้อผิดพลาดของชุดข้อมูลที่เหลือ

ดังนั้นการถดถอยเชิงเส้นจะเลือกค่าสัมประสิทธิ์ที่จะผ่านจุดสองจุดนี้และจะพลาดชุดข้อมูลที่เหลือและแตกต่างจากตัวแบบที่ขีดเส้นใต้

ดูตัวอย่างต่อไปนี้ {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

นี่คือในรูปแบบชุด WolfarmAlpha ในแต่ละคู่รายการแรกคือ x และรายการที่สองถูกสร้างใน Excel โดยใช้สูตร = A2 + NORMINV (RAND (), 0,2000)

β0=1,β1=1

Y=178433x-426805Y=x


มันควรจะทำงานอย่างไรและสิ่งนี้จะสร้างผลกระทบอะไร?
Richard Hardy

มันทำงานได้เนื่องจากเสียงรบกวนและความแม่นยำจะทำงานแตกต่างกันในเครื่องชั่งที่แตกต่างกัน ในจำนวนที่มากพิจารณามากและพิจารณาเพียงจุดเดียวเส้นควรผ่านไปได้โดยตรงหรือมีค่าใช้จ่ายจำนวนมาก เสียงรบกวนก็เพียงพอที่จะพลาดค่าที่เหมาะสม รอบศูนย์อีกครั้งในสุดขีด - ไม่มีความรู้สึกผิดคุณจะเหลือ แต่เสียง
DaL

ใช้ค่าเล็กน้อยสำหรับตัวแปรที่มีค่าสัมประสิทธิ์ไม่ถูกต้องและคุณจ่ายค่าใช้จ่าย
DaL

ใช่ แต่ทำไมมันเป็นเรื่องยากสำหรับอาจารย์ที่จะค้นพบรูปแบบที่สร้างสิ่งนี้? ดูเหมือนว่าเป็นงานที่ง่ายโดยเฉพาะอย่างยิ่งเมื่อมีการเปลี่ยนแปลงมากใน regressor ที่กำหนด
Richard Hardy

เพราะไม่มีรูปแบบจะพอดีทั้งสองกลุ่ม
DaL
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.