เศษซาก“ คาดการณ์ลบจริง” หรือ“ ลบจริงทำนาย”


46

ฉันเคยเห็น "ส่วนที่เหลือ" นิยามต่าง ๆ ว่าเป็น "คาดการณ์ลบค่าจริง" หรือ "ลบค่าคาดการณ์จริง" เพื่อวัตถุประสงค์ในการแสดงเพื่อแสดงว่ามีการใช้สูตรทั้งสองอย่างแพร่หลายให้เปรียบเทียบการค้นหาเว็บต่อไปนี้:

ในทางปฏิบัติมันแทบไม่เคยสร้างความแตกต่างเลยเนื่องจากสัญญาณของสิ่งที่เหลือตามปกติไม่สำคัญ (เช่นถ้ามันถูกยกกำลังสองหรือค่าสัมบูรณ์ถูกใช้) อย่างไรก็ตามคำถามของฉันคือ: หนึ่งในสองเวอร์ชันนี้ (การคาดการณ์แรกและจริงก่อน) ถือเป็น "มาตรฐาน" หรือไม่ ฉันชอบที่จะสอดคล้องในการใช้งานของฉันดังนั้นหากมีมาตรฐานดั้งเดิมที่ดีขึ้นฉันต้องการที่จะปฏิบัติตาม อย่างไรก็ตามหากไม่มีมาตรฐานฉันยินดีที่จะยอมรับว่าเป็นคำตอบหากสามารถพิสูจน์ได้อย่างชัดเจนว่าไม่มีการประชุมมาตรฐาน


8
เนื่องจากส่วนที่เหลือเชื่อมต่อกับข้อผิดพลาดของแบบจำลองเมื่อเราเขียนทำให้เราคิดว่าเป็น "ส่วนที่คงที่" บวกกับ "ส่วนที่สุ่ม" ดังนั้นส่วนที่เหลือคือลบBX y y a + b xy=a+bx+ϵyya+bx
AdamO

ทำนายลบจริงหรือลบจริงคาดการณ์จะเป็นข้อผิดพลาดในการทำนาย (หรือลบของมัน) ในขณะที่ติดตั้งลบจริงหรือลบจริงพอดีจะเหลือ (หรือลบของมัน) คำตอบของ Stephen Kolassa กล่าวถึงการคาดการณ์ข้อผิดพลาดด้วยเหตุผล
Richard Hardy

ฉันพบว่า (คาดการณ์จริง) สะดวกกว่าที่จะทำงานด้วย บ่อยครั้งที่คุณต้องคำนวณอนุพันธ์ของส่วนที่เหลือด้วยความเคารพต่อพารามิเตอร์บางอย่าง หากคุณใช้ (คาดการณ์จริง) เครื่องหมายลบจะปรากฏว่าคุณต้องติดตามตลอดเวลาที่เหลือของการคำนวณของคุณจำเป็นต้องใช้วงเล็บมากขึ้นทำให้แน่ใจว่าได้ยกเลิกการลบเชิงลบสองครั้งเมื่อเกิดขึ้นและอื่น ๆ จากประสบการณ์ของฉันสิ่งนี้นำไปสู่ข้อผิดพลาดเพิ่มเติม
นิคแอลจีเรีย

คำตอบ:


42

ส่วนที่เหลือจะเป็นค่าลบจริงเสมอ แบบจำลองคือ: ดังนั้นที่เหลือซึ่งเป็นการประมาณการข้อผิดพลาด : ε ε ε = Y - Y

y=f(x;β)+ε
ε^ε
ε^=yy^y^=f(x;β^)

ฉันเห็นด้วยกับ @whuber ว่าเครื่องหมายนั้นไม่สำคัญทางคณิตศาสตร์ เป็นการดีที่จะมีการประชุมแม้ว่า และอนุสัญญาปัจจุบันเป็นเหมือนคำตอบของฉัน

เนื่องจาก OP ท้าทายอำนาจของฉันในเรื่องนี้ฉันจึงเพิ่มการอ้างอิง:


3
ฉันแก้ไขคำถามของฉันเพื่อเพิ่มการค้นหาเว็บตัวอย่างที่แสดงให้เห็นชัดเจนว่าส่วนที่เหลือไม่ได้ถูกลบจริง ๆ ทางเลือกก็ค่อนข้างบ่อย - ด้วยเหตุนี้ความสับสนของฉัน คำถามของฉันคือว่ามีเอกสารที่เชื่อถือได้ของการประชุมที่ถูกต้องซึ่งน่าเสียดายที่คำตอบของคุณไม่ได้ให้
Tripartio

5
ในการอ่านของฉันสังเกตทำนายเป็นอนุสัญญาที่ทันสมัยส่วนใหญ่ในสถิติ อย่างไรก็ตามเป็นที่น่าสังเกตว่าเกาส์ใช้หลักการตรงกันข้าม: ธรรมชาติที่เหลือกำลังสองเหมือนกันทั้งสองวิธีในบริบทของสี่เหลี่ยมจัตุรัสที่น้อยที่สุดผลรวมของกำลังสองหรือค่าเฉลี่ยกำลังสอง แม้ว่าจะมีศตวรรษที่ 19 และก่อนหน้านี้แบบอย่างสำหรับการดูที่เหลือแต่ละการดูแลและโดยเฉพาะอย่างยิ่งการวางแผนที่เหลือไม่ได้เริ่มที่จะกลายเป็นที่แพร่หลายและกิจวัตรประจำวันจนถึงต้นปี 1960 นั่นคือมันก็ต่อเมื่อสัญลักษณ์ของสิ่งตกค้างอยู่ในสายตาที่ใคร ๆ ก็ต้องใส่ใจว่ามันคืออะไร
Nick Cox

18
+1 แนวคิดของการตกค้างเกิดจาก"ส่วนที่เหลือ; สิ่งที่ถูกทิ้งไว้ข้างหลัง" : ในคำอื่น ๆ สิ่งที่เหลืออยู่ในข้อมูลหลังจากการทำนายได้รับการคิด นี่เป็นการชี้ให้เห็นว่าใครก็ตามที่ตั้งชื่อปริมาณเหล่านี้ว่า "ส่วนที่เหลือ" มีคำนิยาม "ค่าข้อมูลลบค่าติดตั้ง" ไว้ในใจ
whuber

3
@NickCox คุณช่วยทำให้ความคิดเห็นของคุณเป็นคำตอบด้วยการอ้างอิงได้ไหม คำถามของฉันไม่ได้เกี่ยวกับสถิติมากนักเนื่องจากเป็นเรื่องเกี่ยวกับการประชุมทางวิทยาศาสตร์ดังนั้นข้อมูลเชิงลึกเกี่ยวกับประวัติศาสตร์และการใช้งานที่ระบุไว้ในความคิดเห็นของคุณจึงเป็นคำตอบที่ฉันกำลังมองหา
Tripartio

6
คำที่หลงเหลืออยู่นาน Salsburg มาก่อน ฉันต้องบอกว่าหนังสือของเขาแม้ว่าบางครั้งความบันเทิงจะอยู่ไกลจากอำนาจ หากสนใจคุณสามารถหาคำวิจารณ์ของฉันในBiometrics jstor.org/stable/3068274
นิคค็อกซ์

22

ฉันเพิ่งเจอเหตุผลที่น่าสนใจสำหรับหนึ่งคำตอบที่จะเป็นคำตอบที่ถูกต้อง

การถดถอย (และแบบจำลองทางสถิติส่วนใหญ่ของการเรียงลำดับใด ๆ ) เกี่ยวข้องกับวิธีการแจกแจงแบบมีเงื่อนไขของการตอบสนองขึ้นอยู่กับตัวแปรอธิบาย องค์ประกอบที่สำคัญของการจำแนกลักษณะของการแจกแจงเหล่านั้นคือการวัดบางอย่างที่มักเรียกว่า "ความเบ้" (แม้ว่าจะมีการเสนอสูตรที่หลากหลายและแตกต่างกัน): มันหมายถึงวิธีพื้นฐานที่สุดที่รูปร่างการกระจายออกจากสมมาตร นี่คือตัวอย่างของข้อมูล bivariate (การตอบสนองและเป็นหนึ่งเดียวตัวแปรอธิบาย ) กับการตอบสนองเงื่อนไขเบ้บวก:xyx

! [รูปที่ 1: scatterplot ที่มีเส้นกำลังสองน้อยที่สุด

เส้นโค้งสีน้ำเงินเป็นสี่เหลี่ยมจัตุรัสที่น้อยที่สุดพอดี มันแปลงค่าติดตั้ง

เมื่อเราคำนวณความแตกต่างระหว่างการตอบสนองและค่าติดตั้งเราจะเปลี่ยนตำแหน่งของการแจกแจงแบบมีเงื่อนไขแต่อย่าเปลี่ยนรูปร่างของมัน โดยเฉพาะอย่างยิ่งความเบ้ของมันจะไม่เปลี่ยนแปลงYyy^

รูปที่ 2: ค่าที่เหลือเทียบกับค่าที่ทำนายไว้

นี่เป็นพล็อตการวินิจฉัยมาตรฐานที่แสดงว่าการแจกแจงแบบมีเงื่อนไขแบบเลื่อนแตกต่างกันอย่างไรกับค่าที่ทำนาย ในทางเรขาคณิตมันก็เกือบจะเหมือนกับ "จนกว่าจะถึง" แผนการกระจายก่อนหน้านี้

ถ้าเราคำนวณความแตกต่างในลำดับอื่นแทนมันจะเปลี่ยนจากนั้นกลับรูปร่างของการแจกแจงแบบมีเงื่อนไข ความเบ้ของมันจะเป็นลบของการแจกแจงแบบมีเงื่อนไขดั้งเดิมy^y,

รูปที่ 3: พล็อตก่อนหน้านี้ที่มีค่าลบ

สิ่งนี้แสดงปริมาณเดียวกันกับตัวเลขก่อนหน้า แต่ส่วนที่เหลือได้รับการคำนวณโดยการลบข้อมูลออกจากรูปแบบที่เหมาะสมซึ่งแน่นอนว่าเหมือนกับลบค่าก่อนหน้านี้

แม้ว่าตัวเลขก่อนหน้านี้ทั้งสองจะมีความเท่าเทียมกันทางคณิตศาสตร์ในทุก ๆ ด้าน แต่ก็ถูกแปลงเป็นรูปแบบอื่น ๆ เพียงแค่พลิกจุดข้ามเส้นขอบฟ้าสีฟ้า แต่หนึ่งในนั้นก็มีความสัมพันธ์โดยตรงกับพล็อตเดิม

ดังนั้นหากเป้าหมายของเราคือการเชื่อมโยงลักษณะการกระจายตัวของส่วนที่เหลือกับลักษณะของข้อมูลต้นฉบับ - และนั่นก็เป็นกรณี - มันก็เป็นการดีกว่าที่จะเปลี่ยนการตอบสนองแทนที่จะเปลี่ยนและย้อนกลับ

คำตอบที่ถูกต้องชัดเจน: คำนวณส่วนที่เหลือของคุณเป็นyy^.


1
ฉันไม่คิดว่าฉันทำตามสิ่งที่พิเศษเกี่ยวกับความเบ้ที่นี่ - ข้อโต้แย้งของคุณเกี่ยวกับส่วนที่เหลือที่ตรงกับพล็อตดั้งเดิมยืนเคียงข้างกันใช่ไหม?
MichaelChirico

2
@Michael คุณค่อนข้างถูกต้อง อย่างไรก็ตามความเบ้มีประโยชน์สำหรับการอธิบายถึงจุดเพราะมันชัดเจนว่ารูปร่างของการกระจายจากรูปร่างของการลบ
whuber

10

Green & Tashman (2008, Foresight ) รายงานการสำรวจเล็ก ๆ เกี่ยวกับคำถามแบบอะนาล็อกสำหรับข้อผิดพลาดในการพยากรณ์ ฉันจะสรุปข้อโต้แย้งสำหรับการประชุมตามที่รายงานโดยพวกเขา:

อาร์กิวเมนต์สำหรับ "คาดการณ์จริง"

  1. การประชุมทางสถิติคือการ yy=y^+ϵ
  2. อย่างน้อยหนึ่งผู้ตอบแบบสอบถามจากแผ่นดินไหวได้เขียนว่านี่คือการประชุมสำหรับการสร้างแบบจำลองคลื่นแผ่นดินไหวเวลาเดินทาง เมื่อคลื่นไหวสะเทือนจริงมาถึงก่อนเวลาที่ทำนายไว้โดยแบบจำลองเราจะมีเวลาการเดินทางในเชิงลบตกค้าง (ข้อผิดพลาด) ( sic )

  3. การประชุมนี้สมเหตุสมผลถ้าเราตีความเป็นงบประมาณแผนงานหรือเป้าหมาย ที่นี่ข้อผิดพลาดในเชิงบวกหมายความว่าเกินงบประมาณ / แผน / เป้าหมายy^

  4. การประชุมนี้ทำให้สูตรสำหรับการยกกำลังแบบเอ็กซ์โปเนนเชียลค่อนข้างง่ายขึ้น เราสามารถใช้เครื่องหมายด้วยอนุสัญญาอื่นเราจะต้องใช้เครื่องหมาย-+

อาร์กิวเมนต์สำหรับ "ทำนายตามจริง"

  1. หากแสดงว่าข้อผิดพลาดเชิงบวกระบุว่าการคาดการณ์นั้นสูงเกินไป มันใช้งานง่ายกว่าการสนทนาy=y^ϵ

    ที่เกี่ยวข้องหากมีการกำหนดอคติบวกเป็นข้อผิดพลาดที่คาดหวังในเชิงบวกก็หมายความว่าการคาดการณ์โดยเฉลี่ยสูงเกินไปกับอนุสัญญานี้

    และนี่เป็นข้อโต้แย้งเพียงข้อเดียวที่ได้รับจากการประชุมนี้ จากนั้นอีกครั้งเนื่องจากความเข้าใจผิดที่อนุสัญญาอื่น ๆ สามารถนำไปสู่ ​​(ข้อผิดพลาดเชิงบวก = การคาดการณ์ต่ำเกินไป) จึงเป็นข้อตกลงที่แข็งแกร่ง

ในท้ายที่สุดฉันจะยืนยันว่ามันจะลงมากับคนที่คุณต้องสื่อสารกับคนที่เหลือของคุณ และเนื่องจากการสนทนานี้มีสองด้านแน่นอนว่าควรสังเกตอย่างชัดเจนว่าคุณทำตามแบบแผนใด


7
จุดที่น่าสนใจ แต่เมื่อใดก็ตามที่ใครก็ตามพูดว่า "สัญชาตญาณ" ฉันแปลว่า "คุ้นเคยกับฉัน" และการแปลมักจะน่าเชื่อถือและไม่น้อย ลองสิ่งนี้: การประชุมสรุปของ Einstein นั้นเป็นเรื่องง่าย เมื่อคุณคุ้นเคยกับมันเท่านั้น การวัดมุมจากแกนทวนเข็มนาฬิกานั้นง่าย ไม่ให้นักภูมิศาสตร์หรือใครก็ตามที่เรียนรู้ที่จะใช้เข็มทิศก่อนที่พวกเขาจะศึกษาเรขาคณิตพิกัด x
Nick Cox

3
@NickCox: สรุปแล้วคุณพูดถูก แต่ใช้เวลาเป็นจำนวนมากของผู้คนและขอให้พวกเขา: "การพยากรณ์อากาศสำหรับอุณหภูมิวันนี้มีขนาดใหญ่บวก . ข้อผิดพลาดคุณเชื่อว่าการคาดการณ์เป็น (A) สูงเกินไปหรือ (B) ต่ำเกินไป ?" ฉันคิดว่าฉันสามารถทำนายได้ว่าหนึ่งใน (A) หรือ (B) ส่วนใหญ่จะเลือก
S. Kolassa - Reinstate Monica

6
ใช่ - และถ้าคุณต้องถามคำถามนั้นด้วยคำว่า "คุณเชื่อหรือไม่ว่าอุณหภูมินั้น (A) สูงกว่าหรือ (B) ต่ำกว่าที่คาดการณ์" คุณอาจได้คำตอบที่ตรงข้ามอย่างแน่นอน! การอ้างถึง "ข้อผิดพลาดเชิงบวก" เพียงทำให้เกิดคำถามว่า "ข้อผิดพลาดคืออะไร" และนั่นทำให้เราเกิดวงกลมแบบสมบูรณ์ - กลับไปที่คำถามเดิม
whuber

2
@whuber นั่นเป็นคำพูดที่ค่อนข้างแปลกประหลาดของคำถาม ระบุว่า "การสังเกต" คือ "คงที่" ความสัมพันธ์ของแบบจำลองกับมันดูเป็นธรรมชาติมากกว่าวิธีอื่น ฉันได้รับตั๋วเร่งความเร็วสำหรับการไปเร็วเกินไปแทนที่จะ "จำกัด ความเร็วต่ำกว่าความเร็วของฉัน" ข้อโต้แย้งภาษาธรรมชาติมีแอปพลิเคชั่นที่ จำกัด เฉพาะศัพท์ / ภาษาแม้ว่า /
mbrig

2
@whuber สิ่งที่ฉันพูดก็คือวิธีหนึ่งในการใช้ถ้อยคำคำถามเป็นเรื่องที่ชัดเจนมากขึ้น (อย่างน้อยก็ในภาษาอังกฤษ)
mbrig

4

คำศัพท์ที่แตกต่างกันบ่งชี้ว่า คำว่า "ส่วนที่เหลือ" หมายถึงว่ามันเป็นสิ่งที่หลงเหลืออยู่หลังจากตัวแปรอธิบายทั้งหมดได้ถูกนำมาพิจารณาเช่นคาดการณ์จริง "ข้อผิดพลาดในการทำนาย" หมายความว่ามันเป็นการทำนายที่เบี่ยงเบนไปจากความเป็นจริงนั่นคือการทำนายที่เกิดขึ้นจริง

แนวคิดของการสร้างแบบจำลองก็มีอิทธิพลต่อการประชุมที่เป็นธรรมชาติมากขึ้น สมมติว่าคุณมี dataframe กับหนึ่งหรือมากกว่าคอลัมน์คุณลักษณะการตอบสนองคอลัมน์และคอลัมน์ทำนายYY YX=x1,x2...yy^

แนวคิดหนึ่งคือคือค่า "ของจริง" และเป็นเพียงเวอร์ชันแปลงแล้ว ในความคิดนี้และเป็นทั้งตัวแปรสุ่ม (เป็นสิ่งที่ได้รับ) แม้ว่าเป็นหนึ่งที่เรากำลังสนใจจริงในคือคนที่เราสามารถสังเกตดังนั้นจะใช้เป็นพร็อกซี่สำหรับปี"ข้อผิดพลาด" เป็นเท่าใดเบี่ยงเบนไปจากนี้ "จริง" ค่าYนี้แสดงให้เห็นการกำหนดข้อผิดพลาดดังต่อไปนี้ทิศทางของการเบี่ยงเบนนี้คือ-yY X Y Y Y Y Y Y Y Y Y E = Y - Yyy^Xyy^y^yy^y^yy^ye=y^y

อย่างไรก็ตามมีความคิดอื่นที่คิดเป็นค่า "ของจริง" นั่นคือ y ขึ้นอยู่กับผ่านกระบวนการที่กำหนดไว้บางอย่าง สถานะของก่อให้เกิดค่าที่กำหนดขึ้นโดยเฉพาะ ค่านี้จะถูกรบกวนโดยกระบวนการสุ่มบางอย่าง ดังนั้นเราจึงมี() ในความคิดนี้คือค่า "ของจริง" ของ y ตัวอย่างเช่นสมมติว่าคุณพยายามคำนวณค่าของ g นั่นคือความเร่งเนื่องจากแรงโน้มถ่วง คุณวางพวงของวัตถุคุณวัดระยะเวลาที่พวกมันหล่นลงมา ( ) และระยะเวลาที่มันตกลงมา ( ) จากนั้นคุณวิเคราะห์ข้อมูลด้วยแบบจำลอง y =y^XXxf(X)f(X)+error()y^Xy2xg. คุณพบว่าไม่มีค่า g ที่ทำให้สมการนี้ทำงานได้อย่างถูกต้อง ดังนั้นคุณจึงทำโมเดลนี้เป็น

y^=2xg
y=y^+error+

นั่นคือคุณใช้ตัวแปร y และพิจารณาว่ามีค่า "ของจริง"ที่ถูกสร้างขึ้นจริงโดยกฎทางกายภาพและจากนั้นค่าอื่น ๆที่แก้ไขโดยสิ่งที่เป็นอิสระจากเช่น ข้อผิดพลาดการวัดหรือลมกระโชกหรืออะไรก็ตามy^yy^X

ในความคิดนี้คุณกำลังเอา y =เป็นสิ่งที่ความจริง "ควร" กำลังทำอยู่และถ้าคุณได้รับคำตอบที่ไม่เห็นด้วยก็ดีความเป็นจริงได้ คำตอบที่ไม่ถูกต้อง. ตอนนี้แน่นอนว่าสิ่งนี้อาจดูค่อนข้างงี่เง่าและหยิ่งจองหองเมื่อทำแบบนี้ แต่มีเหตุผลที่ดีสำหรับการดำเนินแนวคิดนี้และอาจเป็นประโยชน์ในการคิดวิธีนี้ และในที่สุดมันก็เป็นแบบอย่างเท่านั้น นักสถิติไม่จำเป็นต้องคิดว่านี่เป็นวิธีที่โลกใช้งานได้จริง (แม้ว่าอาจมีบางคนทำอยู่) และเมื่อให้สมการมันจะตามมาว่าข้อผิดพลาดนั้นเป็นจริงลบด้วยการทำนาย2xgy=y^+error

นอกจากนี้โปรดทราบว่าหากคุณไม่ชอบแง่มุม "ความจริงทำให้ผิด" ของแนวคิดที่สองคุณสามารถดูได้ว่าเป็น "เราได้ระบุกระบวนการบางอย่างที่ f ซึ่ง y ขึ้นอยู่กับแต่เราไม่ได้รับ คำตอบที่ถูกต้องอย่างแท้จริงดังนั้นจึงต้องมีกระบวนการอื่นที่มีอิทธิพลต่อ y ด้วย " ในรูปแบบนี้X

Y= Y +G(?)กรัม=Y - Yy^=f(X)
y=y^+g(?)
g=yy^Y


4

คำตอบโดย @Aksakal ถูกต้องสมบูรณ์ แต่ฉันจะเพิ่มองค์ประกอบเพิ่มเติมอีกหนึ่งรายการที่ฉันพบช่วยฉัน (และนักเรียนของฉัน)

คำขวัญ: สถิติคือ "สมบูรณ์แบบ" ในขณะที่ฉันสามารถให้การทำนายที่สมบูรณ์แบบได้เสมอ (ฉันรู้ว่าบางคนกำลังเขียนคิ้วขึ้นตอนนี้ ... ลองฟังฉันสิ)

ฉันจะคาดการณ์ค่าสังเกตของฉันy_iด้วยรูปแบบของรูปแบบบางอย่างผมจะสร้างมูลค่าที่คาดการณ์ไว้สำหรับแต่ละค่าสังเกตฉันจะเรียกสิ่งนี้\ปัญหาเดียวก็คือโดยปกติ (เสมอ) ดังนั้นเราจะเพิ่มตัวแปรใหม่เพื่อให้ความเท่าเทียมนั้นคงอยู่ ... แต่สำหรับฉันแล้วตัวเลือกที่ดีกว่าคือการเพิ่มลงใน ค่า "ทำนาย" ("ทำขึ้น") ของเราแทนการเพิ่มลงในมูลค่าจริง (เนื่องจากการเพิ่มหรือลบออกจากมูลค่าจริงอาจเป็นไปไม่ได้ทางร่างกาย ... ดูความคิดเห็นด้านล่าง): ทีนี้เรามีการทำนาย "สมบูรณ์แบบ" ... ค่า "สุดท้าย" ของเราตรงกับค่าที่เราสังเกตYฉันY ฉันYฉันε ฉันY ฉัน = Yฉัน + ε ฉันyiy^i

yiy^i
ϵi
yi=y^i+ϵi

เห็นได้ชัดว่าสิ่งนี้คัดสรรกว่าทฤษฎีทางสถิติจำนวนมหาศาลที่เกิดขึ้น ... แต่มันเน้นความคิดที่ว่าค่าที่สังเกตได้คือผลรวมของสองส่วนที่แตกต่างกัน (ส่วนที่เป็นระบบและส่วนที่สุ่ม) หากคุณจำได้ในรูปแบบนี้คุณจะมีส่วนที่เหลืออยู่เป็นค่าที่ถูกลบด้วยค่าพยากรณ์ϵi


2
หลายครั้งที่มีการเขียนอีกวิธีหนึ่งมันมักจะเกี่ยวข้องกับการคำนวณบางอย่างที่ไม่เกี่ยวข้องกับเครื่องหมาย (เช่นเมื่อคุณทำงานกับสัมบูรณ์ของส่วนที่เหลือหรือส่วนที่เหลือยกกำลังสอง ) y^iyi
เกร็ก H

6
ทำไม "ควรเพิ่มลงในค่าที่เราคาดการณ์" ทำไมไม่ "เห็นจำนวนข้อมูลที่จะต้องมีการปรับเพื่อให้สอดคล้องกับการทำนายของเรา"? ดูเหมือนว่าทั้งสองวิธีไม่มีการอ้างว่าชัดเจนกว่ามีความหมายหรือ "หยั่งรู้" มากกว่าวิธีอื่น
whuber

2
@whuber หนึ่งรายการคือ "ของจริง" (สังเกต, คอนกรีต), อื่น ๆ เป็นโครงสร้าง (สมมุติ); ถ้าเราสร้างแบบจำลองความสูงตามน้ำหนัก¿มันจะสมเหตุสมผลหรือไม่ที่จะ "ลดขนาด" บางคนด้วย 3 นิ้วเพื่อให้ตรงกับความสูงจริง / ที่สังเกตได้ของพวกเขากับค่าที่คาดการณ์ (จินตนาการ)?
เกร็ก H

2
ใช่ - เป็นวิธีคิดเกี่ยวกับข้อมูล ฉันแค่พยายามชี้ให้เห็นถึงความเป็นไปได้ที่สมมติฐานของคุณเกี่ยวกับวิธีที่ผู้คนจะรับรู้คำถามนี้และเข้าใจความหมายของ "ดีที่สุด" อาจเป็นการเก็งกำไรและการกระทำ
whuber

จุดยุติธรรม ... จะอัปเดตพร้อมความคิดเห็นสั้น ๆ
Gregg H

2

ฉันจะใช้กรณีเฉพาะของการถดถอยเชิงเส้นกำลังสองน้อยที่สุด ถ้าเราใช้รูปแบบของเราที่จะแล้วเป็นจุด @Aksakal จากธรรมชาติเราจบลงด้วยดังนั้นY แต่ถ้าเราใช้เป็นรูปแบบของเราซึ่งเราอย่างแน่นอนอิสระที่จะทำแล้วเราจะได้รับY ณ จุดนี้มีจริงๆเหตุผลที่จะชอบหนึ่งในช่วงอื่น ๆ นอกเหนือจากการตั้งค่าที่คลุมเครือไม่กว่า-1Y=Xβ+εε=YXβε^=YY^Y=Xβεε=XβYε^=Y^Y11

แต่ถ้าแล้วเราได้รับที่เหลือของเราผ่านทางที่เป็นเมทริกซ์ idempotent ฉายเข้ามุมฉากพื้นที่ไปยังพื้นที่คอลัมน์ของการออกแบบเมทริกซ์Xถ้าเรานำมาใช้แทนแล้วเราจบลงด้วย Y แต่ไม่ได้เป็นของตัวเองเป็น idempotentฉัน) ดังนั้นจริงๆเป็นเชิงลบของเมทริกซ์ฉายคือP_X ดังนั้นฉันจึงเห็นว่านี่เป็นการยกเลิกการลบที่แนะนำโดยใช้ดังนั้นเพื่อประโยชน์ของความประหยัดที่ดีกว่าการใช้ε^=YY^(IPX)YIPXXY=Xβεε^=(PXI)YPXIP X - ฉันฉัน- P X Y = X β - ε Y = X β + ε Y - Y(PXI)2=PX22PX+I=(PXI)PXIIPXY=XβεY=Xβ+εซึ่งในทางกลับกันทำให้เราเป็นส่วนที่เหลือYY^

ดังที่ได้กล่าวไว้ในที่อื่นก็ไม่เหมือนการแบ่งอะไรถ้าเราใช้แต่เราจบลงด้วยสถานการณ์เชิงลบนี้สองครั้งซึ่งผมคิดว่าเป็นเหตุผลที่ดีพอที่จะใช้เพียงYY - YY^YYY^


แต่การเขียนอะไรก็ตามไม่มีส่วนเกี่ยวข้องกับสัญญาณของค่าเฉพาะของใด ๆ นอกจากการเขียนเป็นข้อผูกมัดหรือการสันนิษฐานว่าหรือนั้นเป็นประโยชน์ในทางปฏิบัติ มันอาจเป็นสมการเดียวกัน แต่เมื่อกลับเครื่องหมาย e y = β 0 + β 1 x β 0 β 1 e+eey=β0+β1xβ0β1e
Nick Cox

@NickCox ขอขอบคุณสำหรับความคิดเห็นของคุณฉันรู้ฉันได้บอกกล่าวคำตอบของฉันบนสมมติฐานที่ว่าเราต้องการที่จะเขียนของเรารุ่น\ ฉันเขียนมันใหม่เพื่อแก้ไขปัญหานี้Y=Xβ+ε
jld
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.