การทำความเข้าใจกับรูปร่างของช่วงความเชื่อมั่นสำหรับการถดถอยพหุนาม (MLR)


11

ฉันมีปัญหาในการเข้าใจรูปร่างของช่วงความมั่นใจของการถดถอยพหุนาม

นี่คือตัวอย่างเทียม 2 รูปซ้ายแสดงให้เห็นถึง UPV (ความแปรปรวนการทำนายแบบไม่มีสเกล) และกราฟด้านขวาแสดงช่วงความเชื่อมั่นและจุดที่วัดได้ (เทียม) ที่ X = 1.5, X = 2 และ X = 3Y^=a+bX+cX2

รายละเอียดของข้อมูลพื้นฐาน:

  • ชุดข้อมูลประกอบด้วยจุดข้อมูลสามจุด (1.5; 1), (2; 2.5) และ (3; 2.5)

  • แต่ละจุดก็คือ "วัด" 10 ครั้งและแต่ละค่าที่วัดได้เป็น0.5 MLR ที่มีโมเดล poynomial ดำเนินการใน 30 คะแนนที่เกิดขึ้นy±0.5

  • ช่วงความเชื่อมั่นถูกคำนวณด้วยสูตร และ (สูตรทั้งสองมาจาก Myers, Montgomery, Anderson-Cook, "Response Surface Methodology" ฉบับที่สี่, หน้า 407 และ 34)Y(x0)-เสื้อα/2,d(ERRoR)

    UPV=Var[y^(x0)]σ^2=x0(XX)1x0
    y^(x0)tα/2,df(error)σ^2x0(XX)1x0
    μy|x0y^(x0)+tα/2,df(error)σ^2x0(XX)1x0.

tα/2,df(error)=2และ\σ^2=MSE=SSE/(np)0.075

ฉันไม่สนใจโดยเฉพาะอย่างยิ่งในค่าแน่นอนของช่วงความเชื่อมั่น แต่ในรูปของ UPV ซึ่งเพียง แต่ขึ้นอยู่ของx_0x0(XX)1x0

รูปที่ 1: ป้อนคำอธิบายรูปภาพที่นี่

  • ความแปรปรวนที่คาดการณ์ไว้สูงมากนอกพื้นที่การออกแบบเป็นเรื่องปกติเพราะเราคาดการณ์

  • แต่ทำไมความแปรปรวนน้อยกว่าระหว่าง X = 1.5 และ X = 2 มากกว่าบนจุดที่วัดได้

  • และทำไมความแปรปรวนจึงกว้างขึ้นสำหรับค่าที่มากกว่า X = 2 แต่จะลดลงหลังจาก X = 2.3 ให้เล็กลงกว่าจุดที่วัดที่ X = 3 อีกครั้ง

มันจะไม่สมเหตุสมผลหรือไม่ที่ความแปรปรวนจะเล็กในจุดที่วัดได้และใหญ่ระหว่างมัน

แก้ไข: ขั้นตอนเดียวกัน แต่มีจุดข้อมูล [(1.5; 1), (2.25; 2.5), (3; 2.5)] และ [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)]

รูปที่ 2: ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 3: ป้อนคำอธิบายรูปภาพที่นี่

เป็นที่น่าสนใจที่จะทราบว่าในรูปที่ 1 และ 2 UPV ของคะแนนนั้นเท่ากับ 1 ซึ่งหมายความว่าช่วงความมั่นใจจะเท่ากับ{} ด้วยจำนวนคะแนนที่เพิ่มขึ้น (รูปที่ 3) เราสามารถรับค่า UPV จากคะแนนที่วัดได้ซึ่งมีขนาดเล็กกว่า 1y^±tα/2,df(error)MSE


2
คุณสามารถแก้ไขโพสต์เพื่อรวมข้อมูลที่คุณทำงานด้วยได้หรือไม่
เตฟาน Kolassa

@StephanKolassa ฉันพยายามอธิบายว่าฉันใช้ข้อมูลอะไร อย่างไรก็ตามคำถามมีมากขึ้นในวิธีทั่วไปและไม่ผูกพันกับตัวอย่างเฉพาะ
John Tokka Tacos

หากคุณให้ข้อมูลมันจะง่ายขึ้นที่จะแสดงคำตอบ
เตฟาน Kolassa

คำตอบ:


6

สองวิธีหลักในการทำความเข้าใจปรากฏการณ์การถดถอยดังกล่าวคือพีชคณิต - โดยจัดการกับสมการและสูตรปกติสำหรับการแก้ปัญหาของพวกเขา - และเรขาคณิต พีชคณิตดังที่อธิบายไว้ในคำถามนั้นดี แต่มีสูตรทางเรขาคณิตที่มีประโยชน์หลายอย่างของการถดถอย ในกรณีนี้การแสดงภาพข้อมูลในพื้นที่ข้อมูลเชิงลึก(x,y)(x,x2,y)ที่อาจเป็นเรื่องยากที่จะเกิดขึ้น

เราจ่ายราคาที่จำเป็นต้องดูวัตถุสามมิติซึ่งทำได้ยากบนหน้าจอคงที่ (ฉันพบว่าภาพที่หมุนวนไปเรื่อย ๆ นั้นน่ารำคาญและจะไม่สร้างความเสียหายใด ๆ กับคุณแม้ว่ามันจะมีประโยชน์ก็ตาม) ดังนั้นคำตอบนี้อาจไม่ดึงดูดทุกคน แต่ผู้ที่ต้องการเพิ่มมิติที่สามด้วยจินตนาการของพวกเขาจะได้รับรางวัล ฉันเสนอที่จะช่วยคุณในความพยายามนี้โดยใช้กราฟิกที่คัดสรรมาอย่างดี


เริ่มต้นด้วยการมองเห็นตัวแปรอิสระ ในแบบจำลองสมการถดถอยกำลังสอง

(1)yi=β0+β1(xi)+β2(xi2)+error,

สองคำและสามารถแตกต่างกันระหว่างข้อสังเกต: พวกเขาเป็นตัวแปรอิสระ เราสามารถพล็อตคู่ที่ได้รับคำสั่งทั้งหมดเป็นจุดในระนาบที่มีแกนสอดคล้องกับและ มันยังเผยให้เห็นถึงการพล็อตทุกจุดบนเส้นโค้งของคู่ที่ได้รับคำสั่ง(xi)(xi2)(xi,xi2)xx2.(t,t2):

รูปที่ 1

เห็นภาพการตอบสนอง (ตัวแปรตาม) ในมิติที่สามโดยเอียงตัวเลขนี้กลับมาและใช้ทิศทางแนวตั้งสำหรับมิตินั้น การตอบสนองแต่ละครั้งจะถูกพล็อตเป็นสัญลักษณ์จุด ข้อมูลจำลองเหล่านี้ประกอบด้วยสแต็คสิบคำตอบสำหรับแต่ละตำแหน่งที่แสดงในรูปแรก ระดับความสูงที่เป็นไปได้ของแต่ละสแต็กจะแสดงด้วยเส้นแนวตั้งสีเทา:(x,x2)

รูปที่ 2

การถดถอยแบบสมการกำลังสองเหมาะกับระนาบกับจุดเหล่านี้

(เราจะทราบได้อย่างไรเพราะสำหรับพารามิเตอร์ตัวเลือกใด ๆชุดของจุดในพื้นที่ที่ตรงกับสมการคือชุดศูนย์ของ ฟังก์ชั่นซึ่งกำหนดระนาบตั้งฉากกับเวกเตอร์ เรขาคณิตการวิเคราะห์บิตนี้ ซื้อการสนับสนุนเชิงปริมาณสำหรับรูปภาพด้วยเช่นกัน: เนื่องจากพารามิเตอร์ที่ใช้ในภาพประกอบเหล่านี้คือและและทั้งคู่มีขนาดใหญ่เมื่อเทียบกับระนาบนี้จะเกือบแนวตั้งและวางเชิง ทแยงมุมในระนาบ )( x , x 2 , y(β0,β1,β2),(x,x2,y)(1)β1(x)β2(x2)+(1)yβ0,(β1,β2,1).β1=55/8β2=15/2,1,(x,x2)

นี่คือระนาบสี่เหลี่ยมน้อยที่สุดที่พอดีกับจุดเหล่านี้:

ป้อนคำอธิบายรูปภาพที่นี่

บนระนาบซึ่งเราอาจจะมีสมการของรูปแบบฉันได้ "ยก" เส้นโค้งเป็นเส้นโค้งและวาดเป็นสีดำy=f(x,x2),(t,t2)

t(t,t2,f(t,t2))

ลองเอียงทุกอย่างกลับไปเรื่อย ๆ เพื่อให้เฉพาะแกนและกำลังแสดงอยู่โดยปล่อยแกนเพื่อวางลงจากหน้าจอสุดลูกหูลูกตา:xyx2

รูปที่ 4

คุณสามารถดูได้ว่าเส้นโค้งที่ยกขึ้นนั้นเป็นวิธีการถดถอยกำลังสองที่ต้องการอย่างแม่นยำอย่างไร: มันคือโลคัสของคู่ที่ได้รับคำสั่งทั้งหมดโดยที่เป็นค่าติดตั้งเมื่อตัวแปรอิสระตั้งค่าเป็น(x,y^)y^x.

วงความเชื่อมั่นสำหรับการติดตั้งเส้นโค้งนี้แสดงให้เห็นถึงสิ่งที่สามารถเกิดขึ้นได้พอดีเมื่อจุดข้อมูลมีการเปลี่ยนแปลงแบบสุ่ม โดยไม่ต้องเปลี่ยนมุมมองฉันได้วางแผนห้าเครื่องบินติดตั้ง (และโค้งยกของพวกเขา) เป็นห้าชุดใหม่ของข้อมูลอิสระ (ซึ่งแสดงเพียงหนึ่ง):

รูปที่ 5

เพื่อช่วยให้คุณเห็นสิ่งนี้ดีขึ้นฉันได้ทำให้เครื่องบินเกือบโปร่งใส เห็นได้ชัดว่าเส้นโค้งที่ยกขึ้นมีแนวโน้มที่จะมีทางแยกซึ่งกันและกันอยู่ใกล้กับและx1.75x3.

ลองดูที่สิ่งเดียวกันโดยวางตัวเหนือพล็อตสามมิติแล้วมองลงไปเล็กน้อยและตามแนวทแยงมุมของระนาบ เพื่อช่วยให้คุณเห็นการเปลี่ยนแปลงของระนาบฉันได้บีบอัดมิติตามแนวตั้ง

รูปที่ 6

รั้วสีทองแนวตั้งแสดงจุดทั้งหมดที่อยู่เหนือเส้นโค้งเพื่อให้คุณสามารถเห็นได้ง่ายขึ้นว่ามันยกขึ้นไปยังระนาบที่ติดตั้งทั้งห้าได้อย่างไร โดยทั่วไปแล้วแถบความเชื่อมั่นนั้นถูกค้นพบโดยการเปลี่ยนแปลงข้อมูลซึ่งทำให้ระนาบที่ติดตั้งนั้นเปลี่ยนแปลงไปซึ่งจะเปลี่ยนเส้นโค้งที่ยกขึ้นซึ่งพวกมันจะติดตามร่องรอยของค่าติดตั้งที่เป็นไปได้ที่แต่ละค่าของ(t,t2)(x,x2).

ตอนนี้ฉันเชื่อว่าคำอธิบายทางเรขาคณิตที่ชัดเจนเป็นไปได้ เนื่องจากคะแนนของแบบฟอร์มเกือบเรียงกันในระนาบของพวกเขาเครื่องบินที่ได้รับการติดตั้งทั้งหมดจะหมุน (และกระตุกเล็กน้อย) รอบ ๆ บางเส้นที่วางอยู่เหนือจุดเหล่านั้น (ให้เป็นเส้นโครงของเส้นนั้นลงไปที่ระนาบ : มันจะใกล้เคียงกับเส้นโค้งในรูปแรกอย่างใกล้ชิด) เมื่อระนาบเหล่านั้นแปรผันจำนวนที่โค้งการยกจะเปลี่ยน ( แนวตั้ง) ที่ตำแหน่งใด ๆจะเป็นสัดส่วนโดยตรงกับระยะทางอยู่ที่(xi,xi2)L(x,x2)(x,x2)(x,x2)L.

รูปที่ 7

รูปนี้กลับสู่มุมมองระนาบดั้งเดิมเพื่อแสดงเทียบกับเส้นโค้งในระนาบของตัวแปรอิสระ จุดสองจุดบนโค้งที่อยู่ใกล้กับถูกทำเครื่องหมายด้วยสีแดง ที่นี่โดยประมาณเป็นที่ซึ่งเครื่องบินที่ถูกดัดแปลงจะมีแนวโน้มที่จะอยู่ใกล้ที่สุดเนื่องจากคำตอบนั้นแตกต่างกันแบบสุ่ม ดังนั้นเส้นโค้งที่ยกขึ้นที่ค่าสอดคล้องกัน(ประมาณและ ) จะมีแนวโน้มที่จะแตกต่างกันเล็กน้อยใกล้กับจุดเหล่านี้Lt(t,t2)Lx1.72.9

เกี่ยวกับพีชคณิตการหา "จุดสำคัญ" เหล่านั้นเป็นเรื่องของการแก้สมการกำลังสอง: ดังนั้นที่มากที่สุดของพวกเขาทั้งสองจะมีอยู่ ดังนั้นเราจึงสามารถคาดหวังได้ว่าในฐานะข้อเสนอทั่วไปว่าแถบความเชื่อมั่นของข้อมูลกำลังสองที่เหมาะสมกับอาจมีได้ถึงสองแห่งที่พวกเขาเข้ามาใกล้กันมากที่สุด แต่ไม่มากไปกว่านั้น(x,y)


การวิเคราะห์แนวคิดนี้ใช้กับการถดถอยพหุนามระดับสูงเช่นเดียวกับการถดถอยพหุคูณโดยทั่วไป แม้ว่าเราจะไม่สามารถ "เห็น" มากกว่าสามมิติอย่างแท้จริงคณิตศาสตร์ของการถดถอยเชิงเส้นรับประกันว่าสัญชาตญาณที่ได้มาจากแปลงสองและสามมิติของประเภทที่แสดงที่นี่ยังคงแม่นยำในมิติที่สูงขึ้น


ขอบคุณสำหรับคำตอบที่ยอดเยี่ยมนี้! มันไม่เคยเกิดขึ้นกับฉันเลยว่าการถดถอยแบบสมการกำลังสองเหมาะกับระนาบกับประเด็น สูตรทางเรขาคณิตเหล่านี้ใช้งานง่ายและช่วยฉันได้มาก
John Tokka Tacos

1
นี่เป็นคำตอบที่ดีมาก - เราควรรวบรวมโพสต์ที่ดีที่สุดของคุณและทำให้พวกเขากลายเป็นหนังสือโอเพนซอร์ส
Xavier Bourret Sicotte

1
@ Xavier ขอบคุณสำหรับคำพูดที่ใจดี ฉันคิดถึงสิ่งนั้นและยินดีรับข้อเสนอแนะและคำวิจารณ์ที่สร้างสรรค์ทั้งหมด
whuber

1

ที่ใช้งานง่าย

ในแง่ที่เข้าใจได้ง่ายและหยาบคุณอาจเห็นเส้นโค้งพหุนามเป็นเส้นโค้งเชิงเส้นสองเส้นที่เย็บเข้าหากัน สำหรับเส้นโค้งเส้นตรงเหล่านี้คุณอาจจำรูปร่างแคบในศูนย์

คะแนนทางด้านซ้ายของจุดสูงสุดมีอิทธิพลค่อนข้างน้อยต่อการทำนายทางด้านขวาของจุดสูงสุดและในทางกลับกัน

  • ดังนั้นคุณอาจคาดหวังว่าบริเวณแคบ ๆ ทั้งสองด้านของทั้งสองด้านของยอดเขา (ซึ่งการเปลี่ยนแปลงในความลาดชันของทั้งสองด้านมีผลค่อนข้างน้อย)

  • บริเวณรอบ ๆ ยอดเขานั้นค่อนข้างไม่แน่นอนเพราะการเปลี่ยนแปลงความชันของโค้งนั้นมีผลกระทบมากขึ้นในภูมิภาคนี้ คุณสามารถวาดเส้นโค้งจำนวนมากด้วยการเลื่อนจุดสูงสุดขนาดใหญ่ซึ่งยังคงอยู่ในจุดที่วัดได้อย่างสมเหตุสมผล

ภาพประกอบ

ด้านล่างนี้เป็นภาพประกอบที่มีข้อมูลแตกต่างกันซึ่งแสดงให้เห็นได้ง่ายขึ้นว่ารูปแบบนี้ (คุณสามารถบอกว่าเป็นปมคู่) สามารถเกิดขึ้นได้:

แสดงช่วงเวลาการทำนายด้วยปมคู่

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

เป็นทางการ

หากต้องการดำเนินการต่อ: ฉันจะวางส่วนต่อไปพร้อมกับอธิบายเพิ่มเติมอย่างเป็นทางการ หนึ่งควรจะสามารถที่จะแสดงอิทธิพลของจุดวัดเฉพาะในช่วงความเชื่อมั่นในสถานที่ที่แตกต่างกันxในนิพจน์นี้เราควรเห็นชัดเจนยิ่งขึ้น (ชัดเจน) ว่าการเปลี่ยนแปลงของจุดการวัดที่แน่นอน (แบบสุ่ม) มีผลต่อข้อผิดพลาดในพื้นที่ที่ถูกแก้ไขมากขึ้นไกลจากจุดการวัดอย่างไรxx

ขณะนี้ฉันไม่สามารถเข้าใจภาพลักษณ์ที่ดีของรูปแบบคลื่นในช่วงการทำนายได้ แต่ฉันหวังว่าความคิดคร่าวๆนี้จะกล่าวถึงความคิดเห็นของ Whuber อย่างเพียงพอเกี่ยวกับการไม่รู้จักรูปแบบนี้ในสมการกำลังสอง มันไม่ได้เกี่ยวกับสมการกำลังสองและการแก้ไขโดยทั่วไปในกรณีเหล่านี้ความแม่นยำน้อยกว่าการคาดการณ์เมื่อพวกมันแสดงออกมาไกลจากจุดต่าง ๆ โดยไม่คำนึงถึงการประมาณค่าหรือการประมาณค่า (แน่นอนรูปแบบนี้จะลดลงมากขึ้นเมื่อมีการเพิ่มจุดการวัดเพิ่มแตกต่างกัน)x


1
ฉันมีเวลายากที่จะเชื่อว่าตัวละครนี้หรือข้อสรุปใด ๆ ของมันเพราะฉันค่อนข้างมั่นใจว่าการถดถอยแบบสมการกำลังสองเพียงแค่ไม่ได้ทำงานแบบนี้ คุณช่วยโน้มน้าวฉันด้วยการให้เหตุผลสำหรับพวกเขาได้ไหม?
whuber

1
ฉันเดาว่ามันขึ้นอยู่กับตำแหน่งของคะแนน ในตัวอย่างคะแนนมีทั้งสองด้านของจุดสูงสุด จากนั้นคุณอาจพิจารณาตำแหน่งของจุดสูงสุดเป็นประเภทของการอนุมาน ฉันจะทำให้กรณีตัวอย่างมากขึ้นในภายหลัง (ฉันยังสงสัยว่าจะทำการถดถอยอย่างไร แต่ฉันคิดว่าข้อผิดพลาดในสัมประสิทธิ์นั้นมีความสัมพันธ์หรือไม่เช่นนั้นคุณจะไม่ได้รูปแบบนี้จริง ๆ )
Sextus Empiricus

มันขึ้นอยู่กับตำแหน่งของคะแนน แต่ในทางที่ซับซ้อน (พีชคณิตแสดงให้เห็นว่าการผกผันของเมทริกซ์ความแปรปรวนร่วมของข้อมูลมีส่วนเกี่ยวข้อง) แต่การมุ่งเน้นไปที่ "จุดด้านข้างของจุดสูงสุด" นั้นไม่จำเป็นต้องเป็นสิ่งที่ถูกต้องหรือแม้แต่เป็นประโยชน์ กำลังเกิดขึ้น. ข้อผิดพลาดในค่าสัมประสิทธิ์มีความสัมพันธ์กันอย่างรุนแรงเกือบทุกครั้ง(เว้นแต่คุณจะมั่นใจในความถูกต้องของและ ) ดังนั้นนั่นเป็นส่วนหนึ่งของคำอธิบาย เพื่อสนับสนุนการโต้แย้งเหล่านี้ฉันได้โพสต์การวิเคราะห์ภาพของข้อมูลเช่นเดียวกับที่ใช้ในคำถาม x x 2(xi,xi2)xx2
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.