หากคุณไม่สามารถทำมันได้แบบตั้งฉากทำมันดิบ (การถดถอยแบบพหุนาม


11

เมื่อดำเนินการถดถอยพหุนามสำหรับเข้าสู่บางครั้งผู้คนใช้ชื่อพหุนามแบบดิบซึ่งบางครั้งประกอบด้วยชื่อพหุนามแบบมุมฉาก แต่เมื่อพวกเขาใช้สิ่งที่ดูเหมือนว่าจะสมบูรณ์XYX

ที่นี่และที่นี่มีหลายชื่อดิบถูกนำมาใช้ แต่ที่นี่และที่นี่ชื่อพหุนามมุมฉากดูเหมือนจะให้ผลลัพธ์ที่ถูกต้อง อะไรทำไมทำไม!

ในทางตรงกันข้ามกับที่เมื่อเรียนรู้เกี่ยวกับการถดถอยพหุนามจากตำรา (เช่นISLR ) ที่ไม่ได้พูดถึงพหุนามดิบหรือมุมฉาก - เพียงรูปแบบที่จะได้รับการติดตั้ง

แล้วเราจะต้องใช้อะไรเมื่อไหร่?
และทำไมค่าp แต่ละค่าสำหรับ ,ฯลฯ จึงมีความแตกต่างกันมากระหว่างค่าทั้งสองนี้X 2XX2


1
คุณควรให้ความคิดที่เป็นไปได้ที่ P-ค่าที่แตกต่างกันเมื่อคุณให้พอดีกับรูปแบบเดียวกันกับข้อมูลเดียวกันโดยใช้พหุนามดิบและมุมฉากและการแปลความหมายของพวกเขา สิ่งที่เกี่ยวกับการทำนายแบบจำลอง?
Scortchi - Reinstate Monica

@Scortchi ฉันเพิ่มข้อมูลที่เกี่ยวข้องลงในคำถามของฉัน
l7ll7

4
อีกเหตุผลที่ดีในการใช้ชื่อพหุนาม orthogonal คือเสถียรภาพเชิงตัวเลข; เมทริกซ์การออกแบบที่เกี่ยวข้องสำหรับการปรับใน monomial พื้นฐานสามารถค่อนข้างปรับอากาศสำหรับการปรับระดับสูงตั้งแต่ monomials ลำดับที่สูงกว่าคือ "มากขึ้นอยู่กับเส้นตรงเกือบ" (แนวคิดที่สามารถทำให้แม่นยำทางคณิตศาสตร์มากขึ้น) ในขณะที่เมทริกซ์การออกแบบ สำหรับพหุนามมุมฉากเป็นพฤติกรรมที่ดีขึ้นเล็กน้อย ฉันได้พูดคุยเกี่ยวกับกรณี abscissas equispaced (Gram) ที่นี่แต่ข้อตกลงนั้นคล้ายคลึงกันในกรณีที่ไม่ได้มีการจัดฉาก
JM ไม่ใช่นักสถิติเมื่อ

(อย่างไรก็ตามหนึ่งไม่ควรพอดีกับชื่อพหุนามสูงโดยไม่มีเหตุผลที่ดีสำหรับการทำเช่นนั้น)
JM ไม่ได้เป็นนักสถิติ

คำตอบ:


7

ตัวแปรและไม่ได้เป็นเชิงเส้นตรง ดังนั้นแม้ว่าจะไม่มีผลกระทบต่อกำลังสองเพิ่มรูปแบบจะแก้ไขผลกระทบประมาณXX 2 X 2 XXX2X2X

ลองมาดูด้วยการจำลองที่ง่ายมาก

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

ขณะนี้มีคำกำลังสองในโมเดลให้พอดี

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

แน่นอนการทดสอบรถโดยสารยังคงมีความสำคัญ แต่ฉันคิดว่าผลลัพธ์ที่เรากำลังมองหาไม่ใช่แบบนี้ วิธีแก้คือใช้พหุนามแบบมุมฉาก

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

โปรดทราบว่าค่าสัมประสิทธิ์xในรุ่นแรกและpoly(x,2)1ในรุ่นที่สองไม่เท่ากันและแม้กระทั่งค่าดักฟังจะแตกต่างกัน เพราะนี่คือการpolyมอบเวกเตอร์ orthonormal rep(1, length(x))ซึ่งยังตั้งฉากกับเวกเตอร์ ดังนั้นpoly(x,2)1ไม่ใช่xแต่(x -mean(x))/sqrt(sum((x-mean(x))**2))...

จุดสำคัญคือการทดสอบ Wald ในรุ่นสุดท้ายนี้มีความเป็นอิสระ คุณสามารถใช้ polynomials มุมฉากที่จะตัดสินใจขึ้นไปที่ระดับที่คุณต้องการไปเพียงแค่มองไปที่การทดสอบ Wald: ที่นี่คุณตัดสินใจที่จะเก็บแต่ไม่ 2 แน่นอนว่าคุณจะพบรูปแบบเดียวกันโดยการเปรียบเทียบรุ่นที่ติดตั้งสองตัวแรก แต่มันก็ง่ายกว่าถ้าคุณคิดว่าจะไปถึงระดับที่สูงขึ้นมันจะง่ายกว่ามากX 2XX2

เมื่อคุณตัดสินใจที่จะรักษาคำศัพท์ไว้แล้วคุณอาจต้องการกลับไปใช้ชื่อพหุนามแบบและเพื่อการตีความหรือการคาดการณ์X 2XX2


+1 ในที่สุดคำตอบที่ชัดเจน! ขอบคุณ! ก่อนที่ฉันจะยอมรับคุณช่วยบอกฉันหน่อยได้ไหมว่ามีสถิติอื่น ๆ เช่น R ^ 2 หรือสถิติ F ที่ฉันควรจะอ่านสรุปพล็อตมุมฉากดีกว่าแบบดิบหรือไม่? นอกจากการวางแผนตัวแปรแล้วการใช้พหุนามแบบดิบเหมาะกับสิ่งอื่นในสถานการณ์นี้หรือไม่
l7ll7

และเมื่อฉันมีตัวทำนายหลายตัวค่าเดิมจะเป็นจริงหรือไม่?
l7ll7

คุณจะ "ใช้พหุนามมุมฉากเพื่อตัดสินใจว่าคุณต้องการรวมคำกำลังสองหรือไม่"?
Scortchi - Reinstate Monica

1
ประเด็นคือการทดสอบเอฟเฟกต์ลำดับสูงสุดซึ่งเป็นกำลังสองในกรณีนี้จะเหมือนกันไม่ว่าคุณจะใช้ชื่อพหุนามแบบออโธกอนอลหรือมุมฉาก เหตุใดจึงต้องกังวลกับพหุนามแบบมุมฉาก?
Scortchi - Reinstate Monica

4
แน่นอนว่าคุณไม่ควรทำการทดสอบในรูปแบบนั้น คุณควรปรับให้เหมาะสมอีกครั้งหลังจากยกเลิกเอฟเฟกต์ลำดับสูงสุด พหุนามแบบมุมฉากช่วยให้คุณรู้สึกรำคาญช่วยให้ขั้นตอนง่าย ๆ ลดลง - บางทีคุณอาจแสดงให้เห็นว่ามีลูกบาศก์เทอม
Scortchi - Reinstate Monica

3

ในการประเมินสถานการณ์ที่ไร้เดียงสา:

โดยทั่วไป: สมมติว่าคุณมีฟังก์ชั่นพื้นฐานที่แตกต่างกันสองระบบเช่นเดียวกับสำหรับบางฟังก์ชัน (hilbert-) ช่องว่างปกติคือช่องว่างของฟังก์ชั่นสี่เหลี่ยมจตุรัสทั้งหมด { ˜ p } n = 1 L 2 ( [ a , b ] ){pn}n=1{p~}n=1L2([a,b])

ซึ่งหมายความว่าแต่ละฐานสองสามารถใช้เพื่ออธิบายแต่ละองค์ประกอบของคือสำหรับคุณมีค่าสัมประสิทธิ์และ , (ใน -sense): L2([a,b])yL2([a,b])θnθ~nRn=1,2,L2

n=1θ~np~n=y=n=1θnpn.

อย่างไรก็ตามในทางกลับกันหากคุณตัดทอนฟังก์ชันพื้นฐานทั้งสองชุดที่จำนวนนั่นคือคุณใช้ และ ชุดนี้ตัดทอนของฟังก์ชั่นพื้นฐานเป็นอย่างมากมีแนวโน้มที่สองอธิบาย "ส่วนต่าง" ของb])k<

{pn}n=1k
{p~}n=1k,
L2([a,b])

อย่างไรก็ตามที่นี่ในกรณีพิเศษที่หนึ่งพื้นฐานเป็นเพียง orthogonalization ของพื้นฐานอื่นการทำนายโดยรวมของจะเหมือนกันสำหรับแต่ละรุ่นที่ถูกตัดทอน (และคู่ orthogonalized จะอธิบายมิติมิติย่อยของ ){p~}n=1{pn}n=1y{p}n=1kkL2([a,b])

แต่ฟังก์ชั่นพื้นฐานของแต่ละบุคคลจากฐานสอง "ที่แตกต่างกัน" จะให้การสนับสนุนที่แตกต่างกันไปในการทำนายครั้งนี้ (เห็นได้ชัดว่าฟังก์ชั่น / ตัวทำนายแตกต่างกัน!) ส่งผลให้ Valuesp

ดังนั้นในแง่ของการทำนายมี (ในกรณีนี้) ไม่แตกต่างกัน

จากมุมมองการคำนวณเมทริกซ์โมเดลที่ประกอบด้วยฟังก์ชันพื้นฐานมุมฉากมีคุณสมบัติเชิงตัวเลข / การคำนวณที่ดีสำหรับตัวประมาณกำลังสองน้อยที่สุด ขณะที่ในเวลาเดียวกันจากมุมมองทางสถิติผลลัพธ์ในการประมาณการแบบ orthogonalization นั้นไม่ได้มีความสัมพันธ์กันเนื่องจากภายใต้สมมติฐานมาตรฐานvar(θ~^)=Iσ²


คำถามธรรมชาติเกิดขึ้นหากมีระบบพื้นฐานที่ถูกตัดทอนที่ดีที่สุด อย่างไรก็ตามคำตอบสำหรับคำถามนั้นไม่ง่ายหรือไม่เหมือนใครและขึ้นอยู่กับความหมายของคำว่า "ดีที่สุด" นั่นคือสิ่งที่คุณพยายามจะเก็บถาวร


1
(+1) การทำนายไม่แตกต่างกัน & อาจกล่าวได้ว่าไม่มีความแตกต่างในแง่ของการอนุมานที่มีความหมายใด ๆ
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.