ลองสำรวจสิ่งที่เกิดขึ้น ฉันแน่ใจว่าคุณรู้เนื้อหาส่วนใหญ่ต่อไปนี้แล้ว แต่เพื่อสร้างสัญกรณ์และคำจำกัดความและเพื่อให้ความคิดชัดเจนฉันจะครอบคลุมพื้นฐานของการถดถอยพหุนามก่อนที่จะตอบคำถาม หากคุณต้องการข้ามไปที่หัวข้อ "มีอะไรR
" ประมาณสองในสามของวิธีการในโพสต์นี้จากนั้นข้ามกลับไปสำหรับคำจำกัดความที่คุณอาจต้องการ
การตั้งค่า
เรากำลังพิจารณาเมทริกซ์โมเดลของตัวแปรอธิบายที่เป็นไปได้ในการถดถอยบางชนิด นั่นหมายความว่าเรากำลังคิดถึงคอลัมน์ของว่าเป็น -vectorและเราจะสร้างชุดค่าผสมเชิงเส้นของพวกมันพยากรณ์หรือคาดการณ์การตอบสนอง n×kXXnX1,X2,…,Xkβ1X1+β2X2+⋯+βkXk,
บางครั้งการถดถอยสามารถปรับปรุงได้โดยการแนะนำคอลัมน์เพิ่มเติมที่สร้างขึ้นโดยการคูณคอลัมน์ต่าง ๆ ของโดยค่าสัมประสิทธิ์โดยสัมประสิทธิ์ ผลิตภัณฑ์ดังกล่าวเรียกว่า "monomials" และสามารถเขียนได้เช่นX
Xd11Xd22⋯Xdkk
โดยที่ "พลังงาน"มีค่าเป็นศูนย์หรือมากกว่าแสดงถึงจำนวนครั้งที่แต่ละตัวปรากฏในผลิตภัณฑ์ ขอให้สังเกตว่าเป็น -vector ของสัมประสิทธิ์คงที่ ( ) และเอง ดังนั้น monomials (เป็นเวกเตอร์) สร้างพื้นที่เวกเตอร์ที่มีพื้นที่คอลัมน์ดั้งเดิมของ ความเป็นไปได้ที่มันอาจเป็นพื้นที่เวกเตอร์ขนาดใหญ่ให้ขั้นตอนนี้ขอบเขตที่มากขึ้นในการจำลองการตอบสนองด้วยการรวมกันเชิงเส้นdiX1X0n1X1=XX.
เราตั้งใจจะแทนที่เมทริกซ์โมเดลต้นฉบับโดยชุดค่าผสมเชิงเส้นของ monomials เมื่อระดับอย่างน้อยหนึ่ง monomials เหล่านี้มีค่าเกินจะเรียกว่าการถดถอยแบบพหุนามX1,
ลำดับขั้นของพหุนาม
ศึกษาระดับปริญญาของ monomial เป็นผลรวมของอำนาจของตน ระดับของการรวมกันเชิงเส้นของ monomials ("พหุนาม") เป็นระดับที่ใหญ่ที่สุดในข้อตกลง monomial กับสัมประสิทธิ์ที่ไม่ใช่ศูนย์ การศึกษาระดับปริญญามีความหมายที่แท้จริงเพราะเมื่อคุณเปลี่ยนพื้นฐานของพื้นที่เวกเตอร์ดั้งเดิมเวกเตอร์แต่ละตัวจะถูกแสดงด้วยการรวมเชิงเส้นของเวกเตอร์ทั้งหมด monomialsจึงกลายเป็นพหุนามในระดับเดียวกัน และดังนั้นระดับของพหุนามใด ๆ จึงไม่เปลี่ยนแปลงd1+d2+…+dk.XiXd11Xd22⋯Xdkk
การศึกษาระดับปริญญาให้ธรรมชาติ "ให้คะแนน" เพื่อพีชคณิตพหุนามนี้: ปริภูมิเวกเตอร์ที่สร้างขึ้นโดยผลรวมเชิงเส้นทั้งหมดของ monomials ในปริญญาและรวมถึงเรียกว่า "พหุนามของ [หรือเพิ่มขึ้นถึง] ระดับใน "ขยายปริภูมิเวกเตอร์ของชื่อพหุนามจนถึงองศาในXd+1,d+1X,dX.
การใช้การถดถอยพหุนาม
บ่อยครั้งที่การถดถอยพหุนามมีการสำรวจในแง่ที่เราไม่ทราบตั้งแต่เริ่มแรก กระบวนการในการสร้างเมทริกซ์โมเดลใหม่จาก monomials และปรับความถดถอยให้เหมาะสมอาจต้องทำซ้ำหลายครั้งบางทีอาจจะเป็นจำนวนครั้งทางดาราศาสตร์ในการตั้งค่าการเรียนรู้ของเครื่อง
ปัญหาหัวหน้าด้วยวิธีนี้คือ
Monomials มักจะแนะนำ "multicollinearity" จำนวนมากที่มีปัญหาในเมทริกซ์โมเดลใหม่ส่วนใหญ่เป็นเพราะพลังของตัวแปรเดียวมีแนวโน้มที่จะ collinear สูง (การจับคู่กันระหว่างพลังของสองตัวแปรที่แตกต่างกันนั้นไม่สามารถคาดเดาได้เพราะมันขึ้นอยู่กับความสัมพันธ์ของตัวแปรเหล่านั้นและดังนั้นจึงคาดเดาได้น้อยกว่า)
การเปลี่ยนเพียงคอลัมน์เดียวของเมทริกซ์โมเดลหรือการแนะนำคอลัมน์ใหม่หรือการลบคอลัมน์อาจต้องใช้ "การรีสตาร์ทแบบเย็น" ของขั้นตอนการถดถอยซึ่งอาจใช้เวลานานในการคำนวณ
การไล่ระดับของพีชคณิตแบบพหุนามให้วิธีการเอาชนะปัญหาทั้งสอง
พหุนามแบบหลายมุมในตัวแปรเดียว
รับคอลัมน์เดี่ยวเวกเตอร์ชุด "orthogonal polynomials" สำหรับคือลำดับของคอลัมน์เวกเตอร์เกิดขึ้นเป็นชุดเชิงเส้นของ monomials ในเดียว - นั่นคือเป็นพลังของ - ด้วยคุณสมบัติดังต่อไปนี้:X,Xp0(X),p1(X),p2(X),…XX
สำหรับแต่ละระดับเวกเตอร์สร้างพื้นที่เวกเตอร์เดียวกับ (ขอให้สังเกตว่าคือ -vector ของตัวคนและเป็นเพียงตัวเอง)d=0,1,2,…,p0(X),p1(X),…,pd(X)X0,X1,…,Xd.X0nX1X
มีร่วมกันมุมฉากในแง่ที่ว่าสำหรับpi(X)i≠j, pi(X)′pj(X)=0.
โดยปกติรูปแบบการเปลี่ยนเมทริกซ์เกิดขึ้นจาก monomials เหล่านี้จะได้รับการแต่งตั้งให้เป็นorthonormalโดย normalizing คอลัมน์ไปยังหน่วยความยาว: เนื่องจากการผกผันของปรากฏในสมการการถดถอยส่วนใหญ่และการผกผันของเมทริกซ์เอกลักษณ์เป็นตัวเองสิ่งนี้แสดงให้เห็นถึงการคำนวณขนาดใหญ่P=(p0(X)p1(X)⋯pd(X))
P′P=Id+1.
P′PId+1
Orthonormality เป็นตัวกำหนด คุณสามารถดูสิ่งนี้ได้จากการก่อสร้าง:pi(X).
พหุนามแรก,ต้องเป็นพหุคูณของ -vectorของความยาวของหน่วย มีเพียงสองตัวเลือกคือ มันเป็นเรื่องธรรมดาที่จะเลือกรากที่สองที่เป็นบวกp0(X),n1=(1,1,…,1)′±1/n−−−√1.
พหุนามที่สอง,ต้องเป็นมุมฉากถึง มันสามารถทำได้โดยการถอยหลังเทียบกับซึ่งวิธีแก้ปัญหาคือเวกเตอร์ของค่าเฉลี่ย หากส่วนที่เหลือไม่เหมือนกันพวกเขาให้ทางออกที่เป็นไปได้เพียงสองทางเท่านั้นคือp1(X),1.X1,X^=X¯1.ϵ=X−X^p1(X)=±(1/||ϵ||)ϵ.
...
- โดยทั่วไปแล้วได้มาจากการถดถอยเทียบกับและ rescaling ส่วนที่เหลือให้เป็นเวกเตอร์ของหน่วย ความยาว. มีสองทางเลือกของสัญญาณเมื่อส่วนที่เหลือไม่เป็นศูนย์ทั้งหมด มิฉะนั้นกระบวนการจะสิ้นสุดลง: มันจะไร้ผลหากมองไปที่พลังที่สูงกว่าของ (นี่คือทฤษฎีบทที่ดี แต่การพิสูจน์มันไม่จำเป็นต้องเบี่ยงเบนความสนใจเราที่นี่)pd+1(X)Xd+1p0(X),p1(X),…,pd(X)X.
นี่เป็นกระบวนการแกรม - ชมิดต์ที่ใช้กับลำดับที่แท้จริงของเวกเตอร์ โดยปกติจะคำนวณโดยใช้การสลายตัว QRซึ่งเกือบจะเหมือนกันมาก แต่คำนวณในลักษณะที่มีเสถียรภาพตัวเลขX0,X1,…,Xd,….
การก่อสร้างนี้ให้ลำดับของคอลัมน์เพิ่มเติมเพื่อพิจารณารวมอยู่ในเมทริกซ์โมเดล การถดถอยพหุนามในหนึ่งตัวแปรจึงมักจะดำเนินการโดยการเพิ่มองค์ประกอบของลำดับนี้ทีละหนึ่งตามลำดับจนกว่าจะไม่ได้รับการปรับปรุงเพิ่มเติมในการถดถอย เนื่องจากคอลัมน์ใหม่แต่ละคอลัมน์เป็นมุมฉากกับคอลัมน์ก่อนหน้ารวมถึงไม่เปลี่ยนแปลงค่าสัมประสิทธิ์ก่อนหน้าใด ๆ ทำให้กระบวนการมีประสิทธิภาพและสามารถตีความได้อย่างง่ายดาย
พหุนามในหลายตัวแปร
การถดถอยเชิงสำรวจ (รวมถึงการปรับแบบจำลอง) โดยปกติจะดำเนินการโดยพิจารณาจากตัวแปร (ต้นฉบับ) ที่จะรวมไว้ในแบบจำลองก่อน จากนั้นประเมินว่าตัวแปรเหล่านั้นสามารถเพิ่มขึ้นได้หรือไม่โดยการรวมการแปลงรูปแบบต่าง ๆ ของพวกมันเช่น monomials; จากนั้นแนะนำ "การโต้ตอบ" ที่เกิดขึ้นจากผลิตภัณฑ์ของตัวแปรเหล่านี้และการแสดงออกอีกครั้ง
การดำเนินการโครงการดังกล่าวแล้วจะเริ่มต้นด้วยการขึ้นรูปunivariate polynomials มุมฉากในคอลัมน์ของแยกต่างหาก X หลังจากเลือกระดับที่เหมาะสมสำหรับแต่ละคอลัมน์แล้วคุณจะแนะนำการโต้ตอบ
ณ จุดนี้บางส่วนของโปรแกรม univariate จะพังลงมา คุณจะใช้ลำดับของการโต้ตอบลำดับใดจนกว่าจะมีการระบุรุ่นที่เหมาะสม ยิ่งไปกว่านั้นตอนนี้เราได้เข้าสู่อาณาจักรของการวิเคราะห์หลายตัวแปรจำนวนตัวเลือกที่มีอยู่และความซับซ้อนที่เพิ่มขึ้นของพวกเขาแนะนำว่าอาจมีผลตอบแทนลดลงในการสร้างลำดับของพหุนามหลายมิติแบบหลายตัวแปร อย่างไรก็ตามหากคุณมีลำดับดังกล่าวอยู่ในใจคุณสามารถคำนวณได้โดยใช้การย่อยสลาย QR
สิ่งที่R
ไม่
ซอฟแวร์สำหรับการถดถอยพหุนามจึงมีแนวโน้มที่จะมุ่งเน้นไปที่การคำนวณunivariateมุมฉากพหุนามลำดับ มันเป็นลักษณะของR
การขยายการสนับสนุนดังกล่าวโดยอัตโนมัติที่สุดเท่าที่จะเป็นไปได้สำหรับกลุ่มของพหุนามแบบหลายตัวแปร นี้สิ่งที่poly
ไม่ (คู่หูของมันpolym
คือรหัสเดียวกันโดยมีเสียงระฆังและเสียงนกหวีดน้อยลง; ทั้งสองฟังก์ชั่นทำสิ่งเดียวกัน)
โดยเฉพาะpoly
จะคำนวณลำดับของพหุนาม orthogonal แบบหลายตัวแปรเมื่อได้รับเวกเตอร์หยุดที่องศาที่ระบุ (ถ้าใหญ่เกินไป - และมันอาจเป็นเรื่องยากที่จะคาดการณ์ว่ามีขนาดใหญ่เกินไป - มันน่าเสียดายที่เกิดข้อผิดพลาด) เมื่อได้เซตเวกเตอร์ในรูปของเมทริกซ์มันจะกลับมาX,d.dX1,…,XkX,
ลำดับของพหุนาม orthonormalสำหรับแต่ละออกไปถึงระดับสูงสุดที่ร้องขอ (เนื่องจากค่าคงที่ของเวกเตอร์เป็นเรื่องปกติของตัวแปรทั้งหมดและเป็นเรื่องง่ายมาก - โดยปกติแล้วจะมีการสกัดกั้นโดยการสกัดกั้นในการถดถอย - ไม่รำคาญที่จะรวมไว้)p1(Xj),p2(Xj),…,pd(Xj)jd.p0(Xi)R
ปฏิกิริยาทั้งหมดของพหุนามแบบฉากมุมฉากเหล่านั้นจนถึงและรวมถึงระดับd.
ขั้นตอน (2) เกี่ยวข้องกับรายละเอียดปลีกย่อยหลายอย่าง โดยปกติแล้วจะเป็น "ปฏิสัมพันธ์" ระหว่างตัวแปรเราหมายถึง "ผลิตภัณฑ์ที่เป็นไปได้ทั้งหมด" แต่ผลิตภัณฑ์ที่เป็นไปได้บางส่วนจะมีองศามากกว่า ตัวอย่างเช่นมีตัวแปรและคำนวณd.2d=2, R
p1(X1),p2(X1),p1(X2),p1(X1)p1(X2),p2(X2).
R
ไม่ได้รวมถึงการมีปฏิสัมพันธ์-ระดับที่สูงขึ้น (พหุนามของระดับ 3) หรือ (พหุนามของระดับ 4) (นี่ไม่ใช่ข้อ จำกัด ที่ร้ายแรงเพราะคุณสามารถคำนวณผลิตภัณฑ์เหล่านี้ได้ด้วยตนเองหรือระบุไว้ในวัตถุการถดถอย)p2(X1)p1(X2), p1(X1)p2(X2)p1(X2)p2(X2)formula
ความละเอียดอ่อนก็คือว่าไม่มีชนิดของการฟื้นฟูถูกนำไปใช้ใด ๆ ของผลิตภัณฑ์หลายตัวแปร ในตัวอย่างผลิตภัณฑ์เดียวเท่านั้นคือ อย่างไรก็ตามไม่มีการรับประกันใด ๆ แม้ค่าเฉลี่ยจะเป็นศูนย์และแน่นอนเกือบจะไม่มีมาตรฐานของหน่วย ในแง่นี้มันเป็น "ปฏิสัมพันธ์" ที่แท้จริงระหว่างและและสามารถตีความได้ว่าการโต้ตอบมักจะอยู่ในรูปแบบการถดถอยp1(X1)p1(X2).p1(X1)p1(X2)
ตัวอย่าง
ลองดูตัวอย่าง ฉันสุ่มสร้าง matrix เพื่อให้การคำนวณง่ายขึ้นทุกอย่างจะถูกปัดเป็นตัวเลขสองตัวที่สำคัญสำหรับแสดงผลX=⎛⎝⎜152364⎞⎠⎟.
ลำดับพหุนาม orthonormal สำหรับคอลัมน์แรกเริ่มต้นด้วยการทำให้ปกติกับความยาวหน่วยทำให้ขั้นตอนต่อไปรวมถึงเอง หากต้องการทำให้เป็นมุมฉากเป็นถอยเทียบกับและตั้งค่าเท่ากับส่วนที่เหลือของการถดถอยนั้นโดยลดขนาดหน่วยความยาว ผลที่ได้คือมาตรฐานปกติของได้จากการใส่เข้าไปใหม่และหารด้วยส่วนเบี่ยงเบนมาตรฐานX1=(1,5,2)′X01=(1,1,1)′p0(X1)=(1,1,1)′/3–√≈(0.58,0.58,0.58)′.X11=X1p0(X1),X1p0(X1)p1(X1)X1p1(X1)=(−0.57,0.79,−0.23)′. สุดท้ายจะถูกกับและและส่วนที่เหลือจะถูกลดขนาดให้เหลือความยาวหน่วย เราไม่สามารถไปได้อีกเพราะพลังของไม่สามารถสร้างพื้นที่เวคเตอร์มากกว่ามิติ (เราได้มาไกลขนาดนี้เพราะพหุนามน้อยที่สุดของสัมประสิทธิ์ของคือมีองศาแสดงให้เห็นว่า monomials ทั้งหมดของระดับหรือใหญ่กว่านั้น พลังและพลังที่ต่ำกว่านั้นมีความเป็นอิสระเชิงเส้น)X21=(1,25,4)p0(X1)p1(X1)X1n=3X1,(t−1)(t−5)(t−4),3,3
เมทริกซ์ที่ได้นั้นแสดงถึงลำดับพหุนาม orthonormal สำหรับคือX1
P1=⎛⎝⎜0.580.580.58−0.570.79−0.230.590.20−0.78⎞⎠⎟
(ตัวเลขสองตัวที่สำคัญ)
ในแบบเดียวกันเมทริกซ์พหุนาม orthonormal สำหรับคือX2
P2=⎛⎝⎜0.580.580.58−0.620.77−0.150.530.27−0.80⎞⎠⎟.
เทอมการโต้ตอบคือผลผลิตของคอลัมน์กลางของเมทริกซ์เหล่านี้เท่ากับ เมทริกซ์เต็มรูปแบบที่สร้างขึ้นโดยหรือคือ(0.35,0.61,0.035)′.poly
polym
P=⎛⎝⎜−0.570.79−0.230.590.20−0.78−0.620.77−0.150.350.610.0350.530.27−0.80⎞⎠⎟.
สังเกตุลำดับของคอลัมน์ที่มีการจัดวาง: พหุนาม orthonormal แบบไม่คงที่สำหรับอยู่ในคอลัมน์ 1 และ 2 ในขณะที่คอลัมน์สำหรับอยู่ในคอลัมน์ 3 และ 5 ดังนั้นจึงมีเพียง orthogonality ที่รับประกันในผลลัพธ์นี้อยู่ระหว่างผลลัพธ์เหล่านี้ คอลัมน์สองคู่ สิ่งนี้สะท้อนให้เห็นในการคำนวณซึ่งจะมีศูนย์อยู่ในตำแหน่งและ (แสดงเป็นสีแดงด้านล่าง), * แต่อาจไม่ใช่ศูนย์ที่ใดก็ได้และจะมีตำแหน่งในตำแหน่งและ (แสดงเป็นสีน้ำเงิน ด้านล่าง) แต่มีแนวโน้มว่าจะไม่มีหนึ่งในตำแหน่งแนวทแยงอื่น ๆ (X1X2P′P,(1,2),(2,1),(3,5),(5,3)(1,1),(2,2),(3,3),(5,5)(4,4)ในตัวอย่างนี้) อันที่จริง
P′P=⎛⎝⎜⎜⎜⎜⎜⎜1010.280.09101−0.0910.311−0.09110.2500.280.30.250.50.320.091100.321⎞⎠⎟⎟⎟⎟⎟⎟.
เมื่อคุณตรวจสอบเมทริกซ์ที่แสดงในคำถามและรับรู้ว่าทวีคูณของเป็นศูนย์จริง ๆ คุณจะสังเกตเห็นว่ารูปแบบของศูนย์ในตำแหน่งสีแดงนั้นคงอยู่ นี่คือความรู้สึกที่คำพหุนาม bivariate เป็น "orthogonal"P10−17