วิธีการที่เอาท์พุทของวิธีการนี้เพื่อปรับโครงสร้างเกมให้เหมาะสมคือการจัดกลุ่มชิ้นส่วนเชิงเส้นของสมูทเทอร์เข้ากับเงื่อนไขพารามิเตอร์อื่น ๆ การประกาศPrivate
มีรายการในตารางแรก แต่รายการนั้นว่างเปล่าในวินาที นี่เป็นเพราะPrivate
เป็นคำที่เคร่งครัดพารามิเตอร์ Private
มันเป็นตัวแปรปัจจัยและด้วยเหตุนี้มีความเกี่ยวข้องกับพารามิเตอร์ประมาณซึ่งหมายถึงผลกระทบของ เหตุผลที่ทำให้คำศัพท์ที่ราบรื่นถูกแยกออกเป็นเอฟเฟกต์สองประเภทคือผลลัพธ์นี้ช่วยให้คุณตัดสินใจได้ว่าคำศัพท์ที่ราบรื่นนั้นมี
- เอฟเฟกต์แบบไม่เชิงเส้น : ดูตารางที่ไม่ใช่พารามิเตอร์และประเมินความสำคัญ หากมีความสำคัญปล่อยให้เป็นผลไม่เชิงเส้นเรียบ หากไม่มีนัยสำคัญให้พิจารณาผลเชิงเส้น (2. ด้านล่าง)
- ผลเชิงเส้น : ดูที่ตารางพารามิเตอร์และประเมินความสำคัญของผลเชิงเส้น หากสำคัญคุณสามารถเปลี่ยนคำให้เป็นแบบเรียบ
s(x)
-> x
ในสูตรที่อธิบายโมเดล หากไม่มีนัยสำคัญคุณอาจพิจารณาตัดคำจากแบบจำลองทั้งหมด (แต่ต้องระวังด้วยสิ่งนี้ --- นั่นคือจำนวนที่แสดงถึงคำแถลงที่แข็งแกร่งว่าผลที่แท้จริงคือ == 0)
ตารางพารามิเตอร์
รายการที่นี่เป็นเหมือนสิ่งที่คุณจะได้รับหากคุณติดตั้งโมเดลเชิงเส้นและคำนวณตาราง ANOVA ยกเว้นจะไม่มีการประเมินค่าสัมประสิทธิ์ของโมเดลที่เกี่ยวข้องใด ๆ แทนที่จะเป็นค่าสัมประสิทธิ์โดยประมาณและข้อผิดพลาดมาตรฐานและการทดสอบtหรือ Wald ที่เกี่ยวข้องปริมาณของความแปรปรวนที่อธิบาย (ในแง่ของผลรวมของกำลังสอง) จะแสดงควบคู่ไปกับการทดสอบ F เช่นเดียวกับแบบจำลองการถดถอยอื่น ๆ ที่มี covariates หลายตัว (หรือฟังก์ชันของ covariates) รายการในตารางมีเงื่อนไขตามข้อกำหนด / ฟังก์ชันอื่น ๆ ในแบบจำลอง
ตารางที่ไม่ใช่พารามิเตอร์
อิงผลกระทบที่เกี่ยวข้องกับชิ้นส่วนที่ไม่เป็นเชิงเส้นของ smoothers พอดี Expend
องค์กรไม่แสวงหาผลกระทบไม่เชิงเส้นเหล่านี้เป็นสิ่งที่สำคัญยกเว้นสำหรับผลของการไม่เชิงเส้น Room.Board
มีหลักฐานของผลในเชิงบาง แต่ละสิ่งนี้เกี่ยวข้องกับจำนวนขององศาอิสระที่ไม่ใช่พารามิเตอร์ ( Npar Df
) และพวกเขาอธิบายจำนวนของความแปรปรวนในการตอบสนองจำนวนที่ประเมินผ่านการทดสอบ F (โดยค่าเริ่มต้นดูอาร์กิวเมนต์test
)
การทดสอบเหล่านี้ในอิงพารามิเตอร์ส่วนสามารถตีความได้ว่าการทดสอบของสมมติฐานของความสัมพันธ์เชิงเส้นแทนของความสัมพันธ์ที่ไม่เป็นเชิงเส้น
วิธีที่คุณสามารถตีความสิ่งนี้คือการExpend
รับประกันว่าจะได้รับการปฏิบัติอย่างราบรื่นไม่เชิงเส้น สมูทอื่น ๆ สามารถเปลี่ยนเป็นเงื่อนไขเชิงเส้นเชิงเส้นได้ คุณอาจต้องการตรวจสอบว่าความRoom.Board
ต่อเนื่องของการราบรื่นนั้นมีผลที่ไม่เกี่ยวกับพารามิเตอร์ที่ไม่สำคัญเมื่อคุณแปลงสมูตอื่น ๆ เป็นเชิงเส้นและเชิงพารามิเตอร์ มันอาจเป็นไปได้ว่าผลกระทบของการไม่Room.Board
เป็นเชิงเส้นเล็กน้อย แต่สิ่งนี้จะได้รับผลกระทบจากการมีอยู่ของคำศัพท์ที่เรียบอื่น ๆ ในรูปแบบ
อย่างไรก็ตามสิ่งต่าง ๆ มากมายนี้อาจขึ้นอยู่กับข้อเท็จจริงที่ว่าสมูทจำนวนมากได้รับอนุญาตให้ใช้อิสระเพียง 2 องศาเท่านั้น ทำไม 2
การเลือกความเรียบอัตโนมัติ
แนวทางที่ใหม่กว่าในการปรับเกมให้เหมาะกับคุณจะเลือกระดับความราบรื่นสำหรับคุณผ่านวิธีการเลือกความราบรื่นอัตโนมัติเช่นวิธี spline ที่ถูกลงโทษของ Simon Wood ดังที่ติดตั้งในแพ็คเกจที่แนะนำmgcv :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
แบบจำลองสรุปกระชับและพิจารณาโดยตรงว่าฟังก์ชั่นที่ราบรื่นโดยรวมมากกว่าเป็นเชิงเส้น (พารามิเตอร์) และไม่เชิงเส้น (ไม่ใช่พารามิเตอร์):
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
ตอนนี้เอาท์พุทรวบรวมข้อตกลงที่ราบรื่นและข้อตกลงพารามิเตอร์ลงในตารางที่แยกต่างหากกับหลังได้รับผลลัพธ์ที่คุ้นเคยมากขึ้นคล้ายกับที่ของรูปแบบเชิงเส้น เอฟเฟกต์ข้อความทั้งหมดจะแสดงในตารางด้านล่าง สิ่งเหล่านี้ไม่ใช่การทดสอบเดียวกับgam::gam
แบบจำลองที่คุณแสดง พวกเขากำลังทดสอบกับสมมติฐานว่างเปล่าว่าเอฟเฟ็กต์ราบรื่นคือเส้นแบนแนวนอนเอฟเฟกต์ว่างหรือแสดงผลเป็นศูนย์ ทางเลือกคือเอฟเฟกต์แบบไม่เชิงเส้นที่แท้จริงนั้นแตกต่างจากศูนย์
ขอให้สังเกตว่า EDF นั้นมีขนาดใหญ่กว่า 2 ทั้งหมดยกเว้นการs(perc.alumni)
แนะนำว่าgam::gam
แบบจำลองอาจมีข้อ จำกัด เล็กน้อย
การติดตั้งที่ราบรื่นสำหรับการเปรียบเทียบนั้นมอบให้โดย
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
ซึ่งผลิต
การเลือกความเรียบอัตโนมัติยังสามารถเลือกใช้ร่วมกับคำศัพท์ที่ย่อมาจากรุ่นได้ทั้งหมด:
เมื่อทำอย่างนั้นเราจะเห็นว่าแบบจำลองนั้นไม่เปลี่ยนแปลง
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
ความนุ่มนวลทั้งหมดดูเหมือนว่าจะแนะนำผลกระทบที่ไม่เชิงเส้นเล็กน้อยแม้หลังจากที่เราหดส่วนเชิงเส้นและไม่เชิงเส้นของเส้นโค้ง
โดยส่วนตัวแล้วฉันพบว่าเอาต์พุตจากmgcvง่ายต่อการตีความและเนื่องจากมันแสดงให้เห็นว่าวิธีการเลือกความเรียบอัตโนมัติจะมีแนวโน้มที่จะให้ผลเชิงเส้นตรงหากข้อมูลได้รับการสนับสนุน