ฉันมีชุดข้อมูลที่มีตัวแปรอิสระต่อเนื่อง 9 ตัว ฉันกำลังพยายามเลือกระหว่างตัวแปรเหล่านี้เพื่อให้พอดีกับแบบจำลองกับตัวแปรเปอร์เซ็นต์ (ขึ้นอยู่) เดียว, Score
. น่าเสียดายที่ฉันรู้ว่าจะมีความร่วมมือกันอย่างจริงจังระหว่างตัวแปรหลายตัว
ฉันได้ลองใช้stepAIC()
ฟังก์ชั่นใน R เพื่อเลือกตัวแปร แต่วิธีการนั้นดูแปลกไปตามลำดับที่ตัวแปรถูกแสดงในสมการ ...
นี่คือรหัส R ของฉัน (เนื่องจากเป็นข้อมูลเปอร์เซ็นต์ฉันใช้การแปลง logit สำหรับคะแนน):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
ด้วยเหตุผลบางอย่างฉันพบว่าตัวแปรที่ระบุไว้ที่จุดเริ่มต้นของสมการท้ายถูกเลือกโดยstepAIC()
ฟังก์ชั่นและผลลัพธ์ที่สามารถจัดการโดยการแสดงรายการเช่นVar9
แรก (ตามตัวหนอน)
อะไรคือวิธีที่มีประสิทธิภาพมากขึ้น (และแย้งน้อยกว่า) ในการปรับแบบจำลองที่นี่? ฉันไม่ได้กำหนดตายตัวโดยใช้การถดถอยเชิงเส้น: สิ่งเดียวที่ฉันต้องการคือสามารถเข้าใจได้ว่าตัวแปรใดใน 9 ตัวที่ขับเคลื่อนการเปลี่ยนแปลงในScore
ตัวแปรอย่างแท้จริง โดยเฉพาะอย่างยิ่งนี่จะเป็นวิธีการบางอย่างที่คำนึงถึงความเป็นไปได้ที่จะเกิด collinearity ใน 9 ตัวแปร
Score
ตัวแปรอย่างแท้จริง" ซึ่งเป็นประโยคที่ฉันอาจจะเน้นมากเกินไป ในการปรากฏตัวของ collinearity ที่แข็งแกร่งเชือกจะไม่ช่วยด้วยอย่างน้อยก็ในการตีความที่เข้มงวดมากขึ้นของคำพูดของ OP