นี่ไม่ใช่ปัญหาเฉพาะของอาร์ R ใช้การแสดงสัมประสิทธิ์แบบดั้งเดิม
เมื่อคุณอ่านผลลัพธ์การถดถอย (ในกระดาษตำราหรือซอฟต์แวร์ทางสถิติ) คุณจำเป็นต้องรู้ว่าตัวแปรใดที่ "ต่อเนื่อง" และ "เด็ดขาด":
คน "ต่อเนื่อง" เป็นตัวเลขอย่างชัดเจนและค่าตัวเลขของพวกเขาถูกนำมาใช้ตามที่เป็นอยู่ในที่เหมาะสมการถดถอย
ตัวแปร "เด็ดขาด" สามารถเป็นประเภทใดก็ได้รวมถึงตัวแปรที่เป็นตัวเลข! สิ่งที่ทำให้พวกเขาจัดหมวดหมู่คือซอฟต์แวร์ถือว่าพวกเขาเป็น "ปัจจัย": นั่นคือแต่ละค่าที่แตกต่างที่พบจะถือเป็นตัวบ่งชี้ของสิ่งที่แตกต่าง
ซอฟต์แวร์ส่วนใหญ่จะใช้ค่าที่ไม่ใช่ตัวเลข (เช่นสตริง) เป็นปัจจัย ซอฟต์แวร์ส่วนใหญ่สามารถโน้มน้าวใจให้ปฏิบัติกับค่าตัวเลขเป็นปัจจัยได้เช่นกัน ตัวอย่างเช่นรหัสบริการไปรษณีย์ (รหัสไปรษณีย์ในสหรัฐอเมริกา) ดูเหมือนเป็นตัวเลข แต่จริงๆแล้วเป็นเพียงรหัสสำหรับชุดกล่องจดหมาย มันจะไม่มีเหตุผลที่จะเพิ่มลบและทวีคูณรหัสไปรษณีย์ด้วยหมายเลขอื่น! (ความยืดหยุ่นนี้เป็นแหล่งที่มาของข้อผิดพลาดทั่วไป: หากคุณไม่ระวังหรือไม่เจตนาซอฟต์แวร์ของคุณอาจพิจารณาตัวแปรที่คุณพิจารณาว่ามีการจัดหมวดหมู่อย่างต่อเนื่องหรือในทางกลับกันระวัง!)
อย่างไรก็ตามตัวแปรเชิงหมวดหมู่จะต้องมีการแสดงตัวเลขในบางวิธีเพื่อใช้อัลกอริธึมที่เหมาะสม มีหลายวิธีที่จะมีการเข้ารหัสพวกเขา รหัสถูกสร้างขึ้นโดยใช้ "ตัวแปรจำลอง" ค้นหาข้อมูลเพิ่มเติมเกี่ยวกับการเข้ารหัสตัวแปรจำลองโดยค้นหาในไซต์นี้ รายละเอียดไม่สำคัญที่นี่
ในคำถามเราจะได้รับการบอกกล่าวh
และf
เป็นค่าที่เป็นหมวดหมู่ ("ไม่ต่อเนื่อง") โดยค่าเริ่มต้นlog(d)
และa
จะต่อเนื่อง นั่นคือทั้งหมดที่เราต้องรู้ รูปแบบคือ
Y= - 0.679695+ บันทึก1.791294 ( d)+ 0.870735- 0.447570+ 0.542033+ 0.037362 a - 0.588362+ 0.816825+ 0.534440- 0.085658 a - 0.034970 a - 0.040637 a ถ้า h =ชั่วโมง1 ถ้า h =ชั่วโมง2 ถ้า h =ชั่วโมง3 ถ้า ฉ=ฉ1 ถ้า ฉ=ฉ2 ถ้า ฉ=ฉ3 ถ้า h =ชั่วโมง1 ถ้า h =ชั่วโมง2 ถ้า h =ชั่วโมง3
กฎที่ใช้ที่นี่คือ:
คำว่า "ตัด" ถ้าปรากฏเป็นค่าคงที่เพิ่มเติม (บรรทัดแรก)
ตัวแปรอย่างต่อเนื่องจะถูกคูณด้วยค่าสัมประสิทธิ์ของพวกเขาแม้จะอยู่ใน "ปฏิสัมพันธ์"เหมือนh1:a
, h2:a
และh3:a
เงื่อนไข (นี่จะตอบคำถามเดิม)
ตัวแปรเด็ดขาดใด ๆ (หรือตัวประกอบ) ถูกรวมเฉพาะสำหรับกรณีที่ค่าของปัจจัยนั้นปรากฏขึ้น
ตัวอย่างเช่นสมมติว่าเข้าสู่ระบบ( d) = 2, h =ชั่วโมง3, a = - 1และ ฉ=ฉ2. ค่าติดตั้งในรุ่นนี้คือ
Y^= - 0.6797 + 1.7913 × ( 2 ) + 0.5420 + 0.0374 × ( - 1 ) + .8168 - 0,0406 × ( - 1 )
แจ้งให้ทราบว่าส่วนใหญ่ของค่าสัมประสิทธิ์รูปแบบก็ไม่ปรากฏในการคำนวณเพราะh
สามารถใช้ในว่าหนึ่งในสามของค่าชั่วโมง1, ชั่วโมง2, ชั่วโมง3และดังนั้นจึงมีเพียงหนึ่งในสามของค่าสัมประสิทธิ์( 0.870735 , - 0.447570 , 0.542033 )นำไปใช้h
และเพียงหนึ่งในสามของค่าสัมประสิทธิ์( - 0.085658 , - 0.034970 , - 0.040637 )จะทวีคูณa
ในการh:a
โต้ตอบ; ในทำนองเดียวกันค่าสัมประสิทธิ์เดียวเท่านั้นที่ใช้กับf
ในกรณีใด ๆ
g1
และไม่ชัดเจนว่า