ฐานข้อมูล : ฉันมีคนประมาณ 1,000 คนที่มีการประเมินผล: '1,' [ดี] '2,' [กลาง] หรือ '3' [ไม่ดี] - นี่คือค่าที่ฉันพยายามทำนายสำหรับคนในอนาคต . นอกจากนั้นฉันยังมีข้อมูลด้านประชากรศาสตร์: เพศ (หมวดหมู่: M / F) อายุ (ตัวเลข: 17-80) และเชื้อชาติ (หมวดหมู่: ดำ / ผิวขาว / ลาติน)
ฉันส่วนใหญ่มีสี่คำถาม:
ตอนแรกฉันพยายามเรียกใช้ชุดข้อมูลที่อธิบายไว้ข้างต้นเป็นการวิเคราะห์ถดถอยหลายครั้ง แต่เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่าเนื่องจากการพึ่งพาของฉันเป็นปัจจัยที่สั่งและไม่ใช่ตัวแปรต่อเนื่องฉันควรใช้การถดถอยแบบลอจิสติกอันดับสำหรับสิ่งนี้ ตอนแรกฉันใช้บางอย่างที่
mod <- lm(assessment ~ age + gender + race, data = dataset)
ใครสามารถชี้ให้ฉันไปในทิศทางที่ถูกต้อง?จากตรงนั้นสมมติว่าฉันได้ค่าสัมประสิทธิ์ที่ฉันรู้สึกสบายใจฉันเข้าใจวิธีการใส่ค่าตัวเลขเพียงอย่างเดียวใน x1, x2 และอื่น ๆ - แต่ฉันจะจัดการกับเผ่าพันธุ์ได้อย่างไรเช่นมีหลายคำตอบ: ดำ / ผิวขาว / ลาติน? ดังนั้นถ้ามันบอกฉันว่าค่าสัมประสิทธิ์ผิวขาวคือ 0.289 และใครบางคนที่ฉันพยายามจะทำนายก็คือผิวขาวฉันจะเสียบกลับเข้าที่ใหม่ได้อย่างไรเนื่องจากค่าไม่ใช่ตัวเลข?
ฉันยังมีค่าสุ่มที่หายไป - บางอย่างสำหรับการแข่งขันบางอย่างสำหรับเพศ ฯลฯ ฉันต้องทำอะไรเพิ่มเติมเพื่อให้แน่ใจว่านี่จะไม่บิดเบือนอะไรหรือไม่? (ฉันสังเกตว่าเมื่อชุดข้อมูลของฉันถูกโหลดลงใน R-Studio เมื่อข้อมูลที่หายไปถูกโหลดในขณะที่
NA
R บอกว่าคล้าย(162 observations deleted due to missingness)
- แต่ถ้าพวกเขาโหลดเป็นช่องว่างมันจะไม่ทำอะไรเลย)สมมติว่าทั้งหมดนี้เป็นไปได้และฉันมีข้อมูลใหม่เกี่ยวกับเพศอายุและเชื้อชาติที่ฉันต้องการทำนาย - มีวิธีที่ง่ายกว่าใน R ในการดำเนินการทั้งหมดผ่านสูตรใด ๆ ที่มีสัมประสิทธิ์ใหม่ปรากฏขึ้น แทนที่จะทำด้วยตนเอง? (หากคำถามนี้ไม่เหมาะสมที่นี่ฉันสามารถนำกลับไปที่ฟอรัม R)