การจัดกึ่งกลางและการปรับขนาดตัวแปรจำลอง


13

ฉันมีชุดข้อมูลที่มีทั้งตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง ฉันแนะนำให้เปลี่ยนตัวแปรเด็ดขาดเป็นตัวแปรไบนารีสำหรับแต่ละระดับ (เช่น A_level1: {0,1}, A_level2: {0,1}) - ฉันคิดว่าบางคนเรียกว่า "ตัวแปรจำลอง" นี้

ด้วยที่กล่าวว่ามันจะทำให้เข้าใจผิดแล้วศูนย์และปรับขนาดข้อมูลทั้งหมดที่มีตัวแปรใหม่หรือไม่ ดูเหมือนว่าฉันจะสูญเสียความหมาย "เปิด / ปิด" ของตัวแปร

หากเป็นการทำให้เข้าใจผิดหมายความว่าฉันควรจัดกึ่งกลางและปรับขนาดตัวแปรต่อเนื่องแยกจากนั้นเพิ่มอีกครั้งลงในชุดข้อมูลของฉันหรือไม่

TIA


1
ไม่ว่าจะเป็นที่ยอมรับหรือสมเหตุสมผลในการจัดกึ่งกลางและ / หรือปรับขนาดตัวแปรจำลองขึ้นอยู่กับแอปพลิเคชันในการวิเคราะห์ที่คุณกำลังวางแผนและการพิจารณาเฉพาะงาน ดังนั้นจึงไม่มีคำตอบที่ถูกต้องเดียว โดยทั่วไปการกำหนดคร่าวๆก็มักจะตกลงกับตัวแปรตัวจำลองทำนาย มันมักจะเป็นความคิดที่ดีที่จะไปกับตัวแปรหุ่นตอบสนองหรือในวิธีการหลายตัวแปรเช่นการจัดกลุ่มหรือการวิเคราะห์ปัจจัย
ttnphns

คำตอบ:


13

เมื่อสร้างตัวแปรดัมมี่เพื่อใช้ในการวิเคราะห์การถดถอยแต่ละหมวดหมู่ในตัวแปรเด็ดขาดยกเว้นหนึ่งควรได้รับตัวแปรไบนารี ดังนั้นคุณควรมีเช่น A_level2, A_level3 ฯลฯ หนึ่งในหมวดหมู่ไม่ควรมีตัวแปรไบนารีและหมวดหมู่นี้จะทำหน้าที่เป็นหมวดหมู่อ้างอิง หากคุณไม่ละเว้นหมวดหมู่ใดหมวดหมู่หนึ่งการวิเคราะห์การถดถอยของคุณจะไม่ทำงานอย่างถูกต้อง

หากคุณใช้ SPSS หรือ R ฉันไม่คิดว่าการปรับขนาดและการจัดกึ่งกลางของชุดข้อมูลทั้งหมดจะเป็นปัญหาเนื่องจากแพคเกจซอฟต์แวร์เหล่านั้นมักตีความตัวแปรที่มีเพียงสองระดับเป็นปัจจัย แต่อาจขึ้นอยู่กับวิธีทางสถิติเฉพาะที่ใช้ . ไม่ว่าในกรณีใดมันไม่สมเหตุสมผลที่จะปรับขนาดและปรับตำแหน่งกึ่งกลางของตัวแปร (หรือหมวดหมู่) ดังนั้นคุณควรตั้งศูนย์และปรับขนาดตัวแปรต่อเนื่องหากคุณต้องทำสิ่งนี้


2
ความรู้สึกที่แข็งแกร่งของฉันคือส่วนเดียวของคำตอบที่ตอบคำถาม OP จริง ๆ คือประโยคสุดท้ายนั่นคือส่วนที่ไม่ได้อธิบาย คุณบอกว่าอย่าปรับขนาด แต่อย่าอธิบายว่าทำไม หัวข้อนั้นไม่ง่ายนัก
ttnphns

นี่เป็นวิธีเดียวในการเข้ารหัสตัวแปรเด็ดขาด ฉันไม่มีเวลาเขียนคำตอบแบบเต็ม แต่การค้นหาด้วย "ความแตกต่าง" อาจช่วยได้ คำตอบที่เกี่ยวข้องคือstats.stackexchange.com/questions/60817/…
user20637

3

หากคุณใช้ R และปรับสัดส่วนตัวแปรหรือตัวแปรที่มี 0 หรือ 1 เป็นมาตราส่วนระหว่าง 0 ถึง 1 เท่านั้นจะไม่มีการเปลี่ยนแปลงใด ๆ กับค่าของตัวแปรเหล่านี้ส่วนที่เหลือของคอลัมน์จะถูกปรับอัตราส่วน

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

เคล็ดลับที่น่าสนใจ ขอบคุณสำหรับการแชร์. ฉันถามมานาน แต่ก็ดีที่เห็นฉันยังคงสามารถเรียนรู้จากโพสต์เก่าเหล่านี้ได้
user2300643

3

จุดศูนย์กลางของค่าเฉลี่ยในการถดถอยคือทำให้การสกัดกั้นตีความได้ง่ายขึ้น นั่นคือรหัสคุณหมายถึงศูนย์ตัวแปรทั้งหมดในรูปแบบการถดถอยของคุณแล้วสกัดกั้น (เรียกว่าคงที่ในการส่งออก SPSS) เท่ากับค่าเฉลี่ยโดยรวมที่ยิ่งใหญ่สำหรับตัวแปรผลลัพธ์ของคุณ ซึ่งสะดวกเมื่อแปลรุ่นสุดท้าย

สำหรับค่าเฉลี่ยของตัวแปรดัมมี่ที่อยู่ตรงกลางฉันเพิ่งได้พูดคุยกับอาจารย์ของฉันเกี่ยวกับค่าเฉลี่ยของตัวแปรดัมมี่ที่อยู่ตรงกลางในแบบจำลองการถดถอย (ในกรณีของฉันคือแบบจำลองการออกแบบบล็อกหลายระดับแบบสุ่ม ตัวแปรดัมมี่ไม่ได้เปลี่ยนการตีความสัมประสิทธิ์การถดถอย (ยกเว้นว่าวิธีการแก้ปัญหาเป็นมาตรฐานอย่างสมบูรณ์) โดยปกติแล้วมันไม่จำเป็นในการถดถอยในการตีความระดับหน่วยที่แท้จริงหมายถึงค่ากึ่งกลาง - เฉพาะค่าสัมประสิทธิ์ และสิ่งนี้ไม่ได้เปลี่ยนแปลง - โดยส่วนใหญ่ เธอบอกว่ามันเปลี่ยนแปลงเล็กน้อยเพราะมันเป็นมาตรฐานที่สำหรับหุ่นไม่เข้าใจง่าย

Caveat: นั่นคือความเข้าใจของฉันเมื่อฉันออกจากสำนักงานอาจารย์ แน่นอนฉันสามารถทำผิดได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.