6
วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?
เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …