วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?

14

ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ

ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย

ดังนั้นคำถามของฉันคือ:

ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้?
คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ
คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร
มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่?

หากคุณมีข้อเสนอแนะอื่น ๆ

r categorical-data dimensionality-reduction many-categories

— ฟิกาโร
แหล่งที่มา

มีคำถามที่เกี่ยวข้อง: stats.stackexchange.com/questions/227125/…

— kjetil b halvorsen

11

นี่คือการตอบคำถามที่สองของคุณ

ฉันสงสัยว่าวิธีการที่ถูกต้องในการตัดสินใจประเภทนี้จะได้รับการพิจารณาเป็นส่วนใหญ่โดยบรรทัดฐานทางวินัยและความคาดหวังของผู้ชมที่ตั้งใจทำงานของคุณ ในฐานะนักวิทยาศาสตร์สังคมฉันมักจะทำงานกับข้อมูลการสำรวจ (หรือคล้ายกับการสำรวจ) และฉันพยายามที่จะสร้างความสมดุลของ logics ที่สำคัญและเป็นตัวขับเคลื่อนข้อมูลเมื่อฉันยุบมาตราส่วนตามลำดับหรือตัวแปรเชิงหมวดหมู่ ในคำอื่น ๆ ฉันจะทำอย่างดีที่สุดเพื่อพิจารณาสิ่งที่รวมกันของรายการ "แขวนด้วยกัน" ในแง่ของสารของพวกเขาเช่นเดียวกับการกระจายของการตอบสนองก่อนที่ฉันจะยุบรายการ

นี่คือตัวอย่างล่าสุดของคำถามสำรวจเฉพาะ (ลำดับ) ที่เกี่ยวข้องกับระดับความถี่ห้าจุด:

คุณเข้าร่วมการประชุมของสโมสรหรือองค์กรในชุมชนของคุณบ่อยแค่ไหน?

ไม่เคย

ปีละสองสามครั้ง

เดือนละครั้ง

สองสามครั้งต่อเดือน

สัปดาห์ละครั้งหรือมากกว่านั้น

ฉันไม่มีข้อมูลที่พร้อมใช้งานสำหรับฉันในขณะนี้ แต่ผลลัพธ์นั้นบิดเบือนไปอย่างมากจนถึงระดับ "ไม่สิ้นสุด" ด้วยเหตุนี้ผู้เขียนร่วมของฉันและฉันเลือกที่จะรวมการตอบกลับเป็นสองกลุ่ม: "เดือนละครั้งหรือมากกว่านั้น" และ "น้อยกว่าหนึ่งครั้งต่อเดือน" ตัวแปร (binary) ที่ได้นั้นมีการกระจายอย่างเท่าเทียมกันมากขึ้นและสะท้อนความแตกต่างที่มีความหมายในแง่ของการใช้งานจริง: เนื่องจากสโมสรและองค์กรจำนวนมากไม่พบกันมากกว่าเดือนละครั้งจึงมีเหตุผลที่ดีที่จะเชื่อว่า สมาชิก "แอคทีฟ" ของกลุ่มดังกล่าวในขณะที่ผู้ที่เข้าร่วมไม่บ่อย (หรือไม่เคย) จะ "ไม่ทำงาน"

ดังนั้นจากประสบการณ์ของฉันการตัดสินใจเหล่านี้เป็นศิลปะอย่างน้อยเท่ากับวิทยาศาสตร์ ที่กล่าวว่าฉันมักจะพยายามทำเช่นนี้ก่อนที่จะปรับรูปแบบใด ๆ เนื่องจากฉันทำงานในวินัยที่มีสิ่งอื่นดู (เชิงลบ) เป็นการทำเหมืองข้อมูลและ un-scientific (สนุกครั้ง!)

โดยที่ในใจมันอาจช่วยถ้าคุณสามารถพูดเพิ่มเติมเล็กน้อยเกี่ยวกับประเภทของผู้ชมที่คุณมีในใจสำหรับงานนี้ นอกจากนี้ยังเป็นไปเพื่อประโยชน์สูงสุดของคุณในการทบทวนตำราวิธีการที่โดดเด่นสองสามข้อในสาขาของคุณเนื่องจากพวกเขาสามารถชี้แจงสิ่งที่ส่งผ่านพฤติกรรม "ปกติ" ในชุมชนการวิจัยที่กำหนด

— ashaw
แหล่งที่มา

5

ชนิดของวิธีการที่ Ashaw กล่าวถึงสามารถนำไปสู่วิธีการที่ค่อนข้างเป็นระบบ แต่ฉันก็คิดว่าอย่างเป็นระบบคุณหมายถึงอัลกอริทึม เครื่องมือขุดข้อมูลที่นี่อาจเติมเต็มช่องว่าง สำหรับหนึ่งมีกระบวนการตรวจจับการโต้ตอบอัตโนมัติ (CHAID) ที่สร้างขึ้นในโมดูล Decision Tree ของ SPSS มันสามารถตามกฎที่กำหนดโดยผู้ใช้ยุบหมวดหมู่ลำดับหรือตัวแปรของตัวแปรทำนายเมื่อพวกเขาแสดงค่าที่คล้ายกันในตัวแปรผลลัพธ์ (ไม่ว่าจะเป็นแบบต่อเนื่องหรือเล็กน้อย) กฎเหล่านี้อาจขึ้นอยู่กับขนาดของกลุ่มที่ถูกยุบหรือถูกสร้างขึ้นโดยการยุบหรือบนp- ค่าของการทดสอบทางสถิติที่เกี่ยวข้อง ฉันเชื่อว่าโปรแกรมการจัดหมวดหมู่และการถดถอยต้นไม้ (CART) บางอย่างสามารถทำสิ่งเดียวกัน ผู้ตอบแบบสอบถามอื่น ๆ ควรสามารถพูดเกี่ยวกับฟังก์ชั่นที่คล้ายกันซึ่งดำเนินการโดยเครือข่ายประสาทเทียมหรือแอปพลิเคชันอื่น ๆ

— rolando2
แหล่งที่มา

จุดที่ดี @rolando - เนื่องจากโพสต์ต้นฉบับหมายถึงชุดข้อมูลการฝึกอบรมและการตรวจสอบฉันสงสัยว่าการตอบกลับของคุณอาจใช้งานได้มากขึ้นสำหรับ @Figaro

— ashaw

ขอบคุณทั้งคู่สำหรับความคิดเห็นอันมีค่าของคุณ @ rolando2 คุณพูดถูกเกี่ยวกับถ้อยคำคลุมเครือของฉันอัลกอริทึมคือทิศทางที่ฉันต้องการ

— Figaro