อะไรคืออันตรายของการคำนวณสหสัมพันธ์ของเพียร์สัน (แทนที่จะเป็น tetrachoric) สำหรับตัวแปรไบนารีในการวิเคราะห์ปัจจัย?


10

ฉันทำการวิจัยเกี่ยวกับเกมเพื่อการศึกษาและบางโครงการในปัจจุบันของฉันเกี่ยวข้องกับการใช้ข้อมูลจากBoardGameGeek (BGG) และVideoGameGeek (VGG) เพื่อตรวจสอบความสัมพันธ์ระหว่างองค์ประกอบการออกแบบของเกม (เช่น "ตั้งอยู่ในสงครามโลกครั้งที่สอง", "เกี่ยวข้องกับลูกเต๋ากลิ้ง" ) และการจัดอันดับผู้เล่นของเกมเหล่านั้น (เช่นคะแนนจาก 10) องค์ประกอบการออกแบบเหล่านี้แต่ละรายการสอดคล้องกับแท็กในระบบ BGG หรือ VGG ดังนั้นองค์ประกอบแต่ละรายการจึงเป็นตัวแปรแบบแยกส่วน เกมมี 1 สำหรับทุกแท็กที่มีอยู่ในฐานข้อมูลของมันและ 0 สำหรับทุกแท็กที่ไม่มีอยู่

มีแท็กเหล่านี้อยู่หลายสิบแท็กดังนั้นฉันต้องการใช้การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) เพื่อสร้าง "แนว" จำนวนที่จัดการได้ซึ่งจับรูปแบบในการออกแบบเกม ให้คำปรึกษากับแหล่งข้อมูลหลายแห่งฉันเข้าใจว่าเนื่องจากฉันทำงานกับตัวแปรแบบแบ่งขั้วฉันควรใช้ความสัมพันธ์แบบpolychoric ( tetrachoricโดยเฉพาะที่นี่) แทนที่จะเป็นแบบเพียร์สันเมื่อมากับปัจจัยของฉัน (มีตัวเลือกอื่น ๆ เช่นการวิเคราะห์ลักษณะแฝง ออกไปข้างนอก แต่นี่คือสิ่งที่ฉันกำลังสำรวจ)

จากความอยากรู้ฉันได้รับปัจจัยสองชุดหนึ่งชุดโดยใช้สหสัมพันธ์ของเพียร์สันและอีกชุดหนึ่งที่ใช้สหสัมพันธ์พอลิคอซิค (ปัจจัยจำนวนเดียวกันในแต่ละครั้ง) ปัญหาของฉันคือปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของเพียร์สันทำให้เข้าใจได้ง่ายขึ้นและตีความได้ง่ายกว่าปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของพอลิคอริก กล่าวอีกนัยหนึ่ง "ประเภท" จากชุดแรกของปัจจัยทำให้เข้าใจง่ายและสอดคล้องกับความเข้าใจของฉันเกี่ยวกับวิธีการออกแบบเกมโดยทั่วไป นั่นไม่ใช่กรณีสำหรับปัจจัยชุดที่สอง

ในอีกด้านหนึ่งฉันต้องการตรวจสอบให้แน่ใจว่าฉันทำตามข้อสันนิษฐานของการทดสอบที่ฉันใช้อยู่แม้ว่ามันจะทำให้ผลลัพธ์ของฉันออกมาสวยน้อยลง ในอีกด้านหนึ่งฉันรู้สึกว่าส่วนหนึ่งของเป้าหมายของการวิเคราะห์ปัจจัยและการสร้างแบบจำลอง (กว้างขึ้น) คือการหาสิ่งที่มีประโยชน์และข้อมูลที่เป็นประโยชน์มากขึ้นก็จะปรากฏขึ้นเมื่อฉัน "ผิดกฎ" จำเป็นต้องมีแบบจำลองที่มีประโยชน์เพียงพอที่จะเกินดุลที่ละเมิดสมมติฐานของการทดสอบนี้หรือไม่? อะไรคือผลที่ตามมาจากการใช้เพียร์สันสหสัมพันธ์แทนที่จะเป็นพอลิคอร์ติก?


1
สมมติฐานของกฎเกณฑ์หลายตัวแปรพื้นฐานมีความแข็งแกร่งมากโดยมีข้อมูลมากกว่าสามมิติหรือมากกว่านั้นซึ่งความสัมพันธ์ของโปลิคอริกหยุดทำให้รู้สึกมาก ระดับของรูปแบบการสะกดผิดที่มีความสัมพันธ์แบบ polychoric น่าจะทำให้การวิเคราะห์ของคุณไร้ประโยชน์ ฉันไม่แน่ใจว่าทำไมคุณต้องมีความสัมพันธ์เหล่านี้ตั้งแต่แรก: หากคุณมีตัวแปรผลลัพธ์ที่ชัดเจน (เรตติ้ง) และตัวแปรอธิบายจำนวนมาก (ฟีเจอร์การออกแบบ) คุณต้องวิเคราะห์การถดถอยไม่ใช่การวิเคราะห์ปัจจัย
StasK

การวิเคราะห์การถดถอย @StasK เป็นเป้าหมายสูงสุดของฉัน แต่ฉันมีตัวแปรอธิบายมากกว่า 100 รายการและต้องการลดจำนวนดังกล่าวให้เหลือจำนวนที่จัดการได้มากขึ้น
Spencer Greenhalgh

นอกจากนี้สำหรับการจำแนกปัญหาดังกล่าวเป็นเป้าหมายในตัวมันเอง
Pere

คำตอบ:


7

เป็น Linear ปัจจัย analyis เป็นทฤษฎีเหตุผลสำหรับตัวแปรอย่างต่อเนื่องเท่านั้น หากตัวแปรไม่ต่อเนื่อง แต่ยกตัวอย่างเช่นแบบแยกสองทางหนึ่งทางสำหรับคุณคือการยอมรับตัวแปรต่อเนื่องที่อยู่เบื้องหลังและประกาศว่าตัวแปรที่สังเกตนั้นเป็นตัวแปรพื้นฐานหรือจริง คุณไม่สามารถหาจำนวนตัวแปร dichotomous ให้เป็นสเกลที่หนึ่งโดยไม่มี "ผู้สอน" ภายนอก แต่คุณยังสามารถอนุมานความสัมพันธ์ที่จะเกิดขึ้นหากตัวแปรของคุณยังไม่ได้ถูกผสมและยังเป็น "ดั้งเดิม" ที่กระจายอย่างต่อเนื่องตามปกติ และนี่คือtetrachoriccorrelations (หรือ polychoric หากแทนที่ binary คุณจะมีตัวแปรลำดับ) ดังนั้นการใช้ความสัมพันธ์ tetrachoric (ความสัมพันธ์เพียร์สันอนุมาน) ในสถานที่ของความสัมพันธ์พี (สังเกตความสัมพันธ์เพียร์สันที่มีข้อมูล dichotomous) เป็นตรรกะการกระทำ

R=1RRแต่ในตัวแปร dichotomous ผลกระทบนี้จะคมชัดที่สุดเพราะมีค่าน้อยเกินกว่าที่จะรับได้) ดังนั้นความสัมพันธ์ของ phi ในเมทริกซ์ของพวกเขาจึงสามารถมองเห็นได้ว่าเป็นแฟบที่ไม่เท่ากัน คุณไม่ทราบว่าความสัมพันธ์หนึ่งมีค่ามากกว่า "จริง" หรือเนื่องจากจุดตัดที่แตกต่างกันในตัวแปรสองคู่นี้ จำนวนของปัจจัยที่จะสกัด (ตามเกณฑ์เช่น Kaiser's "eigenvalue> 1") จะพองตัวขึ้น: "ปัจจัย" สกัดบางส่วนเป็นผลมาจากความไม่สม่ำเสมอความหลากหลายของจุดตัด - ไม่ใช่ปัจจัยแฝงที่สำคัญ นี่คือเหตุผลที่ปฏิบัติได้ว่าทำไมไม่ใช้ความสัมพันธ์ phi (อย่างน้อยก็ในรูปแบบ raw - nonrescaled)

มีหลักฐานในการศึกษาแบบจำลอง / binning ที่การวิเคราะห์ปัจจัยตามความสัมพันธ์ tetrachoric เลวลงถ้ามีความสัมพันธ์ที่แข็งแกร่ง (> 0.7) ในเมทริกซ์ Tetrachoric correlation ไม่เหมาะ: ถ้าจุดตัดของตัวแปรที่สัมพันธ์กันอยู่ตรงข้าม (และการกระจายของขอบใน dichotomous นั้นเบ้ตรงข้าม) ในขณะที่ความสัมพันธ์พื้นฐานนั้นแข็งแรง โปรดทราบว่าเมทริกซ์สหสัมพันธ์ tetrachoric ไม่จำเป็นต้องเป็น semidefinite บวกในตัวอย่างที่มีขนาดไม่มากนักและอาจต้องมีการแก้ไข ("การปรับให้เรียบ") ถึงกระนั้นก็ยังได้รับการยกย่องจากหลายวิธีที่ดีกว่าการวิเคราะห์ปัจจัยบนสัมประสิทธิ์เพียร์สัน (phi)

แต่ทำไมการวิเคราะห์ปัจจัยคือข้อมูลไบนารีทั้งหมด มีตัวเลือกอื่น ๆ รวมถึงคุณสมบัติแฝง / IRT (รูปแบบของการวิเคราะห์ปัจจัย "โลจิสติก") และการวิเคราะห์สารบรรณหลายรายการ (หากคุณเห็นตัวแปรไบนารีของคุณเป็นหมวดหมู่เล็กน้อย)

ดูสิ่งนี้ด้วย:

  • สมมติฐานของการวิเคราะห์ปัจจัยเชิงเส้น
  • RR

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.