มันจะดีกว่าเสมอในการดึงปัจจัยต่าง ๆ มาใช้เมื่อพวกมันอยู่?


11

ไม่เหมือนกับการวิเคราะห์องค์ประกอบหลักโซลูชันสำหรับการวิเคราะห์ปัจจัยไม่จำเป็นต้องซ้อนกัน นั่นคือการโหลด (ตัวอย่าง) สำหรับปัจจัยแรกไม่จำเป็นต้องเหมือนกันเมื่อมีการแยกเฉพาะปัจจัยแรกเทียบกับเมื่อสองปัจจัยแรกเป็น

เมื่อคำนึงถึงสิ่งนั้นแล้วให้พิจารณากรณีที่คุณมีชุดของตัวแปรที่มีความสัมพันธ์อย่างมากและ (โดยความรู้เชิงทฤษฎีเกี่ยวกับเนื้อหา) ควรได้รับแรงผลักดันจากปัจจัยเดียว ลองนึกภาพว่าการวิเคราะห์ปัจจัยเชิงสำรวจ (ตามที่คุณต้องการตัวชี้วัด: การวิเคราะห์แบบขนาน, พล็อตหินกรวด, ค่าไอเกน> 1 ฯลฯ ) ขอแนะนำอย่างยิ่งว่ามีปัจจัย: ปัจจัยหลักที่มีขนาดใหญ่และปัจจัยรองขนาดเล็ก คุณมีความสนใจในการใช้ตัวแปรรายการและการแก้ปัญหาปัจจัยเพื่อประเมิน (เช่นรับคะแนนปัจจัย) ค่าของผู้เข้าร่วมสำหรับปัจจัยแรก ในสถานการณ์นี้มันจะดีกว่าหรือไม่:2

  1. เหมาะสมกับรูปแบบปัจจัยที่จะดึงเพียงปัจจัยและได้รับคะแนนปัจจัย ( ฯลฯ ) หรือ1
  2. พอดีกับแบบจำลองปัจจัยเพื่อแยกปัจจัยทั้งสองรับคะแนนปัจจัยสำหรับปัจจัยต่าง ๆ แต่ละทิ้ง / ละเว้นคะแนนสำหรับปัจจัยที่สอง?

อะไรคือแนวปฏิบัติที่ดีกว่าทำไม? มีการวิจัยเกี่ยวกับปัญหานี้หรือไม่?


เราไม่ควรพึ่งพาอุปกรณ์ฮิวริสติกแบบ pre-analytic เฉพาะเมื่อเลือกจำนวนปัจจัยที่ต้องการแยก การสืบพันธุ์ของสหสัมพันธ์ (วิธีที่ดีกว่าคือเมื่อคุณแยก 2 ปัจจัยแทน 1?) วิธีการที่เหลือความสัมพันธ์ตกกระจายในเรื่องนี้และการแก้ปัญหาที่? (โดยปกติแล้วพวกเขาควรจะเกี่ยวกับเครื่องแบบหรือปกติไม่มีหางขวายาว / ไขมัน) หากข้อมูลเป็นปกติการทดสอบความพอดีและ st.errors ของการโหลดจะคำนวณได้ (ด้วยการแยก ML) จากทั้งหมดนั้นบวกกับความสามารถในการตีความหนึ่งอาจตัดสินใจว่า (1) หรือ (2) ทางจะดีกว่าในกรณีปัจจุบัน
ttnphns

(ต่อ) ในที่สุดเฉพาะตัวอย่างใหม่ / การยืนยัน FA เท่านั้นที่สามารถตัดสินภาวะที่กลืนไม่เข้าคายไม่ออกจนจบ ความคิดหนึ่งอย่างไรก็ตาม หากปัจจัยที่สองอ่อนแอจริงๆ (การโหลด SS เล็กน้อยหลังจากแยก) ฉันไม่คาดหวังว่าโซลูชันทั้งสอง (และด้วยเหตุนี้คะแนนปัจจัยของปัจจัยที่ 1) จึงแตกต่างกันอย่างมาก (ฉันบอกว่ามันไม่มั่นใจมากนักเพราะฉันแสดงความคิดเห็นโดยไม่มีการยกเครื่อง แต่อย่างมีเหตุผลถ้าระนาบปัจจัยพร้อมที่จะเสื่อมสภาพลงในบรรทัดผลลัพธ์ควรจะใกล้เคียงกับแค่บรรทัด ... )
ttnphns

ชื่อ Q Is is always better to extract more factors when they exist?ไม่ชัดเจนมาก เป็นการดีกว่าที่จะดึงข้อมูลมากที่สุดเท่าที่มีอยู่ การ Underfitting หรือ overfitting โครงสร้างการซ่อนเร้นทั้งสอง "จริง" เนื่องจากลักษณะหลายตัวแปรและไม่ซ้อนกันของการวิเคราะห์ที่กล่าวถึงโดยคุณ ปัญหาคือเราไม่ทราบว่ามีปัจจัยจำนวนเท่าใดในข้อมูลของเรา และไม่ว่าข้อมูลเหล่านี้จะมีจำนวนมากที่สุดเท่าที่มีหรือไม่
ttnphns

1
@ttnphns ความคิดเห็นสุดท้ายของคุณได้มาถึงใจกลางของคำถามฉันคิดว่า สมมติว่าวิธีใดที่คุณต้องการโน้มน้าวใจคุณว่าจริงๆแล้วมี 2 ปัจจัยหนึ่งซึ่งหนึ่งในนั้นก็คือความแปรปรวนที่แชร์กันเกือบทั้งหมดรวมถึง CFA ในตัวอย่างสด ความพอดีที่มีอยู่นั้นดีกว่าเล็กน้อย แต่ก็ดีกว่า นี่คือตัวอย่างปลอม & ประดิษฐ์เพื่อเห็นแก่การเน้นปัญหา ปัญหาพื้นฐานอาจใช้ 2 จาก 5
gung - Reinstate Monica

1
คำถามคือเนื่องจากวิธีการแก้ปัญหาไม่ซ้อนกันวิธีการใดจะให้การประเมินที่ดีขึ้นของคะแนนของผู้เข้าร่วมแต่ละคนเกี่ยวกับตัวแปรแฝงและเพราะเหตุใด ใช้เพียง 1 ลำเอียงมันแตกต่างจากมูลค่าที่แท้จริงหรือทั้งสองอย่างหรือไม่? สิ่งนี้เกิดขึ้นเพราะการใช้เพียง 1 คือ "underfitting" หรือไม่ นั่นหมายความว่าอะไรกันแน่? เป็นไปได้ไหมที่จะอธิบายลักษณะของการบิดเบือน? อีกทางเลือกหนึ่งฉันอาจคาดหวังว่าการดึงข้อมูลเพียง 1 รายการจะช่วยให้การวิเคราะห์มุ่งเน้นไปที่ความเป็นอิสระในระดับที่ถูกต้องที่สุดเท่าที่จะทำได้
gung - Reinstate Monica

คำตอบ:


5

ปัญหาที่คุณกำลังพูดถึงคือหัวข้อ 'ความคาดไม่ถึงโดยประมาณ' เมื่อสร้างเครื่องมือทดสอบทางจิตวิทยาซึ่งได้รับการกล่าวถึงในห้องฉายภาพในยุค 80 มีแรงบันดาลใจเกิดขึ้นในอดีตเนื่องจากผู้ปฏิบัติงานต้องการใช้แบบจำลองการตอบสนองข้อสอบแบบดั้งเดิม (IRT) สำหรับสินค้าของพวกเขาและในขณะที่แบบจำลอง IRT เหล่านี้ถูก จำกัด เฉพาะการวัดลักษณะแบบมิติเดียว ดังนั้นการทดสอบแบบหลายมิติก็หวังว่าจะเป็นสิ่งที่น่ารำคาญที่หวังว่าจะสามารถหลีกเลี่ยงหรือเพิกเฉยได้ นี่คือสิ่งที่นำไปสู่การสร้างเทคนิคการวิเคราะห์แบบขนานในการวิเคราะห์ปัจจัย (Drasgow และ Parsons, 1983) และวิธีการตรวจสอบ

ผลที่ตามมาของการเพิกเฉยคุณลักษณะ / ปัจจัยเพิ่มเติมนอกเหนือจากการปรับแบบจำลองที่ผิดพลาดให้เข้ากับข้อมูล (เช่นการเพิกเฉยข้อมูลเกี่ยวกับตัวแบบจำลองที่มีศักยภาพไม่เหมาะสม; ดังนั้นจึงมีประสิทธิภาพน้อยลง ข้อสรุปเหล่านี้แน่นอนขึ้นอยู่กับคุณสมบัติของคุณสมบัติเพิ่มเติม (เช่นมีความสัมพันธ์กับมิติข้อมูลหลักมีการโหลดที่แข็งแกร่งหรือไม่จำนวนการโหลดข้ามหลายครั้ง) แต่ธีมทั่วไปคือการประมาณการรอง สำหรับการได้รับคะแนนคุณลักษณะหลักจะมีประสิทธิภาพน้อยลง ดูรายงานทางเทคนิคได้ที่นี่สำหรับการเปรียบเทียบระหว่างโมเดลแบบมิติเดียวที่พลาดไม่ได้กับโมเดลแบบสองปัจจัย รายงานทางเทคนิคดูเหมือนจะเป็นสิ่งที่คุณต้องการ

จากมุมมองของภาคปฏิบัติการใช้เกณฑ์ข้อมูลจะมีประโยชน์เมื่อเลือกโมเดลที่เหมาะสมที่สุดรวมถึงสถิติของโมเดลที่เหมาะสมโดยทั่วไป (RMSEA, CFI และอื่น ๆ ) เนื่องจากผลที่ตามมาของการเพิกเฉยข้อมูลหลายมิติ . แต่แน่นอนว่าแบบจำลองโดยรวมนั้นเป็นเพียงตัวบ่งชี้เพียงอย่างเดียวของการใช้แบบจำลองที่ไม่เหมาะสมสำหรับข้อมูลในมือ เป็นไปได้ทั้งหมดที่มีการใช้รูปแบบการทำงานที่ไม่เหมาะสมเช่นการไม่เป็นเชิงเส้นหรือการขาดความน่าเชื่อถือดังนั้นควรตรวจสอบรายการ / ตัวแปรที่เกี่ยวข้องเช่นกัน

ดูเพิ่มเติมที่ :

Drasgow, F. และ Parsons, CK (1983) การประยุกต์ใช้แบบจำลองทฤษฎีการตอบสนองรายการมิติเดียวกับข้อมูลหลายมิติ การวัดทางจิตวิทยาประยุกต์, 7 (2), 189-199

Drasgow, F. & Lissak, RI (1983) Modified parallel analysis: ขั้นตอนสำหรับการตรวจสอบความซ่อนเร้น - มิติของการตอบสนองรายการที่มีการแบ่งขั้ว วารสารจิตวิทยาประยุกต์, 68, 363-373

Levent Kirisci, Tse-chi Hsu, และ Lifa Yu (2001) ความทนทานของโปรแกรมการประมาณค่าพารามิเตอร์รายการเพื่อสมมติฐานของ การวัดทางจิตวิทยาประยุกต์, 25 (2), 146-162


ขอบคุณที่เพิ่มสิ่งนี้ นี่ดูเหมือนจะเป็นสิ่งที่ฉันตามมา
gung - Reinstate Monica

ฉันเข้าใจถูกต้องหรือไม่ว่าคำตอบของคุณสำหรับคำถามไตเติ้ลคือ "ใช่"?
อะมีบา

2
@ amoeba โดยทั่วไปแล้วฉันจะบอกว่าใช่หรือมากกว่านั้นรวมถึงข้อมูลเพิ่มเติมควรทำเช่นกันหรือดีกว่าการจัดเก็บภาษีที่เข้มงวด การเพิกเฉยต่อความรู้หลายมิติอาจเป็นปัญหาได้ แต่แน่นอนว่ามีปัจจัยหลายอย่างที่จะนำไปสู่สิ่งนี้ เวลาเดียวที่รวมถึงข้อมูลเพิ่มเติมเกี่ยวกับโครงสร้างอาจไม่ดีคือเมื่อขนาดตัวอย่างเล็กเกินไปที่จะประมาณค่าพารามิเตอร์พิเศษได้อย่างเสถียร ดังนั้นการลดอคติอย่างมีประสิทธิภาพ แต่ถ้าขนาดตัวอย่างไม่เป็นปัญหามากฉันก็จะบอกว่ามีข้อมูลน้อยที่จะสูญเสียจากการรวมข้อมูลเพิ่มเติม
ปรัชญา

1

หากคุณไม่ต้องการใช้ปัจจัยที่สองคุณควรใช้แบบจำลองปัจจัยเดียว แต่ฉันประหลาดใจกับคำพูดของคุณว่าการโหลดสำหรับปัจจัยแรกจะเปลี่ยนไปถ้าคุณใช้ปัจจัยที่สอง

มาจัดการกับคำแถลงนั้นก่อน หากคุณใช้องค์ประกอบหลักเพื่อแยกปัจจัยและไม่ใช้การหมุนตัวประกอบการโหลดจะไม่เปลี่ยนแปลง - อาจมีการปรับขนาด (หรือการพลิกที่สมบูรณ์: หากเป็นปัจจัยดังนั้นเป็นวิธีที่ถูกต้องตามกฎหมายในการแสดงว่า ดี). หากคุณใช้การแยกโอกาสสูงสุดและ / หรือการหมุนเวียนปัจจัยการโหลดอาจขึ้นอยู่กับจำนวนของปัจจัยที่คุณสกัด- xxx

ถัดไปสำหรับคำอธิบายผลกระทบของการหมุน ฉันวาดไม่เก่งดังนั้นฉันจะพยายามโน้มน้าวให้คุณใช้คำพูด ฉันจะสมมติว่าข้อมูลของคุณเป็นปกติ (โดยประมาณ) เพื่อให้คะแนนปัจจัยเป็นปกติเช่นกัน หากคุณแยกปัจจัยหนึ่งคุณจะได้การแจกแจงปกติแบบหนึ่งมิติถ้าคุณแยกปัจจัยสองอย่างคุณจะได้การแจกแจงปกติแบบสองตัวแปร

ความหนาแน่นของการกระจายตัวแบบไบวาเรียดูเหมือนว่าการพูดแบบหมวก แต่รูปร่างที่แน่นอนนั้นขึ้นอยู่กับขนาดและสัมประสิทธิ์สหสัมพันธ์ สมมุติว่าทั้งสององค์ประกอบมีความแปรปรวนของหน่วย ในกรณีที่ไม่มีความสัมพันธ์คุณจะได้หมวกปีกกว้างอย่างดีด้วยเส้นโค้งระดับที่ดูเหมือนวงกลม ภาพที่มีที่นี่ ความสัมพันธ์ "ฟักทอง" หมวกเพื่อให้มันมีลักษณะเหมือนหมวกของนโปเลียน

สมมติว่าชุดข้อมูลดั้งเดิมของคุณมีสามมิติและคุณต้องการแยกสองปัจจัยออกจากนั้น เรามายึดติดกับกฎเกณฑ์ ในกรณีนี้ความหนาแน่นเป็นวัตถุสี่มิติ แต่เส้นโค้งระดับเป็นสามมิติและอย่างน้อยสามารถมองเห็นได้ ในกรณีที่ไม่เกี่ยวข้องกับเส้นโค้งระดับจะเป็นทรงกลม (เช่นลูกฟุตบอล) การปรากฏตัวของความสัมพันธ์โค้งระดับจะถูกบิดเบือนอีกครั้งในฟุตบอลอาจจะเป็นคนที่อยู่ในระดับต่ำเพื่อให้ความหนาของตะเข็บที่มีขนาดเล็กกว่าความหนาในทิศทางอื่น ๆ

หากคุณแยกสองปัจจัยด้วยการใช้ PCA คุณจะทำให้ฟุตบอลเรียบเป็นวงรี (และคุณฉายทุกจุดข้อมูลลงบนระนาบของวงรี) ปัจจัยแรกที่ไม่ได้หมุนนั้นสอดคล้องกับแกนยาวของวงรีปัจจัยที่สองคือตั้งฉากกับมัน (เช่นแกนสั้น) การหมุนจึงเลือกระบบพิกัดภายในวงรีนี้เพื่อตอบสนองเกณฑ์ที่มีประโยชน์อื่น ๆ

หากคุณแยกเพียงปัจจัยเดียวการหมุนเป็นไปไม่ได้ แต่คุณรับประกันได้ว่าปัจจัย PCA ที่แยกนั้นสอดคล้องกับแกนยาวของวงรี


2
ฉันงงงวยกับคำตอบนี้ คำถามถามอย่างชัดเจนเกี่ยวกับการวิเคราะห์ปัจจัยเมื่อเทียบกับการวิเคราะห์องค์ประกอบหลัก
อะมีบา

มีสองวิธีในการแยกปัจจัย: องค์ประกอบหลักหรือโอกาสสูงสุด ฉันยังไม่ได้ทำสถิติใด ๆ เกี่ยวกับเรื่องนี้ แต่ฉันเชื่อว่าวิธีองค์ประกอบหลักถูกใช้บ่อยกว่า
3697176

3
มีวิธีการต่าง ๆ มากมายมากกว่าสองวิธี แกนหลัก, ML, minres, น้ำหนักน้อยที่สุดกำลังสองและอื่น ๆ - ฉันไม่ใช่ผู้เชี่ยวชาญที่นี่ บางครั้ง PCA อาจจะไม่ค่อยมีการพิจารณาถึงวิธีการแยกปัจจัยออกมา แต่ก็ค่อนข้างเลอะเทอะ - ไม่ควรเป็นเช่นนั้น มันเหมาะกับรูปแบบที่แตกต่างกัน
อะมีบา

ประโยคแรกของคุณพูดถึงคำถามของฉันมันคงจะดีถ้าได้รับข้อมูลเพิ่มเติมเกี่ยวกับสิ่งนั้นและทำไมมันถึงถูกต้อง เกี่ยวกับวิธีการแยกปัจจัยต่างๆ @amoeba นั้นถูกต้อง: PCA & PAF นั้นกลับมาพบกันบ่อยๆเมื่ออัลกอริธึมอื่นไม่ได้รับการพัฒนาหรือใช้งานยาก ตอนนี้พวกเขาถือว่าด้อยกว่าอย่างกว้างขวาง R's fa()เช่นไม่ได้ใช้พวกเขามานานหลายปี วิธีการอื่นจะให้ผลโซลูชั่นที่ไม่ซ้อนกันซึ่งง่ายต่อการตรวจสอบ w / ซอฟต์แวร์ & ชุดข้อมูล FA เพื่อประโยชน์ในการเปรียบเทียบคุณสามารถพิจารณาโซลูชันทั้งสองที่ยังไม่ได้ทำการเผยแพร่ FWIW ฉันคุ้นเคยกับความคิดเกี่ยวกับการกระจาย MVN ทรงกลมและรูปไข่
gung - Reinstate Monica

1
@ gung, คำพูด วิธีการ PAF ยังให้โซลูชันที่ไม่ซ้อนกัน มันเป็นวิธี FA โดยสุจริต (แม้ว่าจะขึ้นอยู่กับ PCA เป็นวิธีการ) และฉันคิดว่ายังคงใช้กันอย่างแพร่หลาย
ttnphns

1

ทำไมคุณไม่ใช้บางอย่างเช่นลาวาหรือ MPlus เพื่อรันสองโมเดล (โมเดล unidimensional และโมเดลสองมิติที่สอดคล้องกับผลลัพธ์ EFA ของคุณ) และเปรียบเทียบดัชนีสัมพัทธ์และพอดีแบบสัมบูรณ์ของโมเดลที่แตกต่างกัน (เช่นเกณฑ์ข้อมูล - AIC และ BIC RMSEA, SRMR, CFI / TLI)? โปรดทราบว่าหากคุณไปตามถนนสายนี้คุณจะไม่ต้องการใช้ PCA สำหรับ EFA แต่เป็นปัจจัยหลัก ใครบางคนที่เกี่ยวข้องกับการวัดจริง ๆ จะฝัง CFA ลงในแบบจำลองสมการโครงสร้างแบบเต็ม

แก้ไข: วิธีที่ฉันขอให้คุณพิจารณานั้นเป็นเรื่องเกี่ยวกับการหาจำนวนตัวแปรแฝงจริง ๆ อธิบายชุดของรายการ หากคุณต้องการได้ค่าประมาณที่ดีที่สุดของปัจจัยที่มีขนาดใหญ่กว่าฉันจะลงคะแนนเพื่อใช้คะแนนปัจจัยจากโมเดล CFA ด้วยแบบที่ดีกว่าแล้วแต่ว่าจะเป็นเท่าใด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.