คำตอบนี้ไม่ได้ตั้งใจทางคณิตศาสตร์และมุ่งเน้นไปที่นักจิตวิทยาที่ไม่ใช่นักสถิติ (พูด) ที่ถามว่าเขาอาจรวม / คะแนนเฉลี่ยของปัจจัยต่าง ๆ เพื่อให้ได้คะแนน "คอมโพสิตดัชนี" สำหรับผู้ตอบแบบสอบถามแต่ละคน
การรวมหรือคะแนนเฉลี่ยของตัวแปรบางตัวถือว่าเป็นตัวแปรที่อยู่ในมิติเดียวกันและใช้วัดได้ (ในคำถามนี้ "ตัวแปร" คือคะแนนองค์ประกอบหรือปัจจัยซึ่งไม่เปลี่ยนแปลงสิ่งต่าง ๆ เนื่องจากเป็นตัวอย่างของตัวแปร)
จริง ๆ (รูปที่ 1) ผู้ตอบแบบสอบถาม 1 และ 2 อาจถูกมองว่าผิดปรกติอย่างเท่าเทียมกัน (เช่นเบี่ยงเบนจาก 0 สถานที่ตั้งของศูนย์ข้อมูลหรือจุดกำเนิดของมาตราส่วน) ทั้งคู่มีคะแนนเฉลี่ยเท่ากันและ( 1.2 + 0.4 ) / 2 = 0.8 ค่า. 8นั้นถูกต้องตามขอบเขตของ atypicality สำหรับการสร้างX + Yเช่นเดียวกับXและY( .8 + .8 ) / 2 = .8( 1.2 + .4 ) / 2 = .80.8X+ YXYแยกต่างหาก ตัวแปรที่สัมพันธ์กันซึ่งมีมิติเดียวสามารถมองเห็นได้ว่าเป็นการวัดซ้ำของคุณสมบัติเดียวกันและความแตกต่างหรือไม่เท่ากันของคะแนนของพวกเขาเป็นข้อผิดพลาดแบบสุ่ม ดังนั้นจึงเป็นเรื่อง warranded ผลรวม / เฉลี่ยคะแนนตั้งแต่ข้อผิดพลาดแบบสุ่มที่คาดว่าจะยกเลิกกันออกอื่น ๆในเอสพีอีในเอสพีอี
ไม่เช่นนั้นหากและYไม่สัมพันธ์กันมากพอที่จะเห็น "มิติ" เดียวกัน ในตอนนั้นค่าเบี่ยงเบน / ความผิดปรกติของผู้ตอบถูกถ่ายทอดโดยระยะทางแบบยุคลิดจากจุดกำเนิด (รูปที่ 2)XY
ระยะทางนั้นแตกต่างกันสำหรับผู้ตอบที่ 1 และ 2: และ√0.82+ .82-------√≈ 1.131.22+ .42--------√≈ 1.26X= .8Y= - .8X= 0Y= 0 0นั่นเป็นเรื่องจริงสำหรับคุณ
WXXผม+ wYYผมXYWXWYมีการตั้งค่าคงที่สำหรับผู้ตอบแบบสอบถามทั้งหมด i ซึ่งเป็นสาเหตุของข้อบกพร่อง ในการเชื่อมโยงค่าเบี่ยงเบนแบบ bivariate ของผู้ถูกตอบ - ในวงกลมหรือวงรี - น้ำหนักต้องขึ้นอยู่กับคะแนนของเขา ระยะทางแบบยุคลิดที่พิจารณาก่อนหน้านี้จริง ๆ แล้วเป็นตัวอย่างของผลรวมน้ำหนักดังกล่าวที่มีน้ำหนักขึ้นอยู่กับค่า และถ้าหากมันเป็นสิ่งสำคัญสำหรับคุณที่จะรวมความแปรปรวนที่ไม่เท่ากันของตัวแปร (เช่นขององค์ประกอบหลักเช่นในคำถาม) คุณอาจคำนวณระยะทางแบบยุคลิดแบบถ่วงน้ำหนักระยะทางที่จะพบได้ในรูปที่ 2 หลังจากวงกลมยาว
| .8 | + | .8 | =1.6| 1.2 | + | .4 | =1.6X= .8Y= - .81.60 0
(คุณอาจอุทาน "ฉันจะทำให้คะแนนข้อมูลทั้งหมดเป็นบวกและคำนวณผลรวม (หรือค่าเฉลี่ย) ด้วยความรู้สึกผิดชอบชั่วดีตั้งแต่ฉันเลือก Manhatten distance" แต่โปรดคิดว่า - คุณมีสิทธิ์ที่จะย้ายที่มาได้อย่างอิสระหรือไม่ ตัวอย่างเช่นถูกแยกภายใต้เงื่อนไขข้อมูลที่มีศูนย์กลางอยู่ที่ค่าเฉลี่ยซึ่งทำให้รู้สึกดีแหล่งกำเนิดอื่น ๆ จะผลิตส่วนประกอบ / ปัจจัยอื่น ๆ ที่มีคะแนนอื่น ๆ ไม่ส่วนใหญ่เวลาที่คุณไม่สามารถเล่นกับแหล่งกำเนิด - สถานที่ ของ "ผู้ตอบทั่วไป" หรือ "ลักษณะระดับศูนย์" - ในขณะที่คุณอยากเล่น)
เพื่อสรุปถ้าเป้าหมายของการสร้างคอมโพสิตนั้นสะท้อนถึงตำแหน่งผู้ตอบที่สัมพันธ์กันบางอย่าง "ศูนย์" หรือสถานทีทั่วไป แต่ตัวแปรแทบจะไม่มีความสัมพันธ์เลยระยะทางเชิงพื้นที่จากแหล่งกำเนิดนั้นและไม่ได้หมายถึง (หรือผลรวม) หรือไม่เลือกควรเลือก
ค่าเฉลี่ย (ผลรวม) จะสมเหตุสมผลถ้าคุณตัดสินใจที่จะดูตัวแปร (uncorrelated) เป็นโหมดทางเลือกเพื่อวัดสิ่งเดียวกัน ด้วยวิธีนี้คุณจงใจละเลยลักษณะที่แตกต่างของตัวแปร กล่าวอีกนัยหนึ่งคุณจงทิ้งรูปที่ 2 ไว้ในความโปรดปรานของรูปที่ 1: คุณ "ลืม" ว่าตัวแปรนั้นมีความเป็นอิสระ จากนั้น - ทำผลรวมหรือค่าเฉลี่ย ตัวอย่างเช่นคะแนนใน "วัสดุสวัสดิการ" และ "สวัสดิการด้านอารมณ์" อาจเป็นคะแนนเฉลี่ยเช่นเดียวกันกับคะแนน "spatial IQ" และ "verbal IQ" เช่นเดียวกัน ประเภทนี้ในทางปฏิบัติอย่างหมดจดคอมโพสิตแบบ satistically ที่ไม่ผ่านการอนุมัติเรียกว่าดัชนีแบตเตอรี่ (กลุ่มของการทดสอบหรือแบบสอบถามที่ใช้วัดสิ่งที่ไม่เกี่ยวข้องหรือสิ่งที่มีความสัมพันธ์กันซึ่งเราเรียกว่า "แบตเตอรี่") ดัชนีแบตเตอรี่มีเหตุผลถ้าคะแนนมีทิศทางเดียวกัน (เช่นทั้งความมั่งคั่งและสุขภาพทางอารมณ์จะเห็นว่าเป็นขั้ว "ดีกว่า") ประโยชน์ของการตั้งค่าเฉพาะกิจแบบแคบมี จำกัด
หากตัวแปรอยู่ในระหว่างความสัมพันธ์ - พวกเขามีความสัมพันธ์กันอย่างมาก แต่ก็ยังไม่เพียงพอที่จะเห็นพวกเขาว่าเป็นสิ่งที่ซ้ำซ้อนทางเลือกของกันและกันเรามักจะรวมค่าของพวกเขาในลักษณะถ่วงน้ำหนัก จากนั้นน้ำหนักเหล่านี้ควรได้รับการออกแบบอย่างระมัดระวังและควรสะท้อนความสัมพันธ์นี้หรืออย่างนั้น ตัวอย่างเช่นสิ่งที่เราทำโดยใช้วิธี PCA หรือการวิเคราะห์ปัจจัย (FA) ที่เราคำนวณคะแนนองค์ประกอบ / ปัจจัยพิเศษเป็นพิเศษ หากตัวแปรของคุณเป็นองค์ประกอบหรือคะแนนปัจจัยอยู่แล้ว (เช่นคำถาม OP ที่นี่แล้ว) และตัวแปรเหล่านี้มีความสัมพันธ์กัน (เนื่องจากการหมุนแบบเอียง) คุณอาจให้พวกเขา (หรือเมทริกซ์โหลดโดยตรง) ไปยัง PCA / FA ลำดับที่สอง น้ำหนักและรับพีซีลำดับที่สอง / ปัจจัยที่จะให้บริการ "ดัชนีคอมโพสิต" สำหรับคุณ
แต่ถ้าคะแนนองค์ประกอบ / ปัจจัยของคุณไม่มีความสัมพันธ์หรือมีความสัมพันธ์กันอ่อนไม่มีเหตุผลทางสถิติที่จะไม่รวมคะแนนเหล่านั้นอย่างตรงไปตรงมาหรือผ่านน้ำหนักที่อนุมาน ใช้ระยะทางแทน ปัญหาเกี่ยวกับระยะทางคือมันเป็นแง่บวกอยู่เสมอ: คุณสามารถพูดได้ว่าผู้ตอบผิดปกติมากน้อยเพียงใด แต่ไม่สามารถพูดได้ว่าเขาเป็น "เหนือ" หรือ "ต่ำกว่า" แต่นี่คือราคาที่คุณต้องจ่ายสำหรับการเรียกร้องดัชนีเดี่ยวจากพื้นที่หลายลักษณะ หากคุณต้องการความเบี่ยงเบนและลงชื่อเข้าใช้ในพื้นที่ดังกล่าวฉันจะบอกว่าคุณเร่งด่วนเกินไป
ในประเด็นสุดท้าย OP ถามว่ามันถูกต้องหรือไม่ที่จะใช้คะแนนของหนึ่งตัวแปรที่แข็งแกร่งที่สุดในส่วนที่เกี่ยวกับความแปรปรวน - องค์ประกอบหลักที่ 1 ในกรณีนี้ - เป็นพร็อกซีเท่านั้นสำหรับ "ดัชนี" มันทำให้รู้สึกว่าเครื่องคอมพิวเตอร์ที่เป็นมากแข็งแรงกว่าเครื่องคอมพิวเตอร์ส่วนที่เหลือ แม้ว่าจะมีคนถามแล้วว่า "ถ้ามันแข็งแกร่งกว่านี้ทำไมคุณไม่ดึง / เก็บไว้ แต่เพียงผู้เดียว"