กำหนดน้ำหนักให้กับตัวแปรในการวิเคราะห์คลัสเตอร์


12

ฉันต้องการกำหนดน้ำหนักที่แตกต่างให้กับตัวแปรในการวิเคราะห์คลัสเตอร์ของฉัน แต่โปรแกรมของฉัน (Stata) ดูเหมือนจะไม่มีตัวเลือกสำหรับสิ่งนี้ดังนั้นฉันต้องทำด้วยตนเอง

ลองนึกภาพ 4 ตัวแปร A, B, C, D น้ำหนักสำหรับตัวแปรเหล่านั้นควรจะเป็น

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

ฉันสงสัยว่าหนึ่งในสองวิธีต่อไปนี้จะทำเคล็ดลับได้หรือไม่:

  1. ก่อนอื่นฉันสร้างมาตรฐานให้กับตัวแปรทั้งหมด (เช่นตามช่วงของพวกเขา) จากนั้นฉันก็คูณตัวแปรมาตรฐานแต่ละตัวด้วยน้ำหนักของมัน จากนั้นทำการวิเคราะห์คลัสเตอร์
  2. ฉันคูณตัวแปรทั้งหมดด้วยน้ำหนักของพวกเขาและทำให้เป็นมาตรฐานในภายหลัง จากนั้นทำการวิเคราะห์คลัสเตอร์

หรือความคิดทั้งสองเป็นเรื่องไร้สาระสมบูรณ์?

[แก้ไข] อัลกอริทึมการจัดกลุ่ม (ฉันลอง 3 วิธีที่แตกต่างกัน) ที่ฉันต้องการใช้คือ k-mean, การเชื่อมโยงค่าเฉลี่ยถ่วงน้ำหนักและการเชื่อมโยงเฉลี่ย ฉันวางแผนที่จะใช้การเชื่อมโยงถัวเฉลี่ยถ่วงน้ำหนักเพื่อกำหนดจำนวนคลัสเตอร์ที่ดีซึ่งฉันเสียบเข้ากับ k-mean หลังจากนั้น


1
โดยทั่วไปวิธีการทั้งสองนั้นไม่ถูกต้อง ค่าทวีคูณของตัวแปรไม่เท่ากับความสำคัญของตัวแปรสำหรับการทำคลัสเตอร์ หากโปรแกรมไม่ได้มีตัวเลือกน้ำหนักคุณสามารถทำมันบางครั้งมีข้อมูลตามที่คุณต้องการ - แต่ตอนนี้ขึ้นอยู่กับลักษณะของการจัดกลุ่มของคุณ ดังนั้นอธิบายรายละเอียดของการจัดกลุ่มของคุณ (ในคำถามของคุณ): อัลกอริทึมและวิธีการที่คุณจะใช้
ttnphns

2
โปรดทราบว่าวิธีที่ง่ายที่สุดและเป็นสากลในการกำหนดน้ำหนัก (และน้ำหนักคือจำนวนเต็มหรือสามารถสร้างเป็นจำนวนเต็ม) จะเป็นการเผยแพร่ตัวแปรเมื่อมีน้ำหนักเหล่านั้น ในตัวอย่างของคุณคุณสามารถรับ 50 As, 25 Bs, 10 Cs, 15 Ds ในการทำคลัสเตอร์ของคุณ
ttnphns

8
หรือทางเลือก: หากคุณใช้การจัดกลุ่มตามการวัดแบบยุคลิดหรือคุณใช้วิธี k ให้คูณแต่ละตัวแปรด้วยตารางรากของน้ำหนัก แน่นอนว่าการคูณนี้ควรทำหลังจากการประมวลผลล่วงหน้า (เช่นมาตรฐาน) ที่คุณอาจต้องการทำก่อนการทำคลัสเตอร์
ttnphns

คำตอบ:


7

วิธีหนึ่งในการกำหนดน้ำหนักให้กับตัวแปรคือการเปลี่ยนสเกลของมัน เคล็ดลับนี้ใช้กับอัลกอริทึมการจัดกลุ่มที่คุณกล่าวถึง ได้แก่ k-mean, การเชื่อมโยงค่าเฉลี่ยถ่วงน้ำหนักและการเชื่อมโยงเฉลี่ย

ลิตรลีโอนาร์ดและปีเตอร์เจรูสซียู "การค้นหากลุ่มในข้อมูล: การวิเคราะห์คลัสเตอร์เบื้องต้น" (2005) - หน้า 11:

การเลือกหน่วยการวัดทำให้น้ำหนักสัมพัทธ์ของตัวแปรเพิ่มขึ้น การแสดงตัวแปรในหน่วยที่เล็กลงจะนำไปสู่ช่วงที่กว้างขึ้นสำหรับตัวแปรนั้นซึ่งจะมีผลกระทบอย่างมากต่อโครงสร้างผลลัพธ์ ในอีกทางหนึ่งโดยการกำหนดมาตรฐานให้พยายามทำให้น้ำหนักทั้งหมดมีค่าเท่ากันโดยหวังว่าจะบรรลุเป้าหมาย เช่นนี้มันอาจถูกใช้โดยผู้ประกอบการที่ไม่มีความรู้มาก่อน อย่างไรก็ตามอาจเป็นไปได้ว่าตัวแปรบางอย่างมีความสำคัญมากกว่าปัจจัยอื่น ๆ ในแอปพลิเคชันเฉพาะและจากนั้นการกำหนดน้ำหนักควรตั้งอยู่บนพื้นฐานของความรู้ในเนื้อหาวิชา (ดูเช่น Abrahamowicz, 1985)

ในอีกทางหนึ่งมีความพยายามที่จะคิดค้นเทคนิคการจัดกลุ่มที่เป็นอิสระจากขนาดของตัวแปร (Friedman และ Rubin, 1967) ข้อเสนอของ Hardy และ Rasson (1982) คือการค้นหาพาร์ติชันที่ลดปริมาตรรวมของเปลือกนูนของคลัสเตอร์ โดยหลักการแล้ววิธีการนี้ไม่แปรเปลี่ยนไปตามการแปลงเชิงเส้นของข้อมูล แต่น่าเสียดายที่ไม่มีอัลกอริธึมสำหรับการนำไปปฏิบัติ (ยกเว้นการประมาณที่ จำกัด ไว้เพียงสองมิติ) ดังนั้นภาวะที่กลืนไม่เข้าคายไม่ออกของมาตรฐานดูเหมือนจะหลีกเลี่ยงไม่ได้ในปัจจุบันและโปรแกรมที่อธิบายไว้ในหนังสือเล่มนี้ปล่อยให้ทางเลือกขึ้นอยู่กับผู้ใช้

Abrahamowicz, M. (1985), การใช้ข้อมูลปืนใหญ่ที่ไม่ใช่ตัวเลขสำหรับการวัดความแตกต่าง, กระดาษที่นำเสนอในการประชุมยุโรปครั้งที่สี่ของ Psychometric Society และสมาคมจัดประเภท, 2-5 กรกฎาคม, Cambridge (UK)

Friedman, HP และ Rubin, J. (1967), ในเกณฑ์คงที่สำหรับการจัดกลุ่มข้อมูล เจ. อาเมอร์ statist ASSOC6., 2, 1159-1178

Hardy, A. , และ Rasson, JP (1982), แก้ไขปัญหาการจำแนกอัตโนมัติ, Statist ทางทวารหนัก Donnies, 7, 41-56


1
การอ้างอิงครั้งแรกของคุณมีการจัดการอย่างใดอย่างหนึ่ง: Leonard Kaufman และ Peter J. Rousseeuw เป็นผู้แต่งหนังสือที่คุณเชื่อมโยงถึง
Nick Cox

โอ้ขอบคุณสำหรับการชี้ให้เห็นนี้ ... ฉันได้เมาโดย Lavoisier ซึ่งทำผิดในหน้าของพวกเขา"Auteurs: SEWELL Grandville, ROUSSEEUW Peter J. " ซึ่งในทางกลับกันกรู Gscholar ซึ่งฉันใช้สำหรับการอ้างอิง
Franck Dernoncourt

ขอบคุณ @FranckDernoncourt! หากเครื่องชั่ง (และช่วง) ของตัวแปรกำหนดน้ำหนักของมันจะไม่เข้าใกล้ 1) ในคำถามเริ่มต้นของฉันเป็นวิธีแก้ปัญหาที่ถูกต้องหรือไม่?
SPi

2
ใช่วิธีการ 1 เป็นวิธีที่ถูกต้องและสอดคล้องกับสิ่งที่ Kaufman, Leonard และ Peter J. Rousseeuw กำลังพูดในย่อหน้าที่ฉันยกมาในคำตอบ วิธีที่ 2 จะไร้ประโยชน์เป็นมาตรฐานเอาน้ำหนัก :)
ฟ Dernoncourt
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.