การปรับมาตรฐานและการปรับขนาดคุณสมบัติจำเป็นสำหรับการจัดกลุ่ม k-mean หรือไม่


คำตอบ:


63

หากตัวแปรของคุณเป็นหน่วยที่หาที่เปรียบไม่ได้ (เช่นความสูงเป็นซม. และน้ำหนักเป็นกิโลกรัม) ดังนั้นคุณควรสร้างมาตรฐานของตัวแปร แม้ว่าตัวแปรจะเป็นหน่วยเดียวกัน แต่มีความแปรปรวนที่แตกต่างกันมาก แต่ก็ยังเป็นความคิดที่ดีที่จะสร้างมาตรฐานก่อนวิธี K คุณจะเห็นว่า K- หมายถึงการจัดกลุ่มเป็น "isotropic" ในทุกทิศทางของพื้นที่และจึงมีแนวโน้มที่จะสร้างกลุ่มมากขึ้นหรือน้อยลงรอบ (มากกว่ายาว) กลุ่ม ในสถานการณ์นี้ทำให้ความแปรปรวนไม่เท่ากันเท่ากับการเพิ่มน้ำหนักให้กับตัวแปรที่มีความแปรปรวนน้อยกว่าดังนั้นกลุ่มจะมีแนวโน้มที่จะถูกแยกออกไปพร้อมกับตัวแปรที่มีความแปรปรวนมากขึ้น

ป้อนคำอธิบายรูปภาพที่นี่

1

ต่อไปนี้เป็นเหตุผลทั่วไปบางประการเกี่ยวกับปัญหาของคุณสมบัติมาตรฐานในการวิเคราะห์กลุ่มหรือการวิเคราะห์หลายตัวแปรอื่น ๆ


1


2
คำแนะนำที่ดีมากคือการสุ่มสุ่มวิ่งใหม่เฉลี่ยและการวิ่งรอบสุดท้าย ขอบคุณ
pedrosaurio

1
k-mean จะไวต่อการสั่งซื้ออย่างไร
SmallChess

1
@StudentT ฉันได้เพิ่มเชิงอรรถสำหรับสิ่งนั้นแล้ว ขอขอบคุณ.
ttnphns

1
@ttnphns จะกำหนดปริมาณที่ตัวแปรมี "ผลต่างที่แตกต่าง"
เฮอร์แมนทูตรอ

1
@camillejr โปรดเริ่มต้นโดยการตรวจสอบนี้ Q: stats.stackexchange.com/q/418427/3277
ttnphns

4

ขึ้นอยู่กับข้อมูลของคุณฉันเดา หากคุณต้องการให้แนวโน้มในข้อมูลของคุณจัดกลุ่มเข้าด้วยกันโดยไม่คำนึงถึงขนาดคุณควรตั้งศูนย์ เช่น. บอกว่าคุณมีโปรไฟล์การแสดงออกของยีนและต้องการดูแนวโน้มในการแสดงออกของยีนจากนั้นโดยไม่ต้องมีค่าเฉลี่ยอยู่ที่ยีนที่แสดงออกต่ำของคุณจะรวมตัวกันและแยกจากยีนที่แสดงออกสูงโดยไม่คำนึงถึงแนวโน้ม การจัดกึ่งกลางทำให้ยีน (ทั้งสูงและต่ำแสดงออก) ด้วยการรวมกลุ่มของรูปแบบการแสดงออกด้วยกัน


ฉันกำลังเปรียบเทียบคุณสมบัติที่แตกต่างที่มีสเกลของตนเอง ตัวอย่างเช่นฉันกำลังเปรียบเทียบเนื้อหา GC ซึ่งมีช่วงประมาณ 0.3 ถึง 0.5 ซึ่งอาจดูเหมือนเล็ก แต่ความแตกต่างค่อนข้างสำคัญ คุณสมบัติอื่น ๆ บางอย่างมีช่วงที่กว้างขึ้นบางคุณสมบัติอื่น ๆ มีขนาดเล็กมาก
pedrosaurio

ดังนั้นคุณกำลังจัดกลุ่มปัจจัยที่แตกต่างกันอย่างไร อาจใช้น้ำหนักหรือการเปลี่ยนแปลงค่า
Nightwriter

ไม่ฉันกำลังเปรียบเทียบตัวแปรต่อเนื่องทั้งหมด
pedrosaurio
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.