ด้วยข้อมูลหมวดหมู่จะมีกลุ่มที่ไม่มีตัวแปรที่เกี่ยวข้องหรือไม่


19

เมื่อพยายามอธิบายการวิเคราะห์กลุ่มมันเป็นเรื่องปกติที่คนจะเข้าใจผิดเกี่ยวกับกระบวนการที่เกี่ยวข้องกับว่าตัวแปรมีความสัมพันธ์กันหรือไม่ วิธีหนึ่งที่จะทำให้ผู้คนสับสนได้ก็คือเรื่องแบบนี้:

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งนี้แสดงความแตกต่างอย่างชัดเจนระหว่างคำถามที่ว่ามีกลุ่มและคำถามที่เกี่ยวข้องกับตัวแปรหรือไม่ อย่างไรก็ตามนี่แสดงให้เห็นถึงความแตกต่างสำหรับข้อมูลต่อเนื่องเท่านั้น ฉันมีปัญหาในการคิดแบบอะนาล็อกกับข้อมูลที่เป็นหมวดหมู่:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

เราจะเห็นได้ว่ามีกลุ่มชัดเจนสองกลุ่มคือคนที่มีทั้งคุณสมบัติ A และ B และกลุ่มที่ไม่มี อย่างไรก็ตามถ้าเราดูตัวแปร (เช่นด้วยการทดสอบไคสแควร์) พวกมันจะเกี่ยวข้องกันอย่างชัดเจน:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

ฉันพบว่าฉันสูญเสียวิธีสร้างตัวอย่างด้วยข้อมูลเด็ดขาดที่คล้ายคลึงกับข้อมูลต่อเนื่องข้างต้น เป็นไปได้ไหมที่จะมีกลุ่มข้อมูลที่จัดหมวดหมู่อย่างหมดจดโดยไม่มีตัวแปรที่เกี่ยวข้องด้วย? ถ้าตัวแปรมีมากกว่าสองระดับหรือตามที่คุณมีจำนวนตัวแปรมากขึ้น หากการรวมกลุ่มของการสังเกตไม่จำเป็นต้องเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปรและในทางกลับกันนั่นหมายความว่าการจัดกลุ่มไม่คุ้มค่าที่จะทำเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่เท่านั้น (เช่นคุณควรวิเคราะห์ตัวแปรแทน) หรือไม่?


อัปเดต:ฉันทิ้งคำถามเดิมไว้มากมายเพราะฉันต้องการเพียงแค่ให้ความสนใจกับแนวคิดที่ว่าสามารถสร้างตัวอย่างง่ายๆที่จะทำให้เข้าใจได้ง่ายในทันทีแม้กับคนที่ไม่คุ้นเคยกับการวิเคราะห์คลัสเตอร์เป็นส่วนใหญ่ อย่างไรก็ตามฉันตระหนักว่าการจัดกลุ่มจำนวนมากขึ้นอยู่กับการเลือกระยะทางและอัลกอริทึม ฯลฯ มันอาจช่วยได้หากฉันระบุเพิ่มเติม

ฉันรับรู้ว่าความสัมพันธ์ของ Pearson นั้นเหมาะสมสำหรับข้อมูลต่อเนื่องเท่านั้น สำหรับข้อมูลหมวดหมู่เราสามารถคิดถึงการทดสอบไคสแควร์ (สำหรับตารางฉุกเฉินแบบสองทาง) หรือโมเดลเชิงเส้นล็อก (สำหรับตารางสถานการณ์ฉุกเฉินหลายทาง) เป็นวิธีการประเมินความเป็นอิสระของตัวแปรเด็ดขาด

สำหรับอัลกอริทึมเราสามารถจินตนาการโดยใช้ k-medoids / PAM ซึ่งสามารถนำไปใช้กับทั้งสถานการณ์ต่อเนื่องและข้อมูลหมวดหมู่ (โปรดทราบว่าส่วนหนึ่งของความตั้งใจที่อยู่เบื้องหลังตัวอย่างต่อเนื่องคืออัลกอริธึมการจัดกลุ่มที่สมเหตุสมผลใด ๆ ควรจะสามารถตรวจจับกลุ่มเหล่านั้นได้และหากไม่สามารถทำได้ตัวอย่างที่รุนแรงกว่านั้นควรจะสร้างขึ้น)

เกี่ยวกับความคิดของระยะทาง ฉันถือว่า Euclidean เป็นตัวอย่างต่อเนื่องเพราะมันจะเป็นพื้นฐานที่สุดสำหรับผู้ดูที่ไร้เดียงสา ฉันคิดว่าระยะทางที่คล้ายคลึงกับข้อมูลที่เป็นหมวดหมู่ (ซึ่งมันจะเป็นวิธีที่เข้าใจง่ายที่สุดในทันที) ก็คือการจับคู่ที่ง่าย อย่างไรก็ตามฉันเปิดให้มีการอภิปรายในระยะทางอื่น ๆ ถ้านั่นนำไปสู่การแก้ปัญหาหรือเพียงแค่การสนทนาที่น่าสนใจ


2
ผมสงสัยว่าถ้าเรามีอะไรที่เหมือนกลุ่มในข้อมูลเด็ดขาดในทุก ไม่ใช่ว่าความแตกต่างระหว่างกลุ่มจะใหญ่กว่าภายในกลุ่มหรือสามารถพูดคุยเกี่ยวกับความแตกต่างของความหนาแน่นระหว่างกลุ่ม ดังนั้นหากการจับคู่ clostest เป็นชุดรายการบ่อยครั้งตัวแปรจะต้องเกี่ยวข้องกับกลุ่มที่จะสร้าง
Anony-Mousse - Reinstate Monica

@ Anony-Mousse นั่นน่าสนใจ ทำไมไม่พัฒนาเป็นคำตอบ? BTW ฉันสามารถภาพกลุ่มที่มีอยู่จริง (เช่นในตัวแปรต่อเนื่องแฝงที่ก่อให้เกิดความน่าจะเป็นที่แตกต่างกันสำหรับตัวแปรระดับต่าง ๆ ) แต่ฉันสงสัยว่าไม่ใช่สิ่งที่คุณต้องการ
gung - Reinstate Monica

คุณสามารถแปลงการแจกแจงแบบแบ่งหมวดหมู่เป็นเวกเตอร์ที่มีส่วนประกอบเป็นความถี่ปกติ จากนั้นสามารถใช้ตัวชี้วัดแบบยุคลิด มันไม่ได้เป็นตัวเลือกเดียว: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdfและen.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns ดูเหมือนว่าคุณจะเพิ่ม[data-association]แท็ก ฉันไม่แน่ใจว่าควรระบุสิ่งใดและไม่มีคำแนะนำในส่วนที่ตัดตอนมา / การใช้งาน พวกเราจำเป็นต้องใช้แท็กนี้หรือไม่? ดูเหมือนว่าจะเป็นผู้สมัครที่ดีสำหรับการลบ ถ้าเราต้องการใช้ CV และคุณรู้ว่ามันควรจะเป็นอะไรอย่างน้อยคุณสามารถเพิ่มข้อความที่ตัดตอนมาได้หรือไม่?
gung - Reinstate Monica

@gung ฉันก็ไม่เข้าใจว่าแท็กนี้อาจหมายถึงอะไร ฉันเพิ่มเพราะหัวข้อ "การเชื่อมโยง / สหสัมพันธ์ระหว่างคุณลักษณะ" ของคำถาม คุณมีอิสระที่จะลบแท็กออกจาก Q หรือทั้งหมด ในทางกลับกันก็ถึงเวลา (ฉันคิดว่า) ที่จะคิดใหม่เกี่ยวกับแท็กของเราที่ครอบคลุมเขตข้อมูลความสัมพันธ์ / สมาคม ตัวอย่างเช่นควร "รักษาความสัมพันธ์" ไว้เฉพาะกับสหสัมพันธ์ของเพียร์สันเท่านั้น เราควรสร้างแท็ก "variables-association" ใหม่ (แทนที่ "data-association") หรือไม่
ttnphns

คำตอบ:


11

พิจารณาตัวพิมพ์เล็ก - คลัสเตอร์ที่มีตัวแปรสเกลไม่เกี่ยวข้องเช่นรูปภาพด้านบนขวาของคำถาม และจัดหมวดหมู่ข้อมูล

ป้อนคำอธิบายรูปภาพที่นี่

เราแบ่งช่วงสเกลของทั้งตัวแปร X และ Y ออกเป็น 3 ถังขยะซึ่งต่อไปนี้เราถือว่าเป็นป้ายกำกับหมวดหมู่ ยิ่งกว่านั้นเราจะประกาศให้พวกเขาทราบเล็กน้อยไม่ใช่ลำดับเนื่องจากคำถามที่ถามนั้นโดยปริยายและเกี่ยวกับข้อมูลเชิงคุณภาพเป็นหลัก ขนาดของสปอตคือความถี่ในเซลล์ข้ามตารางความถี่ ทุกกรณีในเซลล์เดียวกันถือว่าเหมือนกัน

สังหรณ์ใจและโดยทั่วไป "กลุ่ม" ถูกกำหนดให้เป็นกลุ่มของจุดข้อมูลที่คั่นด้วยพื้นที่ที่กระจัดกระจายใน "พื้นที่" ของข้อมูล เริ่มแรกมีข้อมูลสเกลและยังคงมีความประทับใจเหมือนกันในการจัดตารางข้อมูลข้อมูลที่จัดหมวดหมู่ ตอนนี้ X และ Y เป็นหมวดหมู่ แต่พวกเขาก็ยังดูไม่เกี่ยวข้องกัน: สมาคมไค - สแควร์ใกล้กับศูนย์มาก และก็กลุ่มนั้น

แต่โปรดจำไว้ว่าเรากำลังติดต่อกับหมวดหมู่ที่ระบุซึ่งคำสั่งในตารางโดยพลการ เราอาจจัดลำดับทั้งแถวและ / หรือคอลัมน์ใหม่ตามที่ต้องการโดยไม่มีผลต่อค่าไคสแควร์ที่สังเกต ทำการจัดเรียงใหม่ ...

ป้อนคำอธิบายรูปภาพที่นี่

... เพื่อพบกลุ่มที่หายไป สี่เซลล์ a1, a3, c1 และ c3 สามารถรวมกันเป็นหนึ่งคลัสเตอร์ ไม่เลยเราไม่มีกลุ่มใด ๆ ในข้อมูลหมวดหมู่

กรณีของเซลล์ a1 และ c3 (หรือในทำนองเดียวกันของ a3 และ c1) นั้นแตกต่างกันโดยสิ้นเชิง: พวกมันไม่ได้ใช้คุณสมบัติที่เหมือนกัน เพื่อชักนำให้เกิดกลุ่มในข้อมูลของเรา - a1 และ c3 เพื่อก่อให้เกิดกลุ่ม - เราต้องว่างเปล่าในระดับที่ดีบางเซลล์ confounding a3 และ c1 โดยการวางกรณีเหล่านี้จากชุดข้อมูล

ป้อนคำอธิบายรูปภาพที่นี่

ตอนนี้กลุ่มมีอยู่จริง แต่ในขณะเดียวกันเราก็สูญเสียความสัมพันธ์ โครงสร้างเส้นทแยงมุมแสดงในสัญญาณของตารางที่มีสถิติไคจ้องมองได้ไกลจากศูนย์

สงสาร ให้เราพยายามรักษาความสัมพันธ์ที่ไม่สัมพันธ์กันและกลุ่มที่ชัดเจนมากขึ้นหรือน้อยลงในเวลาเดียวกัน เราอาจตัดสินใจที่จะว่างเพียงแค่เซลล์ a3 อย่างเพียงพอแล้วพิจารณา a1 + c1 เป็นกลุ่มซึ่งตรงข้ามกับกลุ่ม c3:

ป้อนคำอธิบายรูปภาพที่นี่

การดำเนินการนั้นไม่ได้นำ Chi-square มาไกลจากศูนย์ ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... แต่สถานการณ์ที่มีกลุ่มสับสน คลัสเตอร์ a1 + c1 มีกรณีที่เหมือนกันบางส่วนไม่เหมือนกันครึ่งหนึ่ง การที่คลัสเตอร์มีความเป็นเนื้อเดียวกันค่อนข้างต่ำนั้นไม่ได้เป็นคำนำหน้าของโครงสร้างแบบคลัสเตอร์ที่ชัดเจนในชุดข้อมูล อย่างไรก็ตามปัญหาของเราข้อมูลที่เป็นหมวดหมู่คือคลัสเตอร์ a1 + c1 นั้นไม่ได้ดีไปกว่าคลัสเตอร์ c1 + c3 ซึ่งเป็นอนาล็อกแบบสมมาตร นั่นหมายความว่าโซลูชันคลัสเตอร์ไม่เสถียร - ขึ้นอยู่กับลำดับของเคสในชุดข้อมูล โซลูชันที่ไม่เสถียรแม้จะเป็น "คลัสเตอร์ที่ค่อนข้างชัดเจน" ก็เป็นโซลูชันที่ไม่ดีและไม่น่าเชื่อถือ

วิธีเดียวที่จะเอาชนะปัญหาและเพื่อแก้ปัญหาทั้งชัดเจนและเสถียรคือการแก้เซลล์ c3 จากเซลล์ c1 โดยการย้ายข้อมูลด้านล่างไปยังเซลล์ b3 (หรือ b2)

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นเราจึงมีกลุ่มที่ชัดเจน a1 + c1 กับ b3 แต่ลองดูที่นี่รูปแบบทแยงมุมปรากฏขึ้นอีกครั้งและไคสแควร์ของขอบเขตตารางสูงกว่าศูนย์

ข้อสรุป เป็นไปไม่ได้ที่จะมีตัวแปรระบุสองค่าไคสแควร์ที่ไม่เกี่ยวข้องและกลุ่มข้อมูลที่ดีในเวลาเดียวกัน กลุ่มที่ชัดเจนและมีเสถียรภาพบ่งบอกถึงการเชื่อมโยงตัวแปร

เป็นที่ชัดเจนว่าหากมีการเชื่อมโยง - เช่นรูปแบบเส้นทแยงมุมมีอยู่หรือสามารถทำได้โดยการจัดเรียงใหม่ - จะต้องมีกลุ่ม นี่เป็นเพราะธรรมชาติของข้อมูลที่เป็นหมวดหมู่ ("ทั้งหมดหรือไม่มีอะไร") ไม่อนุญาตครึ่งเสียงและเงื่อนไขของเส้นเขตแดนดังนั้นภาพเหมือนซ้ายล่างในคำถามของ OP ไม่สามารถปรากฏขึ้นพร้อมกับข้อมูลที่เป็นหมวดหมู่

ฉันคาดการณ์ว่าเมื่อเราได้รับตัวแปรน้อยมาก (แทนที่จะเป็นแค่สอง) ซึ่งไม่เกี่ยวข้องกับไคสแควร์แบบ bivariatelyเราเข้าใกล้ความเป็นไปได้ที่จะมีกลุ่ม แต่ศูนย์หลายตัวแปรไคสแควร์ฉันคาดว่าจะยังคงเข้ากันไม่ได้กับกลุ่ม ที่จะต้องมีการแสดง (ไม่ใช่โดยฉันหรือไม่ในเวลานี้)


ในที่สุดคำพูดของ @ Bey's (aka user75138) คำตอบที่ฉันได้รับการสนับสนุนบางส่วน ฉันได้แสดงความคิดเห็นกับข้อตกลงของฉันในสิ่งแรกที่ได้ตัดสินใจเกี่ยวกับการวัดระยะทางและการวัดการเชื่อมโยงก่อนที่เขาจะสามารถตั้งคำถามได้ว่า "การเชื่อมโยงตัวแปรเป็นอิสระจากกลุ่มกรณีหรือไม่" นี่เป็นเพราะไม่มีการวัดการเชื่อมโยงสากลอยู่หรือการกำหนดค่าทางสถิติสากลของกลุ่ม ฉันจะเพิ่มต่อไปเขาจะต้องตัดสินใจเกี่ยวกับเทคนิคการจัดกลุ่ม วิธีการต่างๆของการทำคลัสเตอร์จะกำหนดว่า "คลัสเตอร์" แตกต่างกันอย่างไร ดังนั้นข้อความทั้งหมดอาจเป็นจริง

ที่กล่าวว่าจุดอ่อนของเผด็จการนั้นกว้างเกินไป หนึ่งควรพยายามที่จะแสดงเป็นรูปธรรมไม่ว่าจะเป็นและที่ตัวเลือกเกี่ยวกับวิธีการวัดระยะทาง / สมาคมการเชื่อมโยง / คลัสเตอร์เปิดห้องพักเพื่อกระทบยอด uncorrelatedness กับคลัสเตอร์สำหรับข้อมูลเล็กน้อย เขาจะจำไว้เป็นพิเศษว่าไม่ใช่ค่าสัมประสิทธิ์ความใกล้ชิดทั้งหมดสำหรับข้อมูลเลขฐานสองที่เหมาะสมกับข้อมูลที่ระบุเนื่องจากข้อมูลที่ระบุ "ทั้งสองกรณีขาดคุณสมบัตินี้" ไม่สามารถเป็นพื้นฐานของความคล้ายคลึงกันของพวกเขาได้


อัปเดตรายงานการค้นพบแบบจำลองของฉัน

0.1

R

ผลการวิจัยโดยทั่วไปสนับสนุนเหตุผลที่แสดงด้านบนภายในคำตอบ ไม่เคยมีกลุ่มชัดเจนมาก (เช่นอาจเกิดขึ้นหากสมาคมไคสแควร์มีความแข็งแกร่ง) และผลลัพธ์ของเกณฑ์การจัดกลุ่มที่แตกต่างกันมักจะขัดแย้งกัน (ซึ่งไม่น่าจะคาดหวังมากเมื่อกลุ่มชัดเจนจริงๆ)

บางครั้งการจัดกลุ่มแบบลำดับชั้นจะเสนอโซลูชัน k-cluster ที่ค่อนข้างดีดังที่สังเกตผ่านโครงร่างเกณฑ์การจัดกลุ่ม อย่างไรก็ตามการทดสอบความเสถียรจะไม่สามารถแสดงได้ว่ามีเสถียรภาพ ยกตัวอย่างเช่น 3 ตัวแปร4x4x3ข้อมูล

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

เมื่อจัดกลุ่มโดยใช้วิธีการเชื่อมโยงที่สมบูรณ์ hiearchical ความคล้ายคลึงกันของลูกเต๋าดูเหมือนจะถูกแบ่ง - ค่อนข้างสมเหตุสมผล - เป็น 9 กลุ่ม - ในกรณีนี้เห็นด้วยกับผู้ตัดสินความถูกต้องภายในสามคน:

ป้อนคำอธิบายรูปภาพที่นี่

แต่การแก้ปัญหานั้นไม่เสถียรเท่าที่เห็นจากความไม่สมบูรณ์แบบสมบูรณ์ของเมทริกซ์ความสับสนของการแก้ปัญหาเดิมเทียบกับการแก้ปัญหาแบบเรียงสับเปลี่ยน (case-reordered):

ป้อนคำอธิบายรูปภาพที่นี่

หากวิธีการแก้ปัญหามีความเสถียร (เพราะเป็นไปได้ว่าเรามีข้อมูลต่อเนื่อง) เราจะเลือกวิธีการแก้ปัญหาแบบคลัสเตอร์ 9 แบบเพื่อโน้มน้าวใจอย่างเพียงพอ

การจัดกลุ่มตามระยะล็อก - โอกาส (เมื่อเทียบกับความคล้ายคลึงกันของลูกเต๋า) อาจให้โซลูชันที่มีเสถียรภาพและ "ไม่เลว" (ภายในค่อนข้างถูกต้อง) แต่นั่นเป็นเพราะระยะทางอย่างน้อยที่สุดมันอยู่ในกลุ่ม TwoStep ของ SPSS กระตุ้นและส่งเสริมกลุ่มที่มีประชากรสูงและละเลยกลุ่มที่มีประชากรต่ำ มันไม่ต้องการกลุ่มที่มีความถี่ต่ำมากภายในจะมีความหนาแน่นสูง (ดูเหมือนจะเป็น "นโยบาย" ของการวิเคราะห์กลุ่ม TwoStep ซึ่งออกแบบมาเป็นพิเศษสำหรับข้อมูลขนาดใหญ่และให้กลุ่มน้อย . ตัวอย่างเช่นข้อมูล 2 ตัวแปรเหล่านี้

ป้อนคำอธิบายรูปภาพที่นี่

จะถูกรวมเข้าด้วยกันโดย TwoStep เป็น 5 คลัสเตอร์ดังที่แสดงเสถียรและโซลูชัน 5 คลัสเตอร์ไม่ได้เลวร้ายอย่างที่ตัดสินโดยเกณฑ์การจัดกลุ่มบางอย่าง เนื่องจากกลุ่มที่มีประชากรสี่กลุ่มนั้นมีความหนาแน่นสูงมาก (อันที่จริงทุกกรณีเหมือนกัน) และมีเพียงหนึ่งในห้ากลุ่มซึ่งรวมถึงบางกรณีเท่านั้นที่มีความเอนโทรปีมาก ชัดเจนจริงๆแล้วคือโซลูชัน 12 คลัสเตอร์ไม่ใช่ 5 คลัสเตอร์ แต่ 12 คือจำนวนเซลล์ทั้งหมดในตารางความถี่ซึ่งในฐานะ "โซลูชันคลัสเตอร์" นั้นไม่สำคัญและไม่น่าสนใจ


+1 นี่คือสิ่งที่ฉันสงสัย คู่ยกเลิกการเชื่อมโยงหลายตัวแปร VS ไม่สัมพันธ์กันเป็นจุดที่น่าสนใจ เมื่อพิจารณาถึงปัญหานี้ในวงกว้างยิ่งขึ้นนี่หมายความว่าไม่มีจุดใดในการพยายามจัดกลุ่มข้อมูลที่ระบุอย่างหมดจดหรือ นั่นคือเราควรวิเคราะห์ตัวแปรเสมอหากเราไม่มีข้อมูลต่อเนื่อง
gung - Reinstate Monica

1
@ gung คุณไม่ทราบ maxim ว่าความสัมพันธ์ระหว่างตัวแปรคืออีกด้านหนึ่งของโพลาไรซ์ของกรณีเหรียญ("diagolness")? นี่เป็นเรื่องจริงเช่นกันสำหรับข้อมูลต่อเนื่องเช่นกัน แต่สำหรับโพลาไรซ์อย่างต่อเนื่องอาจไม่ได้หมายความว่าเป็นกลุ่ม สำหรับหมวดหมู่มันปรากฏว่ามันหมายถึง เนื่องจากธรรมชาติที่ไม่ต่อเนื่อง อาจเป็นไปได้ว่าหากตัวแปรเชิงหมวดหมู่มีความสัมพันธ์กันจะมีกลุ่มให้ค้นหา แต่คุณต้องทำคลัสเตอร์เพื่อให้ได้วิธีที่ดีขึ้น นั่นเป็นความเห็นเบื้องต้นของฉันสำหรับคำถามยอดเยี่ยมของคุณ
ttnphns

ฉันไม่คุ้นเคยกับสิ่งนั้น บางทีฉันจะถามในภายหลัง ฉันคิดว่านี่เป็นข้อมูลที่ดีสำหรับการเคี้ยว
gung - Reinstate Monica

3

ในขณะที่ฉันแน่ใจว่าคุณรู้ความสัมพันธ์เป็นตัวชี้วัดของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวไม่ใช่จุดที่อยู่ใกล้กัน นี่อธิบายตัวเลขสี่อันดับแรก

แน่นอนคุณสามารถสร้างกราฟที่คล้ายกันสำหรับข้อมูลที่ไม่ต่อเนื่องมูลค่าจริงเช่นกัน

X{A,B,,D}RXRX

คุณจะต้องกำหนดตัวชี้วัดสำหรับช่องว่างหมวดหมู่ก่อนที่คุณจะสามารถพูดคุยเกี่ยวกับการจัดกลุ่มในแง่เรขาคณิตได้


ฉันจะสนับสนุนคำตอบนี้และจะจัดระเบียบใหม่หากทั้ง @gung และ Bey อนุญาตในแง่ที่เข้าใจง่าย ข้อมูลกลุ่มถูกกำหนดโดย "ระยะทางเล็ก ๆ ในกลุ่ม แต่ระยะทางไกลระหว่างกลุ่ม" ในภาพของเขา OP เลือกระยะทางแบบยูคลิดโดยปริยายเพื่อแสดงให้เห็นแนวคิดของการรวมกลุ่ม นอกจากนี้เขายังเลือกความคิดเกี่ยวกับความสัมพันธ์ของเพียร์สันหรือบางอย่างที่คล้ายกันเพื่อแสดงให้เห็นถึงความคิดเกี่ยวกับความสัมพันธ์ระหว่างตัวแปร เหล่านี้เป็นสองตัวเลือกโดยเฉพาะ / โดยพลการในหลายทางเลือก
ttnphns

1
(ต่อ) ฉันอาจจินตนาการว่าอาจมีตัวเลือกวัดระยะทางดังกล่าวและมาตรการเชื่อมโยงดังกล่าวโดยที่ความคิด "case clusteredness" และ "ความสัมพันธ์ของตัวแปร" ไม่ได้เป็นมุมฉาก และตอนนี้สำหรับข้อมูลเด็ดขาด ก่อนที่จะมีใครสามารถตรวจสอบและแสดงให้เห็นว่าทั้งสองแนวคิดสามารถเป็นอิสระหรือเกี่ยวข้องกันเขาจะต้องเลือกการวัดระยะทางเฉพาะสำหรับจุดข้อมูลเด็ดขาดและการวัดการเชื่อมโยงเฉพาะสำหรับตัวแปรเด็ดขาด มีทางเลือกมากมายให้เลือก! และคำตอบจะขึ้นอยู่กับ
ttnphns

@ttnphns (+1) ฉันชอบวิธีที่คุณวางกรอบตัวเลือกหลัก ๆ สองตัวเลือก: การวัดระยะทางและการเชื่อมโยง ไม่แน่ใจว่าคำอธิบายของฉันไม่เข้าใจง่าย แต่ ... คุณไม่สามารถกำหนดกลุ่มโดยไม่คำนึงถึงระยะทาง

@ttnphns ฉันคิดว่ามันขึ้นอยู่กับเบย์ ทำไมคุณไม่เปลี่ยนความคิดของคุณให้เป็นคำตอบของคุณเอง? ฉันสนใจความคิดที่ว่า "การรวมกลุ่มของเคส" และ "การเชื่อมโยงตัวแปร" กลายเป็นมุมฉากสำหรับข้อมูลต่อเนื่องที่ให้ตัวเลือกบางอย่าง เข้าใจแล้วฉันได้เพิ่มคำอธิบายบางอย่างเกี่ยวกับมาตรการระยะทางและการเชื่อมโยง แต่คุณควรรู้สึกไปในทิศทางที่แตกต่างหากคุณต้องการ แจ้งให้เราทราบหากต้องการอีก การตั้งค่าของฉันคือคำถามที่ยังคง 'หลวม' ที่สุดเท่าที่จะเป็นไปได้เพื่อให้ผู้ตอบแบบสอบถามมีความยืดหยุ่นในการไปในทิศทางที่แตกต่างกัน
gung - Reinstate Monica

1
@ แน่นอนมีหลายวิธีที่เป็นไปได้และการเชื่อมโยงอื่น ๆ ที่เป็นไปได้สำหรับข้อมูลที่เป็นหมวดหมู่ดังนั้นคุณสามารถแนะนำสิ่งลึกลับที่ทำให้มันทำงานได้
gung - Reinstate Monica

2

พิจารณาระยะทาง Hamming - ระยะทาง Hamming ระหว่างสองสายที่มีความยาวเท่ากันคือจำนวนตำแหน่งที่สัญลักษณ์ที่เกี่ยวข้องแตกต่างกัน จากคำจำกัดความนี้ดูเหมือนชัดเจนว่าเราสามารถผลิตข้อมูลที่เรามีกลุ่มตามระยะ Hamming แต่ไม่มีความสัมพันธ์ระหว่างตัวแปร

ตัวอย่างต่อไปนี้โดยใช้ Mathematica

สร้างข้อมูลเด็ดขาดบางส่วน (3 สัญลักษณ์ยาวลำดับของการสุ่มตัวอย่างแบบสม่ำเสมอที่มีอักขระ 4 ตัว):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

ใช้จุดแปลงโมเสคสำหรับความสัมพันธ์ระหว่างตัวแปร (ความน่าจะเป็นตามเงื่อนไขสำหรับคู่ของค่าจากคอลัมน์ต่างๆ):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถเห็นได้ว่าไม่มีความสัมพันธ์กัน

ค้นหากลุ่ม:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

หากเราแทนที่ตัวละครทุกตัวด้วยจำนวนเต็มเราสามารถเห็นได้จากพล็อตนี้ว่ารูปแบบของกลุ่มที่เกิดขึ้นด้วยระยะทาง Hamming ได้อย่างไร:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

ป้อนคำอธิบายรูปภาพที่นี่

การจัดกลุ่มเพิ่มเติม

ให้เราทำกราฟโดยเชื่อมคำที่ Hamming distance เป็น 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

ป้อนคำอธิบายรูปภาพที่นี่

ตอนนี้ให้เราค้นหากลุ่มชุมชน:

CommunityGraphPlot[nngr]

ป้อนคำอธิบายรูปภาพที่นี่

เปรียบเทียบกลุ่มกราฟกับที่พบกับFindClusters(ซึ่งถูกบังคับให้หา 3) เราสามารถเห็น "bac" เป็นศูนย์กลางอย่างสูงและ "aad" สามารถเป็นของกลุ่มสีเขียวซึ่งสอดคล้องกับคลัสเตอร์ 1 ในพล็อต 3 มิติ

ข้อมูลกราฟ

นี่คือรายการขอบของnngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

ยินดีต้อนรับสู่เว็บไซต์! เพียงแค่คู่ของข้อสังเกต: รหัสคืออะไร? (ซึ่งไม่ได้เพิ่มความคิดเห็น) คุณกำหนดrelationship between the variables (correlation)อย่างไร
ttnphns

สิ่งนี้น่าสนใจ น่าเสียดายที่ฉันไม่รู้จัก Mathematica (& คุ้นเคยกับการแก้ไขระยะทางน้อยกว่า) ดังนั้นฉันจึงต้องเล่นกับสิ่งนี้เพื่อให้แน่ใจว่าฉันเข้าใจ ฉันยังไม่ได้มีโอกาส แต่ฉันตั้งใจจะเร็ว ๆ นี้
gung - Reinstate Monica

@ gung ฉันคิดที่จะทำมันใน R แต่ฉันคิดว่าส่วนที่สำคัญคือพล็อต 3 มิติและหมุนในมุมที่เหมาะสมเพื่อรับข้อมูลเชิงลึกของการก่อตัวของกลุ่ม เป็นคำถามที่ดีโดยวิธี!
Anton Antonov

ดังนั้นคุณมี "กลุ่ม" ที่นี่ แต่พวกเขามีความหมาย? พวกเขาดีกว่ากลุ่มอื่นหรือไม่ จากพล็อตผมว่าคลัสเตอร์ที่ 1 นั้นค่อนข้างสุ่ม เหตุใดจึงเป็นคลัสเตอร์
Anony-Mousse - Reinstate Monica

1
ข้อมูลที่สร้างแบบสุ่ม (!) สร้างขึ้นอย่างชัดเจนไม่ควรมีกลุ่ม พล็อต "ชุมชน" กำลังทำให้เข้าใจผิดเนื่องจากไม่ได้รักษาระยะห่าง กราฟที่มีระยะ 1 ระยะเน้นถึงปัญหาเหล่านี้ cdaนอกจากนี้ยังแสดงให้เห็นตัวอย่างอื่น ขออภัยฉันไม่ได้ "ซื้อ" กลุ่ม "เหล่านี้" ข้อมูลมีความสม่ำเสมอควรจะไม่มีกลุ่ม
Anony-Mousse - Reinstate Monica

2

@ttnphns 'มีจุดเกี่ยวกับการจับคู่แบบหลายค่าเทียบกับการเชื่อมหลายตัวแปร เกี่ยวข้องกับสิ่งนั้นซึ่งเป็นเรื่องเก่าแก่เกี่ยวกับความสำคัญของการแสดงความสัมพันธ์กับตัวชี้วัดที่ง่าย ๆ ก่อนที่จะกระโจนเข้าสู่กรอบงานหลายตัวแปร กล่าวอีกนัยหนึ่งถ้าการวัดค่าความสัมพันธ์แบบคู่อย่างง่าย ๆ นั้นไม่มีความสัมพันธ์กันมันก็ไม่น่าเป็นไปได้มากขึ้นที่ความสัมพันธ์หลายตัวแปรจะแสดงอะไรเช่นกัน ฉันพูดว่า "ไม่น่าเป็นไปได้มากขึ้น" เพราะไม่เต็มใจที่จะใช้คำว่า "เป็นไปไม่ได้" นอกจากนี้ฉันไม่เชื่อเรื่องพระเจ้าเกี่ยวกับตัวชี้วัดที่ใช้ไม่ว่าจะเป็นสหสัมพันธ์สเปียร์แมนแบบโมโนโทนิกสำหรับข้อมูลอันดับ, Somer's D , Kendall's Tau, ความสัมพันธ์ polychoric, MIC ของ Reshef, ความสัมพันธ์ระยะทางของ Szelkey ​​ไม่ว่าจะเป็นอะไรก็ตาม การเลือกตัวชี้วัดไม่สำคัญในการสนทนานี้

งานต้นฉบับทำในการค้นหาโครงสร้างที่แฝงอยู่ในข้อมูลที่เป็นหมวดหมู่ซึ่งย้อนกลับไปในยุค 50 ต้น ๆ และ Paul Lazersfeld นักสังคมวิทยาของโคลัมเบีย โดยพื้นฐานแล้วเขาคิดค้นคลาสตัวแปรแบบจำลองแฝงที่ได้เห็นการพัฒนาและการปรับเปลี่ยนอย่างกว้างขวางนับตั้งแต่ ครั้งแรกกับงานยุค 60 ของ James Coleman นักเศรษฐศาสตร์การเมือง U of C ในการเลือกตั้งผู้มีสิทธิเลือกตั้งแฝงตามด้วยการมีส่วนร่วมของ Clifford Clogg ปลายซึ่งเป็นนักสังคมวิทยาซึ่งซอฟต์แวร์ MELISSA เป็นซอฟต์แวร์ฟรีแวร์ระดับชั้นนำที่เปิดเผยต่อสาธารณะ

ในยุค 80 โมเดลระดับแฝงถูกขยายออกไปจากข้อมูลที่เป็นหมวดหมู่ล้วนๆไปยังโมเดลผสม จำกัด ด้วยการพัฒนาเครื่องมือเช่นทองแฝงจากนวัตกรรมทางสถิติ นอกจากนี้ Bill Dillon นักวิทยาศาสตร์ด้านการตลาดได้พัฒนาโปรแกรม Gauss สำหรับการจำลองแบบ จำกัด ขอบเขตการจำแนกที่แฝงอยู่ วรรณกรรมเกี่ยวกับวิธีการนี้ในการปรับการผสมผสานของข้อมูลที่เป็นหมวดหมู่และต่อเนื่องนั้นค่อนข้างกว้างขวาง มันไม่ได้เป็นที่รู้จักกันดีนอกเขตที่มีการนำไปใช้อย่างกว้างขวางที่สุดเช่นวิทยาศาสตร์การตลาดที่ใช้โมเดลเหล่านี้สำหรับการแบ่งกลุ่มผู้บริโภคและการจัดกลุ่ม

อย่างไรก็ตามวิธีการผสมแบบ จำกัด เหล่านี้ใช้วิธีการวิเคราะห์การจัดกลุ่มแบบซ่อนเร้นและตารางความเป็นไปได้ในการพิจารณาว่าเป็นโรงเรียนเก่าในโลกปัจจุบันที่มีข้อมูลจำนวนมหาศาล สิ่งที่ล้ำสมัยที่สุดในการค้นหาความสัมพันธ์ระหว่างชุดโต๊ะฉุกเฉินขนาดใหญ่คือการสลายตัวที่มีอยู่จากการปรับใช้โมเดลเทนเซอร์เช่นที่พัฒนาโดย David Dunson และ Bayesians อื่น ๆ ของ Duke นี่คือบทคัดย่อจากหนึ่งในเอกสารของพวกเขาเช่นเดียวกับลิงค์:

การวิเคราะห์ตารางฉุกเฉินมักอาศัยโมเดลเชิงเส้นของล็อกโดยการวิเคราะห์โครงสร้างแฝงนั้นเป็นทางเลือกทั่วไป แบบจำลองโครงสร้างแฝงนำไปสู่การแยกตัวประกอบแบบเมตริกซ์อันดับต่ำของฟังก์ชั่นความน่าจะเป็นมวลสำหรับข้อมูลเด็ดขาดหลายตัวแปรในขณะที่แบบจำลองเชิงเส้นของล็อกบรรลุการลดขนาดผ่านทาง sparsity ไม่ค่อยมีใครรู้จักเกี่ยวกับความสัมพันธ์ระหว่างแนวคิดเรื่องการลดมิติในสองกระบวนทัศน์ เราได้รับผลลัพธ์หลายอย่างที่เกี่ยวข้องกับการสนับสนุนโมเดลบันทึกเชิงเส้นไปยังอันดับที่ไม่ใช่ค่าลบของเมตริกซ์ความน่าจะเป็นที่เกี่ยวข้อง แรงบันดาลใจจากการค้นพบนี้เราเสนอคลาส Tucker ใหม่ของทรุดตัวของเทนเซอร์ซึ่งสะพานเชื่อมโยงการสลายตัวของ PARAFAC และ Tucker ที่มีอยู่ให้เฟรมเวิร์กที่ยืดหยุ่นมากขึ้นสำหรับการจำแนกลักษณะของข้อมูลเชิงตัวแปรหลายตัวแปร

https://arxiv.org/pdf/1404.0396.pdf


นี่เป็นข้อมูลที่น่าสนใจ ฉันไม่ชัดเจนเกี่ยวกับวิธีการเชื่อมต่อกับคำถาม
gung - Reinstate Monica

gung จากการอภิปรายที่หลากหลายและคำถามพื้นฐานที่ทำให้เกิดกลุ่มข้อมูลที่เป็นหมวดหมู่ว่า "มีอยู่จริง" คุณขาดความชัดเจนเกี่ยวกับความเกี่ยวข้องของการมีส่วนร่วมของฉัน ในมุมมองของฉันข้อมูลที่ให้ความสว่างพื้นที่ของวิธีการและการค้นพบความรู้ที่ถูกละเว้นก่อนหน้านี้ ฉันขอชี้ให้เห็นการสังเกตครั้งแรกของฉันได้อย่างไร - ตอบคำถาม OPs อย่างชัดเจน - เกี่ยวกับการก้าวกระโดดจากการจับคู่แบบหลายระดับถึงความสัมพันธ์หลายตัวแปรที่ไม่น่าเป็นไปได้สูงหากขาดการเชื่อมโยงในระดับที่ง่ายขึ้น
Mike Hunter

ฉันไม่ได้หมายถึงความผิดใด ๆ @DJohnson ฉันเป็นแบบจำลอง w / latent ที่คุ้นเคยสำหรับการจัดกลุ่มข้อมูลหมวดหมู่ (เช่นการวิเคราะห์ชั้นแฝง) ฉันพูดถึงมันในความคิดเห็นของฉันด้านบน ฉันไม่คุ้นเคยกับประวัติศาสตร์นักวิจัยและซอฟต์แวร์ นั่นน่าสนใจ. ฉันไม่ค่อยเห็นว่ามันตอบคำถามว่าจะมีกลุ่มที่ตรวจพบได้ในข้อมูลเล็กน้อยหรือไม่ซึ่งตัวแปรไม่แสดงความสัมพันธ์ใด ๆ ถ้านั่นคือสิ่งที่คุณได้รับตัวอย่างจะมีประโยชน์ คุณสามารถให้หนึ่ง
gung - Reinstate Monica

@ gung แน่นอนไม่และไม่มีใครเอา
Mike Hunter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.