ค่าสัมประสิทธิ์ความคล้ายคลึงกันสำหรับข้อมูลไบนารี: ทำไมต้องเลือก Jaccard เหนือ Russell และ Rao


20

จากสารานุกรมวิทยาศาสตร์สถิติฉันเข้าใจว่าได้รับ dichotomous (binary: 1 = ปัจจุบัน; 0 = ขาด) แอตทริบิวต์ (ตัวแปร) เราสามารถสร้างตารางฉุกเฉินสำหรับวัตถุสองชนิดที่ฉันและjของตัวอย่าง:พี

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

เราสามารถคำนวณค่าสัมประสิทธิ์ความคล้ายคลึงกันของค่าเหล่านี้ระหว่างวัตถุคู่ใดก็ได้โดยเฉพาะค่าสัมประสิทธิ์ Jaccard และค่าสัมประสิทธิ์รัสเซลและ Rao

aa++
aa+++d=aพี.

เมื่อคำนวณค่าสัมประสิทธิ์เหล่านี้จะให้ค่าที่แตกต่างกัน แต่ฉันไม่สามารถหาแหล่งข้อมูลใด ๆ ที่อธิบายว่าทำไมฉันจึงควรเลือกค่าหนึ่ง เป็นเพราะชุดข้อมูลบางตัวการขาดคุณสมบัติทั้งสองอย่างพร้อมกัน ( ) ไม่ได้นำเสนอข้อมูลใด ๆd

คำตอบ:


14

มีค่าสัมประสิทธิ์ดังกล่าวจำนวนมาก (ส่วนใหญ่แสดงที่นี่ ) แค่ลองนั่งสมาธิว่าอะไรคือผลของความแตกต่างในสูตรโดยเฉพาะอย่างยิ่งเมื่อคุณคำนวณเมทริกซ์ของสัมประสิทธิ์

ลองจินตนาการถึงตัวอย่างเช่นว่าวัตถุ 1 และ 2 คล้ายกันเช่นเดียวกับวัตถุ 3 และ 4 แต่ 1 และ 2 มีแอตทริบิวต์จำนวนมากในรายการในขณะที่ 3 และ 4 มีแอตทริบิวต์น้อยมาก ในกรณีนี้ Russell-Rao (สัดส่วนของคุณลักษณะร่วมกับจำนวนคุณลักษณะทั้งหมดที่อยู่ระหว่างการพิจารณา) จะสูงสำหรับคู่ 1-2 และต่ำสำหรับคู่ 3-4 แต่ Jaccard (สัดส่วนของ co-attribute กับจำนวนรวมของคุณสมบัติทั้งสองวัตถุนั้นมีความเป็นไปได้ = ว่าหากวัตถุใดมีคุณสมบัติจากนั้นทั้งสองมีมัน) จะสูงสำหรับทั้งคู่ 1-2 และ 3-4

การปรับระดับฐานนี้ของ "saturation by attributes" ทำให้Jaccardเป็นที่นิยมและมีประโยชน์มากกว่าRussell-Raoเช่นในการวิเคราะห์คลัสเตอร์หรือการปรับขนาดแบบหลายมิติ คุณอาจปรับแต่งการปรับด้านบนเพิ่มเติมโดยเลือกการวัด Kulczynski-2ซึ่งเป็นความน่าจะเป็นทางคณิตศาสตร์ที่น่าจะเป็นถ้าหากวัตถุหนึ่งมีแอตทริบิวต์วัตถุอื่นก็มีเช่นกัน:

(aa++aa+)/2
ที่นี่ฐาน (หรือเขตข้อมูล) ของแอตทริบิวต์สำหรับวัตถุทั้งสองนั้นไม่ได้รับการรวบรวมเช่นเดียวกับใน Jaccard แต่มีไว้สำหรับวัตถุทั้งสอง ดังนั้นหากวัตถุแตกต่างกันอย่างมากกับจำนวนของคุณลักษณะที่พวกเขามีและคุณลักษณะทั้งหมดที่ "ยากจน" วัตถุร่วมกับหนึ่ง "ยิ่งขึ้น" หนึ่ง Kulczynski จะสูงในขณะที่ Jaccard จะปานกลาง

หรือคุณอาจต้องการคำนวณความน่าจะเป็นทางเรขาคณิตว่าถ้าวัตถุหนึ่งมีคุณลักษณะวัตถุอื่นก็มีเช่นกันซึ่งให้ผลการวัดOchiai : เนื่องจากผลิตภัณฑ์เพิ่มขึ้นอ่อนแอกว่าผลรวมเมื่อมีเพียงหนึ่งในเงื่อนไขที่เพิ่มขึ้น Ochiai จะสูงจริง ๆ เท่านั้นหากทั้งสองสัดส่วน (ความน่าจะเป็น) มีค่าสูงซึ่งหมายความว่า Ochiai จะต้องถือว่าสิ่งเดียวกันนั้นมีความคล้ายคลึงกัน การแบ่งปันคุณสมบัติของพวกเขา ในระยะสั้น Ochiai curbs ความคล้ายคลึงกันถ้าและไม่เท่ากัน ในความเป็นจริงแล้ว Ochiai ก็คือการวัดความคล้ายคลึงกันของโคไซน์ (และรัสเซล - ราวก็คือความคล้ายคลึงกันของผลิตภัณฑ์ดอท)

aa+aa+

PS

เป็นเพราะชุดข้อมูลบางตัวการขาดคุณสมบัติทั้งสองอย่างพร้อมกัน (d) ไม่ได้นำเสนอข้อมูลใด ๆ

เมื่อพูดถึงมาตรการความคล้ายคลึงกันเราไม่ควรผสมแอตทริบิวต์โดมิโนเล็กน้อย (เช่นเพศหญิงเพศชาย) ด้วยคุณลักษณะไบนารี (ปัจจุบันเทียบกับที่ขาด) แอตทริบิวต์ไบนารี่ไม่ได้เป็นแบบสมมาตร (โดยทั่วไป) - ถ้าคุณและฉันแบ่งปันคุณลักษณะเป็นพื้นฐานสำหรับการโทรหาเราที่คล้ายกัน หากคุณและฉันทั้งสองขาดคุณสมบัติอาจเป็นหรือไม่ได้รับการพิจารณาหลักฐานของความคล้ายคลึงกันขึ้นอยู่กับบริบทของการศึกษา ดังนั้นการรักษาที่แตกต่างกันของเป็นไปได้d

โปรดทราบด้วยว่าหากคุณต้องการคำนวณความคล้ายคลึงกันระหว่างออบเจ็กต์ที่มีแอตทริบิวต์1+ (ไดโพโตแมคหรือโพลีโทมัส) ให้ทำการถอดรหัสแต่ละตัวแปรดังกล่าวในชุดของตัวแปรไบนารีจำลอง จากนั้นการวัดความคล้ายคลึงกันที่แนะนำในการคำนวณจะเป็นลูกเต๋า ( ซึ่งเมื่อคำนวณสำหรับตัวแปรดัมมี่ 1+ ชุดเทียบเท่ากับ Ochiai และ Kulczynski-2)


2
คำศัพท์ต่าง ๆ ที่ได้รับการแนะนำโดยควรคล้ายคลึงกับ "dichotomous" สำหรับการจำแนกประเภทที่มีมากกว่าสองหมวด "Polytomous" เป็นที่นิยมทางภาษามากกว่า "polychotomous" ซึ่งขึ้นอยู่กับการเดาที่ไม่ถูกต้องว่า "dichotomous" แยกวิเคราะห์เป็นสองรากภาษากรีก "di" และ "chotomous" สารประกอบ "Multichotomous" ที่ผิดพลาดกับการใช้รากละติน แม้ว่าคำที่มีรากภาษาละตินและกรีกแยกกันจะรอดชีวิตจากการดูถูกของนักภาษาศาสตร์ (เช่น "โทรทัศน์") ฉันแนะนำให้ใช้ "polytomous" ที่นี่
Nick Cox

ขอบคุณสำหรับการเตือน จริง ๆ แล้วฉันรู้ว่าสิ่งที่คุณกำลังพูดถึงและพยายามที่จะทำให้ตัวเองบริสุทธิ์ ... เมื่อฉันไม่รีบ ฉันจะแก้ไข
ttnphns

3

ประโยชน์ของสัมประสิทธิ์ Tanimoto มากกว่าความแม่นยำแบบดั้งเดิม (เช่น Russell-Rao) เห็นได้ชัดในการวิเคราะห์ภาพเมื่อเปรียบเทียบการแบ่งส่วนกับมาตรฐานทองคำ พิจารณาภาพสองภาพนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ในแต่ละภาพเหล่านี้ซึ่งเป็นไบนารี 'มาสก์' เรามีวัตถุสองชิ้นที่มีขนาดเท่ากัน แต่วางไว้ในตำแหน่งที่แตกต่างกันเล็กน้อยและเราต้องการประเมินว่าวัตถุเหล่านี้เท่ากันในรูปร่างและตำแหน่งโดยการประเมินการทับซ้อนกันอย่างไร โดยปกติหนึ่ง (เช่นหน้ากากสีม่วง) คือการแบ่งส่วน (ผลิตโดยอัลกอริทึมคอมพิวเตอร์) เช่นนี้อาจเป็นความพยายามที่จะค้นหาหัวใจจากภาพทางการแพทย์ อื่น ๆ (เช่นสีเขียว) เป็นมาตรฐานทองคำ (เช่นหัวใจตามที่แพทย์ผู้เชี่ยวชาญระบุ) หากมีสีขาวทั้งสองรูปร่างจะทับซ้อนกัน พิกเซลสีดำเป็นพื้นหลัง

ภาพสองภาพเหมือนกัน (เช่นผลลัพธ์ของอัลกอริธึมการแบ่งส่วนและมาตรฐานทองคำเหมือนกันในภาพทั้งสองภาพ) ยกเว้นภาพซ้อน "" จำนวนมากในภาพที่สอง (เช่นนี่อาจเป็นตัวแทนของการทดลองสองครั้งด้วย เครื่องเอ็กซเรย์สองเครื่องที่แตกต่างกันโดยที่เครื่องที่ 2 มีรังสีที่กว้างกว่าครอบคลุมบริเวณร่างกายมากขึ้น แต่ไม่เช่นนั้นขนาดของหัวใจจะเท่ากันในชุดภาพทั้งสอง)

เห็นได้ชัดว่าเนื่องจากการแบ่งส่วนและมาตรฐานทองคำในภาพทั้งสองเหมือนกันหากเราประเมินความถูกต้องของการแบ่งส่วนกับมาตรฐานทองคำเราจึงต้องการให้ตัวชี้วัดของเราแสดงผลลัพธ์ 'ความถูกต้อง' ที่เหมือนกันในการทดลองทั้งสอง

อย่างไรก็ตามหากเราพยายามประเมินคุณภาพของการแบ่งกลุ่มโดยใช้วิธี Russel-Rao เราจะได้รับความแม่นยำสูงสำหรับรูปภาพที่เหมาะสม (ใกล้ถึง 100%) ที่ทำให้เข้าใจผิดเพราะ "พิกเซลพื้นหลังระบุอย่างถูกต้องว่าเป็นพิกเซลพื้นหลัง" ความถูกต้องโดยรวมของชุดและพิกเซลพื้นหลังจะแสดงอย่างไม่เป็นสัดส่วนในชุดที่สอง วัตถุที่มีการทับซ้อนกันที่เราต้องการประเมินในการแบ่งส่วนทางการแพทย์มักจะเป็นจุดเล็ก ๆ ในพื้นหลังขนาดใหญ่ดังนั้นสิ่งนี้จึงไม่มีประโยชน์สำหรับเรา นอกจากนี้สิ่งนี้จะนำไปสู่ปัญหาหากเราพยายามเปรียบเทียบความถูกต้องของอัลกอริธึมการแบ่งเซกเมนต์หนึ่งกับอีกอันและการประเมินทั้งสองนั้นบนภาพที่มีขนาดแตกต่างกัน! (หรือเทียบเท่าในระดับที่แตกต่างกัน)การปรับขนาด / ขนาดของภาพที่ฝังไม่ควรสร้างความแตกต่างในการประเมินการแบ่งส่วนเมื่อเทียบกับมาตรฐานทองคำ! .

ในทางตรงกันข้ามสัมประสิทธิ์ tanimoto ไม่สนใจพิกเซลพื้นหลังทำให้ค่าคงที่ ดังนั้นเท่าที่สัมประสิทธิ์ tanimoto เกี่ยวข้องความคล้ายคลึงกันของทั้งสองชุดนี้จะเหมือนกันทำให้เป็นตัวชี้วัดความคล้ายคลึงกันที่มีประโยชน์มากขึ้นสำหรับเราที่จะใช้ในการประเมินคุณภาพของอัลกอริทึมการแบ่งส่วน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.