จะระบุคุณลักษณะที่สำคัญได้อย่างไร


15

สมมติว่าชุดของข้อมูลที่มีโครงสร้างแบบหลวม ๆ (เช่นตารางเว็บ / เปิดข้อมูลที่เชื่อมโยง) ซึ่งประกอบด้วยแหล่งข้อมูลจำนวนมาก ไม่มี schema ทั่วไปตามด้วยข้อมูลและแต่ละแหล่งสามารถใช้แอตทริบิวต์คำพ้องความหมายเพื่ออธิบายค่า (เช่น "สัญชาติ" กับ "bornIn")

เป้าหมายของฉันคือการค้นหาคุณลักษณะ "สำคัญ" ที่ "กำหนด" เอนทิตีที่พวกเขาอธิบาย ดังนั้นเมื่อฉันพบค่าเดียวกันสำหรับแอตทริบิวต์ดังกล่าวฉันจะรู้ว่าคำอธิบายทั้งสองมีแนวโน้มมากที่สุดเกี่ยวกับเอนทิตีเดียวกัน (เช่นบุคคลเดียวกัน)

ตัวอย่างเช่นแอตทริบิวต์ "lastName" นั้นเลือกปฏิบัติมากกว่าแอตทริบิวต์ "สัญชาติ"

ฉันจะค้นหาคุณลักษณะที่สำคัญกว่าตัวอื่นได้อย่างไร (ทางสถิติ)

วิธีแก้ปัญหาแบบไร้เดียงสาคือการใช้ IDF เฉลี่ยของค่าของแต่ละคุณลักษณะและทำให้สิ่งนี้เป็นปัจจัย "สำคัญ" ของแอตทริบิวต์ วิธีที่คล้ายกันคือการนับจำนวนค่าที่แตกต่างกันปรากฏสำหรับแต่ละแอตทริบิวต์

ฉันได้เห็นคุณลักษณะคำศัพท์หรือการเลือกคุณลักษณะในการเรียนรู้ของเครื่อง แต่ฉันไม่ต้องการทิ้งคุณลักษณะที่เหลืออยู่ฉันแค่ต้องการให้น้ำหนักที่สูงขึ้นแก่สิ่งที่สำคัญที่สุด

คำตอบ:


16

ทางออกที่เป็นไปได้คือการคำนวณการได้รับข้อมูลที่เกี่ยวข้องกับแต่ละคุณลักษณะ:

ได้รับข้อมูล

เริ่มแรกคุณมีชุดข้อมูลทั้งหมดและคำนวณการรับข้อมูลของแต่ละรายการ รายการที่ได้รับข้อมูลที่ดีที่สุดคือสิ่งที่คุณควรใช้เพื่อแบ่งพาร์ติชั่นชุดข้อมูล (พิจารณาจากมูลค่าของรายการ) จากนั้นทำการคำนวณแบบเดียวกันสำหรับแต่ละรายการ (แต่รายการที่เลือก) และเลือกรายการที่อธิบาย / แยกความแตกต่างจากชุดข้อมูลของคุณได้ดีที่สุด

มีการนำไปใช้งานสำหรับการคำนวณดังกล่าว ต้นไม้การตัดสินใจมักใช้การเลือกคุณสมบัติตามคุณสมบัติที่ได้รับข้อมูลที่ดีที่สุด คุณอาจใช้โครงสร้างต้นไม้ที่ได้เพื่อค้นหารายการสำคัญเหล่านี้


เอนโทรปีนี้คืออะไร? ฉันสับสน.
Valentas

ขออภัยสำหรับการตอบกลับปลาย. การได้รับข้อมูลคือการลดข่าวสารโดยรวม ดังนั้นพวกเขาจึงเป็นแนวคิดเดียวกัน ดูคำจำกัดความของ "entropy" และ "data gain"
รูเบนส์

7

จริงๆแล้วมีคำถามมากกว่าหนึ่งข้อที่จะตอบคำถามที่นี่:

  1. วิธีการทำงานกับข้อมูล schemaless / loose / หายไป
  2. วิธีติดป้ายกำกับบุคคล (จากสิ่งที่ฉันเข้าใจโดยไม่ได้รับอนุญาต) และสร้างตัวระบุ
  3. วิธีการฝึกอบรมระบบของคุณเพื่อให้สามารถบอกคุณลักษณะที่คุณควรใช้เพื่อระบุตัวบุคคล

ดังที่รูเบนส์กล่าวไว้คุณสามารถใช้วิธีการต้นไม้ตัดสินใจโดยเฉพาะป่าสุ่มสำหรับการคำนวณคุณลักษณะที่สำคัญที่สุดบนพื้นฐานของการได้รับข้อมูลหากคุณพบวิธีในการระบุวิธีติดป้ายชื่อบุคคลแล้ว

อย่างไรก็ตามหากคุณไม่มีข้อมูลป้ายกำกับคุณอาจใช้มุมมองของผู้เชี่ยวชาญเพื่อเลือกคุณลักษณะเบื้องต้น หลังจากนั้นคุณทำการจัดหมวดหมู่ที่ไม่ได้รับการดูแลเพื่อดึงฉลากของคุณ สุดท้ายคุณสามารถเลือกสาขาที่สำคัญที่สุดโดยใช้สุ่มป่าหรือวิธีการอื่น ๆ เช่นคชกรรมเครือข่ายความเชื่อ

เพื่อให้บรรลุผลทั้งหมดคุณต้องมีชุดข้อมูลที่สมบูรณ์ หากชุดข้อมูลของคุณหลวมคุณจะต้องค้นหาด้วยตนเองหรือด้วยวิธีการแบบฮิวริสติกเพื่อหาคู่ที่ระบุชื่อเดียวกัน ยิ่งไปกว่านั้นคุณสามารถใช้เทคนิคการใส่ข้อมูลเช่นวิธีเพิ่มความคาดหวังและทำให้ชุดข้อมูลของคุณสมบูรณ์ หรือคุณสามารถทำงานร่วมกับเครือข่ายแบบเบย์และสามารถปล่อยให้ฟิลด์ที่หายไปเหมือนเดิม


2

เทคนิคออกมีมากมาย หากระบบข้อมูลของคุณมีแอตทริบิวต์การตัดสินใจหรือป้ายกำกับที่แนบมาวิธีที่ดีที่สุดที่ฉันพบคือการใช้การลดคุณสมบัติตามชุดคร่าวๆ ตรวจสอบอัลกอริทึมการลดอย่างรวดเร็วโดย Qiang Shen และ Richard Jensen

หากคุณมีข้อมูลที่ไม่มีป้ายกำกับตรวจสอบวิเคราะห์องค์ประกอบหลัก (PCA)


0

เพียงเพื่อประโยชน์ของมันหลังจากเกือบ 5 ปีฉันคิดว่าฉันอาจแบ่งปันสิ่งที่ฉันใช้จริงในปริญญาเอกของฉันเพื่อแก้ปัญหานี้ซึ่งไม่ใช่เรื่องใหม่หรือการมีส่วนร่วมของปริญญาเอกของฉันในกรณีที่มันช่วยคนอื่น

มาตรการที่เราใช้สำหรับการเลือกคุณลักษณะที่สำคัญคือค่าเฉลี่ยฮาร์โมนิ (aka F-วัด) ระหว่างและsupportdiscriminability

การสนับสนุนแอตทริบิวต์ p นั้นโดยสังเขปบ่อยครั้งที่เอนทิตีในชุดข้อมูลของเรามีค่าสำหรับแอตทริบิวต์นี้:

support(p) = |instances(p)|/ |D|, 

โดยที่ instance (p) เป็นชุดของเอนทิตีที่มีค่าสำหรับ p และ | D | คือจำนวนเอนทิตีในชุดข้อมูล D

discriminability(p) = |values(p)| / |instances(p)|, 

โดยที่ values ​​(p) คือชุดของค่า (แตกต่างกันเนื่องจากเป็นชุด) ที่แอตทริบิวต์ p สามารถมีในชุดข้อมูลของเรา นั่นคือการทำให้เป็นมาตรฐานด้วยจำนวนเอนทิตีที่มีค่าจริงสำหรับแอตทริบิวต์นี้

กล่าวอีกนัยหนึ่งการสนับสนุนวัดความถี่ที่ p ปรากฏในชุดข้อมูลและ discriminability บ่งบอกถึงความใกล้เคียงกับการเป็น "คีย์" คุณลักษณะนี้

สำหรับรายละเอียดเพิ่มเติมคุณสามารถอ่านวิทยานิพนธ์ของฉัน (มาตรา 4.3.2) หรือคุณสามารถหาฉบับย่อในเอกสาร EDBT 2019ของเรา(ส่วนที่ 2)

ขอบคุณสำหรับคำตอบที่สร้างสรรค์ของคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.