วิธีหาน้ำหนักสำหรับมาตรการที่ไม่คุ้นเคย


9

ฉันต้องการเรียนรู้คุณลักษณะน้ำหนัก (อนุมาน) สำหรับการวัดความแตกต่างของฉันที่ฉันสามารถใช้สำหรับการจัดกลุ่ม

ฉันมีตัวอย่างของคู่ของวัตถุที่ "คล้ายกัน" (ควรอยู่ในกลุ่มเดียวกัน) รวมถึงตัวอย่างบางส่วนของคู่ของวัตถุที่ "ไม่เหมือนกัน" (ไม่ควรเหมือนกัน อยู่ในกลุ่มเดียวกัน) แต่ละวัตถุมีจำนวนคุณลักษณะ: ถ้าคุณต้องการเราสามารถคิดว่าแต่ละวัตถุเป็นเวกเตอร์ -dimensional ของคุณลักษณะโดยที่แต่ละคุณลักษณะนั้นเป็นจำนวนเต็มไม่เป็นลบ มีเทคนิคในการใช้ตัวอย่างของวัตถุที่คล้ายกัน / แตกต่างกันเพื่อประเมินจากน้ำหนักคุณลักษณะที่เหมาะสมที่สุดสำหรับการวัดที่แตกต่างกันหรือไม่?(ai,bi)(ci,di)d

ถ้ามันช่วยได้ในแอปพลิเคชันของฉันมันอาจจะสมเหตุสมผลที่จะมุ่งเน้นไปที่การเรียนรู้การวัดที่แตกต่างซึ่งเป็นมาตรฐาน L2 แบบถ่วงน้ำหนัก

d(x,y)=jαj(x[j]y[j])2.

ที่ไม่รู้จักน้ำหนักและควรเรียนรู้ (หรือการวัดความคล้ายคลึงโคไซน์แบบถ่วงน้ำหนักบางชนิดก็มีเหตุผลเช่นกัน) มีอัลกอริทึมที่ดีในการเรียนรู้น้ำหนักสำหรับการวัดเช่นนี้หรือไม่ หรือมีวิธีอื่นในการเรียนรู้วิธีวัดความเหมือน / ความแตกต่างที่ฉันควรพิจารณาαjαj

จำนวนมิติมีขนาดใหญ่มาก (เป็นพันหรือสูงกว่านั้นมาจากคุณสมบัติถุงคำ) อย่างไรก็ตามฉันมีตัวอย่างเป็นหมื่น ๆ ตัวอย่าง จากนั้นฉันมีวัตถุนับแสนที่ฉันต้องการจัดกลุ่มดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องสรุปจากตัวอย่างเพื่อเรียนรู้การวัดที่แตกต่างกัน

ฉันรวบรวมว่าสิ่งนี้ตกอยู่ในรูบริกของการจัดกลุ่มแบบกึ่งมีผู้ดูแลและดูเหมือนว่ามันอาจเป็นของหลอดเลือดดำ "การปรับความคล้ายคลึงกัน" แต่ฉันไม่สามารถหาคำอธิบายที่ชัดเจนของอัลกอริทึมที่จะใช้


ปัญหาที่น่าสนใจมาก ถ้าฉันทำให้ปัญหาของคุณถูกต้องคุณจะได้เมทริกซ์ที่ว่างเปล่าเป็นส่วนใหญ่พร้อมกับองค์ประกอบที่เข้ารหัสความคล้ายคลึงหรือความแตกต่างแบบคู่ องค์ประกอบบางอย่างถูกเติมเต็ม แต่ส่วนใหญ่หายไป ฉันจะพยายามกรอกเมทริกซ์นั้นก่อน (เช่นใช้การสมมติว่ามีอันดับต่ำ)
Vladislavs Dovgalecs

@ xeon นั่นเป็นวิธีหนึ่ง แต่ไม่สนใจคุณสมบัติ สมมติฐานของฉันคือคุณลักษณะบางอย่างมีความเกี่ยวข้องสูงและคุณลักษณะบางอย่างไม่เกี่ยวข้องกันและการมองที่ความแตกต่างในคุณลักษณะที่เกี่ยวข้องนั้นให้ตัวชี้วัดที่แตกต่างกันอย่างสมเหตุสมผล - แต่เราจะหาเมตริกนั้นได้อย่างไร เพียงแค่พยายามทำให้เมทริกซ์สมบูรณ์ตามที่คุณแนะนำให้ข้ามโครงสร้างนี้ไปดังนั้นจึงไม่ได้รับประโยชน์เต็มที่จากข้อมูลที่เรามี
DW

เป้าหมายสุดท้ายของคุณคืออะไร ไม่เพียงแค่เรียนรู้การวัดระยะทางใช่มั้ย คุณต้องการจัดหมวดหมู่จุดข้อมูลใช่ไหม
Vladislavs Dovgalecs

1
มีบางสิ่งที่ฉันคิดว่าคุณยังไม่ได้อธิบายอย่างชัดเจน คู่ตัวอย่างทั้งชุดสร้างไบนารีที่สมบูรณ์ (1 = คล้ายกัน; 0 = ไม่เหมือนกัน) เมทริกซ์หรือข้อมูลเซลล์บางส่วนหายไปหรือไม่? เมทริกซ์เป็น "noncontradictory" - นั่นคือตัวอย่างพาร์ติชันวัตถุลงในคลาสที่ไม่มีการเหลื่อม นอกจากนี้โปรดทราบว่าไม่มีวิธีการเรียนรู้ที่สามารถ (หรือควรใช้) แนะนำประเภทของการวัด (เช่น L2 หรือ L1 norm เป็นต้น) เนื่องจากตัวเลือกดังกล่าวเป็นทางทฤษฎี (ขึ้นอยู่กับประเภทของคุณลักษณะการกำหนดแนวคิดของคุณลักษณะ พื้นที่วิธีการจัดกลุ่มที่คุณจะใช้แล้ว)
ttnphns

นี่กว้างเกินไปที่จะตอบอย่างสมเหตุสมผล มีวรรณกรรมจำนวนมากที่อุทิศทั้งในการกำหนดน้ำหนักการเลือกและการเรียนรู้เกี่ยวกับฟังก์ชั่นทางไกล ฉันคิดว่าฉันเคยเห็นแม้แต่การประชุมเรื่องการเรียนรู้ที่คล้ายคลึงกันหรืออย่างนั้น!
มี QUIT - Anony-Mousse

คำตอบ:


6

นี่เป็นปัญหาใหญ่ในบางส่วนของการเรียนรู้ของเครื่อง ฉันไม่คุ้นเคยกับมันเท่าที่ฉันต้องการ แต่ฉันคิดว่าสิ่งเหล่านี้ควรช่วยให้คุณเริ่มต้นได้

เนื่องจากข้อมูลของคุณมีมิติสูง (และอาจเบาบาง?) คุณอาจไม่ต้องการอะไรที่ไม่เป็นเชิงเส้นเกินไป บางทีการวิเคราะห์องค์ประกอบในละแวกนั้นเป็นจุดเริ่มต้นที่ดีที่สุดใช่ไหม มันใกล้เคียงกับแนวคิดของการถ่วงน้ำหนักL2 บรรทัดฐานเหมือนที่คุณแนะนำในคำถามของคุณ


ใช่ข้อมูลเบาบาง มันดูมีประโยชน์มากจริงๆขอบคุณ มีตัวแปรของการวิเคราะห์องค์ประกอบพื้นที่ใกล้เคียงที่เมทริกซ์Q ถูก จำกัด ให้อยู่ในแนวทแยง (เท่ากัน Aเส้นทแยงมุม) (ดูเหมือนว่าสิ่งนี้อาจสอดคล้องกับระดับของมาตรการที่แตกต่างกันที่กล่าวถึงในคำถามของฉันด้านบน)
DW

ฉันไม่เห็นสาเหตุที่คุณไม่สามารถรวมข้อ จำกัด นั้นได้ ฉันไม่แน่ใจว่าแบบจำลองที่ได้นั้นมีชื่อหรือไม่
David J. Harris

1

วาง aiน้ำหนักเกี่ยวกับคุณลักษณะในการวัดความคล้ายคลึงกันของคุณจะเทียบเท่าเพื่อปรับชุดข้อมูลโดย1/wi.

กล่าวอีกนัยหนึ่งคุณจะถามเกี่ยวกับการประมวลผลและปรับขนาดข้อมูลล่วงหน้า นี่กว้างเกินไปที่จะตอบได้ดีในคำถามเดียว มองหา:

  • การเลือกคุณสมบัติ
  • คุณสมบัติน้ำหนัก
  • การฟื้นฟู
  • การลดขนาด
  • เทคนิคการฉายภาพอื่น ๆ
  • ฟังก์ชั่นระยะทางอื่น ๆ
  • "เรียนรู้ที่จะจัดอันดับ"

มีวรรณกรรมจำนวนมากและแม้กระทั่งแทร็กการประชุมที่อุทิศให้กับสิ่งนี้ วิธีการบางอย่างเพื่อให้คุณเริ่มต้น:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.