ความหมายของคุณสมบัติแฝง?


24

ฉันกำลังเรียนรู้เกี่ยวกับเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันเห็นคำที่latent featuresเกิดขึ้นบ่อยเกินไป แต่ฉันไม่สามารถเข้าใจความหมายของมัน ฉันรู้ว่าฟีเจอร์คืออะไร แต่ฉันไม่เข้าใจความคิดของฟีเจอร์แฝง โปรดอธิบายได้ไหม หรืออย่างน้อยก็ชี้ให้ฉันไปที่กระดาษ / สถานที่ที่ฉันสามารถอ่านเกี่ยวกับมันได้?


ตัวแปรแฝงอนุญาตให้แสดงแบบจำลองที่มีประสิทธิภาพมากขึ้นในแง่สิ่งที่สามารถทำแบบจำลอง มันขึ้นอยู่กับข้อมูลและอัลกอริทึมในการกำหนดค่าของพวกเขา กล่าวอีกนัยหนึ่งตัวแปรแฝงจะเหมือนกับ "ขั้นตอน" ที่เชื่อมช่องว่างระหว่างตัวแปรที่คุณสังเกตเห็นกับการทำนายที่ต้องการ ยิ่ง "ช่องว่าง" ที่กว้างขึ้นนี้ยิ่งมีตัวแปรแฝงที่มีประโยชน์มากขึ้นเท่านั้น
Vladislavs Dovgalecs

คำตอบ:


25

ด้วยค่าใช้จ่ายในการลดความซับซ้อนมากเกินไปคุณสมบัติแฝงคือคุณสมบัติ 'ซ่อน' เพื่อแยกความแตกต่างจากคุณสมบัติที่สังเกต คุณสมบัติแฝงถูกคำนวณจากคุณสมบัติที่สังเกตได้โดยใช้การแยกตัวประกอบแบบเมทริกซ์ ตัวอย่างเช่นการวิเคราะห์เอกสารข้อความ 'word' ที่ดึงมาจากเอกสารเป็นคุณสมบัติ หากคุณแยกตัวประกอบข้อมูลของคำคุณสามารถค้นหา 'หัวข้อ' โดยที่ 'หัวข้อ' คือกลุ่มคำที่มีความเกี่ยวข้องทางความหมาย การแยกตัวประกอบเมทริกซ์ระดับต่ำจะแมปหลายแถว (คุณลักษณะที่สังเกตได้) กับชุดของแถวที่เล็กกว่า ในการทำอย่างละเอียดเอกสารสามารถสังเกตคุณสมบัติ (คำ) เช่น [เรือใบเรือใบเรือยอชท์เรือกลไฟเรือลาดตระเวน] ซึ่งจะ 'แยกตัวประกอบ' ให้เป็นคุณลักษณะแฝง (หัวข้อ) เช่น 'เรือ' และ 'เรือ'

[เรือใบเรือใบเรือยอชท์เรือกลไฟเรือลาดตระเวน ... ] -> [เรือเรือ]

แนวคิดพื้นฐานคือคุณลักษณะที่แฝงอยู่นั้นเกี่ยวข้องกับการรวมของ 'คุณสมบัติ' ที่สังเกตได้ในเชิงความหมาย เมื่อคุณมีคุณสมบัติสังเกตขนาดใหญ่ขนาดสูงและมีเสียงดังมันทำให้รู้สึกถึงการสร้างตัวจําแนกของคุณเกี่ยวกับคุณสมบัติที่แฝงอยู่

แน่นอนว่านี่เป็นคำอธิบายที่เข้าใจง่ายเพื่ออธิบายแนวคิด คุณสามารถอ่านรายละเอียดเกี่ยวกับการจัดสรร Latent Dirichlet (LDA) หรือแบบจำลองการวิเคราะห์ความหมายแฝงแฝง (pLSA) สำหรับคำอธิบายที่ถูกต้อง


"คุณสมบัติแฝงคำนวณจากคุณสมบัติที่สังเกตได้โดยใช้การแยกตัวประกอบแบบเมทริกซ์ การคำนวณโดยใช้การแยกตัวประกอบเมทริกซ์เป็นเงื่อนไขที่จำเป็นสำหรับปริมาณที่ต้องพิจารณาว่าแฝงอยู่หรือไม่
flow2k

5

สมมติว่าคุณมี(MxN)เมทริกซ์กระจัดกระจายที่M- หมายถึงจำนวนผู้ใช้ที่ให้คำแนะนำและNเป็นจำนวนรายการที่แนะนำ องค์ประกอบของเมทริกซ์คือคำแนะนำที่ได้รับโดยองค์ประกอบบางอย่างขาดหายไปเช่นถูกคาดการณ์xผมJ

จากนั้นเมทริกซ์ของคุณสามารถ "แยกตัวประกอบ" ผ่านการแนะนำK"ปัจจัยแฝง" ดังนั้นแทนที่จะมีหนึ่งเมทริกซ์คุณมีสอง: (MxK)- สำหรับผู้ใช้และ(KxN)- สำหรับไอเท็มการคูณเมทริกซ์ซึ่งสร้างเมทริกซ์ดั้งเดิม

สุดท้ายสำหรับคำถามของคุณ: คุณสมบัติแฝงในการแยกตัวประกอบเมทริกซ์คืออะไร เป็นฟีเจอร์ที่ไม่รู้จัก ( K) ในรสนิยมของผู้ใช้และรายการที่แนะนำดังนั้นเมื่อเมทริกซ์สองตัวนี้คูณพวกเขาสร้างเมทริกซ์ของคำแนะนำที่รู้จัก น้ำหนักเฉพาะ (จากการตั้งค่าของผู้ใช้ที่มีต่อคุณลักษณะเฉพาะและจำนวนของคุณสมบัติในรายการใดรายการหนึ่ง) จะถูกกำหนดผ่านทางที่เรียกว่าอัลจิกาเรเตอร์สแตติกกำลังสองน้อยที่สุดซึ่งคุณสามารถอ่านเพิ่มเติมได้ที่นี่


3

สำหรับฉันมันดูเหมือนว่าคุณสมบัติที่แฝงอยู่เป็นคำที่ใช้เพื่ออธิบายเกณฑ์สำหรับการจัดประเภทเอนทิตีตามโครงสร้างของพวกเขาในคำอื่น ๆ โดยคุณสมบัติ (ลักษณะ) พวกเขามีแทนที่จะเป็นชั้นเรียนของพวกเขา ความหมายของคำว่า "แฝง" ที่นี่น่าจะคล้ายกับความหมายในสังคมศาสตร์ที่ซึ่งตัวแปรแฝงคำที่นิยมมาก ( http://en.wikipedia.org/wiki/Latent_variable ) หมายถึงตัวแปรที่ไม่สามารถสังเกตเห็นได้ (แนวคิด)

ส่วน "บทนำ" ในเอกสารต่อไปนี้ให้คำอธิบายที่ดีเกี่ยวกับความหมายของคุณสมบัติแฝงและใช้ในการสร้างแบบจำลองปรากฏการณ์ทางสังคมศาสตร์: http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- การเชื่อมโยง


ฉันอ่านบทนำในเอกสารที่คุณอ้างถึง แต่ไม่พบว่ามีประโยชน์มากในการทำความเข้าใจแนวคิดของคุณลักษณะที่ซ่อนเร้น
จะ

@ Will จะแนะนำแหล่งที่มาพร้อมคำอธิบายที่ดีกว่า
Aleksandr Blekh

1
ฉันชอบสิ่งนี้มาก: tcts.fpms.ac.be/asr/project/sprach/report97/node162.html
Will

@ จะขอบคุณ ฉันเห็นด้วย - เป็นคำแนะนำ / คำอธิบายที่ดีงาม (แต่ฉันแน่ใจว่ามีคนดีมากมายกระจายอยู่ที่นั่น)
Aleksandr Blekh

1

อีกตัวอย่างหนึ่งพิจารณากรณีของผู้ใช้ในการจัดเรตติ้งภาพยนตร์เช่นการตั้งค่า Netflix นี่จะเป็นเมทริกซ์กระจัดกระจายขนาดใหญ่ซึ่งยากต่อการประมวลผล

โปรดทราบว่าผู้ใช้แต่ละคนจะมีการตั้งค่าเฉพาะเช่นภาพยนตร์ sci-fi หรือภาพยนตร์รัก ฯลฯ ดังนั้นแทนที่จะเก็บเรตติ้งภาพยนตร์ทั้งหมดเราสามารถเก็บคุณสมบัติแฝงเดียวเช่นหมวดหมู่ภาพยนตร์ที่เป็นของประเภทต่าง ๆเช่น sci-fi หรือความโรแมนติกแล้วแต่จำนวนรสนิยมของเขาสำหรับแต่ละหมวดหมู่ สิ่งเหล่านี้เรียกว่าคุณลักษณะแฝงซึ่งรวบรวมสาระสำคัญของรสนิยมของเขาแทนที่จะเก็บรายชื่อภาพยนตร์ทั้งหมด

แน่นอนว่านี่จะเป็นการประมาณ แต่ด้านพลิกคุณมีน้อยมากที่จะเก็บ

ยังไม่มีข้อความ* * * *ยังไม่มีข้อความยังไม่มีข้อความ* * * *11* * * *ยังไม่มีข้อความยังไม่มีข้อความ22ยังไม่มีข้อความ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.