ทำความเข้าใจกับการสลายตัวของมูลค่าเอกพจน์ในบริบทของ LSI


9

คำถามของฉันโดยทั่วไปเกี่ยวกับการแยกแยะมูลค่าเอกเทศ (SVD) และโดยเฉพาะอย่างยิ่งในการทำดัชนีความหมายแฝง (LSI)

บอกว่าฉันมีที่มีความถี่ 5 คำสำหรับเอกสาร 7 ฉบับAword×document

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

ฉันได้รับตีนเป็ดเมทริกซ์สำหรับโดยใช้ SVD: TAA=UDVT

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

ใน1และ2มีการระบุว่า:

WordSim=USให้ เมทริกซ์ความเหมือนกันของคำโดยที่แถวของWโอRdSผมม.เป็นตัวแทนของคำที่แตกต่างกัน

WordSim = s$u %*% S

DโอSผมม.=SVTให้ เมทริกซ์ความคล้ายคลึงกันของเอกสารโดยที่คอลัมน์ของแสดงเอกสารที่แตกต่างกันDโอSผมม.

DocSim = S %*% t(s$v)

คำถาม:

  1. พีชคณิตทำไมเมทริกซ์ถึงความคล้ายคลึงกันของและมีคำอธิบายที่เข้าใจง่ายไหม?WโอRdSผมม.DโอSผมม.S
  2. จากตัวอย่าง R ที่ได้รับเราสามารถทำการนับจำนวนคำ / ความคล้ายคลึงกันที่เกิดขึ้นเองได้ง่ายๆเพียงแค่ดูที่และ (โดยไม่ใช้ความเหมือนโคไซน์หรือสัมประสิทธิ์สหสัมพันธ์ระหว่างแถว / คอลัมน์)WโอRdSผมม.DโอSผมม.

ป้อนคำอธิบายรูปภาพที่นี่


ฉันรู้น้อยมากเกี่ยวกับ LSI แต่ SVD ของเมทริกซ์เป็นหัวใจสำคัญของการลดมิติเชิงเส้นวิธีการแมปเช่นองค์ประกอบหลัก, biplots, การวิเคราะห์ความสอดคล้อง "กฏหมาย" หลักของ SVD คือ = การคาดการณ์แถวบนแกนหลัก และ = การฉายภาพคอลัมน์ของไปยังแกนหลัก เรียกอีกอย่างหนึ่งว่ามันคือ "ความคล้ายคลึงกัน" ค่าระหว่างจุด (แถวหรือคอลัมน์) และแกนหลัก ฉันคิดว่าไม่ว่าจะเป็นความคล้ายคลึงกันระหว่างจุดต่าง ๆ หรือไม่นั้นขึ้นอยู่กับบริบท AV=ยูDAA'ยู=VD'A
ttnphns

อ่า .. ฉันเห็นด้วยวิกิพีเดียว่า LSI เป็นเพียงการวิเคราะห์การติดต่อ (CA) มันดีกว่า. CA เป็นbiplotของตารางข้อมูลที่จัดทำขึ้นเป็นพิเศษ การฉายหรือพิกัดดังกล่าวข้างต้น - คุณใช้พวกมันเพื่อพล็อตจุดแถวและคอลัมน์ในพื้นที่ของแกนหลัก ความใกล้ชิดระหว่างแถวแถว, col-col และจุดแถวคอมีความสัมพันธ์กัน อย่างไรก็ตามเลย์เอาต์ของพล็อตนั้นขึ้นอยู่กับว่าคุณกระจายความเฉื่อย (ความแปรปรวน) ไปที่แถวและจุด col อย่างไร
ttnphns

@ttnphns ขอบคุณคุณสามารถให้การอ้างอิงกับ: " = การฉายภาพของแถว A บนแกนหลักและ = การฉายภาพคอลัมน์ A ไปยังแกนหลัก"? ฉันคิดว่ามันจะอธิบายสิ่งต่าง ๆ ให้ฉัน โดยแกนหลักคุณหมายถึงเวกเตอร์ไอเก็นที่สอดคล้องกับค่าเอกพจน์สูงสุด m ในหรือไม่? ฉันเจอเช่นกัน: "สำหรับ PCA เราไม่จำเป็นต้องคำนวณเวกเตอร์เอกพจน์ทางซ้าย" แต่ไม่สามารถเข้าใจได้ทั้งหมดว่าทำไมถึงเป็นเช่นนี้ AV=ยูDA'ยู=VD'D
Zhubarb

2
คำถามของคุณอาจได้รับการปรับปรุงโดยแก้ไขให้ถูกต้องเพื่อสะท้อนสิ่งที่ระบุในเอกสาร บนหน้า 22 มันกำหนดว่ามีรากที่สองของ , "จำกัด " เพื่อที่ใหญ่ที่สุด ดังนั้นทั้งและไม่เกี่ยวข้องและไม่มีการตีความว่าเป็น "เมทริกซ์ความคล้ายคลึงกัน" เมทริกซ์ที่เกี่ยวข้องแทนและSVสามารถใช้เพื่อสร้างการประมาณSDยูDDV'ยูSSV'A=ยูDV'ยู(S2)V'=(ยูS)(SV').
whuber

1
ผมถือว่าD=svd(A)$dใน R ผลตอบแทนรากของศูนย์ไม่ใช่ Eigen ค่าเพราะฉะนั้นผมใช้UDฉันไม่มีปัญหากับมิติการลดขนาดและฉันเข้าใจการประมาณอันดับที่ต่ำกว่าของ A สามารถเกิดขึ้นได้ตามที่อธิบาย ฉันพบคำตอบในลิงค์นี้บางส่วนตอบคำถามของฉัน ยูD
Zhubarb

คำตอบ:


2

การแยกตัวประกอบแบบเมทริกซ์โดยใช้ SVD จะแยกเมทริกซ์อินพุตออกเป็นสามส่วน:

  • เวกเตอร์เอกพจน์ทางซ้าย ยู. คอลัมน์แรกของเมทริกซ์นี้ระบุว่าแกนของแถวใดของเมทริกซ์อินพุทเปลี่ยนแปลงมากที่สุด ในกรณีของคุณคอลัมน์แรกจะบอกให้คุณทราบว่าคำใดแตกต่างกันมากที่สุด
  • ค่าเอกพจน์ D. เหล่านี้คือ scalings สิ่งเหล่านี้สัมพันธ์กับกันและกัน หากค่าแรกของD มีขนาดใหญ่เป็นสองเท่าของสองหมายความว่าเวกเตอร์เอกพจน์แรก (ใน ยู และ VT) อธิบายความแปรปรวนได้มากเป็นสองเท่าของเวกเตอร์เอกพจน์วินาที
  • เวกเตอร์เอกพจน์ที่ถูกต้อง VT. แถวแรกของเมทริกซ์นี้ระบุว่าแกนใดที่คอลัมน์ของอินพุตเมทริกซ์เปลี่ยนแปลงมากที่สุด ในกรณีของคุณแถวแรกจะบอกคุณว่าเอกสารใดบ้างที่แตกต่างกันมากที่สุด

เมื่อคำหรือเอกสารแตกต่างกันมันบ่งบอกว่าพวกเขามีความคล้ายคลึงกัน ตัวอย่างเช่นหากคำว่าแพทย์เกิดขึ้นบ่อยครั้งในเอกสารคำว่าพยาบาลและโรงพยาบาลก็จะเกิดขึ้นเช่นกัน นี่เป็นครั้งแรกที่เวกเตอร์เอกพจน์ซ้ายปรับขนาดคอลัมน์แรกของWโอRdSผมม.คุณสามารถตรวจสอบความถูกต้องของผลลัพธ์นี้ได้โดยดูที่ข้อมูลอินพุต ขอให้สังเกตว่าเมื่อพยาบาลเกิดขึ้นโรงพยาบาลก็จะเกิดขึ้นและเมื่อไม่เกิดขึ้นโรงพยาบาลก็จะไม่เกิดขึ้นเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.