SVD ของเมทริกซ์ที่สัมพันธ์กันควรเป็นสารเติมแต่ง แต่ดูเหมือนจะไม่เป็นเช่นนั้น


29

ฉันแค่พยายามที่จะทำซ้ำการอ้างสิทธิ์ที่ทำในกระดาษต่อไปนี้การค้นหาความสัมพันธ์ Biclusters จาก Gene Expression Dataซึ่งก็คือ:

โจทย์ 4. ถ้า J จากนั้นเรามี:XผมJ=RผมCJT

ผม. ถ้าเป็นคนขี้เกียจที่สมบูรณ์แบบที่มีแบบจำลองเสริมแล้วX I Jก็เป็นคนที่สองที่สมบูรณ์แบบที่มีความสัมพันธ์กับคอลัมน์; ii ถ้าC Jเป็น bicluster สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็น bicluster สมบูรณ์แบบด้วยความสัมพันธ์ในแถว; iii หากทั้งสองR ฉันและC Jมี biclusters สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็นที่สมบูรณ์แบบความสัมพันธ์ biclusterRผมXผมJ
CJXผมJ
RผมCJXผมJ

ข้อเสนอเหล่านี้สามารถพิสูจน์ได้อย่างง่ายดาย ...

... แต่แน่นอนพวกเขาไม่ได้พิสูจน์

ฉันกำลังใช้ตัวอย่างง่ายๆบางอย่างในกระดาษรวมทั้ง base + code R แบบกำหนดเองเพื่อดูว่าฉันสามารถแสดงข้อเสนอนี้ได้หรือไม่

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(จากตารางที่ 1F)

รหัสที่กำหนดเองเพื่อแปลงรูปแบบมาตรฐาน X = svd เป็นX = R C Tตามที่อธิบายไว้ในกระดาษ:ยูdVTX=RCT

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

ใช้ฟังก์ชันนี้กับชุดข้อมูล:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

นอกเสียจากว่าฉันจะเห็นภาพหลอนเมทริกซ์นี้จะไม่เติมแต่งแม้ว่า corbic จะแสดงความสัมพันธ์ที่สมบูรณ์แบบระหว่างแถวและคอลัมน์ ดูเหมือนจะแปลกที่ตัวอย่างที่พวกเขาให้นั้นแสดงทรัพย์สินที่พวกเขาบอกว่าควร ... เว้นแต่ว่าฉันขาดขั้นตอนการแปลงก่อนหรือหลังบางอย่าง


3
สวัสดี, zzk: มันอาจช่วยให้คำนิยามสั้น ๆ ของนักปั่นจักรยานที่สมบูรณ์แบบได้ที่นี่เนื่องจาก (a) ไม่ใช่ทุกคนที่สามารถเข้าถึงกระดาษและ (b) อาจหมายถึงสองสิ่งที่แตกต่างกันขึ้นอยู่กับความคิดทั่วไป
พระคาร์ดินัล

1
โดยพื้นฐานแล้วค่าสัมบูรณ์ของคะแนนความสัมพันธ์แบบคู่ระหว่างทุกแถวกับแถวและคอลัมน์กับคอลัมน์ของเมทริกซ์คือ 1
zzk

3
ฉันสับสน ไม่ได้4iiiพูดอย่างนั้นP(R), P(C), additivity => P(X)เหรอ? (ฉันตัวย่อ " Yเป็นคนที่สองที่สมบูรณ์แบบ" P(Y)) ดูเหมือนว่าคุณกำลังไปในทิศทางอื่นโดยคาดว่าจะเพิ่มความไวจากเงื่อนไขอื่น ๆ โปรดอธิบายเพิ่มเติม
Stumpy Joe Pete

Stumpy - ฉันคาดหวังว่าการเพิ่มค่าใน R & C เพราะฉันรู้ว่าเมทริกซ์ที่ฉันให้ (corbic) แสดงความสัมพันธ์ที่สมบูรณ์แบบ - มันเป็นจักรยานที่สมบูรณ์แบบตามที่กำหนดไว้ในกระดาษ
zzk

6
ฉันยังคงคิดว่าคุณกำลังไปในทิศทางที่ผิด 4iii ไม่ได้บอกว่าถ้าXเป็นจักรยานที่มีความสัมพันธ์กันอย่างสมบูรณ์RและCจะเป็นสารเติมแต่ง ความหมายไปในทิศทางอื่น ตอนนี้ฉันยอมรับว่ามันแปลกที่ตัวอย่างที่พวกเขาให้ดูเหมือนจะไม่พูดกับทฤษฎีบทที่อยู่ถัดไป อาจมีข้อมูลอื่นที่คุณสามารถให้ข้อมูลได้บ้าง? มีทฤษฎีบทอื่นที่ไปในทิศทางอื่นหรือไม่?
Stumpy Joe Pete

คำตอบ:


2

โปรดทราบว่า 'bicluster' ในบทความนี้อ้างถึงเซตย่อยของเมทริกซ์"เซตย่อยของแถวที่แสดงพฤติกรรมคล้ายกันในส่วนย่อยของคอลัมน์หรือในทางกลับกัน" การจำแนกชนิดของจักรยานเป็นสิ่งปกติในอัลกอริธึมการทำเหมืองข้อมูล ผู้เขียนกำลังนำเสนอโมเดล 'จักรยานสองคม' ซึ่งมีความสัมพันธ์ซึ่งแตกต่างจากรุ่นก่อนหน้าที่ใช้เพื่อระบุชุดย่อยเหล่านี้ ฉันไม่รู้อะไรเลยเกี่ยวกับพันธุศาสตร์ แต่ความสับสนที่นี่ดูค่อนข้างชัดเจนและมาจากสองแหล่ง:

1. การใช้คำว่า 'สารเติมแต่ง'

ไม่มีสิ่งใดในเอกสารนี้ที่บอกเป็นนัยว่าเมทริกซ์สองตัวที่ให้ไว้ในฟังก์ชันของเอาต์พุตควรเป็น 'สารเติมแต่ง' ถ้า 'เสริม' จะเพิ่มสิ่งที่ตรงกันข้ามโดย OP ผู้เขียนไม่ได้ใช้สารเติมแต่งคำในแง่นี้ พวกเขาหมายถึงการได้รับ bicluster ด้วยแบบจำลองการเติม "ซึ่งแต่ละแถวหรือคอลัมน์สามารถรับได้โดยการเพิ่มค่าคงที่ไปยังแถวหรือคอลัมน์อื่น"

2. การนำเสนอข้อผิดพลาด 4.3

RผมCJXผมJXผมJRผมCJRผมCJ ควรเป็นสารเติมแต่งผกผันหรือว่าควรจะพอดีกับแบบจำลองสารเติมแต่ง

* นอกจากนี้ข้อมูลตัวอย่างมาจากส่วนที่แตกต่างอย่างสิ้นเชิงของกระดาษกว่าข้อเสนอที่กล่าวถึงในคำถาม


เป็นเรื่องดีที่ได้เห็น [โดยไกล] คำถามที่ไม่ได้รับการตอบกลับมากที่สุดในเว็บไซต์ของเราในที่สุดก็ตอบ! +1 แม้ว่าฉันจะไม่ได้อ่านกระดาษและไม่สามารถรับรองได้ว่าสิ่งที่คุณเขียนนั้นถูกต้อง แต่มันดูสมเหตุสมผล
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.