สถิติและข้อมูลขนาดใหญ่ svd

3

Cholesky กับ eigendecomposition สำหรับการวาดตัวอย่างจากการแจกแจงปกติหลายตัวแปร

ผมอยากจะวาดตัวอย่าง ) วิกิพีเดียแสดงให้เห็นว่าจะใช้CholeskyหรือEigendecompositionคือ Σ = D 1 D T 1 หรือ Σ = Q Λ Q Tx∼N(0,Σ)x∼N(0,Σ)\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)Σ=D1DT1Σ=D1D1T \mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T Σ=QΛQTΣ=QΛQT \mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T และด้วยเหตุนี้ตัวอย่างสามารถวาดผ่าน: หรือ x = Q √x=D1vx=D1v \mathbf{x} = \mathbf{D}_1 \mathbf{v} โดยที่ v∼N(0,I)x=QΛ−−√vx=QΛv \mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v} v∼N(0,I)v∼N(0,I) \mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right) …

16 normal-distribution random-generation svd cholesky

2

เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด

ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ

16 clustering pca dimensionality-reduction text-mining svd

1

Eigenfunctions ของ adjacency matrix ของอนุกรมเวลา?

พิจารณาอนุกรมเวลาง่ายๆ > tp <- seq_len(10) > tp [1] 1 2 3 4 5 6 7 8 9 10 เราสามารถคำนวณเมทริกซ์ adjacency สำหรับอนุกรมเวลานี้ซึ่งเป็นตัวแทนของการเชื่อมโยงชั่วคราวระหว่างกลุ่มตัวอย่าง ในการคำนวณเมทริกซ์นี้เราเพิ่มไซต์จินตภาพในเวลา 0 และลิงก์ระหว่างการสังเกตนี้และการสังเกตจริงครั้งแรก ณ เวลา 1 เรียกว่าลิงก์ 0 ระหว่างเวลา 1 และเวลา 2 ลิงก์คือลิงค์ 1 และอื่น ๆ เนื่องจากเวลาเป็นกระบวนการกำหนดทิศทางเว็บไซต์จึงเชื่อมต่อกับลิงก์ (ที่ได้รับผลกระทบ) ซึ่งเป็น "อัปสตรีม" ของไซต์ ดังนั้นทุกไซต์เชื่อมต่อกับลิงค์ 0 แต่ลิงค์ 9 เชื่อมต่อกับไซต์ 10 เท่านั้น มันเกิดขึ้นชั่วคราวหลังจากแต่ละไซต์ยกเว้นไซต์ …

15 time-series matrix-decomposition svd

1

GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมดหรือไม่

ฉันเจอบทความโดยHervé Abdiเกี่ยวกับ SVD ทั่วไป ผู้เขียนกล่าวถึง: SVD ทั่วไป (GSVD) จะสลายเมทริกซ์สี่เหลี่ยมและคำนึงถึงข้อ จำกัด ทางบัญชีที่กำหนดในแถวและคอลัมน์ของเมทริกซ์ GSVD ให้การประมาณค่าน้ำหนักน้อยที่สุดแบบทั่วไปของเมทริกซ์ที่กำหนดโดยเมทริกซ์อันดับที่ต่ำกว่าดังนั้นด้วยการเลือกข้อ จำกัด ที่เพียงพอ GSVD ใช้เทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นความสัมพันธ์แบบแคนนอน, การวิเคราะห์เชิงเส้น -regression) ฉันสงสัยว่า GSVD เกี่ยวข้องกับเทคนิคหลายตัวแปรเชิงเส้นทั้งหมด (เช่นสหสัมพันธ์แบบแคนนอน, การวิเคราะห์จำแนกเชิงเส้น, การวิเคราะห์เชิงเส้น, การวิเคราะห์จดหมาย, PLS-regression)

15 multivariate-analysis svd

3

อะไรคือความแตกต่างระหว่างการวิเคราะห์ความหมายแฝง (LSA), ดัชนีความหมายแฝง (LSI) และการสลายตัวของค่าเอกพจน์ (SVD)?

ข้อตกลงเหล่านี้มีอยู่มากมาย แต่ฉันอยากจะรู้ว่าคุณคิดว่าความแตกต่างคืออะไรถ้ามี ขอบคุณ

15 pca text-mining svd

3

มีอัลกอริธึมที่รวดเร็วสำหรับการคำนวณ SVD ที่ถูกตัดทอนหรือไม่

อาจจะปิดหัวข้อที่นี่ แต่มีอยู่หลายคน ( หนึ่ง , สอง ) คำถามที่เกี่ยวข้องแล้ว สำรวจวรรณกรรม (หรือการค้นหา google สำหรับ Truncated SVD Algorithms) เปิดเอกสารจำนวนมากที่ใช้ SVD ที่ถูกตัดทอนในรูปแบบต่าง ๆ และเรียกร้อง (น่าหงุดหงิดมักไม่มีการอ้างอิง) ว่ามีอัลกอริธึมที่รวดเร็วสำหรับการคำนวณ แต่ไม่มีใคร ดูเหมือนว่าจะชี้ไปที่อัลกอริธึมเหล่านั้น สิ่งเดียวที่ฉันสามารถหาเป็นหนึ่งในขั้นตอนวิธีการสุ่มที่ใช้ในห้องสมุด redSVD สิ่งที่ฉันต้องการเห็นคือชุดของอัลกอริธึมที่แน่นอนและไม่แน่นอนเหมาะสำหรับการทำความเข้าใจว่าระบบทำงานอย่างไร ใครบ้างมีการอ้างอิงที่ดีสำหรับสิ่งนี้หรือไม่?

14 algorithms svd numerics

2

สำหรับเมทริกซ์แบบสุ่ม SVD ไม่ควรอธิบายอะไรเลยหรือ ผมทำอะไรผิดหรือเปล่า?

ถ้าฉันสร้างเมทริกซ์ 2 มิติที่ประกอบด้วยข้อมูลสุ่มทั้งหมดฉันคาดว่าส่วนประกอบ PCA และ SVD จะไม่อธิบายอะไรเลย แต่ดูเหมือนว่าคอลัมน์ SVD แรกจะปรากฏขึ้นเพื่ออธิบาย 75% ของข้อมูล วิธีนี้สามารถเป็นไปได้จะเป็นอย่างไร? ผมทำอะไรผิดหรือเปล่า? นี่คือพล็อต: นี่คือรหัส R: set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), nrow=100,ncol=100) svd1 <- svd(m, LINPACK=T) par(mfrow=c(1,4)) image(t(m)[,nrow(m):1]) plot(svd1$d,cex.lab=2, xlab="SVD Column",ylab="Singluar Value",pch=19) percentVarianceExplained = svd1$d^2/sum(svd1$d^2) * 100 plot(percentVarianceExplained,ylim=c(0,100),cex.lab=2, xlab="SVD Column",ylab="Percent of variance explained",pch=19) cumulativeVarianceExplained = cumsum(svd1$d^2/sum(svd1$d^2)) * 100 plot(cumulativeVarianceExplained,ylim=c(0,100),cex.lab=2, …

13 r pca svd

1

เหตุใดจึงมีการสลายตัว eigen และ svd ของเมทริกซ์ความแปรปรวนร่วมที่อิงจากข้อมูลที่กระจัดกระจายซึ่งให้ผลลัพธ์ที่แตกต่างกัน?

ฉันกำลังพยายามสลายเมทริกซ์ความแปรปรวนร่วมโดยยึดตามชุดข้อมูลที่กระจัดกระจาย / มีความสุข ฉันสังเกตเห็นว่าผลรวมของแลมบ์ดา (อธิบายความแปรปรวน) ตามที่คำนวณด้วยsvdกำลังถูกขยายด้วยข้อมูลที่มีความสุขมากขึ้น โดยไม่มีช่องว่างsvdและeigenผลลัพธ์ที่เหมือนกัน ดูเหมือนจะไม่เกิดขึ้นกับการeigenสลายตัว ฉันโน้มตัวไปใช้svdเพราะค่าแลมบ์ดาเป็นบวกอยู่เสมอ แต่แนวโน้มนี้น่าเป็นห่วง มีการแก้ไขบางอย่างที่ต้องนำไปใช้หรือฉันควรหลีกเลี่ยงsvdปัญหาดังกล่าวทั้งหมด ###Make complete and gappy data set set.seed(1) x <- 1:100 y <- 1:100 grd <- expand.grid(x=x, y=y) #complete data z <- matrix(runif(dim(grd)[1]), length(x), length(y)) image(x,y,z, col=rainbow(100)) #gappy data zg <- replace(z, sample(seq(z), length(z)*0.5), NaN) image(x,y,zg, col=rainbow(100)) ###Covariance matrix decomposition …

12 r svd eigenvalues

3

SVD ของเมทริกซ์ที่มีค่าหายไป

สมมติว่าฉันมีเมทริกซ์การแนะนำสไตล์ Netflix และฉันต้องการสร้างแบบจำลองที่ทำนายการจัดอันดับภาพยนตร์ในอนาคตสำหรับผู้ใช้ที่กำหนด การใช้วิธีการของ Simon Funk เราจะใช้การไล่ระดับสีแบบสุ่มสุ่มเพื่อลดบรรทัดฐาน Frobenius ระหว่างเมทริกซ์เต็มและเมทริกซ์ item-by-item * user-by-user ในทางปฏิบัติผู้คนทำอะไรกับค่าที่หายไปจากเมทริกซ์การแนะนำซึ่งเป็นจุดรวมของการคำนวณ ฉันเดาจากการอ่านโพสต์บล็อกของ Simon คือเขาใช้คำที่ไม่หายไปเท่านั้น (ซึ่งประกอบด้วย (พูด) ~ 1% ของเมทริกซ์คำแนะนำ) เพื่อสร้างแบบจำลอง อีก 99% ของเมทริกซ์? ในทางปฏิบัติคุณจะข้ามค่าเหล่านั้นทั้งหมดหรือไม่? หรือคุณสรุปให้มากที่สุดเท่าที่จะทำได้ก่อนที่จะทำการไล่ระดับสีแบบสุ่มสุ่ม? แนวปฏิบัติที่ดีที่สุดมาตรฐานบางประการสำหรับการจัดการกับค่าที่หายไปคืออะไร

12 svd recommender-system

1

ความแตกต่างระหว่างการใช้งาน scikit-Learn ของ PCA และ TruncatedSVD

ฉันเข้าใจความสัมพันธ์ระหว่างการวิเคราะห์องค์ประกอบหลักและการสลายตัวของค่าเอกพจน์ในระดับพีชคณิต / แน่นอน คำถามของฉันเป็นเรื่องเกี่ยวกับการดำเนินงาน scikit เรียนรู้ เอกสารกล่าวว่า: " [TruncatedSVD] คล้ายกับ PCA มาก แต่ทำงานกับเวกเตอร์ตัวอย่างโดยตรงแทนที่จะเป็นเมทริกซ์ความแปรปรวนร่วม " ซึ่งจะสะท้อนความแตกต่างพีชคณิตระหว่างทั้งสองวิธี อย่างไรก็ตามภายหลังได้กล่าวว่า: " ตัวประมาณนี้ [TruncatedSVD] รองรับสองอัลกอริทึม: ตัวแก้ SVD แบบสุ่มที่รวดเร็วและอัลกอริทึม“ ไร้เดียงสา” ที่ใช้ ARPACK เป็น eigensolver บน (X * XT) หรือ (XT * X) มีประสิทธิภาพ ". เกี่ยวกับPCAมันบอกว่า: "การลดขนาดเชิงเส้นโดยใช้การแยกส่วนประกอบของข้อมูลเพื่อฉายภาพ ... " และการติดตั้ง PCA รองรับสองอัลกอริทึม (สุ่มและ ARPACK) ตัวแก้ปัญหาบวกอีกหนึ่ง LAPACK เมื่อมองดูโค้ดฉันจะเห็นว่าทั้ง …

12 pca scikit-learn svd scipy

1

วิธีการวาดพล็อตหินกรวดในงูหลาม? [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังใช้การแยกตัวของเวคเตอร์เอกพจน์บนเมทริกซ์และรับเมทริกซ์ U, S และ Vt ณ จุดนี้ฉันพยายามเลือกเกณฑ์สำหรับจำนวนมิติข้อมูลที่จะเก็บไว้ ฉันแนะนำให้ดูที่แปลงหินกรวด แต่ฉันสงสัยว่าจะไปเกี่ยวกับการวางแผนในจำนวนมาก ขณะนี้ฉันกำลังทำสิ่งต่อไปนี้โดยใช้ไลบรารี numpy และ scipy ใน python: U, S, Vt = svd(A) ข้อเสนอแนะใด ๆ

11 data-visualization python svd

1

เหตุใดการไม่ปฏิเสธจึงสำคัญสำหรับระบบการกรอง / ผู้แนะนำที่ทำงานร่วมกัน?

ในระบบแนะนำที่ทันสมัยทั้งหมดที่ฉันได้เห็นว่าต้องอาศัยการแยกตัวประกอบแบบเมทริกซ์การแยกตัวประกอบแบบเมทริกซ์ที่ไม่เป็นลบจะดำเนินการกับเมทริกซ์ภาพยนตร์ผู้ใช้ ฉันสามารถเข้าใจได้ว่าทำไมการไม่ปฏิเสธมีความสำคัญต่อการตีความและ / หรือถ้าคุณต้องการปัจจัยที่กระจัดกระจาย แต่ถ้าคุณสนใจเฉพาะการคาดการณ์เท่านั้นเช่นในการแข่งขันชิงรางวัล netflix ทำไมต้องกำหนดข้อ จำกัด ที่ไม่ปฏิเสธ ดูเหมือนว่าจะเลวร้ายยิ่งกว่าการอนุญาตให้มีค่าลบในการแยกตัวประกอบของคุณ กระดาษนี้เป็นหนึ่งในตัวอย่างที่อ้างถึงอย่างสูงของการใช้ตัวประกอบเมทริกซ์ที่ไม่เป็นลบในการกรองร่วมกัน

11 recommender-system svd matrix-decomposition nnmf

1

ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?

วิธีหนึ่งในการสร้างคำ embeddings มีดังนี้ ( กระจก ): รับ corpora เช่น "ฉันสนุกกับการบินฉันชอบ NLP ฉันชอบการเรียนรู้ลึก" สร้างเมทริกซ์การทับซ้อนของคำจากมัน: ดำเนินการ SVD บนXXXและเก็บคอลัมน์kkkแรกของ U U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} ระหว่างขั้นตอนที่ 2 และ 3 ข้อมูลบางอย่างจะถูกนำมาใช้ร่วมกันในบางจุด(เช่นA. Herbelot และ EM Vecchi 2015. การสร้างโลกที่ใช้ร่วมกัน: การทำแผนที่การกระจายไปยังพื้นที่เชิงความหมายแบบจำลองเชิงทฤษฎีในการประชุม . ลิสบอน, โปรตุเกส .) ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?

11 natural-language svd mutual-information word-embeddings language-models

3

K- หมายถึงความคล้ายคลึงโคไซน์กับระยะทางแบบยุคลิด (LSA)

ฉันใช้การวิเคราะห์ความหมายแฝงเพื่อแสดงคลังข้อมูลของเอกสารในพื้นที่มิติต่ำกว่า ฉันต้องการจัดกลุ่มเอกสารเหล่านี้เป็นสองกลุ่มโดยใช้วิธี k หลายปีที่ผ่านมาฉันทำสิ่งนี้โดยใช้ gensim ของ Python และเขียนอัลกอริทึม k-mean ของฉันเอง ฉันกำหนดเซนทรอยด์ของคลัสเตอร์โดยใช้ระยะทางแบบยุคลิด แต่ก็ทำการจัดกลุ่มเอกสารตามความคล้ายคลึงกันของโคไซน์กับเซนทรอยด์ ดูเหมือนว่าจะทำงานได้ค่อนข้างดี ตอนนี้ฉันกำลังพยายามทำสิ่งนี้กับคลังเอกสารขนาดใหญ่กว่ามาก K-หมายถึงไม่ได้มาบรรจบกันและฉันสงสัยว่ามันเป็นข้อบกพร่องในรหัสของฉัน ฉันอ่านเมื่อเร็ว ๆ นี้ว่าคุณไม่ควรจัดกลุ่มโดยใช้ความเหมือนโคไซน์เพราะ k-mean ใช้งานได้กับระยะทางแบบยุคลิดเท่านั้น แม้ว่าตามที่ฉันได้กล่าวมาดูเหมือนว่าจะทำงานได้ดีในกรณีทดสอบขนาดเล็กของฉัน ตอนนี้ฉันเจอสิ่งนี้ในหน้าLSA Wikipedia : เอกสารและคำแทนเวกเตอร์สามารถจัดกลุ่มได้โดยใช้อัลกอริทึมการจัดกลุ่มแบบดั้งเดิมเช่น k- หมายถึงโดยใช้มาตรการความคล้ายคลึงกันเช่นโคไซน์ แล้วมันคืออะไร? ฉันสามารถใช้โคไซน์คล้ายคลึงกันได้หรือไม่?

10 k-means svd lsa cosine-distance cosine-similarity

1

R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า

นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

คำถามติดแท็ก svd