สถิติและข้อมูลขนาดใหญ่ sparse

7

ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?

ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

72 machine-learning clustering data-mining sparse euclidean

3

PCA แบบเบาบางดีกว่า PCA อย่างไร

ฉันเรียนรู้เกี่ยวกับ PCA ไม่กี่ครั้งที่ผ่านมาในชั้นเรียนและด้วยการขุดเพิ่มเติมเกี่ยวกับแนวคิดที่น่าสนใจนี้ฉันได้รู้เกี่ยวกับ PCA กระจัดกระจาย ผมอยากจะถามว่าถ้าฉันไม่ได้ผิดนี่คือสิ่งที่เบาบาง PCA คือใน PCA ถ้าคุณมีจุดข้อมูลกับตัวแปรคุณสามารถเป็นตัวแทนของแต่ละจุดข้อมูลในมิติก่อนที่จะใช้ PCA หลังจากใช้ PCA คุณจะสามารถนำเสนอในพื้นที่มิติเดียวกันอีกครั้ง แต่คราวนี้องค์ประกอบหลักแรกจะมีความแปรปรวนมากที่สุดส่วนที่สองจะมีทิศทางความแปรปรวนมากที่สุดที่สองและอื่น ๆ ดังนั้นคุณสามารถกำจัดองค์ประกอบหลักบางส่วนที่ผ่านมาเนื่องจากจะไม่ทำให้เกิดการสูญเสียข้อมูลจำนวนมากและคุณสามารถบีบอัดข้อมูล ขวา?nnnพีppพีพีp Sparse PCA กำลังเลือกส่วนประกอบหลักซึ่งส่วนประกอบเหล่านี้มีค่าที่ไม่เป็นศูนย์น้อยในค่าสัมประสิทธิ์เวคเตอร์ สิ่งนี้จะช่วยให้คุณตีความข้อมูลได้ดีขึ้นอย่างไร ใครสามารถยกตัวอย่างได้บ้าง

24 machine-learning pca sparse

4

มีการใช้ฟอเรสต์แบบสุ่มที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่?

มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ

23 r random-forest sparse

1

ความแตกต่างระหว่างข้อมูลที่หายไปและข้อมูลกระจัดกระจายในอัลกอริทึมการเรียนรู้ของเครื่อง

อะไรคือความแตกต่างที่สำคัญระหว่างข้อมูลที่กระจัดกระจายและข้อมูลที่ขาดหายไป? และมันมีอิทธิพลต่อการเรียนรู้ของเครื่องอย่างไร โดยเฉพาะอย่างยิ่งสิ่งที่ทำให้ข้อมูลกระจัดกระจายและข้อมูลที่ขาดหายไปนั้นมีต่ออัลกอริธึมการจำแนกและประเภทการถดถอย ฉันกำลังพูดถึงสถานการณ์ที่เปอร์เซ็นต์ของข้อมูลที่ขาดหายไปมีความสำคัญและเราไม่สามารถวางแถวที่มีข้อมูลที่ขาดหายไปได้

20 machine-learning dataset missing-data sparse

1

อัลกอริธึมการทำคลัสเตอร์ที่ทำงานกับข้อมูลที่กระจัดกระจาย [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา ฉันพยายามรวบรวมรายการอัลกอริทึมการจัดกลุ่มที่: ดำเนินการใน R ดำเนินการกับเมทริกซ์การกระจัดกระจายข้อมูล (ไม่ใช่ (dis) เมทริกซ์ความเหมือนกัน) เช่นที่สร้างขึ้นโดยฟังก์ชันsparseMatrix มีคำถามอื่น ๆ อีกมากมายเกี่ยวกับประวัติย่อที่กล่าวถึงแนวคิดนี้ แต่ไม่มีคำถามใดที่เชื่อมโยงกับแพ็คเกจ R ที่สามารถใช้งานได้โดยตรงกับการฝึกอบรมแบบกระจัดกระจาย: การทำคลัสเตอร์ชุดข้อมูลขนาดใหญ่และกระจัดกระจาย การทำคลัสเตอร์ข้อมูลไบนารีหร็อมแหร็มมิติสูง กำลังมองหาการใช้การจัดกลุ่มแบบกระจัดกระจายและมิติสูง การจัดกลุ่มที่ประหยัดพื้นที่ จนถึงตอนนี้ฉันพบฟังก์ชันหนึ่งฟังก์ชันใน R ที่สามารถจัดกลุ่มเมทริกซ์กระจัดกระจาย: skmeans : kmeans ทรงกลม จากแพคเกจ skmeans kmeans ใช้ระยะโคไซน์ ทำงานบนวัตถุ dgTMatrix จัดเตรียมอินเตอร์เฟสกับอัลกอริทึม k-mean, pclust, CLUTO, gmeans และ kmndirs ตัวอย่าง: library(Matrix) set.seed(42) nrow <- …

18 r clustering sparse

4

บรรทัดฐาน - พิเศษเกี่ยวกับคืออะไร ?

บรรทัดฐานที่ไม่ซ้ำกัน (ส่วนน้อย) เพราะที่เขตแดนระหว่างไม่ใช่นูนและนูน บรรทัดฐานคือ 'มากที่สุดเบาบาง' นูนบรรทัดฐาน (ใช่ไหม?)L1L1L_1p=1p=1p=1L1L1L_1 ฉันเข้าใจว่าบรรทัดฐาน Euclidean มีรากฐานทางเรขาคณิตและมีการตีความที่ชัดเจนเมื่อมิติมีหน่วยเดียวกัน แต่ฉันไม่เข้าใจว่าทำไมมันถึงถูกใช้เป็นพิเศษมากกว่าจำนวนจริงอื่น ๆ : ? ? ทำไมไม่ใช้ช่วงเต็มอย่างต่อเนื่องเป็นพารามิเตอร์p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi ฉันกำลังคิดถึงอะไร

13 regression regularization sparse

1

ชุดฝึกกระจัดกระจายส่งผลเสียต่อ SVM หรือไม่?

ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1หากคำนั้นมีอยู่: "corpus" คือ: [mary, little, lamb, star, twinkle] ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0] ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1] ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?

12 classification svm sparse

1

บรรทัดฐานคืออะไรและเกี่ยวข้องกับการทำให้เป็นมาตรฐานหรือไม่

ฉันได้เห็นเอกสารจำนวนมากเกี่ยวกับการนำเสนอที่กระจัดกระจายเมื่อเร็ว ๆ นี้และส่วนใหญ่ใช้บรรทัดฐานและทำการย่อเล็กสุด คำถามของฉันคืออะไรบรรทัดฐานและบรรทัดฐานแบบผสมคืออะไร และเกี่ยวข้องกับการทำให้เป็นมาตรฐานได้อย่างไรℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ขอบคุณ

12 machine-learning regularization sparse

1

PCA ขนาดใหญ่เป็นไปได้หรือไม่

การวิเคราะห์องค์ประกอบหลัก (PCA) แบบคลาสสิกคือการทำบนเมทริกซ์ข้อมูลอินพุตซึ่งคอลัมน์มีค่าเฉลี่ยเป็นศูนย์ (จากนั้น PCA สามารถ "เพิ่มความแปรปรวนสูงสุด") สามารถทำได้อย่างง่ายดายโดยการจัดคอลัมน์ให้อยู่ตรงกลาง Howenver เมื่อเมทริกซ์การป้อนข้อมูลเบาบางเมทริกซ์กึ่งกลางตอนนี้จะเบาบางอีกต่อไปและ - ถ้าเมทริกซ์มีขนาดใหญ่มาก - ดังนั้นจะไม่พอดีกับหน่วยความจำอีกต่อไป มีวิธีแก้ปัญหาอัลกอริทึมสำหรับปัญหาการจัดเก็บหรือไม่?

10 pca algorithms dimensionality-reduction large-data sparse

1

ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร

ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

4

การทำให้เป็นมาตรฐานทำให้กระจัดกระจายสำหรับเมทริกซ์สุ่ม

มันเป็นที่รู้จักกันดี (เช่นในด้านการตรวจจับอัด) ที่บรรทัดฐานคือ "sparsity ชักนำ" ในแง่ที่ว่าถ้าเราลดการทำงาน (สำหรับการแก้ไขเมทริกซ์และเวกเตอร์\ vec {ข} ) f_ {หัวใจ , \ vec {b}} (\ vec {x}) = \ | A \ vec {x} - \ vec {b} \ | _2 ^ 2 + \ lambda \ | \ vec {x} \ | _1สำหรับขนาดใหญ่พอ\ แลมบ์ดา> 0เราก็จะมีโอกาสในการเลือกหลาย, \ vec …

10 regression matrix normalization regularization sparse

2

สร้างเมทริกซ์แน่นอนบวกที่เป็นสมมาตรพร้อมรูปแบบการระบุช่องว่างที่กำหนดไว้ล่วงหน้า

ฉันกำลังพยายามสร้างเมทริกซ์สหสัมพันธ์ (symmetric psd) ด้วยโครงสร้าง sparsity ที่ระบุไว้ล่วงหน้า (ระบุโดยกราฟบนโหนด ) โหนดที่เชื่อมต่อในกราฟมีความสัมพันธ์ส่วนที่เหลือทั้งหมดคือ 0 และเส้นทแยงมุมคือ 1 ทั้งหมดหน้า× pp×pp\times pพีppρ ∼ U( 0 , 1 )ρ∼U(0,1)\rho \sim U(0,1) ฉันพยายามสร้างเมทริกซ์นี้หลายครั้ง แต่ไม่ค่อยได้เมทริกซ์สหสัมพันธ์ที่ถูกต้อง มีวิธีที่ฉันสามารถรับประกันเมทริกซ์สหสัมพันธ์หรือไม่? โปรดทราบว่าฉันสามารถมีความสัมพันธ์เชิงบวกเท่านั้นดังนั้นเป็นต้นไม่ใช่ตัวเลือกρ ∼ U( - 1 , 1 )ρ∼U(−1,1)\rho \sim U(-1,1) ความช่วยเหลือใด ๆ ที่ชื่นชมอย่างมาก!

9 correlation matrix sparse correlation-matrix

1

แนวทางใดที่ควรปฏิบัติตามสำหรับการใช้โครงข่ายประสาทเทียมด้วยอินพุตแบบกระจาย

ฉันมีอินพุตเบาบางมากเช่นตำแหน่งของคุณสมบัติบางอย่างในภาพอินพุต คุณสมบัติเพิ่มเติมแต่ละอย่างสามารถมีการตรวจจับหลายครั้ง (ไม่แน่ใจว่าสิ่งนี้จะมีผลต่อการออกแบบระบบ) สิ่งนี้ฉันจะนำเสนอเป็น 'ภาพไบนารี' ของช่อง k ด้วยพิกเซล ON ที่แสดงถึงการมีอยู่ของคุณสมบัตินั้นและในทางกลับกัน เราจะเห็นได้ว่าข้อมูลดังกล่าวถูกผูกมัดให้กระจัดกระจายมาก ดังนั้นมีคำแนะนำใด ๆ เมื่อใช้ข้อมูลที่กระจัดกระจายกับอวนประสาทข้อมูลเฉพาะที่เป็นตัวแทนของการตรวจจับ / สถานที่?

9 neural-networks deep-learning sparse

2

การเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในการถดถอย

ไม่มีใครมีประสบการณ์กับวิธีการเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในแบบจำลองการถดถอยหรือไม่?

9 pca sparse regression-strategies

คำถามติดแท็ก sparse