คำถามติดแท็ก sparse

เมทริกซ์กระจัดกระจายคือเมทริกซ์ที่หลายองค์ประกอบเป็นศูนย์ แท็กนี้ยังสามารถใช้สำหรับความเบาบางในบริบทอื่น ๆ เช่นโมเดลการถดถอยที่มีความเบาบางหรือ "เดิมพันที่เบาบาง" - หลักการ

7
ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?
ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

3
PCA แบบเบาบางดีกว่า PCA อย่างไร
ฉันเรียนรู้เกี่ยวกับ PCA ไม่กี่ครั้งที่ผ่านมาในชั้นเรียนและด้วยการขุดเพิ่มเติมเกี่ยวกับแนวคิดที่น่าสนใจนี้ฉันได้รู้เกี่ยวกับ PCA กระจัดกระจาย ผมอยากจะถามว่าถ้าฉันไม่ได้ผิดนี่คือสิ่งที่เบาบาง PCA คือใน PCA ถ้าคุณมีจุดข้อมูลกับตัวแปรคุณสามารถเป็นตัวแทนของแต่ละจุดข้อมูลในมิติก่อนที่จะใช้ PCA หลังจากใช้ PCA คุณจะสามารถนำเสนอในพื้นที่มิติเดียวกันอีกครั้ง แต่คราวนี้องค์ประกอบหลักแรกจะมีความแปรปรวนมากที่สุดส่วนที่สองจะมีทิศทางความแปรปรวนมากที่สุดที่สองและอื่น ๆ ดังนั้นคุณสามารถกำจัดองค์ประกอบหลักบางส่วนที่ผ่านมาเนื่องจากจะไม่ทำให้เกิดการสูญเสียข้อมูลจำนวนมากและคุณสามารถบีบอัดข้อมูล ขวา?nnnพีppพีพีp Sparse PCA กำลังเลือกส่วนประกอบหลักซึ่งส่วนประกอบเหล่านี้มีค่าที่ไม่เป็นศูนย์น้อยในค่าสัมประสิทธิ์เวคเตอร์ สิ่งนี้จะช่วยให้คุณตีความข้อมูลได้ดีขึ้นอย่างไร ใครสามารถยกตัวอย่างได้บ้าง

4
มีการใช้ฟอเรสต์แบบสุ่มที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่?
มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ

1
ความแตกต่างระหว่างข้อมูลที่หายไปและข้อมูลกระจัดกระจายในอัลกอริทึมการเรียนรู้ของเครื่อง
อะไรคือความแตกต่างที่สำคัญระหว่างข้อมูลที่กระจัดกระจายและข้อมูลที่ขาดหายไป? และมันมีอิทธิพลต่อการเรียนรู้ของเครื่องอย่างไร โดยเฉพาะอย่างยิ่งสิ่งที่ทำให้ข้อมูลกระจัดกระจายและข้อมูลที่ขาดหายไปนั้นมีต่ออัลกอริธึมการจำแนกและประเภทการถดถอย ฉันกำลังพูดถึงสถานการณ์ที่เปอร์เซ็นต์ของข้อมูลที่ขาดหายไปมีความสำคัญและเราไม่สามารถวางแถวที่มีข้อมูลที่ขาดหายไปได้

1
อัลกอริธึมการทำคลัสเตอร์ที่ทำงานกับข้อมูลที่กระจัดกระจาย [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา ฉันพยายามรวบรวมรายการอัลกอริทึมการจัดกลุ่มที่: ดำเนินการใน R ดำเนินการกับเมทริกซ์การกระจัดกระจายข้อมูล (ไม่ใช่ (dis) เมทริกซ์ความเหมือนกัน) เช่นที่สร้างขึ้นโดยฟังก์ชันsparseMatrix มีคำถามอื่น ๆ อีกมากมายเกี่ยวกับประวัติย่อที่กล่าวถึงแนวคิดนี้ แต่ไม่มีคำถามใดที่เชื่อมโยงกับแพ็คเกจ R ที่สามารถใช้งานได้โดยตรงกับการฝึกอบรมแบบกระจัดกระจาย: การทำคลัสเตอร์ชุดข้อมูลขนาดใหญ่และกระจัดกระจาย การทำคลัสเตอร์ข้อมูลไบนารีหร็อมแหร็มมิติสูง กำลังมองหาการใช้การจัดกลุ่มแบบกระจัดกระจายและมิติสูง การจัดกลุ่มที่ประหยัดพื้นที่ จนถึงตอนนี้ฉันพบฟังก์ชันหนึ่งฟังก์ชันใน R ที่สามารถจัดกลุ่มเมทริกซ์กระจัดกระจาย: skmeans : kmeans ทรงกลม จากแพคเกจ skmeans kmeans ใช้ระยะโคไซน์ ทำงานบนวัตถุ dgTMatrix จัดเตรียมอินเตอร์เฟสกับอัลกอริทึม k-mean, pclust, CLUTO, gmeans และ kmndirs ตัวอย่าง: library(Matrix) set.seed(42) nrow <- …
18 r  clustering  sparse 

4
บรรทัดฐาน - พิเศษเกี่ยวกับคืออะไร ?
บรรทัดฐานที่ไม่ซ้ำกัน (ส่วนน้อย) เพราะที่เขตแดนระหว่างไม่ใช่นูนและนูน บรรทัดฐานคือ 'มากที่สุดเบาบาง' นูนบรรทัดฐาน (ใช่ไหม?)L1L1L_1p=1p=1p=1L1L1L_1 ฉันเข้าใจว่าบรรทัดฐาน Euclidean มีรากฐานทางเรขาคณิตและมีการตีความที่ชัดเจนเมื่อมิติมีหน่วยเดียวกัน แต่ฉันไม่เข้าใจว่าทำไมมันถึงถูกใช้เป็นพิเศษมากกว่าจำนวนจริงอื่น ๆ : ? ? ทำไมไม่ใช้ช่วงเต็มอย่างต่อเนื่องเป็นพารามิเตอร์p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi ฉันกำลังคิดถึงอะไร

1
ชุดฝึกกระจัดกระจายส่งผลเสียต่อ SVM หรือไม่?
ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1หากคำนั้นมีอยู่: "corpus" คือ: [mary, little, lamb, star, twinkle] ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0] ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1] ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?

1
บรรทัดฐานคืออะไรและเกี่ยวข้องกับการทำให้เป็นมาตรฐานหรือไม่
ฉันได้เห็นเอกสารจำนวนมากเกี่ยวกับการนำเสนอที่กระจัดกระจายเมื่อเร็ว ๆ นี้และส่วนใหญ่ใช้บรรทัดฐานและทำการย่อเล็กสุด คำถามของฉันคืออะไรบรรทัดฐานและบรรทัดฐานแบบผสมคืออะไร และเกี่ยวข้องกับการทำให้เป็นมาตรฐานได้อย่างไรℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ขอบคุณ

1
PCA ขนาดใหญ่เป็นไปได้หรือไม่
การวิเคราะห์องค์ประกอบหลัก (PCA) แบบคลาสสิกคือการทำบนเมทริกซ์ข้อมูลอินพุตซึ่งคอลัมน์มีค่าเฉลี่ยเป็นศูนย์ (จากนั้น PCA สามารถ "เพิ่มความแปรปรวนสูงสุด") สามารถทำได้อย่างง่ายดายโดยการจัดคอลัมน์ให้อยู่ตรงกลาง Howenver เมื่อเมทริกซ์การป้อนข้อมูลเบาบางเมทริกซ์กึ่งกลางตอนนี้จะเบาบางอีกต่อไปและ - ถ้าเมทริกซ์มีขนาดใหญ่มาก - ดังนั้นจะไม่พอดีกับหน่วยความจำอีกต่อไป มีวิธีแก้ปัญหาอัลกอริทึมสำหรับปัญหาการจัดเก็บหรือไม่?

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

4
การทำให้เป็นมาตรฐานทำให้กระจัดกระจายสำหรับเมทริกซ์สุ่ม
มันเป็นที่รู้จักกันดี (เช่นในด้านการตรวจจับอัด) ที่บรรทัดฐานคือ "sparsity ชักนำ" ในแง่ที่ว่าถ้าเราลดการทำงาน (สำหรับการแก้ไขเมทริกซ์และเวกเตอร์\ vec {ข} ) f_ {หัวใจ , \ vec {b}} (\ vec {x}) = \ | A \ vec {x} - \ vec {b} \ | _2 ^ 2 + \ lambda \ | \ vec {x} \ | _1สำหรับขนาดใหญ่พอ\ แลมบ์ดา> 0เราก็จะมีโอกาสในการเลือกหลาย, \ vec …

2
สร้างเมทริกซ์แน่นอนบวกที่เป็นสมมาตรพร้อมรูปแบบการระบุช่องว่างที่กำหนดไว้ล่วงหน้า
ฉันกำลังพยายามสร้างเมทริกซ์สหสัมพันธ์ (symmetric psd) ด้วยโครงสร้าง sparsity ที่ระบุไว้ล่วงหน้า (ระบุโดยกราฟบนโหนด ) โหนดที่เชื่อมต่อในกราฟมีความสัมพันธ์ส่วนที่เหลือทั้งหมดคือ 0 และเส้นทแยงมุมคือ 1 ทั้งหมดหน้า× pp×pp\times pพีppρ ∼ U( 0 , 1 )ρ∼U(0,1)\rho \sim U(0,1) ฉันพยายามสร้างเมทริกซ์นี้หลายครั้ง แต่ไม่ค่อยได้เมทริกซ์สหสัมพันธ์ที่ถูกต้อง มีวิธีที่ฉันสามารถรับประกันเมทริกซ์สหสัมพันธ์หรือไม่? โปรดทราบว่าฉันสามารถมีความสัมพันธ์เชิงบวกเท่านั้นดังนั้นเป็นต้นไม่ใช่ตัวเลือกρ ∼ U( - 1 , 1 )ρ∼U(−1,1)\rho \sim U(-1,1) ความช่วยเหลือใด ๆ ที่ชื่นชมอย่างมาก!

1
แนวทางใดที่ควรปฏิบัติตามสำหรับการใช้โครงข่ายประสาทเทียมด้วยอินพุตแบบกระจาย
ฉันมีอินพุตเบาบางมากเช่นตำแหน่งของคุณสมบัติบางอย่างในภาพอินพุต คุณสมบัติเพิ่มเติมแต่ละอย่างสามารถมีการตรวจจับหลายครั้ง (ไม่แน่ใจว่าสิ่งนี้จะมีผลต่อการออกแบบระบบ) สิ่งนี้ฉันจะนำเสนอเป็น 'ภาพไบนารี' ของช่อง k ด้วยพิกเซล ON ที่แสดงถึงการมีอยู่ของคุณสมบัตินั้นและในทางกลับกัน เราจะเห็นได้ว่าข้อมูลดังกล่าวถูกผูกมัดให้กระจัดกระจายมาก ดังนั้นมีคำแนะนำใด ๆ เมื่อใช้ข้อมูลที่กระจัดกระจายกับอวนประสาทข้อมูลเฉพาะที่เป็นตัวแทนของการตรวจจับ / สถานที่?

2
การเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในการถดถอย
ไม่มีใครมีประสบการณ์กับวิธีการเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในแบบจำลองการถดถอยหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.