คำถามติดแท็ก algorithms

รายการที่ชัดเจนของขั้นตอนการคำนวณที่เกี่ยวข้องในการหาวิธีแก้ปัญหาให้กับปัญหา

7
อัลกอริทึมในการตรวจสอบปริมาณแบบไดนามิก
ฉันต้องการประเมินปริมาณของข้อมูลบางส่วน ข้อมูลมีขนาดใหญ่มากจนไม่สามารถรองรับได้ในหน่วยความจำ และข้อมูลไม่คงที่ข้อมูลใหม่กำลังจะมาถึง ไม่มีใครรู้ว่าอัลกอริทึมใด ๆ ในการตรวจสอบปริมาณของข้อมูลที่สังเกตจนถึงขณะนี้มีหน่วยความจำและการคำนวณ จำกัด มากหรือไม่? ฉันพบว่าอัลกอริธึม P2มีประโยชน์ แต่มันไม่ได้ผลกับข้อมูลของฉันซึ่งกระจายอย่างหนักมาก

4
ตำราเรียนเกี่ยวกับทฤษฎี * ของอัลกอริทึมโครงข่ายประสาท / ML?
หนังสือทุกเล่มที่ฉันได้เห็นแล้วอธิบายเกี่ยวกับอัลกอริธึม ML และวิธีการนำไปใช้ มีตำราเรียนที่สร้างทฤษฎีและบทพิสูจน์สำหรับพฤติกรรมของอัลกอริทึมเหล่านั้นหรือไม่? เช่นระบุว่าภายใต้เงื่อนไข , การไล่ระดับสีจะนำไปสู่A , B , C ?x , y, zx,Y,Zx,y,zA , B , CA,B,CA,B,C

2
ทำไม PCA ของข้อมูลโดยใช้วิธี SVD ของข้อมูล
คำถามนี้เกี่ยวกับวิธีที่มีประสิทธิภาพในการคำนวณส่วนประกอบหลัก ตำราจำนวนมากในการสนับสนุน PCA เชิงเส้นโดยใช้การสลายตัวเอกพจน์มูลค่าของข้อมูล Casewise นั่นคือถ้าเรามี dataและต้องการแทนที่ตัวแปร ( คอลัมน์ของมัน) ด้วยองค์ประกอบหลักเราจะทำ SVD: , ค่าเอกพจน์ (sq. รากของค่าลักษณะเฉพาะ) ครอบครองเส้นทแยงมุมหลักของ , ขวา eigenvectorเป็นเมทริกซ์การหมุนแบบมุมฉากของแกน - ตัวแปรเป็นแกน - องค์ประกอบ, ซ้าย eigenvectorเป็นเช่น , เฉพาะสำหรับกรณี จากนั้นเราสามารถคำนวณค่าองค์ประกอบเป็นCXX\bf X S V U V C = X V = U SX=USV′X=ยูSV'\bf X=USV'SS\bf SVV\bf VUยู\bf UVV\bf VC=XV=USC=XV=ยูS \bf C=XV=US อีกวิธีหนึ่งในการทำ PCA ของตัวแปรก็คือการสลายตัวของ …

2
เป็นไปได้หรือไม่ที่จะรวบรวมชุดของสถิติที่อธิบายตัวอย่างจำนวนมากเช่นนี้จากนั้นฉันสามารถสร้าง boxplot ได้?
ฉันต้องชี้แจงทันทีว่าฉันเป็นนักพัฒนาซอฟต์แวร์ฝึกไม่ใช่นักสถิติและชั้นเรียนสถิติของวิทยาลัยของฉันเป็นเวลานานมากแล้ว ... ที่กล่าวว่าฉันอยากจะรู้ว่ามีวิธีการสะสมชุดของสถิติเชิงพรรณนาที่สามารถนำมาใช้ในการผลิต boxplot ที่ไม่เกี่ยวข้องกับการจัดเก็บตัวอย่างแต่ละกลุ่ม? สิ่งที่ฉันพยายามทำคือสร้างสรุปกราฟิกของเวลาบริการคิวภายในกระบวนการหลายคิวที่ซับซ้อน ก่อนหน้านี้ฉันเคยใช้แพคเกจที่เรียกว่า tnftools ซึ่งอนุญาตให้กลุ่มตัวอย่างจำนวนมากสะสมและโพสต์ประมวลผลเป็นกราฟเวลาตอบสนองและค่าผิดปกติที่ดี ... แต่ tnftools ไม่พร้อมใช้งานสำหรับแพลตฟอร์มปัจจุบันของฉัน เป็นการดีที่ฉันต้องการจะสามารถรวบรวมชุดของสถิติเชิงพรรณนา "ในทันที" ในขณะที่กระบวนการทำงานแล้วดึงข้อมูลสำหรับการวิเคราะห์ตามความต้องการ แต่ฉันไม่สามารถให้กระบวนการเก็บตัวอย่างเพียงอย่างเดียวได้เนื่องจากหน่วยความจำ / IO ที่เกี่ยวข้องในการทำเช่นนั้นจะส่งผลกระทบต่อประสิทธิภาพของระบบที่ยอมรับไม่ได้

6
ตัวอย่างของปัญหาโมเดลมาร์คอฟที่ซ่อนอยู่?
ฉันอ่านรุ่นมาร์คอฟที่ซ่อนอยู่ค่อนข้างน้อยและสามารถเขียนโค้ดเวอร์ชั่นพื้นฐานได้ด้วยตัวเอง แต่มีสองวิธีหลักที่ฉันดูเหมือนจะเรียนรู้ หนึ่งคือการอ่านและนำไปใช้เป็นโค้ด (ซึ่งเสร็จแล้ว) และที่สองคือการเข้าใจวิธีการใช้ภายใต้สถานการณ์ที่แตกต่างกัน (ดังนั้นฉันจึงสามารถเข้าใจได้ดียิ่งขึ้น ตัวอย่างทั้งหมดที่ฉันได้ทำไปนั้นเกี่ยวข้องกับการทำนายดีเอ็นเอบางอย่างหรือการโยนเหรียญ ฉันสงสัยว่ามีแหล่งข้อมูลใดที่จะทำให้เกิดปัญหามาร์คอฟอื่น ๆ (ภาษาไม่สำคัญ แต่หวังว่าจะมีคำตอบเช่นกันดังนั้นฉันจึงรู้ได้ว่าฉันถูกหรือผิด)?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
การจำลองอนุกรมเวลาที่ให้กำลังและความหนาแน่นสเปกตรัมข้าม
ฉันมีปัญหาในการสร้างชุดของชุดสีเวลาคงที่ให้เมทริกซ์ความแปรปรวนร่วมของพวกเขา (ความหนาแน่นสเปกตรัมพลังงานของพวกเขา (PSDs) และความหนาแน่นสเปกตรัมข้ามอำนาจ (CSDs) ฉันรู้ว่าเมื่อได้รับอนุกรมเวลาสองชุดและฉันสามารถประเมินความหนาแน่นเชิงสเปกตรัมกำลัง (PSDs) และความหนาแน่นข้ามสเปกตรัม (CSDs) โดยใช้กิจวัตรที่มีอยู่มากมายเช่นและฟังก์ชั่นใน Matlab เป็นต้น PSDs และ CSD ประกอบขึ้นเป็นเมทริกซ์ความแปรปรวนร่วม: Yผม( t)Yผม(เสื้อ)y_{I}(t)YJ( t )YJ(เสื้อ)y_{J}(t)psd()csd()C ( f) = ( Pผมผม(ฉ)PJผม(ฉ)PผมJ(ฉ)PJJ(ฉ)),ค(ฉ)=(Pผมผม(ฉ)PผมJ(ฉ)PJผม(ฉ)PJJ(ฉ)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ซึ่งอยู่ในฟังก์ชั่นทั่วไปของความถี่ฉ ฉฉf จะเกิดอะไรขึ้นถ้าฉันต้องการย้อนกลับ รับเมทริกซ์ความแปรปรวนร่วมฉันจะสร้างการรับรู้ของและอย่างไรYผม( t )Yผม(เสื้อ)y_{I}(t)YJ( t )YJ(เสื้อ)y_{J}(t) โปรดรวมทฤษฎีพื้นหลังใด ๆ หรือชี้ให้เห็นเครื่องมือที่มีอยู่ใด ๆ ที่ทำสิ่งนี้ …

2
คำนวณปริมาณโดยประมาณสำหรับจำนวนเต็มโดยใช้ช่วงเวลา?
อพยพมาจากmath.stackexchange ฉันกำลังประมวลผลจำนวนเต็มจำนวนมากและกำลังพิจารณาการติดตามสักครู่เพื่อให้สามารถคำนวณเปอร์เซ็นต์ไทล์สำหรับสตรีมได้โดยไม่ต้องจัดเก็บข้อมูลมากนัก วิธีที่ง่ายที่สุดในการคำนวณหาเปอร์เซ็นต์ไทล์คืออะไร มีวิธีที่ดีกว่าที่เกี่ยวข้องกับการจัดเก็บข้อมูลจำนวนเล็กน้อยเท่านั้นหรือไม่?

2
ป่าสุ่มสร้างป่าสุ่มอย่างไร
ฉันไม่ใช่ผู้เชี่ยวชาญของป่าสุ่ม แต่ฉันเข้าใจชัดเจนว่าปัญหาสำคัญของป่าสุ่มคือการสร้างต้นไม้ (สุ่ม) คุณช่วยอธิบายฉันได้อย่างไรว่าต้นไม้สร้างขึ้นได้อย่างไร? (เช่นการกระจายที่ใช้สำหรับการสร้างต้นไม้คืออะไร) ขอบคุณล่วงหน้า !

2
ความเร็ว, ค่าใช้จ่ายในการคำนวณของ PCA, LASSO, elastic net
ฉันกำลังพยายามเปรียบเทียบความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่าของวิธีการสามกลุ่มสำหรับการถดถอยเชิงเส้นตามที่ระบุไว้ใน Hastie et al "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed.), บทที่ 3: การเลือกชุดย่อย วิธีการหดตัว วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ (PCR, PLS) การเปรียบเทียบอาจหยาบมากเพียงแค่ให้ความคิด ฉันรวบรวมว่าคำตอบอาจขึ้นอยู่กับขนาดของปัญหาและวิธีการที่เหมาะสมกับสถาปัตยกรรมคอมพิวเตอร์ดังนั้นสำหรับตัวอย่างที่เป็นรูปธรรมเราอาจพิจารณาขนาดตัวอย่างของผู้ลงทะเบียนผู้สมัคร 500 และ 50 คน ฉันส่วนใหญ่สนใจในแรงจูงใจเบื้องหลังความซับซ้อนของการคำนวณ / ความเร็วในการประมาณค่า แต่ไม่นานเท่าไรที่จะใช้กับโพรเซสเซอร์บางตัวสำหรับตัวอย่างที่กำหนด

9
ระยะทาง Mahalanobis Pairwise
ฉันจำเป็นต้องคำนวณตัวอย่างระยะทาง Mahalanobis ใน R ระหว่างการสังเกตทุกคู่ในเมทริกซ์n×pn×pn \times pของ covariates ฉันต้องการวิธีแก้ปัญหาที่มีประสิทธิภาพเช่นคำนวณระยะทางn(n−1)/2n(n−1)/2n(n-1)/2เท่านั้นและนำไปใช้ใน C / RCpp / Fortran เป็นต้นฉันคิดว่าเมทริกซ์ความแปรปรวนร่วมของประชากรไม่เป็นที่รู้จักและใช้ตัวอย่าง เมทริกซ์ความแปรปรวนร่วมในสถานที่ΣΣ\Sigma ฉันสนใจเป็นพิเศษในคำถามนี้เนื่องจากดูเหมือนจะไม่มีวิธี "ฉันทามติ" สำหรับการคำนวณระยะทาง Mahalanobis ในระดับ R แบบ pairwiseนั่นคือมันไม่ได้ใช้งานในdistฟังก์ชั่นหรือในcluster::daisyฟังก์ชั่น mahalanobisฟังก์ชั่นไม่ได้คำนวณระยะทางจากจำนวนโดยไม่ต้องทำงานเพิ่มขึ้นจากโปรแกรมเมอร์ นี่ถูกถามแล้วที่นี่ระยะทาง Pairwise Mahalanobis ใน Rแต่การแก้ปัญหาที่นั่นดูเหมือนไม่ถูกต้อง นี่คือที่ถูกต้อง แต่ไม่มีประสิทธิภาพชะมัด (ตั้งแต่n×nn×nn \times nระยะทางคำนวณ) วิธีการ: set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) …
18 r  algorithms  distance 

1
ป่าสุ่มสุดขั้วแตกต่างจากป่าสุ่มอย่างไร
การใช้ ER มีประสิทธิภาพมากขึ้นหรือไม่ (เหมือนกันExtreme Gradient Boostingคือการเพิ่มระดับความลาดชัน) - ความแตกต่างสำคัญจากมุมมองของภาคปฏิบัติหรือไม่? มีแพ็คเกจ R ซึ่งใช้งานได้ มันเป็นอัลกอริธึมใหม่ที่เอาชนะการใช้งานแบบ "ทั่วไป" (แพคเกจ RandomForest จาก R) ไม่เพียง แต่ในแง่ของประสิทธิภาพหรือในบางพื้นที่เท่านั้น? Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1


1
การอัพเดตการแยกย่อย SVD หลังจากเพิ่มหนึ่งแถวใหม่ในเมทริกซ์
สมมติว่าผมมีความหนาแน่นเมทริกซ์ของขนาดที่มีการสลายตัว SVDในฉันสามารถคำนวณ SVD ได้ดังนี้: .AA \textbf{A}m × nม.×nm \times nA = U S V⊤.A=ยูSV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) หากมีการเพิ่ม -th ใหม่ลงในสามารถคำนวณการแยกย่อย SVD ใหม่ตามแบบเก่า (เช่นโดยใช้ , , และ ) โดยไม่ต้องคำนวณใหม่ SVD ตั้งแต่ต้น?( m + 1 )(ม.+1)(m+1)AA\mathbf Aยูยู\mathbf USS\mathbf SVV\mathbf V

3
อัลกอริทึมการเพิ่มประสิทธิภาพใดที่ใช้ในฟังก์ชัน glm ใน R
หนึ่งสามารถทำการถดถอย logit ใน R โดยใช้รหัสดังกล่าว: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 ดูเหมือนว่าอัลกอริทึมการออปติไมซ์ได้แปรสภาพ - มีข้อมูลเกี่ยวกับจำนวนขั้นตอนของอัลกอริทึมการให้คะแนนฟิชเชอร์: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.