สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
วิธีเพิ่มประสิทธิภาพสคริปต์ R ของฉันเพื่อใช้“ มัลติคอร์”
ฉันใช้ GNU R ที่ Ubuntu-Lucid PC ซึ่งมี 4 ซีพียู ในการใช้ CPU ทั้ง 4 ตัวฉันติดตั้งแพ็คเกจ "r-cran-multicore" เนื่องจากแพ็คเกจของคู่มือขาดตัวอย่างจริงที่ฉันเข้าใจฉันต้องการคำแนะนำในการเพิ่มประสิทธิภาพสคริปต์ของฉันเพื่อใช้งาน CPU ทั้ง 4 ตัว ชุดข้อมูลของฉันคือ data.frame (เรียกว่า P1) ที่มี 50,000 แถวและ 1600 cols สำหรับแต่ละแถวฉันต้องการคำนวณค่าสูงสุดผลรวมและค่าเฉลี่ย สคริปต์ของฉันมีลักษณะดังนี้: p1max <- 0 p1mean <- 0 p1sum <-0 plength <- length(P1[,1]) for(i in 1:plength){ p1max <- c(p1max, max(P1[i,])) p1mean …
15 r 

3
บทเรียนเกี่ยวกับการเขียนโปรแกรมเชิงวัตถุใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ปิดให้บริการใน4 ปีที่แล้ว ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ มีแบบฝึกหัดที่ดีเกี่ยวกับการเขียนโปรแกรมเชิงวัตถุใน R หรือไม่? มันจะดีถ้ามันรวมต่อไปนี้: วิธีกำหนดคลาส ความแตกต่างระหว่างคลาส S3 และ S4 โอเปอเรเตอร์การบรรทุกเกินพิกัด (ฉันต้องการให้สามารถเขียนa+bตำแหน่งaและbอินสแตนซ์ของคลาสที่ฉันมีอยู่ในใจได้)
15 r 

3
อะไรคือความแตกต่างระหว่างการวิเคราะห์ความหมายแฝง (LSA), ดัชนีความหมายแฝง (LSI) และการสลายตัวของค่าเอกพจน์ (SVD)?
ข้อตกลงเหล่านี้มีอยู่มากมาย แต่ฉันอยากจะรู้ว่าคุณคิดว่าความแตกต่างคืออะไรถ้ามี ขอบคุณ
15 pca  text-mining  svd 

1
การผ่อนคลายลากรองจ์ในบริบทของการถดถอยของสันเขา
ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" (2nd ed), p63, ผู้เขียนให้สองสูตรต่อไปนี้ของปัญหาการถดถอยสัน: β^R ฉันวันที่ก.อี= argminβ{ ∑i = 1ยังไม่มีข้อความ( yผม- β0-∑j =1พีxฉันเจβJ)2+ λ ∑j = 1พีβ2J}β^Rผมdก.อี=argminβ{Σผม=1ยังไม่มีข้อความ(Yผม-β0-ΣJ=1พีxผมJβJ)2+λΣJ=1พีβJ2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} และ β^R ฉันวันที่ก.อี= argminβΣi = 1ยังไม่มีข้อความ( yผม- β0- ∑j = 1พีxฉันเจβJ)2ภายใต้ ∑j = 1พีβ2J≤ ทีβ^Rผมdก.อี=argminβΣผม=1ยังไม่มีข้อความ(Yผม-β0-ΣJ=1พีxผมJβJ)2ภายใต้ ΣJ=1พีβJ2≤เสื้อ. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} …

5
วิธีสร้างแบบจำลองราคา
ฉันถามคำถามนี้ในเว็บไซต์ matemathics stackexchange และแนะนำให้ถามที่นี่ ฉันกำลังทำงานในโครงการงานอดิเรกและต้องการความช่วยเหลือเกี่ยวกับปัญหาต่อไปนี้ บริบทนิดหน่อย สมมติว่ามีชุดของรายการพร้อมคำอธิบายคุณสมบัติและราคา ลองนึกภาพรายการรถยนต์และราคา รถยนต์ทุกคันมีรายการคุณสมบัติเช่นขนาดเครื่องยนต์สีพลังม้ารุ่นปี ฯลฯ สำหรับแต่ละยี่ห้อมีดังนี้: Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... ยิ่งไปกว่านั้นรายการรถยนต์ที่มีราคาจะถูกเผยแพร่พร้อมช่วงเวลาหนึ่งซึ่งหมายความว่าเราสามารถเข้าถึงข้อมูลราคาในอดีตได้ อาจไม่รวมถึงรถยนต์คันเดียวกันทุกประการ ปัญหา ฉันต้องการที่จะเข้าใจวิธีการกำหนดราคาสำหรับรถใด ๆ ตามข้อมูลฐานนี้ที่สำคัญที่สุดคือรถยนต์ที่ไม่ได้อยู่ในรายการเริ่มต้น Ford, v6, red, automatic, 130hp, 2009 สำหรับรถด้านบนมันเกือบจะเหมือนกันกับหนึ่งในรายการเพียงเล็กน้อยแตกต่างกันในพลังม้าและปี ราคานี้สิ่งที่จำเป็น? สิ่งที่ฉันกำลังมองหาคือสิ่งที่ใช้งานได้จริงและเรียบง่าย แต่ฉันอยากจะได้ยินเกี่ยวกับวิธีการที่ซับซ้อนมากขึ้นในการสร้างแบบจำลองเช่นนี้ สิ่งที่ฉันได้ลอง นี่คือสิ่งที่ฉันกำลังทดลองด้วย: 1) …

4
ช่วงความเชื่อมั่นสำหรับพารามิเตอร์การถดถอย: Bayesian vs. Classical
จากสองอาร์เรย์ x และ y ความยาวทั้งสอง n ฉันพอดีกับโมเดล y = a + b * x และต้องการคำนวณช่วงความมั่นใจ 95% สำหรับความชัน นี่คือ (b - delta, b + delta) ซึ่ง b ถูกพบในวิธีปกติและ delta = qt(0.975,df=n-2)*se.slope และ se.slope เป็นข้อผิดพลาดมาตรฐานในความชัน วิธีการหนึ่งที่จะได้รับข้อผิดพลาดมาตรฐานของความลาดชันจาก R summary(lm(y~x))$coef[2,2]คือ ทีนี้สมมติว่าฉันเขียนความน่าจะเป็นของความชันที่ให้ x กับ y คูณนี่ด้วย "แบน" ก่อนแล้วใช้เทคนิค MCMC เพื่อวาดตัวอย่างmจากการกระจายหลัง กำหนด lims = quantile(m,c(0.025,0.975)) คำถามของฉัน: …

2
VIF, ดัชนีเงื่อนไขและค่าลักษณะเฉพาะ
ขณะนี้ฉันกำลังประเมินความหลากหลายทางชีวภาพในชุดข้อมูลของฉัน ค่าขีด จำกัด ของ VIF และดัชนีเงื่อนไขด้านล่าง / สูงกว่าจะแนะนำปัญหาได้อย่างไร VIF: ฉันเคยได้ยินว่า VIF เป็นปัญหา≥10≥10\geq 10 หลังจากลบตัวแปรปัญหาสองตัวแล้ว VIF คือสำหรับแต่ละตัวแปร ตัวแปรต้องการการดูแลที่มากขึ้นหรือ VIF นี้ดูดีหรือไม่?≤3.96≤3.96\leq 3.96 ดัชนีเงื่อนไข: ฉันได้ยินมาว่าดัชนีสภาพ (CI) 30 หรือมากกว่านั้นเป็นปัญหา CI สูงสุดของฉันคือ 16.66 นี่เป็นปัญหาหรือไม่? ปัญหาอื่น ๆ : มีปริมาณอื่น ๆ ที่ต้องพิจารณาหรือไม่ มีสิ่งอื่นใดอีกไหมที่ฉันต้องจำไว้?

2
เงื่อนไขทั้งหมดมาจากการสุ่มตัวอย่างที่กิ๊บส์?
อัลกอริทึม MCMC เช่นการสุ่มตัวอย่าง Metropolis-Hastings และ Gibbs เป็นวิธีการสุ่มตัวอย่างจากการกระจายหลังร่วมกัน ฉันคิดว่าฉันเข้าใจและสามารถนำไปใช้ในการทำให้มหานครสวยได้อย่างง่ายดาย - คุณเพียงแค่เลือกจุดเริ่มต้นอย่างใดอย่างหนึ่งและ 'เดินพื้นที่พารามิเตอร์' โดยการสุ่มนำโดยความหนาแน่นหลังและความหนาแน่นของข้อเสนอ การสุ่มตัวอย่างของกิ๊บส์ดูเหมือนจะคล้ายกันมาก แต่มีประสิทธิภาพมากกว่าเนื่องจากจะอัปเดตพารามิเตอร์ครั้งละหนึ่งเท่านั้นในขณะที่ถือค่าคงตัวอื่น ๆ อย่างมีประสิทธิภาพการเดินบนอวกาศในรูปแบบมุมฉาก ในการดำเนินการนี้คุณต้องมีเงื่อนไขครบถ้วนของแต่ละพารามิเตอร์ในการวิเคราะห์จาก * แต่เงื่อนไขทั้งหมดนี้มาจากไหน P(x1|x2, …, xn)=P(x1, …, xn)P(x2, …, xn)P(x1|x2, …, xn)=P(x1, …, xn)P(x2, …, xn) P(x_1 | x_2,\ \ldots,\ x_n) = \frac{P(x_1,\ \ldots,\ x_n)}{P(x_2,\ \ldots,\ x_n)} ที่จะได้รับส่วนที่คุณจำเป็นต้องเหยียดหยามร่วมกว่าx1x1x_11 ดูเหมือนว่าจะมีการทำงานมากมายที่ต้องทำการวิเคราะห์หากมีพารามิเตอร์จำนวนมากและอาจไม่สามารถจัดการได้หากการกระจายข้อต่อไม่ดีมาก ฉันรู้ว่าถ้าคุณใช้การผันคำกริยาตลอดทั้งโมเดลเงื่อนไขแบบเต็มอาจง่าย แต่ก็ต้องมีวิธีที่ดีกว่าสำหรับสถานการณ์ทั่วไปมากขึ้น ตัวอย่างทั้งหมดของการสุ่มตัวอย่างของกิ๊บส์ที่ฉันเคยเห็นตัวอย่างการใช้ของเล่นออนไลน์ (เช่นการสุ่มตัวอย่างจากตัวแปรหลายตัวแปรซึ่งเงื่อนไขเป็นเพียงบรรทัดฐานของตัวเอง) และดูเหมือนจะหลบปัญหานี้ …
15 bayesian  mcmc  gibbs 

2
แสดงค่าเฉลี่ยแทนค่ามัธยฐานใน boxplot [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 เดือนที่ผ่านมา เมื่อพล็อตพล็อต boxplot ด้วย python matplotblib บรรทัดที่ครึ่งทางของพล็อตคือค่ามัธยฐานของการแจกแจง มีความเป็นไปได้ที่จะมีเส้นตรงแทนค่าเฉลี่ย หรือจะพล็อตติดกับมันในสไตล์ที่แตกต่าง นอกจากนี้เนื่องจากเป็นเรื่องปกติที่บรรทัดจะเป็นค่ามัธยฐานมันจะทำให้ผู้อ่านสับสนหรือไม่ถ้าฉันทำให้มันเป็นค่าเฉลี่ย (นอกหลักสูตรฉันจะเพิ่มข้อความว่าเส้นกลางคืออะไร) หรือไม่

3
การพิจารณาว่าเว็บไซต์ทำงานอยู่หรือไม่โดยใช้การเข้าชมรายวัน
บริบท: ฉันมีกลุ่มเว็บไซต์ที่ฉันบันทึกจำนวนการเข้าชมรายวัน: W0 = { 30, 34, 28, 30, 16, 13, 8, 4, 0, 5, 2, 2, 1, 2, .. } W1 = { 1, 3, 21, 12, 10, 20, 15, 43, 22, 25, .. } W2 = { 0, 0, 4, 2, 2, 5, 3, 30, 50, 30, 30, …

2
ตัวเลขสุ่มและแพ็คเกจมัลติคอร์
เมื่อเขียนโปรแกรมใน R ฉันใช้แพ็คเกจมัลติคอร์สองสามครั้ง อย่างไรก็ตามฉันไม่เคยเห็นคำสั่งเกี่ยวกับวิธีการจัดการกับตัวเลขสุ่ม เมื่อฉันใช้ openMP กับ C ฉันระวังที่จะใช้ RNG แบบขนานที่เหมาะสม แต่ด้วย R ฉันคิดว่ามีบางอย่างที่เหมาะสมเกิดขึ้น มีใครยืนยันได้ไหมว่ามีบางสิ่งที่เหมาะสมเกิดขึ้น? ตัวอย่าง จากเอกสารเรามี x <- foreach(icount(1000), .combine = "+") %do% rnorm(4) วิธีนี้เป็นrnorm`s สร้าง?

4
ความคล้ายคลึงกันทางสถิติของอนุกรมเวลา
หากว่าใครมีอนุกรมเวลาซึ่งสามารถวัดต่าง ๆ เช่นระยะเวลาสูงสุดต่ำสุดเฉลี่ย ฯลฯ แล้วใช้สิ่งเหล่านี้เพื่อสร้างแบบจำลองคลื่นไซน์ที่มีคุณลักษณะเดียวกันมีวิธีการทางสถิติใดที่สามารถใช้วัดปริมาณได้ ข้อมูลจริงที่ตรงกับตัวแบบที่สันนิษฐานมากแค่ไหน จำนวนจุดข้อมูลในชุดข้อมูลจะอยู่ระหว่าง 10 ถึง 50 คะแนน ความคิดแรกที่ง่ายที่สุดของฉันคือการกำหนดค่าให้กับทิศทางการเคลื่อนที่ของคลื่นไซน์เช่น +1 +1 +1 +1 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 ทำแบบเดียวกันกับข้อมูลจริงจากนั้นก็หาค่าปริมาณของความคล้ายคลึงกันของทิศทางการเคลื่อนไหว แก้ไข: ให้ความคิดกับสิ่งที่ฉันต้องการทำกับข้อมูลของฉันมากขึ้นและจากการตอบคำถามเดิมของฉันสิ่งที่ฉันต้องการก็คืออัลกอริทึมการตัดสินใจเลือกระหว่างสมมติฐานที่แข่งขันกัน: นั่นคือข้อมูลของฉันเป็นเส้นตรง (หรือ แนวโน้ม) ด้วยเสียงที่อาจมีองค์ประกอบที่เป็นวงจร ข้อมูลของฉันนั้นเป็นวัฏจักรที่ไม่มีแนวโน้มที่จะพูดถึง ข้อมูลนั้นเป็นเพียงแค่เสียงรบกวน หรือเป็นการเปลี่ยนแปลงระหว่างสถานะใด ๆ เหล่านี้ ความคิดของฉันตอนนี้อาจรวมรูปแบบของการวิเคราะห์แบบเบย์กับ Euclidean / LMS ขั้นตอนในวิธีการนี้จะเป็น สร้างคลื่นไซน์ที่สันนิษฐานจากการวัดข้อมูล ติดตั้ง LMS ให้ตรงกับข้อมูล สืบทอด …

4
เปรียบเทียบโมเดลเอฟเฟกต์แบบผสมด้วยจำนวนองศาอิสระเท่ากัน
ฉันมีการทดลองที่ฉันจะพยายามทำให้เป็นนามธรรมที่นี่ ลองนึกภาพฉันโยนหินสีขาวสามใบไว้หน้าคุณและขอให้คุณตัดสินเกี่ยวกับตำแหน่งของพวกเขา ฉันบันทึกคุณสมบัติต่าง ๆ ของหินและการตอบสนองของคุณ ฉันทำสิ่งนี้กับหลาย ๆ วิชา ฉันสร้างสองรุ่น หนึ่งคือหินที่อยู่ใกล้คุณที่สุดทำนายการตอบสนองของคุณและอีกอย่างคือหินเรขาคณิตที่อยู่ตรงกลางทำนายการตอบสนองของคุณ ดังนั้นการใช้ lmer ใน RI สามารถเขียนได้ mNear <- lmer(resp ~ nearest + (1|subject), REML = FALSE) mCenter <- lmer(resp ~ center + (1|subject), REML = FALSE) อัปเดตและเปลี่ยน - เวอร์ชันตรงเพิ่มเติมที่รวมความคิดเห็นที่เป็นประโยชน์ไว้หลายประการ ฉันสามารถลอง anova(mNear, mCenter) ซึ่งไม่ถูกต้องแน่นอนเพราะพวกมันไม่ได้ซ้อนกันอยู่และฉันไม่สามารถเปรียบเทียบพวกเขาในแบบนั้นได้ ฉันคาดหวังว่า anova.mer จะโยนข้อผิดพลาด แต่ก็ไม่ได้ แต่ความเป็นไปได้ในการทำรังที่ฉันสามารถลองได้ที่นี่ไม่เป็นธรรมชาติและยังทำให้ฉันมีงบการวิเคราะห์ค่อนข้างน้อย เมื่อแบบจำลองซ้อนกันตามธรรมชาติ (เช่นกำลังสองบนเส้นตรง) การทดสอบเป็นทางเดียวเท่านั้น …

3
คุณบางคนใช้สเปรดชีตของ Google เอกสารเพื่อดำเนินการและแบ่งปันผลงานทางสถิติของคุณกับผู้อื่นหรือไม่?
ฉันรู้ว่าพวกคุณส่วนใหญ่อาจรู้สึกว่า Google เอกสารยังคงเป็นเครื่องมือดั้งเดิม ไม่ใช่ Matlab หรือ R และไม่ใช่แม้แต่ Excel กระนั้นฉันก็รู้สึกงุนงงกับพลังของซอฟต์แวร์ที่ทำงานบนเว็บที่เพิ่งใช้ความสามารถในการทำงานของเบราว์เซอร์ Mike Lawrence ซึ่งทำงานอยู่ในฟอรัมนี้ได้แบ่งปันสเปรดชีตกับเราโดยใช้ Google เอกสารซึ่งทำสิ่งที่น่าสนใจ โดยส่วนตัวแล้วฉันได้จำลองกรอบการทดสอบสมมติฐานอย่างละเอียด (รวมถึงการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์) ที่ทำใน Excel ใน Google เอกสาร ฉันสนใจถ้ามีใครในพวกคุณลองใช้ Google เอกสารและผลักมันให้ถึงขีด จำกัด ในแอปพลิเคชันที่น่าสนใจ ฉันสนใจที่จะรับฟังข้อบกพร่องหรือข้อบกพร่องที่คุณพบใน Google เอกสารด้วย ฉันกำลังตั้งคำถามนี้ว่า "สำหรับวิกิชุมชน" แสดงว่าไม่มีคำตอบที่ดีที่สุดสำหรับเรื่องนี้ เป็นการสำรวจมากกว่าสิ่งใด

2
มีโมเดล cointegration สำหรับอนุกรมเวลาที่เว้นระยะผิดปกติหรือไม่?
ฉันยังไม่ชัดเจนในการคำนวณ cointegration ด้วยอนุกรมเวลาที่ผิดปกติ (ควรใช้แบบทดสอบ Johansenกับ VECM) ความคิดเริ่มต้นของฉันคือการทำให้ซีรีส์เป็นแบบปกติและแก้ไขค่าที่หายไปแม้ว่าจะมีอคติในการประมาณค่า มีวรรณกรรมในเรื่องนี้บ้างไหม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.