สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?
ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้ ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี

2
มาตรการต่าง ๆ ของความต่างระดับ
ลิงค์วิกิพีเดียนี้แสดงเทคนิคต่าง ๆ ในการตรวจสอบความหลงไหลของ OLS ที่เหลืออยู่ ฉันต้องการเรียนรู้ว่าเทคนิคการลงมือปฏิบัติแบบใดที่มีประสิทธิภาพมากกว่าในการตรวจจับภูมิภาคที่ได้รับผลกระทบจากความแตกต่างทางเพศ ตัวอย่างเช่นที่นี่พื้นที่ภาคกลางในพล็อตเรื่อง 'Residuals vs vs Fitted' ของ OLS เห็นว่ามีความแปรปรวนสูงกว่าด้านข้างของพล็อต (ฉันไม่แน่ใจในข้อเท็จจริงทั้งหมด เพื่อยืนยันการดูป้ายข้อผิดพลาดในพล็อต QQ เราจะเห็นว่าพวกเขาตรงกับป้ายข้อผิดพลาดในใจกลางของพล็อตที่เหลือ แต่เราจะหาปริมาณส่วนที่เหลือที่มีความแปรปรวนสูงกว่าอย่างมีนัยสำคัญได้อย่างไร?

3
Auto.arima กับ autobox แตกต่างกันอย่างไร
จากการอ่านโพสต์ในเว็บไซต์นี้ฉันรู้ว่ามีฟังก์ชั่น R auto.arima(ในforecast แพ็คเกจ ) ผมยังไม่ทราบว่าIrishStatเป็นสมาชิกของเว็บไซต์นี้สร้างแพคเกจในเชิงพาณิชย์Autoboxในต้นทศวรรษ 1980 เนื่องจากแพ็คเกจเหล่านี้มีอยู่ในปัจจุบันและเลือกตัวแบบ arima สำหรับชุดข้อมูลที่กำหนดโดยอัตโนมัติ พวกเขาอาจจะสร้างแบบจำลองที่แตกต่างกันสำหรับชุดข้อมูลเดียวกันได้หรือไม่

2
โครงสร้าง G-R คืออะไรใน glmm?
ฉันใช้MCMCglmmแพ็กเกจเมื่อเร็ว ๆ นี้ ฉันสับสนกับสิ่งที่อ้างถึงในเอกสารประกอบว่า R-structure และ G-structure สิ่งเหล่านี้ดูเหมือนจะเกี่ยวข้องกับเอฟเฟกต์แบบสุ่มโดยเฉพาะอย่างยิ่งการระบุพารามิเตอร์สำหรับการแจกแจงก่อนหน้านี้ แต่การอภิปรายในเอกสารประกอบดูเหมือนว่าจะถือว่าผู้อ่านรู้ว่าคำเหล่านี้คืออะไร ตัวอย่างเช่น: รายการตัวเลือกของข้อกำหนดก่อนหน้านี้มี 3 องค์ประกอบที่เป็นไปได้: R (โครงสร้าง R) G (โครงสร้าง G) และ B (ลักษณะพิเศษคงที่) ............ Priors สำหรับโครงสร้างความแปรปรวน (R และ G ) คือรายการที่มีค่าความแปรปรวน (co) (V) และระดับของพารามิเตอร์ความเชื่อ (nu) สำหรับ inverse-Wishart ... นำมาจากจากที่นี่ แก้ไข: โปรดทราบว่าฉันได้เขียนคำถามที่เหลืออีกครั้งตามความคิดเห็นจากสเตฟาน ทุกคนสามารถให้แสงสว่างในสิ่งที่โครงสร้าง R และโครงสร้าง G ในบริบทของรูปแบบส่วนประกอบความแปรปรวนแบบง่ายโดยที่ตัวทำนายเชิงเส้นคือ β0+e0ij+u0jβ0+e0ij+u0j\beta_0 + e_{0ij} + u_{0j} …

1
กระบวนการแบบเกาส์: คุณสมบัติการประมาณฟังก์ชั่น
ฉันกำลังเรียนรู้เกี่ยวกับกระบวนการแบบเกาส์เซียนและเคยได้ยินเพียงส่วนน้อยเท่านั้น จะขอบคุณความคิดเห็นและคำตอบจริงๆ สำหรับชุดข้อมูลใด ๆ เป็นความจริงหรือไม่ที่การประมาณค่าฟังก์ชันเกาส์เซียนจะทำให้เกิดข้อผิดพลาดในการปรับศูนย์หรือเล็กน้อยที่จุดข้อมูล? ในสถานที่อื่นฉันยังได้ยินว่ากระบวนการแบบเกาส์นั้นดีสำหรับข้อมูลที่มีเสียงดัง สิ่งนี้ดูเหมือนว่าจะขัดแย้งกับข้อผิดพลาดที่เหมาะสมน้อยสำหรับข้อมูลใด ๆ ที่สังเกตได้? นอกจากนี้ยิ่งห่างจากจุดข้อมูลดูเหมือนว่ามีความไม่แน่นอนมากขึ้น (ความแปรปรวนร่วมที่มากขึ้น) ถ้าเป็นเช่นนั้นมันจะทำงานเหมือนรุ่นในตัวเครื่อง (RBF ฯลฯ ) หรือไม่? ในที่สุดมีคุณสมบัติการประมาณสากลหรือไม่?

3
ตัวแปร Collinear ในการฝึกอบรม LDA หลายระดับ
ฉันฝึกอบรมลักษณนามหลายระดับ LDA กับ8 ชั้นเรียนของข้อมูล ขณะทำการฝึกซ้อมฉันได้รับคำเตือนว่า: " Variables are collinear " ฉันได้รับการฝึกอบรมมีความถูกต้องมากกว่า90% ฉันใช้ห้องสมุดscikits-LearnในPythonทำการฝึกอบรมและทดสอบข้อมูลหลายคลาส ฉันได้รับความแม่นยำในการทดสอบที่ดีเช่นกัน (ประมาณ85% -95% ) ฉันไม่เข้าใจว่าข้อผิดพลาด / คำเตือนหมายถึงอะไร กรุณาช่วยฉันออกไป.

3
MLE ต้องการข้อมูล iid หรือไม่ หรือเพียงแค่พารามิเตอร์อิสระ
การประมาณค่าพารามิเตอร์โดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) เกี่ยวข้องกับการประเมินฟังก์ชั่นความน่าจะเป็นซึ่งแผนที่ความน่าจะเป็นของตัวอย่าง (X) ที่เกิดขึ้นกับค่า (x) บนพื้นที่พารามิเตอร์ (θ) ที่กำหนดตระกูลการแจกแจง (P (X = x | θ) ) มากกว่าค่าที่เป็นไปได้ของθ (หมายเหตุ: ฉันถูกใช่ไหม?) ตัวอย่างทั้งหมดที่ฉันได้เห็นเกี่ยวข้องกับการคำนวณ P (X = x | θ) โดยการหาผลคูณของ F (X) โดยที่ F เป็นการแจกแจงแบบท้องถิ่น ค่าสำหรับθและ X คือตัวอย่าง (เวกเตอร์) เนื่องจากเราเพิ่งคูณข้อมูลมันติดตามว่าข้อมูลนั้นเป็นอิสระหรือไม่ เช่นเราไม่สามารถใช้ MLE ให้พอดีกับข้อมูลอนุกรมเวลาได้หรือไม่ หรือพารามิเตอร์ต้องเป็นอิสระ?

2
วิธีการใช้งาน ANOVA แบบสองทางกับข้อมูลที่ไม่มีค่าปกติและความแปรปรวนใน R ได้อย่างไร?
ฉันกำลังทำวิทยานิพนธ์หลักของฉันในขณะนี้และวางแผนที่จะใช้สถิติด้วย SigmaPlot อย่างไรก็ตามหลังจากใช้เวลากับข้อมูลของฉันฉันได้ข้อสรุปว่า SigmaPlot อาจไม่เหมาะกับปัญหาของฉัน (ฉันอาจเข้าใจผิด) ดังนั้นฉันจึงเริ่มต้นความพยายามครั้งแรกใน R ซึ่งไม่ได้ทำให้ง่ายขึ้นอย่างแน่นอน แผนคือการใช้ TWO-WAY-ANOVA แบบง่าย ๆ กับข้อมูลของฉันซึ่งเป็นผลมาจากโปรตีน 3 ชนิดและการรักษา 8 แบบที่แตกต่างกันดังนั้นสองปัจจัยของฉันคือโปรตีนและการรักษา ฉันทดสอบความเป็นมาตรฐานโดยใช้ทั้งสองอย่าง > shapiro.test(time) และ > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) ในทั้งสองกรณี (อาจไม่แปลกใจ) ฉันลงเอยด้วยการแจกแจงแบบไม่ธรรมดา ที่เหลือฉันด้วยคำถามแรกของการทดสอบที่จะใช้เพื่อความเท่าเทียมกันของความแปรปรวน ฉันมาด้วย > chisq.test(time) และผลลัพธ์ก็คือว่าฉันไม่มีความเท่าเทียมกันของความแปรปรวนในข้อมูลของฉันเช่นกัน ฉันลองการแปลงข้อมูลที่แตกต่างกัน (log, center, standardization) ซึ่งทั้งหมดไม่ได้แก้ปัญหาด้วยความแปรปรวน ตอนนี้ฉันกำลังตกอยู่ในความสูญเสียวิธีดำเนินการ ANOVA สำหรับการทดสอบว่าโปรตีนและการรักษาใดแตกต่างกัน ฉันพบบางอย่างเกี่ยวกับ Kruskal-Walis-Test แต่มีเพียงปัจจัยเดียวเท่านั้น (?) ฉันยังพบสิ่งต่าง ๆ เกี่ยวกับการจัดอันดับหรือการทำให้เสียโฉม …

4
กำลังล้างข้อมูลของรูปแบบที่ไม่สอดคล้องใน R หรือไม่
ฉันมักจะจัดการกับข้อมูลการสำรวจที่ยุ่งเหยิงซึ่งต้องมีการทำความสะอาดมากก่อนที่จะสามารถทำสถิติใด ๆ ได้ ฉันเคยทำสิ่งนี้ "ด้วยตนเอง" ใน Excel บางครั้งใช้สูตร Excel และบางครั้งก็ตรวจสอบรายการทีละรายการ ฉันเริ่มทำงานเหล่านี้มากขึ้นเรื่อย ๆ โดยการเขียนสคริปต์เพื่อทำใน R ซึ่งมีประโยชน์มาก (ผลประโยชน์รวมถึงการบันทึกสิ่งที่ทำไปแล้วมีโอกาสผิดพลาดน้อยลงและสามารถนำรหัสมาใช้ใหม่ได้หากชุดข้อมูลเป็น ปรับปรุง) แต่ยังมีข้อมูลบางประเภทที่ฉันมีปัญหาในการจัดการอย่างมีประสิทธิภาพ ตัวอย่างเช่น: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) …
16 r  data-cleaning 

2
ข้อผิดพลาดของคอมพิวเตอร์มาตรฐานในการประมาณค่าเฉลี่ยถ่วงน้ำหนัก
สมมติว่าและจะวาดแต่ละIIDจากการกระจายบางกับอิสระจากx_iw_iเป็นบวกอย่างเคร่งครัด คุณสังเกตเห็นw_iทั้งหมดแต่ไม่ใช่x_i ; มากกว่าที่คุณสังเกต\ sum_i x_i w_i ฉันสนใจที่จะประมาณ\ operatorname {E} \ left [x \ right]จากข้อมูลนี้ เห็นได้ชัดว่าตัวประมาณ \ bar {x} = \ frac {\ sum_i w_i x_i} {\ sum_i w_i} นั้นไม่เอนเอียงและสามารถคำนวณได้เมื่อมีข้อมูลอยู่ในมือx 1 , x 2 , . . , x nw1,w2,…,wnw1,w2,…,wnw_1,w_2,\ldots,w_nx1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_nx ฉันW ฉันW ฉันx ฉันΣ ฉันx ฉันW ฉัน E [ x …

3
การคำนวณค่าเบี่ยงเบนมาตรฐานใหม่โดยใช้ค่าเบี่ยงเบนมาตรฐานเดิมหลังจากการเปลี่ยนแปลงในชุดข้อมูล
ฉันมีอาร์เรย์ของnnnค่าจริงซึ่งมีค่าเฉลี่ยμoldμold\mu_{old}และส่วนเบี่ยงเบนมาตรฐานσoldσold\sigma_{old} d หากองค์ประกอบของอาร์เรย์xixix_iถูกแทนที่ด้วยองค์ประกอบอื่นxjxjx_jค่าเฉลี่ยใหม่จะเป็น μnew=μold+xj−xinμnew=μold+xj−xin\mu_{new}=\mu_{old}+\frac{x_j-x_i}{n} ข้อดีของวิธีนี้ก็คือจะต้องมีการคำนวณอย่างต่อเนื่องโดยไม่คำนึงถึงความคุ้มค่าของnnnnจะมีวิธีการใดในการคำนวณσnewσnew\sigma_{new}ใช้σoldσold\sigma_{old}เช่นการคำนวณของμnewμnew\mu_{new}ใช้μoldμold\mu_{old} ?

1
การตีความผลลัพธ์ของการทดสอบ Granger Causality
ฉันพยายามที่จะให้ความรู้กับ Granger Causality ฉันได้อ่านโพสต์บนเว็บไซต์นี้และบทความดีๆหลายฉบับทางออนไลน์ ฉันยังเจอเครื่องมือที่มีประโยชน์มากBivariate Granger Causality - เครื่องคำนวณสถิติฟรีที่ให้คุณป้อนอนุกรมเวลาของคุณและคำนวณ Granger Stats ด้านล่างคือผลลัพธ์จากข้อมูลตัวอย่างที่รวมอยู่ในเว็บไซต์ ฉันได้ทำการวิเคราะห์ผลลัพธ์ด้วย คำถามของฉัน: การตีความของฉันถูกต้องในทิศทางหรือไม่? ฉันมองข้ามข้อมูลเชิงลึกที่สำคัญอะไร ความหมายและการตีความของแผนภูมิ CCF คืออะไร (ฉันสมมติว่า CCF เป็นความสัมพันธ์ข้าม) นี่คือผลลัพธ์และแผนการที่ฉันตีความ: Summary of computational transaction Raw Input view raw input (R code) Raw Output view raw output of R engine Computing time 2 seconds R Server 'Herman Ole …

3
การค้นหา MLE สำหรับกระบวนการฮอว์คส์แบบเอกซ์เรย์ที่ไม่แปรเปลี่ยน
กระบวนการฮอว์คส์ชี้แจงที่ไม่แปรปรวนเป็นกระบวนการจุดที่น่าตื่นเต้นในตัวเองโดยมีอัตราการมาถึงของเหตุการณ์: λ(t)=μ+∑ti&lt;tαe−β(t−ti)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} ที่บางครั้งเหตุการณ์ที่เดินทางมาถึงt1,..tnt1,..tn t_1,..t_n ฟังก์ชันโอกาสในการบันทึกคือ −tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln(μ+αe−β(tj−ti))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} ซึ่งสามารถคำนวณซ้ำ: −tnμ+αβ∑(e−β(tn−ti)−1)+∑ln(μ+αR(i))−tnμ+αβ∑(e−β(tn−ti)−1)+∑ln⁡(μ+αR(i)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum{\ln(\mu+\alpha R(i))} R(i)=e−β(ti−ti−1)(1+R(i−1))R(i)=e−β(ti−ti−1)(1+R(i−1)) R(i) = e^{-\beta(t_i-t_{i-1})} (1+R(i-1)) R(1)=0R(1)=0 R(1) = 0 ฉันสามารถใช้วิธีการเชิงตัวเลขใดเพื่อค้นหา MLE วิธีการปฏิบัติที่ง่ายที่สุดที่จะใช้คืออะไร?

1
วิธีโง่อย่างน้อยที่สุดในการทำนายอนุกรมเวลาแบบหลายตัวแปรสั้น ๆ
ฉันจำเป็นต้องคาดการณ์ตัวแปร 4 ตัวต่อไปนี้สำหรับหน่วยเวลาที่ 29 ฉันมีข้อมูลประวัติศาสตร์ประมาณ 2 ปีโดยที่ 1 และ 14 และ 27 เป็นช่วงเวลาเดียวกันทั้งหมด (หรือช่วงเวลาของปี) ในท้ายที่สุดฉันทำสลายตัวสไตล์โออาซากา-Blinder ใน , W D , W คและพีWWWW dWdwdW คWคwcพีพีp time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 …

1
การใช้ R และ plm เพื่อประเมินแบบจำลองเอฟเฟกต์คงที่ที่มีการโต้ตอบกับเวลา
ฉันใช้plm()เพื่อประเมินแบบจำลองเอฟเฟกต์คงที่ของแบบฟอร์ม y ~ x + time + time:fixed_trait ที่ไหน fixed_traitเป็นตัวแปรที่แปรผันไปตามบุคคล แต่คงที่ภายในบุคคล จุดของการโต้ตอบtimeกับfixed_traitคือการอนุญาตให้มีผลของfixed_traitการเปลี่ยนแปลงในช่วงเวลา (ฉันกำลังทำงานที่นี่จากหนังสือเล่มล่าสุดของ Paul Allison เกี่ยวกับเอฟเฟกต์คงที่การอ้างอิงต่อท้าย) plm()ไม่มีปัญหาในการประมาณค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานสำหรับรุ่นดังกล่าว แต่summary.plm()ไม่สามารถคำนวณ R ^ 2 สำหรับรุ่นเหล่านี้ได้ นี่คือปัญหาที่ฉันต้องการแก้ไข นี่คือตัวอย่างเล็กน้อย: library(plm) tmp &lt;- data.frame(ID=rep(1:3, 2), year=rep(0:1, each=3), y=rnorm(6), const=rep(1:3, 2)) fe1 &lt;- plm(y ~ year, index=c('ID', 'year'), data=tmp) fe2 &lt;- plm(y ~ year + year:const, index=c('ID', …
16 r 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.