สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
รูปร่างของความมั่นใจและการทำนายระยะเวลาสำหรับการถดถอยแบบไม่เชิงเส้น
ความเชื่อมั่นและการคาดคะเนรอบ ๆ การถดถอยแบบไม่เชิงเส้นควรจะสมมาตรรอบ ๆ เส้นการถดถอยหรือไม่? ความหมายพวกเขาไม่ได้ใช้รูปทรงแก้วชั่วโมงเหมือนในกรณีของแถบสำหรับการถดถอยเชิงเส้น ทำไมถึงเป็นอย่างนั้น? นี่คือตัวอย่างของคำถาม: นี่คือรูป: F(x)=⎛⎝⎜⎜A−D1+(xC)B⎞⎠⎟⎟+DF(x)=(A−D1+(xC)B)+D F(x) = \left(\frac{A-D}{1 + \left(\frac x C\right)^B}\right) + D และนี่คือสมการ:

1
มีคอนจูเกตก่อนหน้าการกระจาย Laplace หรือไม่?
มีคอนจูเกตก่อนหน้าการกระจาย Laplaceหรือไม่? ถ้าไม่เป็นเช่นนั้นมีการแสดงออกของรูปแบบปิดที่รู้จักกันซึ่งใกล้เคียงกับหลังสำหรับพารามิเตอร์ของการกระจาย Laplace หรือไม่? ฉันไปรอบ ๆ ค่อนข้างมากโดยไม่ประสบความสำเร็จดังนั้นการเดาปัจจุบันของฉันคือ "ไม่" สำหรับคำถามด้านบน ...

1
เท่าไหร่ขนาดเล็กสามารถ
อินโทร:หลังจากที่สังเกตเห็นความสนใจที่ได้รับในวันนี้จากคำถามนี้ " ANOVA จะมีความสำคัญหรือไม่หากไม่มีการทดสอบแบบ pairwise t? " ฉันคิดว่าฉันอาจสามารถ reframe ในวิธีที่น่าสนใจซึ่งสมควรได้รับคำตอบของตัวเอง . ความหลากหลายของผลไม่ลงรอยกัน (มูลค่าที่ตรา) สามารถเกิดขึ้นเมื่อนัยสำคัญทางสถิติเป็นที่เข้าใจกันว่าเป็นขั้วที่เรียบง่ายและตัดสินบนพื้นฐานเพียงของซึ่งเป็นสูงกว่าpppหรือααα\alpha@ Glen_b คำตอบสำหรับคำถามข้างต้นแสดงตัวอย่างที่มีประโยชน์ของกรณีที่: ANOVA FFFทดสอบสร้างpF&lt;.05pF&lt;.05p_F<.05สำหรับหนึ่งตัวแปรอิสระ (IV) กับสี่ระดับ แต่ pt&gt;.08pt&gt;.08p_t>.08สำหรับทุกสองตัวอย่างttt -tests ที่เปรียบเทียบความแตกต่างในตัวแปรเดียวกัน (DV) ในหมู่สังเกตสอดคล้องกับคู่ของ IV สี่แต่ละระดับ กรณีที่คล้ายกันเกิดขึ้นแม้จะมีการแก้ไข Bonferroni สำหรับการเปรียบเทียบแบบคู่หลังด้วยคำถามนี้: การวัดซ้ำของ Anova มีความสำคัญ แต่การเปรียบเทียบหลาย ๆ ครั้งกับการแก้ไข Bonferroni ไม่ได้เป็นเช่นนั้นหรือ? กรณีที่กล่าวถึงก่อนหน้านี้ที่มีการทดสอบแตกต่างกันเล็กน้อยในการถดถอยหลายครั้งก็มีอยู่: ทำไมจึงเป็นไปได้ที่จะได้รับสถิติ F อย่างมีนัยสำคัญ (p &lt;.001) แต่การทดสอบ t regressor ไม่สำคัญ? : …

2
ฟังก์ชันความหนาแน่นของความน่าจะเป็นเอนโทรปีสูงสุดคืออะไรสำหรับตัวแปรต่อเนื่องที่เป็นบวกของค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
การกระจายเอนโทรปีสูงสุดสำหรับตัวแปรต่อเนื่องเชิงบวกคืออะไรในช่วงเวลาที่หนึ่งและสอง ตัวอย่างเช่นการแจกแจงแบบเกาส์คือการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรที่ไม่ได้ จำกัด เนื่องจากค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานและการแจกแจงแกมมาเป็นการแจกแจงแบบเอนโทรปีสูงสุดสำหรับตัวแปรบวกโดยให้ค่าเฉลี่ยและค่าเฉลี่ยของลอการิทึม

2
การทดสอบของ Dunnett ใน R คืนค่าต่างกันในแต่ละครั้ง
ฉันใช้ไลบรารี R 'multcomp' ( http://cran.r-project.org/web/packages/multcomp/ ) เพื่อคำนวณการทดสอบของ Dunnett ฉันใช้สคริปต์ด้านล่าง: Group &lt;- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value &lt;- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data &lt;- data.frame(Group, Value) aov &lt;- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) ตอนนี้ถ้าฉันรันสคริปต์นี้ผ่าน R Console หลาย ๆ ครั้งฉันจะได้ผลลัพธ์ที่แตกต่างกันเล็กน้อยในแต่ละครั้ง นี่คือตัวอย่างหนึ่ง: Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = Value …

1
วิธีการหนึ่งที่แสดงให้เห็นว่าไม่มีความเป็นกลาง estimator ของ
สมมติว่าเป็นตัวแปรสุ่ม IID ที่เป็นไปตามการกระจาย Poisson ที่มีค่าเฉลี่ย\ฉันจะพิสูจน์ได้อย่างไรว่าไม่มีตัวประมาณปริมาณไม่ λ 1X0, X1, … , XnX0,X1,…,Xn X_{0},X_{1},\ldots,X_{n} λλ \lambda 1λ1λ \dfrac{1}{\lambda}

2
ARIMA vs ARMA ในซีรี่ส์ที่ต่างกัน
ใน R (2.15.2) ฉันติดตั้ง ARIMA หนึ่งครั้ง (3,1,3) ในอนุกรมเวลาหนึ่งครั้งและ ARMA (3,3) หนึ่งครั้งในช่วงเวลาที่ต่างกัน พารามิเตอร์ที่ติดตั้งแตกต่างกันซึ่งฉันอ้างถึงวิธีการติดตั้งใน ARIMA นอกจากนี้การติดตั้ง ARIMA (3,0,3) ในข้อมูลเดียวกันกับ ARMA (3,3) จะไม่ส่งผลให้มีพารามิเตอร์เหมือนกันไม่ว่าวิธีการฟิตติ้งที่ฉันใช้จะเป็นอย่างไร ฉันสนใจที่จะระบุว่าความแตกต่างนั้นมาจากไหนและด้วยพารามิเตอร์ใดที่ฉันสามารถทำได้ (ถ้าหากทั้งหมด) พอดีกับ ARIMA เพื่อให้ได้ค่าสัมประสิทธิ์ของความพอดีเหมือนกับ ARMA รหัสตัวอย่างที่จะสาธิต: library(tseries) set.seed(2) #getting a time series manually x&lt;-c(1,2,1) e&lt;-c(0,0.3,-0.2) n&lt;-45 AR&lt;-c(0.5,-0.4,-0.1) MA&lt;-c(0.4,0.3,-0.2) for(i in 4:n){ tt&lt;-rnorm(1) t&lt;-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x&lt;-c(x,t) e&lt;-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) …
13 r  time-series  arima  fitting  arma 

1
การประเมินรูปแบบการถดถอยโลจิสติก
ฉันกำลังทำงานกับโมเดลโลจิสติกส์และฉันมีปัญหาในการประเมินผลลัพธ์ โมเดลของฉันเป็น logom ทวินาม ตัวแปรอธิบายของฉันคือ: ตัวแปรเด็ดขาดที่มี 15 ระดับตัวแปร dichotomous และ 2 ตัวแปรต่อเนื่อง My N มีขนาดใหญ่&gt; 8000 ฉันพยายามจำลองการตัดสินใจของ บริษัท ที่จะลงทุน ตัวแปรตามคือการลงทุน (ใช่ / ไม่ใช่) ตัวแปรระดับ 15 เป็นอุปสรรคที่แตกต่างกันสำหรับการลงทุนที่รายงานโดยผู้จัดการ ตัวแปรที่เหลือคือการควบคุมการขายเครดิตและกำลังการผลิตที่ใช้ ด้านล่างคือผลลัพธ์ของฉันโดยใช้rmsแพ็คเกจใน R Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. …

2
การแปลงรายการการจัดอันดับบางส่วนเป็นการจัดอันดับโลก
ฉันกำลังทำงานบางอย่างเช่นปัญหาต่อไปนี้ ฉันมีกลุ่มผู้ใช้และหนังสือ N เล่ม ผู้ใช้แต่ละคนสร้างการจัดอันดับตามลำดับของหนังสือทั้งหมดที่เขาอ่าน (ซึ่งน่าจะเป็นชุดย่อยของหนังสือ N) เช่นเล่ม 1&gt; เล่ม 40&gt; เล่ม 25 ตอนนี้ฉันต้องการเปลี่ยนการจัดอันดับผู้ใช้เหล่านี้ให้เป็นอันดับหนึ่งของหนังสือทั้งหมด มีวิธีการที่ดีหรือมาตรฐานที่จะลอง? จนถึงตอนนี้ฉันกำลังนึกถึงโมเดลแบรดลีย์ - เทอร์รี่ที่ใช้ในการเปรียบเทียบแบบคู่ แต่ฉันสงสัยว่ามีอะไรอีกไหม

2
การเลือกส่วนประกอบ PCA ที่แยกกลุ่ม
ฉันมักใช้ในการวิเคราะห์ข้อมูลหลายตัวแปรโดยใช้ PCA (ข้อมูล omics ที่มีตัวแปรนับแสนและตัวอย่างหลายสิบหรือหลายร้อย) ข้อมูลมักมาจากการทดลองกับตัวแปรอิสระหลายหมวดหมู่ที่กำหนดกลุ่มและฉันมักจะต้องผ่านองค์ประกอบบางอย่างก่อนที่ฉันจะสามารถหาคนที่แสดงการแยกระหว่างกลุ่มที่น่าสนใจ ฉันได้ค้นพบวิธีการดั้งเดิมในการค้นหาส่วนประกอบที่แบ่งแยกเช่นนั้นและฉันสงสัยว่า ขอบเขตนี้สมเหตุสมผล / สมเหตุสมผลและ ไม่ว่าจะมีวิธีที่ดีกว่าในการบรรลุเป้าหมายเดียวกัน โปรดทราบว่านี่คือการสำรวจ ก่อนที่จะโน้มน้าวใจคนอื่นฉันต้องการโน้มน้าวตัวเอง ถ้าฉันเห็นว่ามีส่วนประกอบที่แยกความแตกต่างของกลุ่มผลประโยชน์ (เช่นการควบคุมกับการรักษา) อย่างชัดเจนแม้ว่าพวกเขาจะรับผิดชอบส่วนย่อยของความแปรปรวนของการตอบสนองฉันก็เชื่อว่ามันเป็นผลมาจากการพูด การเรียนรู้ นี่คือแนวทางของฉัน ฉันจะใช้ชุดข้อมูลตัวอย่าง "metabo" จาก pca3d ใน R แนวคิดคือการประเมินความแปรปรวนของแต่ละองค์ประกอบที่สามารถอธิบายได้โดยตัวแปรอิสระ สำหรับสิ่งนี้ฉันคำนวณแบบจำลองอย่างง่ายสำหรับแต่ละองค์ประกอบและใช้R2R2R^2เป็นตัวชี้วัดในการสั่งซื้อส่วนประกอบจาก "ที่น่าสนใจที่สุด" ถึง "น่าสนใจน้อยที่สุด" require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the …

2
ผลรวมของสองผลิตภัณฑ์ปกติคือ Laplace
เห็นได้ชัดว่าเป็นกรณีที่ถ้าแล้วXผม∼ N( 0 , 1 )Xi∼N(0,1)X_i \sim N(0,1) X1X2+ X3X4∼ L a p l a c e ( 0 , 1 )X1X2+X3X4∼Laplace(0,1)X_1 X_2 + X_3 X_4 \sim \mathrm{Laplace(0,1)} ฉันเคยเห็นเอกสารเกี่ยวกับรูปแบบสมการกำลังสองที่กำหนดเองซึ่งส่งผลให้เกิดการแสดงออกที่ไม่ใช่ไคสแควร์ที่น่ากลัว ความสัมพันธ์แบบเรียบง่ายข้างต้นดูเหมือนจะไม่ชัดเจนสำหรับฉันดังนั้น (ถ้าเป็นจริง!) ใครบ้างที่มีข้อพิสูจน์เรื่องง่าย ๆ ข้างต้น?

1
Hamiltonian Monte Carlo และการเว้นวรรคพารามิเตอร์ที่ไม่ต่อเนื่อง
ฉันเพิ่งเริ่มสร้างแบบจำลองในสแตน ; เพื่อสร้างความคุ้นเคยกับเครื่องมือฉันกำลังทำงานผ่านแบบฝึกหัดในการวิเคราะห์ข้อมูลแบบเบย์ (2nd ed.) Waterbuck ออกกำลังกายซึมว่าข้อมูลกับ( N , θ )ที่ไม่รู้จัก ตั้งแต่มิล Monte Carlo ไม่อนุญาตให้มีพารามิเตอร์ที่ไม่ต่อเนื่องผมเคยประกาศNเป็นจริง∈ [ 72 , ∞ )และรหัสการกระจายทวินามจริงมูลค่าโดยใช้ฟังก์ชั่นn ∼ ทวินาม( N, θ )n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)( N, θ )(N,θ)(N, \theta)ยังไม่มีข้อความNN∈ [ 72 , ∞ )∈[72,∞)\in [72, \infty)lbeta ฮิสโตแกรมของผลลัพธ์ดูเหมือนจะเหมือนกับสิ่งที่ฉันพบโดยคำนวณความหนาแน่นด้านหลังโดยตรง อย่างไรก็ตามฉันกังวลว่าอาจมีเหตุผลบางอย่างที่ฉันไม่ควรเชื่อถือผลลัพธ์เหล่านี้โดยทั่วไป เนื่องจากการอนุมานมูลค่าจริงบนกำหนดความน่าจะเป็นบวกให้กับค่าที่ไม่ใช่จำนวนเต็มเรารู้ว่าค่าเหล่านี้เป็นไปไม่ได้เนื่องจาก waterbuck ที่เป็นเศษส่วนไม่มีอยู่จริง ในทางกลับกันผลลัพธ์ดูเหมือนจะดีดังนั้นการทำให้เข้าใจง่ายจะไม่มีผลต่อการอนุมานในกรณีนี้ยังไม่มีข้อความNN มีหลักการหรือกฎของหัวแม่มือสำหรับการสร้างแบบจำลองด้วยวิธีนี้หรือไม่หรือเป็นวิธีการ "ส่งเสริม" พารามิเตอร์ที่ไม่ต่อเนื่องกับการปฏิบัติที่ไม่ดีจริงหรือไม่?

2
การกระจายตัวใน summary.glm ()
ฉันทำ glm.nb โดย glm1&lt;-glm.nb(x~factor(group)) กับกลุ่มที่เป็น categorial และ x เป็นตัวแปรเมทริกซ์ เมื่อฉันพยายามที่จะได้รับการสรุปผลที่ฉันได้รับผลลัพธ์ที่แตกต่างกันเล็กน้อยขึ้นอยู่กับว่าผมใช้หรือsummary() ให้ฉันsummary.glmsummary(glm1) ... Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 …

4
มีการระบุรูปแบบโดย auto.arima () อย่างชัดเจนไหม?
ฉันพยายามเรียนรู้และนำแบบจำลอง ARIMA มาใช้ ฉันได้อ่านข้อความยอดเยี่ยมเกี่ยวกับ ARIMA โดย Pankratz - การพยากรณ์ด้วย Univariate Box - โมเดลเจนกินส์: แนวคิดและคดีต่างๆ ในข้อความที่ผู้เขียนเน้นเป็นพิเศษในการเลือกรูปแบบ ARIMA ผมเริ่มเล่นกับauto.arima()ฟังก์ชั่นในRแพคเกจการคาดการณ์ นี่คือสิ่งที่ผมทำผมจำลอง ARIMA auto.arima()และนำไปใช้แล้ว ด้านล่างเป็น 2 ตัวอย่าง อย่างที่คุณเห็นในตัวอย่างทั้งสองauto.arima()ระบุรูปแบบที่ชัดเจนว่าหลายคนอาจมองว่าไม่ใช้คำพูด โดยเฉพาะอย่างยิ่งในตัวอย่างที่ 2 ซึ่งauto.arima()ระบุ ARIMA (3,0,3) เมื่อจริง ๆ แล้ว ARIMA (1,0,1) น่าจะเพียงพอแล้ว ด้านล่างเป็นคำถามของฉัน ฉันขอขอบคุณข้อเสนอแนะและคำแนะนำใด ๆ มีคำแนะนำใดบ้างในการใช้ / แก้ไขโมเดลที่ระบุโดยใช้อัลกอริทึมอัตโนมัติเช่นauto.arima()? มีหลุมใดที่ใช้เพียง AIC (ซึ่งเป็นสิ่งที่ฉันคิดว่าauto.arima()ใช้) เพื่อระบุรูปแบบ? อัลกอริทึมอัตโนมัติที่สร้างขึ้นนั้นสามารถใช้จองหรือไม่? โดยวิธีที่ฉันใช้auto.arima()เป็นเพียงตัวอย่าง สิ่งนี้จะนำไปใช้กับอัลกอริทึมอัตโนมัติใด ๆ ด้านล่างคือตัวอย่าง …

3
การเปลี่ยนแปลงอัตโนมัติของกระบวนการ ARMA (2,1) - ได้รับแบบจำลองการวิเคราะห์สำหรับ
ฉันต้องได้รับนิพจน์การวิเคราะห์สำหรับฟังก์ชัน autocovarianceของกระบวนการ ARMA (2,1) แสดงโดย:γ(k)γ(k)\gamma\left(k\right) yt=ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵtyt=ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵty_t=\phi_1y_{t-1}+\phi_2y_{t-2}+\theta_1\epsilon_{t-1}+\epsilon_t ดังนั้นฉันรู้ว่า: γ(k)=E[yt,yt−k]γ(k)=E[yt,yt−k]\gamma\left(k\right) = \mathrm{E}\left[y_t,y_{t-k}\right] ดังนั้นฉันสามารถเขียน: γ(k)=ϕ1E[yt−1yt−k]+ϕ2E[yt−2yt−k]+θ1E[ϵt−1yt−k]+E[ϵtyt−k]γ(k)=ϕ1E[yt−1yt−k]+ϕ2E[yt−2yt−k]+θ1E[ϵt−1yt−k]+E[ϵtyt−k]\gamma\left(k\right) = \phi_1 \mathrm{E}\left[y_{t-1}y_{t-k}\right]+\phi_2 \mathrm{E}\left[y_{t-2}y_{t-k}\right]+\theta_1 \mathrm{E}\left[\epsilon_{t-1}y_{t-k}\right]+\mathrm{E}\left[\epsilon_{t}y_{t-k}\right] จากนั้นเพื่อให้ได้รุ่นวิเคราะห์ของฟังก์ชัน autocovariance ฉันต้องแทนที่ค่า - 0, 1, 2 ... จนกว่าฉันจะได้รับการสอบถามซ้ำที่ถูกต้องสำหรับทั้งหมดที่มากกว่าจำนวนเต็มบางส่วนkkkkkk ดังนั้นฉันแทนและทำงานผ่านเพื่อรับ:k=0k=0k=0 γ(0)=E[yt,yt]=ϕ1E[yt−1yt]+ϕ2E[yt−2yt]+θ1E[ϵt−1yt]+E[ϵtyt]γ(0)=E[yt,yt]=ϕ1E[yt−1yt]+ϕ2E[yt−2yt]+θ1E[ϵt−1yt]+E[ϵtyt] \gamma \left(0\right) = \mathrm{E}\left[y_t,y_t\right] = \phi_1 \mathrm{E}\left[y_{t-1}y_t\right] + \phi_2 \mathrm{E}\left[y_{t-2}y_t\right]+\theta_1 \mathrm{E}\left[\epsilon_{t-1}y_t\right]+\mathrm{E}\left[\epsilon_ty_t\right]\\ ตอนนี้ฉันสามารถลดความซับซ้อนของคำศัพท์สองคำแรกจากนั้นให้แทนที่เหมือนเมื่อก่อน:ytyty_t γ(0)=ϕ1γ(1)+ϕ2γ(2)+θ1E[ϵt−1(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]+E[ϵt(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]γ(0)=ϕ1γ(1)+ϕ2γ(2)+θ1E[ϵt−1(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)]+E[ϵt(ϕ1yt−1+ϕ2yt−2+θ1ϵt−1+ϵt)] \gamma\left(0\right) = \phi_1 \gamma\left(1\right) + \phi_2 \gamma\left(2\right)\\ + \theta_1 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.