สถิติและข้อมูลขนาดใหญ่ z-statistic

1

เท่าที่ฉันเข้าใจการทดสอบ Wald ในบริบทของการถดถอยโลจิสติกใช้ในการพิจารณาว่าตัวแปรตัวทำนายบางตัวมีความสำคัญหรือไม่ มันปฏิเสธสมมติฐานว่างของสัมประสิทธิ์ที่สอดคล้องกันว่าเป็นศูนย์XXX การทดสอบประกอบด้วยหารค่าของค่าสัมประสิทธิ์โดยข้อผิดพลาดมาตรฐานσσσ\sigma สิ่งที่ฉันสับสนคือเป็นที่รู้จักกันในชื่อ Z-score และระบุว่ามีโอกาสมากน้อยเพียงใดที่การสังเกตที่ได้รับจะเกิดจากการแจกแจงแบบปกติ (โดยมีค่าเฉลี่ยเป็นศูนย์)X/σX/σX/\sigma

55 logistic z-statistic

2

การทดสอบ A / B: z-test กับ t-test เทียบกับไคสแควร์เทียบกับการทดสอบที่แม่นยำของฟิชเชอร์

ฉันพยายามที่จะเข้าใจเหตุผลโดยเลือกวิธีการทดสอบที่เฉพาะเจาะจงเมื่อจัดการกับการทดสอบ A / B แบบง่าย - (เช่นสองรูปแบบ / กลุ่มที่มีการตอบกลับแบบไบนารี (แปลงหรือไม่) ตัวอย่างเช่นฉันจะใช้ข้อมูลด้านล่าง Version Visits Conversions A 2069 188 B 1826 220 คำตอบยอดนิยมที่นี่ดีมากและพูดคุยเกี่ยวกับข้อสมมติฐานพื้นฐานสำหรับการทดสอบ z, t และ chi square แต่สิ่งที่ฉันสับสนคือแหล่งข้อมูลออนไลน์ที่แตกต่างกันจะอ้างอิงแนวทางที่แตกต่างกันและคุณจะคิดว่าสมมติฐานสำหรับการทดสอบ A / B พื้นฐานควรเหมือนกันหรือไม่ ตัวอย่างเช่นบทความนี้ใช้คะแนน z : บทความนี้ใช้สูตรต่อไปนี้ (ซึ่งฉันไม่แน่ใจว่าแตกต่างจากการคำนวณ zscore หรือไม่): บทความนี้อ้างอิงการทดสอบ t (p 152): ดังนั้น arguemnts อะไรที่สามารถทำให้เป็นที่นิยมในแนวทางที่แตกต่างกันเหล่านี้? ทำไมหนึ่งจะมีการตั้งค่า? หากต้องการโยนผู้สมัครอีกหนึ่งคนตารางด้านบนสามารถเขียนใหม่เป็นตารางฉุกเฉิน 2x2 ซึ่งสามารถใช้การทดสอบฟิชเชอร์ (p5) …

38 statistical-significance chi-squared p-value fishers-exact z-statistic

4

ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?

ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

จะคำนวณความน่าจะเป็นที่เกี่ยวข้องกับคะแนน Z ขนาดใหญ่อย่างไร้เหตุผลได้อย่างไร

แพคเกจซอฟต์แวร์สำหรับการตรวจจับแรงจูงใจเครือข่ายสามารถให้คะแนน Z สูงมาก (สูงสุดที่ฉันเคยเห็นคือ 600,000+ แต่คะแนน Z มากกว่า 100 นั้นเป็นเรื่องธรรมดา) ฉันวางแผนที่จะแสดงว่าคะแนน Z เหล่านี้เป็นของปลอม คะแนน Z ขนาดใหญ่สอดคล้องกับความน่าจะเป็นที่ต่ำมาก ค่าของความน่าจะเป็นที่เกี่ยวข้องจะได้รับเช่นหน้าแจกวิกิพีเดียตามปกติ (และอาจเป็นตำราสถิติทุกเล่ม) สำหรับคะแนน Z ถึง 6 ดังนั้น ... คำถาม : เราคำนวณฟังก์ชันข้อผิดพลาดได้อย่างไรสำหรับ n มากถึง 1,000,000 พูด?1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2}) ฉันโดยเฉพาะอย่างยิ่งหลังจากแพคเกจที่ใช้งานแล้วสำหรับนี้ (ถ้าเป็นไปได้) สิ่งที่ดีที่สุดที่ฉันเคยพบคือ WolframAlpha ซึ่งสามารถคำนวณได้สำหรับ n = 150 ( ที่นี่ )

14 probability normal-distribution p-value approximation z-statistic

3

ความแตกต่างระหว่างคะแนน Z และค่า p คืออะไร?

ในอัลกอริธึม motif ของเครือข่ายดูเหมือนว่าเป็นเรื่องธรรมดาที่จะส่งคืนทั้งค่าpและค่าคะแนน Zสำหรับสถิติ: "เครือข่ายอินพุตมีสำเนา X ของกราฟย่อย G" กราฟย่อยจะถือว่าเป็นบรรทัดฐานถ้ามันเป็นที่พอใจ p-value <A, คะแนน Z> B และ X> C สำหรับผู้ใช้ที่กำหนด (หรือชุมชนที่กำหนด) A, B และ C สิ่งนี้กระตุ้นให้เกิดคำถาม: คำถาม : p-value และ Z-score ต่างกันอย่างไร และคำถามย่อย: คำถาม : มีสถานการณ์ที่ p-value และ Z-score ของสถิติเดียวกันอาจแนะนำสมมุติฐานตรงกันข้ามหรือไม่? เงื่อนไขที่หนึ่งและสองที่ระบุไว้ข้างต้นเป็นเงื่อนไขเดียวกันหรือไม่?

11 hypothesis-testing p-value z-statistic

1

ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM

ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

คำถามติดแท็ก z-statistic