สถิติและข้อมูลขนาดใหญ่

3

อะไรคือความแตกต่างในสิ่งที่ AIC และ c-statistic (AUC) วัดจริงสำหรับแบบจำลอง?

Akaike Information Criterion (AIC) และ c-statistic (พื้นที่ใต้กราฟ ROC) เป็นแบบวัดสองแบบที่เหมาะสำหรับการถดถอยโลจิสติกส์ ฉันมีปัญหาในการอธิบายสิ่งที่เกิดขึ้นเมื่อผลลัพธ์ของมาตรการทั้งสองไม่สอดคล้องกัน ฉันเดาว่าพวกเขากำลังวัดมุมมองที่แตกต่างกันเล็กน้อยของแบบจำลอง แต่ลักษณะเฉพาะเหล่านั้นคืออะไร ฉันมีแบบจำลองการถดถอย 3 แบบ รุ่น M0 มีโควาเรียตมาตรฐาน รุ่น M1 เพิ่ม X1 ลงใน M0; รุ่น M2 เพิ่ม X2 ไปยัง M0 (ดังนั้น M1 และ M2 จึงไม่ซ้อนกัน) ความแตกต่างใน AIC จาก M0 ถึงทั้ง M1 และ M2 อยู่ที่ประมาณ 15 บ่งชี้ว่า X1 และ X2 ปรับปรุงทั้งแบบพอดีและประมาณเท่ากัน …

29 logistic roc aic auc

4

วิธีง่าย ๆ ในการระบุการขัดขวางในข้อผิดพลาดที่บันทึกไว้

เราต้องการระบบเตือนภัยล่วงหน้า ฉันจัดการกับเซิร์ฟเวอร์ที่ทราบว่ามีปัญหาด้านประสิทธิภาพขณะโหลด ข้อผิดพลาดจะถูกบันทึกในฐานข้อมูลพร้อมกับการประทับเวลา มีขั้นตอนการแทรกแซงด้วยตนเองที่สามารถดำเนินการเพื่อลดภาระของเซิร์ฟเวอร์ แต่เฉพาะเมื่อมีคนตระหนักถึงปัญหา ... ด้วยช่วงเวลาที่เกิดข้อผิดพลาดฉันจะระบุจุดเริ่มต้นของการขัดขวางในข้อผิดพลาดได้อย่างไร (ตามเวลาจริง) เราสามารถคำนวณเป็นระยะหรือในแต่ละข้อผิดพลาดเกิดขึ้น เราไม่สนใจเกี่ยวกับข้อผิดพลาดเป็นครั้งคราว แต่ไม่มีเกณฑ์ที่เฉพาะเจาะจง ฉันสามารถแจ้งใครบางคนได้ตลอดเวลาที่เราได้รับพูดข้อผิดพลาดสามข้อในห้านาที แต่ฉันแน่ใจว่ามีวิธีที่ดีกว่า ... ฉันต้องการที่จะสามารถปรับความไวของอัลกอริทึมตามข้อเสนอแนะจาก sysadmins สำหรับตอนนี้พวกเขาต้องการให้มีความละเอียดอ่อนพอสมควรแม้ว่าเราจะรู้ว่าเราสามารถคาดหวังผลบวกที่ผิดพลาดได้ ฉันไม่ใช่นักสถิติซึ่งฉันแน่ใจว่าชัดเจนและการใช้สิ่งนี้จำเป็นต้องค่อนข้างง่ายด้วยเครื่องมือที่มีอยู่ของเรา: SQL Server และ ASP JScript ของโรงเรียนเก่า ฉันไม่ได้มองหาคำตอบในรหัส แต่ถ้ามันต้องใช้ซอฟต์แวร์เพิ่มเติมมันอาจจะไม่ทำงานสำหรับเรา (แม้ว่าฉันยินดีต้อนรับทางออกที่ไม่เหมาะ แต่เป็นความคิดเห็นสำหรับความอยากรู้อยากเห็นของฉันเอง)

29 time-series real-time

3

ANOVA จะมีนัยสำคัญหรือไม่เมื่อไม่มีการทดสอบ t-pairwise

มันเป็นไปได้สำหรับทางเดียว (กับกลุ่มหรือ "ระดับ") ANOVA เพื่อรายงานความแตกต่างอย่างมีนัยสำคัญเมื่อไม่มีN ( N - 1 ) / 2คู่เสื้อทดสอบไม่?N>2N>2N>2N(N−1)/2N(N−1)/2N(N-1)/2 ในคำตอบนี้ @whuber เขียนว่า: เป็นที่ทราบกันดีว่าการทดสอบ ANOVA F ทั่วโลกสามารถตรวจจับความแตกต่างของวิธีการได้แม้ในกรณีที่ไม่มีการทดสอบทีละคู่ [ทีไม่ได้รับการปรับแก้คู่] ของวิธีการใดก็ตาม เห็นได้ชัดว่ามันเป็นไปได้ แต่ฉันไม่เข้าใจว่า มันเกิดขึ้นเมื่อใดและสัญชาตญาณที่อยู่เบื้องหลังกรณีเช่นนี้จะเป็นเช่นไร? บางทีใครบางคนสามารถให้ตัวอย่างของเล่นง่ายๆของสถานการณ์เช่นนี้? ข้อสังเกตเพิ่มเติมบางส่วน: ตรงกันข้ามเป็นไปได้อย่างชัดเจน: ANOVA โดยรวมอาจไม่มีนัยสำคัญในขณะที่บางส่วนของการทดสอบ t-pairwise รายงานความแตกต่างที่สำคัญอย่างผิดพลาด (เช่นนั้นจะเป็นผลบวกปลอม) คำถามของฉันเกี่ยวกับมาตรฐานไม่ได้ปรับสำหรับการเปรียบเทียบแบบทดสอบหลายรายการ หากใช้การทดสอบที่ปรับแล้ว (เช่นขั้นตอน HSD ของ Tukey) อาจเป็นไปได้ว่าไม่มีการทดสอบใดที่มีนัยสำคัญแม้ว่า ANOVA โดยรวมจะเป็นเช่นนั้น คำถามนี้ครอบคลุมในหลาย ๆ คำถามเช่นฉันจะได้รับ ANOVA โดยรวมที่สำคัญได้อย่างไร แต่ไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างคู่กับกระบวนการของ Tukey และที่สําคัญ ANOVA …

29 statistical-significance anova t-test post-hoc

1

ความแตกต่างระหว่างแบบจำลองทางสถิติกับตัวแบบความน่าจะเป็นคืออะไร?

ความน่าจะเป็นประยุกต์เป็นสาขาที่สำคัญในความน่าจะเป็นรวมถึงความน่าจะเป็นในการคำนวณ เนื่องจากสถิติใช้ทฤษฎีความน่าจะเป็นในการสร้างแบบจำลองเพื่อจัดการกับข้อมูลเป็นความเข้าใจของฉันฉันจึงสงสัยว่าอะไรคือความแตกต่างที่สำคัญระหว่างตัวแบบเชิงสถิติและตัวแบบความน่าจะเป็น รูปแบบความน่าจะเป็นไม่ต้องการข้อมูลจริงหรือ? ขอบคุณ

29 probability mathematical-statistics

3

การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร

ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้: x = rpois(1000,10) ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ

29 distributions histogram normal-distribution poisson-distribution

1

SVD ของเมทริกซ์ที่สัมพันธ์กันควรเป็นสารเติมแต่ง แต่ดูเหมือนจะไม่เป็นเช่นนั้น

ฉันแค่พยายามที่จะทำซ้ำการอ้างสิทธิ์ที่ทำในกระดาษต่อไปนี้การค้นหาความสัมพันธ์ Biclusters จาก Gene Expression Dataซึ่งก็คือ: โจทย์ 4. ถ้า J จากนั้นเรามี:XผมJ= RผมCTJXผมJ=RผมCJTX_{IJ}=R_{I}C^{T}_{J} ผม. ถ้าเป็นคนขี้เกียจที่สมบูรณ์แบบที่มีแบบจำลองเสริมแล้วX I Jก็เป็นคนที่สองที่สมบูรณ์แบบที่มีความสัมพันธ์กับคอลัมน์; ii ถ้าC Jเป็น bicluster สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็น bicluster สมบูรณ์แบบด้วยความสัมพันธ์ในแถว; iii หากทั้งสองR ฉันและC Jมี biclusters สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็นที่สมบูรณ์แบบความสัมพันธ์ biclusterRผมRผมR_{I}XผมJXผมJX_{IJ}CJCJC_JXผมJXผมJX_{IJ}RผมRผมR_ICJCJC_JXผมJXผมJX_{IJ} ข้อเสนอเหล่านี้สามารถพิสูจน์ได้อย่างง่ายดาย ... ... แต่แน่นอนพวกเขาไม่ได้พิสูจน์ ฉันกำลังใช้ตัวอย่างง่ายๆบางอย่างในกระดาษรวมทั้ง base + code R แบบกำหนดเองเพื่อดูว่าฉันสามารถแสดงข้อเสนอนี้ได้หรือไม่ corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (จากตารางที่ 1F) รหัสที่กำหนดเองเพื่อแปลงรูปแบบมาตรฐาน X …

29 correlation multivariate-analysis svd

2

คำนวณ Transition Matrix (Markov) ใน R

มีวิธีใน R (ฟังก์ชันในตัว) ในการคำนวณเมทริกซ์การเปลี่ยนแปลงสำหรับ Markov Chain จากชุดการสังเกตหรือไม่? ตัวอย่างเช่นการใช้ชุดข้อมูลดังต่อไปนี้และคำนวณเมทริกซ์การเปลี่ยนแปลงคำสั่งแรก? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

3

ฉันสามารถใช้การทดสอบใดในการเปรียบเทียบความชันจากแบบจำลองการถดถอยสองแบบขึ้นไป

ฉันต้องการทดสอบความแตกต่างในการตอบสนองของตัวแปรสองตัวต่อตัวทำนายหนึ่งตัว นี่คือตัวอย่างที่ทำซ้ำได้น้อยที่สุด library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, …

29 r data-visualization multivariate-analysis hypothesis-testing

4

แพ็กเกจ R สำหรับการสร้างแบบจำลองหัวข้อ / LDA: เพียง `topicmodels` และ` lda` [ปิด]

สำหรับฉันดูเหมือนว่ามีเพียงสองแพ็คเกจ R เท่านั้นที่สามารถดำเนินการจัดสรร Latent Dirichlet : หนึ่งคือldaประพันธ์โดย Jonathan Chang; และอื่น ๆ ที่topicmodelsเขียนโดย Bettina Grünและ Kurt Hornik อะไรคือความแตกต่างระหว่างสองแพ็คเกจนี้ในแง่ของประสิทธิภาพรายละเอียดการติดตั้งและการใช้งานที่เพิ่มขึ้น?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

6

การตีความการทดสอบ Shapiro-Wilk

ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

29 r distributions interpretation goodness-of-fit normality-assumption

3

บทเรียนการสุ่มตัวอย่างและการอ้างอิงที่ดีของกิ๊บส์

ฉันต้องการเรียนรู้ว่า Gibbs Sampling ทำงานอย่างไรและฉันกำลังมองหากระดาษขั้นพื้นฐานที่ดีถึงขั้นกลาง ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์และมีความรู้ด้านสถิติขั้นพื้นฐาน มีใครอ่านเนื้อหาที่ดีรอบ ๆ ? คุณเรียนที่ไหน ขอบคุณ

29 references gibbs

2

การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)

ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

29 r time-series lasso regularization elastic-net

1

ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี

ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

29 spss categorical-data pca factor-analysis binary-data

5

ฉันจะคำนวณส่วนเบี่ยงเบนมาตรฐานถ่วงน้ำหนักได้อย่างไร ใน Excel?

ดังนั้นฉันมีชุดข้อมูลเป็นเปอร์เซ็นต์ดังนี้: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) ฉันต้องการค้นหาค่าเบี่ยงเบนมาตรฐานของเปอร์เซ็นต์ แต่ถ่วงน้ำหนักสำหรับปริมาณข้อมูลของพวกเขา เช่นจุดข้อมูลแรกและจุดสุดท้ายควรมีอิทธิพลเหนือการคำนวณ ฉันจะทำอย่างไร และมีวิธีง่าย ๆ ใน Excel หรือไม่

29 standard-deviation excel weighted-mean

6

ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี

อะไรคือการเลือกตัวแปร / คุณสมบัติที่คุณต้องการสำหรับการจำแนกเลขฐานสองเมื่อมีตัวแปร / คุณสมบัติมากกว่าการสังเกตในชุดการเรียนรู้ จุดมุ่งหมายที่นี่คือเพื่อหารือเกี่ยวกับขั้นตอนการเลือกคุณสมบัติที่ช่วยลดข้อผิดพลาดในการจัดหมวดหมู่ เราสามารถแก้ไขข้อความเพื่อความมั่นคง: สำหรับให้เป็นชุดการเรียนรู้จากการสังเกตการณ์จากกลุ่มผมดังนั้นคือขนาดของชุดการเรียนรู้ เราตั้งค่าเป็นจำนวนคุณลักษณะ (เช่นมิติของพื้นที่คุณลักษณะ) ให้หมายถึง -th พิกัดของ Pi∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p โปรดให้ข้อมูลอ้างอิงแบบเต็มหากคุณไม่สามารถให้รายละเอียดได้ แก้ไข (ปรับปรุงอย่างต่อเนื่อง): ขั้นตอนที่เสนอในคำตอบด้านล่าง การเลือกไปข้างหน้าโลภ ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การคัดลอกย้อนหลัง ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การสแกน Metropolis / MCMC ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี ลงโทษการถดถอยโลจิสติก ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี เนื่องจากนี่คือวิกิชุมชนจึงสามารถมีการสนทนาและอัพเดตได้มากขึ้น ฉันมีข้อสังเกตหนึ่ง: ในแง่หนึ่งคุณทุกคนให้ขั้นตอนที่อนุญาตให้เรียงลำดับของตัวแปร แต่ไม่ใช่การเลือกตัวแปร (คุณค่อนข้างจะหลีกเลี่ยงวิธีการเลือกจำนวนฟีเจอร์ฉันเดาว่าคุณใช้การตรวจสอบไขว้กันหรือไม่?) คำตอบในทิศทางนี้ (เนื่องจากนี่คือวิกิชุมชนคุณไม่จำเป็นต้องเป็นนักเขียนคำตอบเพื่อเพิ่มข้อมูลเกี่ยวกับวิธีเลือกจำนวนตัวแปรหรือไม่ฉันเปิดคำถามในทิศทางนี้ที่นี่การตรวจสอบข้ามในมิติที่สูงมาก (เพื่อเลือกจำนวน ตัวแปรที่ใช้ในการจำแนกมิติที่สูงมาก) )

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection