สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
อะไรคือความแตกต่างในสิ่งที่ AIC และ c-statistic (AUC) วัดจริงสำหรับแบบจำลอง?
Akaike Information Criterion (AIC) และ c-statistic (พื้นที่ใต้กราฟ ROC) เป็นแบบวัดสองแบบที่เหมาะสำหรับการถดถอยโลจิสติกส์ ฉันมีปัญหาในการอธิบายสิ่งที่เกิดขึ้นเมื่อผลลัพธ์ของมาตรการทั้งสองไม่สอดคล้องกัน ฉันเดาว่าพวกเขากำลังวัดมุมมองที่แตกต่างกันเล็กน้อยของแบบจำลอง แต่ลักษณะเฉพาะเหล่านั้นคืออะไร ฉันมีแบบจำลองการถดถอย 3 แบบ รุ่น M0 มีโควาเรียตมาตรฐาน รุ่น M1 เพิ่ม X1 ลงใน M0; รุ่น M2 เพิ่ม X2 ไปยัง M0 (ดังนั้น M1 และ M2 จึงไม่ซ้อนกัน) ความแตกต่างใน AIC จาก M0 ถึงทั้ง M1 และ M2 อยู่ที่ประมาณ 15 บ่งชี้ว่า X1 และ X2 ปรับปรุงทั้งแบบพอดีและประมาณเท่ากัน …
29 logistic  roc  aic  auc 

4
วิธีง่าย ๆ ในการระบุการขัดขวางในข้อผิดพลาดที่บันทึกไว้
เราต้องการระบบเตือนภัยล่วงหน้า ฉันจัดการกับเซิร์ฟเวอร์ที่ทราบว่ามีปัญหาด้านประสิทธิภาพขณะโหลด ข้อผิดพลาดจะถูกบันทึกในฐานข้อมูลพร้อมกับการประทับเวลา มีขั้นตอนการแทรกแซงด้วยตนเองที่สามารถดำเนินการเพื่อลดภาระของเซิร์ฟเวอร์ แต่เฉพาะเมื่อมีคนตระหนักถึงปัญหา ... ด้วยช่วงเวลาที่เกิดข้อผิดพลาดฉันจะระบุจุดเริ่มต้นของการขัดขวางในข้อผิดพลาดได้อย่างไร (ตามเวลาจริง) เราสามารถคำนวณเป็นระยะหรือในแต่ละข้อผิดพลาดเกิดขึ้น เราไม่สนใจเกี่ยวกับข้อผิดพลาดเป็นครั้งคราว แต่ไม่มีเกณฑ์ที่เฉพาะเจาะจง ฉันสามารถแจ้งใครบางคนได้ตลอดเวลาที่เราได้รับพูดข้อผิดพลาดสามข้อในห้านาที แต่ฉันแน่ใจว่ามีวิธีที่ดีกว่า ... ฉันต้องการที่จะสามารถปรับความไวของอัลกอริทึมตามข้อเสนอแนะจาก sysadmins สำหรับตอนนี้พวกเขาต้องการให้มีความละเอียดอ่อนพอสมควรแม้ว่าเราจะรู้ว่าเราสามารถคาดหวังผลบวกที่ผิดพลาดได้ ฉันไม่ใช่นักสถิติซึ่งฉันแน่ใจว่าชัดเจนและการใช้สิ่งนี้จำเป็นต้องค่อนข้างง่ายด้วยเครื่องมือที่มีอยู่ของเรา: SQL Server และ ASP JScript ของโรงเรียนเก่า ฉันไม่ได้มองหาคำตอบในรหัส แต่ถ้ามันต้องใช้ซอฟต์แวร์เพิ่มเติมมันอาจจะไม่ทำงานสำหรับเรา (แม้ว่าฉันยินดีต้อนรับทางออกที่ไม่เหมาะ แต่เป็นความคิดเห็นสำหรับความอยากรู้อยากเห็นของฉันเอง)

3
ANOVA จะมีนัยสำคัญหรือไม่เมื่อไม่มีการทดสอบ t-pairwise
มันเป็นไปได้สำหรับทางเดียว (กับกลุ่มหรือ "ระดับ") ANOVA เพื่อรายงานความแตกต่างอย่างมีนัยสำคัญเมื่อไม่มีN ( N - 1 ) / 2คู่เสื้อทดสอบไม่?N>2N>2N>2N(N−1)/2N(N−1)/2N(N-1)/2 ในคำตอบนี้ @whuber เขียนว่า: เป็นที่ทราบกันดีว่าการทดสอบ ANOVA F ทั่วโลกสามารถตรวจจับความแตกต่างของวิธีการได้แม้ในกรณีที่ไม่มีการทดสอบทีละคู่ [ทีไม่ได้รับการปรับแก้คู่] ของวิธีการใดก็ตาม เห็นได้ชัดว่ามันเป็นไปได้ แต่ฉันไม่เข้าใจว่า มันเกิดขึ้นเมื่อใดและสัญชาตญาณที่อยู่เบื้องหลังกรณีเช่นนี้จะเป็นเช่นไร? บางทีใครบางคนสามารถให้ตัวอย่างของเล่นง่ายๆของสถานการณ์เช่นนี้? ข้อสังเกตเพิ่มเติมบางส่วน: ตรงกันข้ามเป็นไปได้อย่างชัดเจน: ANOVA โดยรวมอาจไม่มีนัยสำคัญในขณะที่บางส่วนของการทดสอบ t-pairwise รายงานความแตกต่างที่สำคัญอย่างผิดพลาด (เช่นนั้นจะเป็นผลบวกปลอม) คำถามของฉันเกี่ยวกับมาตรฐานไม่ได้ปรับสำหรับการเปรียบเทียบแบบทดสอบหลายรายการ หากใช้การทดสอบที่ปรับแล้ว (เช่นขั้นตอน HSD ของ Tukey) อาจเป็นไปได้ว่าไม่มีการทดสอบใดที่มีนัยสำคัญแม้ว่า ANOVA โดยรวมจะเป็นเช่นนั้น คำถามนี้ครอบคลุมในหลาย ๆ คำถามเช่นฉันจะได้รับ ANOVA โดยรวมที่สำคัญได้อย่างไร แต่ไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างคู่กับกระบวนการของ Tukey และที่สําคัญ ANOVA …

1
ความแตกต่างระหว่างแบบจำลองทางสถิติกับตัวแบบความน่าจะเป็นคืออะไร?
ความน่าจะเป็นประยุกต์เป็นสาขาที่สำคัญในความน่าจะเป็นรวมถึงความน่าจะเป็นในการคำนวณ เนื่องจากสถิติใช้ทฤษฎีความน่าจะเป็นในการสร้างแบบจำลองเพื่อจัดการกับข้อมูลเป็นความเข้าใจของฉันฉันจึงสงสัยว่าอะไรคือความแตกต่างที่สำคัญระหว่างตัวแบบเชิงสถิติและตัวแบบความน่าจะเป็น รูปแบบความน่าจะเป็นไม่ต้องการข้อมูลจริงหรือ? ขอบคุณ

3
การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร
ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้: x = rpois(1000,10) ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ

1
SVD ของเมทริกซ์ที่สัมพันธ์กันควรเป็นสารเติมแต่ง แต่ดูเหมือนจะไม่เป็นเช่นนั้น
ฉันแค่พยายามที่จะทำซ้ำการอ้างสิทธิ์ที่ทำในกระดาษต่อไปนี้การค้นหาความสัมพันธ์ Biclusters จาก Gene Expression Dataซึ่งก็คือ: โจทย์ 4. ถ้า J จากนั้นเรามี:XผมJ= RผมCTJXผมJ=RผมCJTX_{IJ}=R_{I}C^{T}_{J} ผม. ถ้าเป็นคนขี้เกียจที่สมบูรณ์แบบที่มีแบบจำลองเสริมแล้วX I Jก็เป็นคนที่สองที่สมบูรณ์แบบที่มีความสัมพันธ์กับคอลัมน์; ii ถ้าC Jเป็น bicluster สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็น bicluster สมบูรณ์แบบด้วยความสัมพันธ์ในแถว; iii หากทั้งสองR ฉันและC Jมี biclusters สมบูรณ์แบบด้วยรูปแบบการเติมแต่งแล้วX ฉันJเป็นที่สมบูรณ์แบบความสัมพันธ์ biclusterRผมRผมR_{I}XผมJXผมJX_{IJ}CJCJC_JXผมJXผมJX_{IJ}RผมRผมR_ICJCJC_JXผมJXผมJX_{IJ} ข้อเสนอเหล่านี้สามารถพิสูจน์ได้อย่างง่ายดาย ... ... แต่แน่นอนพวกเขาไม่ได้พิสูจน์ ฉันกำลังใช้ตัวอย่างง่ายๆบางอย่างในกระดาษรวมทั้ง base + code R แบบกำหนดเองเพื่อดูว่าฉันสามารถแสดงข้อเสนอนี้ได้หรือไม่ corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4) (จากตารางที่ 1F) รหัสที่กำหนดเองเพื่อแปลงรูปแบบมาตรฐาน X …

2
คำนวณ Transition Matrix (Markov) ใน R
มีวิธีใน R (ฟังก์ชันในตัว) ในการคำนวณเมทริกซ์การเปลี่ยนแปลงสำหรับ Markov Chain จากชุดการสังเกตหรือไม่? ตัวอย่างเช่นการใช้ชุดข้อมูลดังต่อไปนี้และคำนวณเมทริกซ์การเปลี่ยนแปลงคำสั่งแรก? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

3
ฉันสามารถใช้การทดสอบใดในการเปรียบเทียบความชันจากแบบจำลองการถดถอยสองแบบขึ้นไป
ฉันต้องการทดสอบความแตกต่างในการตอบสนองของตัวแปรสองตัวต่อตัวทำนายหนึ่งตัว นี่คือตัวอย่างที่ทำซ้ำได้น้อยที่สุด library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, …

4
แพ็กเกจ R สำหรับการสร้างแบบจำลองหัวข้อ / LDA: เพียง `topicmodels` และ` lda` [ปิด]
สำหรับฉันดูเหมือนว่ามีเพียงสองแพ็คเกจ R เท่านั้นที่สามารถดำเนินการจัดสรร Latent Dirichlet : หนึ่งคือldaประพันธ์โดย Jonathan Chang; และอื่น ๆ ที่topicmodelsเขียนโดย Bettina Grünและ Kurt Hornik อะไรคือความแตกต่างระหว่างสองแพ็คเกจนี้ในแง่ของประสิทธิภาพรายละเอียดการติดตั้งและการใช้งานที่เพิ่มขึ้น?

6
การตีความการทดสอบ Shapiro-Wilk
ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

3
บทเรียนการสุ่มตัวอย่างและการอ้างอิงที่ดีของกิ๊บส์
ฉันต้องการเรียนรู้ว่า Gibbs Sampling ทำงานอย่างไรและฉันกำลังมองหากระดาษขั้นพื้นฐานที่ดีถึงขั้นกลาง ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์และมีความรู้ด้านสถิติขั้นพื้นฐาน มีใครอ่านเนื้อหาที่ดีรอบ ๆ ? คุณเรียนที่ไหน ขอบคุณ
29 references  gibbs 

2
การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)
ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

1
ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี
ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

5
ฉันจะคำนวณส่วนเบี่ยงเบนมาตรฐานถ่วงน้ำหนักได้อย่างไร ใน Excel?
ดังนั้นฉันมีชุดข้อมูลเป็นเปอร์เซ็นต์ดังนี้: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) ฉันต้องการค้นหาค่าเบี่ยงเบนมาตรฐานของเปอร์เซ็นต์ แต่ถ่วงน้ำหนักสำหรับปริมาณข้อมูลของพวกเขา เช่นจุดข้อมูลแรกและจุดสุดท้ายควรมีอิทธิพลเหนือการคำนวณ ฉันจะทำอย่างไร และมีวิธีง่าย ๆ ใน Excel หรือไม่

6
ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี
อะไรคือการเลือกตัวแปร / คุณสมบัติที่คุณต้องการสำหรับการจำแนกเลขฐานสองเมื่อมีตัวแปร / คุณสมบัติมากกว่าการสังเกตในชุดการเรียนรู้ จุดมุ่งหมายที่นี่คือเพื่อหารือเกี่ยวกับขั้นตอนการเลือกคุณสมบัติที่ช่วยลดข้อผิดพลาดในการจัดหมวดหมู่ เราสามารถแก้ไขข้อความเพื่อความมั่นคง: สำหรับให้เป็นชุดการเรียนรู้จากการสังเกตการณ์จากกลุ่มผมดังนั้นคือขนาดของชุดการเรียนรู้ เราตั้งค่าเป็นจำนวนคุณลักษณะ (เช่นมิติของพื้นที่คุณลักษณะ) ให้หมายถึง -th พิกัดของ Pi∈{0,1}i∈{0,1}i \in \{0, 1\}{xi1,…,xini}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}iiin0+n1=nn0+n1=nn_0 + n_1 = npppx[i]x[i]x[i]iiix∈Rpx∈Rpx \in \mathbb{R}^p โปรดให้ข้อมูลอ้างอิงแบบเต็มหากคุณไม่สามารถให้รายละเอียดได้ แก้ไข (ปรับปรุงอย่างต่อเนื่อง): ขั้นตอนที่เสนอในคำตอบด้านล่าง การเลือกไปข้างหน้าโลภ ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การคัดลอกย้อนหลัง ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี การสแกน Metropolis / MCMC ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี ลงโทษการถดถอยโลจิสติก ขั้นตอนการเลือกตัวแปรสำหรับการจำแนกไบนารี เนื่องจากนี่คือวิกิชุมชนจึงสามารถมีการสนทนาและอัพเดตได้มากขึ้น ฉันมีข้อสังเกตหนึ่ง: ในแง่หนึ่งคุณทุกคนให้ขั้นตอนที่อนุญาตให้เรียงลำดับของตัวแปร แต่ไม่ใช่การเลือกตัวแปร (คุณค่อนข้างจะหลีกเลี่ยงวิธีการเลือกจำนวนฟีเจอร์ฉันเดาว่าคุณใช้การตรวจสอบไขว้กันหรือไม่?) คำตอบในทิศทางนี้ (เนื่องจากนี่คือวิกิชุมชนคุณไม่จำเป็นต้องเป็นนักเขียนคำตอบเพื่อเพิ่มข้อมูลเกี่ยวกับวิธีเลือกจำนวนตัวแปรหรือไม่ฉันเปิดคำถามในทิศทางนี้ที่นี่การตรวจสอบข้ามในมิติที่สูงมาก (เพื่อเลือกจำนวน ตัวแปรที่ใช้ในการจำแนกมิติที่สูงมาก) )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.