สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
การตีความ QQplot - มีกฎของหัวแม่มือในการตัดสินใจที่ไม่ปกติหรือไม่?
ฉันได้อ่านเธรดบน QQplots เพียงพอที่นี่เพื่อทำความเข้าใจว่า QQplot สามารถให้ข้อมูลได้มากกว่าการทดสอบตามปกติอื่น ๆ อย่างไรก็ตามฉันไม่มีประสบการณ์กับการตีความ QQplots ฉันเที่ยวมาก ฉันพบกราฟจำนวนมากของ QQplots ที่ไม่ปกติ แต่ไม่มีกฎที่ชัดเจนเกี่ยวกับวิธีการตีความพวกเขานอกเหนือจากสิ่งที่ดูเหมือนว่าจะเป็นการเปรียบเทียบกับการแจกแจงแบบรู้พร้อมกับ "ความรู้สึกทางเดิน" ฉันต้องการทราบว่าคุณมีกฎ (หรือที่คุณรู้) กฎง่ายๆที่จะช่วยให้คุณตัดสินใจไม่ปกติ คำถามนี้เกิดขึ้นเมื่อฉันเห็นกราฟทั้งสองนี้: ฉันเข้าใจว่าการตัดสินใจที่ไม่เป็นมาตรฐานนั้นขึ้นอยู่กับข้อมูลและสิ่งที่ฉันต้องการจะทำกับพวกเขา อย่างไรก็ตามคำถามของฉันคือ: โดยทั่วไปแล้วการสังเกตที่ออกจากเส้นตรงเมื่อใดจะมีหลักฐานมากพอที่จะทำให้การประมาณค่าปกติไม่มีเหตุผล? สำหรับสิ่งที่คุ้มค่าการทดสอบชาปิโร - วิลค์ล้มเหลวในการปฏิเสธสมมติฐานที่ไม่เป็นมาตรฐานในทั้งสองกรณี

2
จำนวนการพับที่เหมาะสมที่สุดในการตรวจสอบความถูกต้องข้าม -fold: CV แบบปล่อยครั้งเดียวเป็นตัวเลือกที่ดีที่สุดหรือไม่?
การพิจารณาด้านพลังงานของคอมพิวเตอร์มีเหตุผลอะไรบ้างที่จะเชื่อว่าการเพิ่มจำนวนของการพับในการตรวจสอบความถูกต้องจะนำไปสู่การเลือก / การตรวจสอบความถูกต้องของโมเดลที่ดีขึ้น การที่จะโต้แย้งอย่างสุดขั้วการตรวจสอบความถูกต้องของการตรวจสอบข้ามแบบครั้งเดียวนั้นนำไปสู่รูปแบบที่ดีกว่าการตรวจสอบความถูกต้องข้ามแบบ -fold หรือไม่?KKK พื้นหลังบางส่วนของคำถามนี้: ฉันกำลังทำงานกับปัญหาที่มีอินสแตนซ์น้อยมาก (เช่น 10 ข้อบวกและ 10 ข้อเสีย) และกลัวว่าแบบจำลองของฉันอาจไม่ได้มาตรฐาน / มีข้อมูลน้อยมาก

5
R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:

4
เหตุใดความคาดหวังจึงเหมือนกับเลขคณิตหมายความว่าอย่างไร
วันนี้ฉันได้พบกับหัวข้อใหม่ที่เรียกว่าความคาดหวังทางคณิตศาสตร์ หนังสือที่ฉันกำลังพูดว่าคาดหวังคือค่าเฉลี่ยเลขคณิตของตัวแปรสุ่มที่มาจากการแจกแจงความน่าจะเป็นใด ๆ แต่มันกำหนดความคาดหวังว่าเป็นผลรวมของข้อมูลบางอย่างและความน่าจะเป็นของมัน สองคนนี้ (ค่าเฉลี่ยและความคาดหวัง) จะเหมือนกันได้อย่างไร ผลรวมของความน่าจะเป็นคูณข้อมูลเป็นค่าเฉลี่ยของการแจกแจงทั้งหมดอย่างไร

2
เส้นโค้ง overfitting ข้อมูลหรือไม่
ปัญหาของฉัน : เมื่อเร็ว ๆ นี้ฉันได้พบกับนักสถิติที่แจ้งให้ฉันทราบว่าเส้นโค้งนั้นมีประโยชน์สำหรับการสำรวจข้อมูลเท่านั้นและอาจมีการ overfitting ดังนั้นจึงไม่มีประโยชน์ในการทำนาย เขาชอบสำรวจด้วยพหุนามอย่างง่าย ๆ ... เนื่องจากฉันเป็นแฟนตัวยงของเส้นโค้งและสิ่งนี้ขัดกับสัญชาตญาณของฉันฉันสนใจที่จะค้นหาว่าข้อโต้แย้งเหล่านี้มีเหตุผลเพียงใดและถ้ามีกลุ่มต่อต้านจำนวนมาก - นักเคลื่อนไหวออกไปที่นั่น? ข้อมูลประกอบ : ฉันพยายามติดตาม Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย (1) เมื่อฉันสร้างแบบจำลอง เขาให้เหตุผลว่าลูกบาศก์ splines ที่ จำกัด เป็นเครื่องมือที่ถูกต้องสำหรับการสำรวจตัวแปรต่อเนื่อง นอกจากนี้เขายังระบุว่าชื่อพหุนามน่าสงสารในการสร้างแบบจำลองความสัมพันธ์บางอย่างเช่นเกณฑ์ลอการิทึม (2) สำหรับการทดสอบความเป็นเชิงเส้นของแบบจำลองเขาแนะนำการทดสอบ ANOVA สำหรับเส้นโค้ง: H0: β2= β3= … = βk - 1= 0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 ฉัน …


4
จะเลือกชุดย่อยการถดถอยโลจิสติกได้อย่างไร?
ฉันเหมาะกับครอบครัวทวินามใน glm และฉันมีกลุ่มของตัวแปรอธิบายทั้งหมดและฉันต้องการค้นหาสิ่งที่ดีที่สุด (R-squared เนื่องจากการวัดเป็นเรื่องปกติ) สั้น ๆ ในการเขียนสคริปต์เพื่อวนผ่านชุดค่าผสมที่แตกต่างกันของตัวแปรอธิบายแล้วการบันทึกที่มีประสิทธิภาพดีที่สุดฉันไม่รู้ว่าจะทำอย่างไร และleapsฟังก์ชั่นจากแพคเกจกระโดดดูเหมือนจะไม่ถดถอยโลจิสติก ความช่วยเหลือหรือข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชมอย่างมาก
47 r  logistic 

6
แบบฝึกหัดสถิติแบบเบย์
ฉันพยายามเพิ่มความเร็วให้มากที่สุดในสถิติแบบเบย์ ฉันมีพื้นหลังของสถิติเล็กน้อย (สถานะ 101) แต่ไม่มากเกินไป - ฉันคิดว่าฉันสามารถเข้าใจก่อนหน้าหลังและโอกาส: D ฉันยังไม่ต้องการอ่านหนังสือแบบเบย์ ฉันต้องการอ่านจากแหล่งที่มา (ต้องการเว็บไซต์) ที่จะเพิ่มความรวดเร็วให้ฉัน บางอย่างเช่นนี้แต่มีรายละเอียดเพิ่มเติม คำแนะนำใด ๆ?

15
คำศัพท์ทางสถิติที่สับสนที่สุด
เรานักสถิติใช้หลายคำในวิธีที่แตกต่างจากวิธีที่ทุกคนใช้ สิ่งนี้ทำให้เกิดปัญหามากมายเมื่อเราสอนหรืออธิบายสิ่งที่เรากำลังทำ ฉันจะเริ่มรายการ (และตอนนี้ฉันจะเพิ่มคำจำกัดความต่อความคิดเห็น): กำลังคือความสามารถในการปฏิเสธสมมติฐานที่ผิดพลาดได้อย่างถูกต้อง โดยปกติจะหมายถึงการพูดว่า "มีอะไรเกิดขึ้น" อย่างถูกต้อง อคติ - สถิติจะลำเอียงหากระบบแตกต่างจากพารามิเตอร์ประชากรที่เกี่ยวข้อง นัยสำคัญ - ผลลัพธ์มีนัยสำคัญทางสถิติในบางเปอร์เซ็นต์ (มักจะ 5%) ในสถานการณ์ต่อไปนี้: หากประชากรที่กลุ่มตัวอย่างมาจากผลกระทบที่แท้จริงของ 0 สถิติอย่างน้อยที่สุดเท่าที่ได้มาจากตัวอย่างเท่านั้นที่จะเกิดขึ้น 5% ของเวลา การโต้ตอบ - ตัวแปรอิสระสองตัวจะโต้ตอบกันหากความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัวนั้นแตกต่างกันในระดับต่าง ๆ ของตัวแปรอิสระ แต่จะต้องมีอื่น ๆ อีกมากมาย!

5
ซอร์สโค้ด R แพ็กเกจแรกเพื่อศึกษาในการเตรียมการเขียนแพ็กเกจของตัวเอง
ฉันวางแผนที่จะเริ่มเขียนแพ็คเกจ R ฉันคิดว่ามันเป็นการดีที่จะศึกษาซอร์สโค้ดของแพ็กเกจที่มีอยู่เพื่อเรียนรู้ข้อตกลงการสร้างแพ็กเกจ เกณฑ์ของฉันสำหรับแพ็คเกจที่ดีในการศึกษา: แนวคิดทางสถิติ / ทางเทคนิคอย่างง่าย : ประเด็นคือเพื่อเรียนรู้เกี่ยวกับกลไกการสร้างบรรจุภัณฑ์ การทำความเข้าใจกับแพ็คเกจไม่จำเป็นต้องมีความรู้เฉพาะโดเมนอย่างละเอียดเกี่ยวกับหัวข้อจริงของแพ็คเกจ สไตล์การเขียนโปรแกรมที่เรียบง่ายและธรรมดา : ฉันกำลังมองหาบางสิ่งที่มากกว่าHello Worldแต่ไม่มากไปกว่านี้อีกแล้ว เทคนิคและไอเดียการซิงค์จะเบี่ยงเบนความสนใจเมื่อเรียนรู้แพ็กเกจ R ครั้งแรก รูปแบบการเข้ารหัสที่ดี : รหัสนั้นเขียนได้ดี มันแสดงให้เห็นทั้งความเข้าใจในการเขียนโปรแกรมที่ดีโดยทั่วไปและการรับรู้ถึงอนุสัญญาของการเข้ารหัสในอาร์ คำถาม: แพ็คเกจไหนดีที่จะเรียน? ทำไมรหัสแหล่งข้อมูลแพ็กเกจที่แนะนำจะดีต่อการศึกษาเทียบกับเกณฑ์ที่กล่าวถึงข้างต้นหรือเกณฑ์อื่น ๆ ที่อาจเกี่ยวข้อง Update (13/12/2010) การ ติดตามความคิดเห็นของเดิร์คฉันต้องการทำให้ชัดเจนว่าไม่ต้องสงสัยเลยว่าแพคเกจมากมายจะเป็นการดีที่จะศึกษาก่อน ฉันยอมรับด้วยว่าแพคเกจจะให้แบบจำลองสำหรับสิ่งต่าง ๆ (เช่น vignettes, คลาส S3, คลาส S4, การทดสอบหน่วย, Roxygen ฯลฯ ) อย่างไรก็ตามมันน่าสนใจที่จะอ่านคำแนะนำที่เป็นรูปธรรมเกี่ยวกับแพ็คเกจที่ดีที่จะเริ่มต้นและสาเหตุที่พวกเขาจะเป็นแพ็คเกจที่ดีที่จะเริ่มต้นด้วย ฉันได้อัปเดตคำถามข้างต้นด้วยเพื่ออ้างถึง "แพ็คเกจ" แทนที่จะเป็น "แพ็คเกจ"
47 r 

3
เป็นไปได้ไหมที่จะทำการจัดกลุ่มอนุกรมเวลาตามรูปร่างโค้ง
ฉันมีข้อมูลการขายสำหรับร้านค้าต่างๆและต้องการจัดหมวดหมู่พวกเขาตามรูปร่างของเส้นโค้งเมื่อเวลาผ่านไป ข้อมูลดูเหมือนประมาณนี้ (แต่เห็นได้ชัดว่าไม่ได้สุ่มและมีข้อมูลขาดหายไป): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, …

7
เมื่อทำการทดสอบแบบทีทำไมคนเราต้องการสมมติ (หรือทดสอบ) ความแปรปรวนที่เท่ากันแทนที่จะใช้การประมาณเวลช์ของ df เสมอ
ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ

14
ชี้แจงเกี่ยวกับการตีความช่วงความเชื่อมั่นหรือไม่
ความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิด "ช่วงความเชื่อมั่นที่มีระดับความเชื่อมั่น " คือถ้าเราพยายามคำนวณช่วงความเชื่อมั่นหลายครั้ง (แต่ละครั้งที่มีตัวอย่างสด) มันจะมีพารามิเตอร์ที่ถูกต้องของ เวลา.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha แม้ว่าฉันจะรู้ว่านี่ไม่เหมือนกับ "ความน่าจะเป็นที่พารามิเตอร์จริงอยู่ในช่วงเวลานี้" แต่มีบางอย่างที่ฉันต้องการชี้แจง [การอัพเดทที่สำคัญ] ก่อนที่เราจะคำนวณช่วงความมั่นใจ 95% มีความน่าจะเป็น 95% ที่ช่วงเวลาที่เราคำนวณจะครอบคลุมพารามิเตอร์จริง หลังจากที่เราคำนวณช่วงความเชื่อมั่นและได้รับช่วงเวลาเฉพาะเราจะไม่สามารถพูดสิ่งนี้ได้อีกต่อไป เราไม่สามารถสร้างข้อโต้แย้งที่ไม่ได้เกิดขึ้นบ่อยนักซึ่งเรามั่นใจได้ว่า 95% ของพารามิเตอร์ที่แท้จริงจะอยู่ใน ; เพราะถ้าเราทำได้มันจะขัดแย้งกับตัวอย่างโต้แย้งเช่นนี้: อะไรคือช่วงความมั่นใจ[ a , b ][ a , b ][a,b][a,b][ a , b ][a,b][a,b] ฉันไม่ต้องการอภิปรายเรื่องปรัชญาของความน่าจะเป็น แต่ฉันกำลังมองหาคำอธิบายทางคณิตศาสตร์ที่แม่นยำว่าทำไมและทำไมถึงเห็นช่วงเวลาเฉพาะการเปลี่ยนแปลง (หรือไม่เปลี่ยน) ความน่าจะเป็น 95% …

2
การตีความค่าส่วนที่เหลือและค่าเบี่ยงเบนมาตรฐานใน GLM R
จะแปลความหมายของ Null และ Residual Deviance ใน GLM ใน R ได้อย่างไร? อย่างที่เราบอกว่า AIC ที่เล็กกว่านั้นดีกว่า มีการตีความที่คล้ายกันและรวดเร็วสำหรับความเบี่ยงเบนด้วยหรือไม่ ความเบี่ยงเบนว่าง: 1146.1 เมื่อ 1,077 องศาอิสระส่วนที่เหลือเบี่ยงเบน: 4589.4 เมื่อ 1,099 องศาอิสระ AIC: 11089

3
วิธีการใช้เพียร์สันสหสัมพันธ์อย่างถูกต้องกับอนุกรมเวลา
ฉันมี 2 ซีรีย์ (ราบรื่นทั้งคู่) ที่ฉันอยากจะครอสสัมพันธ์เพื่อดูว่าพวกมันมีความสัมพันธ์กันอย่างไร ฉันตั้งใจจะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน สิ่งนี้เหมาะสมหรือไม่ คำถามที่สองของฉันคือฉันสามารถเลือกตัวอย่าง 2 ซีรี่ส์ได้ตามต้องการ เช่นฉันสามารถเลือกจำนวนข้อมูลที่ฉันต้องการเรา สิ่งนี้จะส่งผลต่อสัมประสิทธิ์สหสัมพันธ์ที่ส่งออกหรือไม่ ฉันจำเป็นต้องพิจารณาเรื่องนี้หรือไม่? เพื่อประกอบการอธิบาย option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.