สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
มีการกระจายของ 'สมดุล' ของการวัดหรือไม่?
ฉันค้นหาบนเว็บ แต่ไม่พบสิ่งที่เป็นประโยชน์ โดยทั่วไปฉันกำลังมองหาวิธีการวัดว่ามีการกระจายมูลค่าอย่างเท่าเทียมกันอย่างไร ในขณะที่การกระจายกระจายอย่างเท่าเทียมกันเช่นX : และการแจกแจงการแจกแจงแบบ'ไม่สม่ำเสมอ' Yซึ่งมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเท่ากัน: แต่มีการวัดค่าสมดุลใด ๆ m เช่นนั้น m (X)> m (Y)? หากไม่มีสิ่งใดจะเป็นวิธีที่ดีที่สุดในการสร้างการวัดเช่นนี้ (ภาพสกรีนช็อตจาก Khan Academy)

5
ข้อมูลที่ถูกตรวจสอบอย่างถูกต้องคืออะไร?
ฉันได้อ่านคำอธิบายที่แตกต่างของข้อมูลเซ็นเซอร์: A) ตามที่อธิบายไว้ในหัวข้อนี้ข้อมูลที่ไม่มีเงื่อนไขด้านล่างหรือสูงกว่าเกณฑ์ที่กำหนดจะถูกเซ็นเซอร์ ข้อมูลที่ไม่มีเงื่อนไขหมายถึงข้อมูลสูงกว่าหรือต่ำกว่าเกณฑ์ที่กำหนด แต่เราไม่ทราบค่าที่แน่นอน ข้อมูลจะถูกทำเครื่องหมายที่ค่าต่ำสุดหรือสูงกว่าเกณฑ์ในตัวแบบการถดถอย มันตรงกับคำอธิบายในงานนำเสนอนี้ซึ่งฉันพบว่าชัดเจนมาก (สไลด์ที่ 2 ในหน้าแรก) กล่าวอีกนัยหนึ่งว่าYYYถูก จำกัด ด้วยค่าต่ำสุดค่าสูงสุดหรือทั้งคู่เพราะเราไม่ทราบค่าจริงนอกช่วงนั้น B) เพื่อนบอกผมว่าเราสามารถใช้รูปแบบข้อมูลเซ็นเซอร์บางส่วนที่ไม่รู้จัก YYYสังเกตให้เรามีอย่างน้อยข้อมูลบางอย่างเกี่ยวกับการ จำกัด ไม่รู้จักYiYiY_iผลลัพธ์ ตัวอย่างเช่นเราต้องการประเมินราคาสุดท้ายสำหรับการประมูลแบบเงียบและแบบเปิดโดยพิจารณาจากเกณฑ์เชิงคุณภาพ (ประเภทของสินค้า, ประเทศ, ความมั่งคั่งของผู้เสนอราคาเป็นต้น) ในขณะที่การประมูลแบบเปิดเราทราบราคาสุดท้ายทั้งหมดYiYiY_iสำหรับการประมูลแบบเงียบเรารู้เพียงแค่การประมูลครั้งแรก (พูด $ 1,000) แต่ไม่ใช่ราคาสุดท้าย ฉันบอกว่าในกรณีนี้ข้อมูลถูกเซ็นเซอร์จากด้านบนและควรใช้โมเดลการถดถอยแบบเซ็นเซอร์ C) ในที่สุดก็มีความหมายที่กำหนดโดยWikipediaที่YYYหายไปโดยสิ้นเชิง แต่มีตัวทำนาย ฉันไม่แน่ใจว่าตัวอย่างนี้แตกต่างจากข้อมูลที่ถูกตัดทอนอย่างไร ดังนั้นข้อมูลที่ถูกเซ็นเซอร์คืออะไร?

3
Bootstrap: ปัญหาการ overfitting
สมมติว่าหนึ่งดำเนินการ bootstrap ที่ไม่ใช่พารามิเตอร์โดยการวาดตัวอย่างของขนาดnแต่ละจากต้นฉบับnBBBnnnnnnสังเกตพร้อมการแทนที่ ฉันเชื่อว่ากระบวนการนี้เทียบเท่ากับการประมาณฟังก์ชันการแจกแจงสะสมโดย cdf เชิงประจักษ์: http://en.wikipedia.org/wiki/Empirical_distribution_function จากนั้นรับตัวอย่าง bootstrap โดยจำลองการสังเกตจาก cdf BโดยประมาณnnnBBBในแถว ถ้าฉันพูดถูกสิ่งนี้จะต้องจัดการกับปัญหาเรื่องการล้นเพราะเอกสารเชิงประจักษ์มีพารามิเตอร์เกี่ยวกับ N แน่นอนว่ามันไม่แปรเปลี่ยนไปเป็นประชากร cdf แต่แล้วกลุ่มตัวอย่าง จำกัด ? เช่นถ้าฉันบอกคุณว่าฉันมีการสังเกต 100 ครั้งและฉันจะประมาณ cdf เป็นด้วยสองพารามิเตอร์คุณจะไม่ตื่นตระหนก อย่างไรก็ตามหากจำนวนพารามิเตอร์สูงถึง 100 ดูเหมือนจะไม่สมเหตุสมผลเลยN(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) ในทำนองเดียวกันเมื่อมีพนักงานหลายมาตรฐานการถดถอยเชิงเส้นการกระจายของระยะข้อผิดพลาดเป็นที่คาดกันว่าเป็น ) หากมีใครตัดสินใจที่จะเปลี่ยนเป็นการบูตสต็อกส่วนที่เหลือเขาต้องรู้ว่าตอนนี้มีประมาณnN(0,σ2)N(0,σ2)N(0, \sigma^2)nnnพารามิเตอร์ใช้เพื่อจัดการกับการแจกแจงข้อผิดพลาด คุณช่วยบอกทางฉันถึงแหล่งข้อมูลบางแห่งที่จัดการปัญหานี้อย่างชัดเจนหรือบอกสาเหตุที่ไม่ใช่ปัญหาถ้าคุณคิดว่าฉันทำผิด

2
k-mean เทียบกับ k-median?
ฉันรู้ว่ามีอัลกอริธึมการจัดกลุ่ม k-mean และ k-median หนึ่งที่ใช้ค่าเฉลี่ยเป็นศูนย์กลางของคลัสเตอร์และอื่น ๆ ที่ใช้ค่ามัธยฐาน คำถามของฉันคือเมื่อใด / ที่ไหนที่จะใช้?

1
แถบความเชื่อมั่นสำหรับสาย QQ
คำถามนี้ไม่เกี่ยวข้องโดยเฉพาะRแต่ฉันเลือกที่จะใช้Rเพื่ออธิบาย พิจารณารหัสสำหรับการสร้างวงความเชื่อมั่นรอบ a (ปกติ) qq-line: library(car) library(MASS) b0<-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") ฉันกำลังมองหาคำอธิบายของ (หรือทางเลือกลิงก์ไปยังเอกสาร / เอกสารออนไลน์อธิบาย) วิธีสร้างวงความมั่นใจเหล่านี้ (ฉันได้เห็นการอ้างอิงถึง Fox 2002 ในไฟล์ช่วยเหลือของ R แต่น่าเสียดายที่ฉันไม่มีสิ่งนี้ หนังสือมีประโยชน์) คำถามของฉันจะทำให้ชัดเจนยิ่งขึ้นด้วยตัวอย่าง นี่คือวิธีRคำนวณ CI ของเหล่านี้ (ฉันย่อ / ย่อรหัสที่ใช้car::qqPlot) x<-b0$resid good<-!is.na(x) ord<-order(x[good]) ord.x<-x[good][ord] n<-length(ord.x) P<-ppoints(n) z<-qnorm(P) plot(z,ord.x,type="n") coef<-coef(rlm(ord.x~z)) a<-coef[1] b<-coef[2] abline(a,b,col="red",lwd=2) conf<-0.95 zz<-qnorm(1-(1-conf)/2) SE<-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value<-a+b*z upper<-fit.value+zz*SE lower<-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") คำถามคืออะไรคือเหตุผลสำหรับสูตรที่ใช้ในการคำนวณ …

4
มีอคติในการเลือกคณะลูกขุน?
เพื่อนเป็นตัวแทนของลูกค้าเกี่ยวกับการอุทธรณ์หลังจากการพิจารณาคดีทางอาญาซึ่งปรากฏว่าการคัดเลือกคณะลูกขุนมีความลำเอียงทางเชื้อชาติ คณะลูกขุนประกอบด้วย 30 คนในกลุ่มเชื้อชาติ 4 กลุ่ม การฟ้องร้องใช้ความท้าทายแบบไม่ต้องลงแรงเพื่อกำจัดคนเหล่านี้ 10 คนออกจากกลุ่ม จำนวนคนและจำนวนความท้าทายที่เกิดขึ้นจริงในแต่ละกลุ่มเชื้อชาติตามลำดับ: A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges จำเลยก็มาจากเชื้อชาติกลุ่มซีและผู้ที่ตกเป็นเหยื่อจากกลุ่มเชื้อชาติและ D เพื่อความกังวลเบื้องต้นไม่ว่าจะเป็นกลุ่ม C มีมากกว่าที่ท้าทายและกลุ่ม A และ D ภายใต้การท้าทาย ถูกต้องตามกฎหมาย (IIUC; IANAL) การป้องกันไม่จำเป็นต้องพิสูจน์ความลำเอียงทางเชื้อชาติ แต่เพียงเพื่อแสดงให้เห็นว่าข้อมูลดูเหมือนจะบ่งบอกถึงความลำเอียงซึ่งทำให้ภาระในการฟ้องร้องอธิบายความท้าทายที่ไม่ใช่เชื้อชาติ การวิเคราะห์ต่อไปนี้ถูกต้องในแนวทางของมันหรือไม่? (ฉันคิดว่าการคำนวณนั้นใช้ได้): มี nCr (30,10) = 30,045,015 ชุดที่แตกต่างกันของสมาชิกพูล …

3
สัมประสิทธิ์การถดถอยโลจิสติกมีความหมายหรือไม่?
ฉันมีปัญหาการจำแนกเลขฐานสองจากคุณสมบัติหลายอย่าง สัมประสิทธิ์ของการถดถอยโลจิสติก (ทำให้เป็นปกติ) มีความหมายที่ตีความได้หรือไม่? ฉันคิดว่าพวกเขาสามารถระบุขนาดของอิทธิพลได้เนื่องจากฟีเจอร์นั้นได้รับการปรับให้เป็นมาตรฐานล่วงหน้า อย่างไรก็ตามในปัญหาของฉันค่าสัมประสิทธิ์ดูเหมือนจะขึ้นอยู่กับคุณสมบัติที่ฉันเลือก แม้แต่สัญลักษณ์ของสัมประสิทธิ์ก็เปลี่ยนไปด้วยชุดคุณสมบัติที่แตกต่างกันซึ่งเลือกเป็นอินพุต มันสมเหตุสมผลหรือไม่ที่จะตรวจสอบคุณค่าของสัมประสิทธิ์และวิธีที่ถูกต้องในการค้นหาสัมประสิทธิ์ที่มีความหมายมากที่สุดและระบุความหมายด้วยคำพูดคืออะไร? มีบางรุ่นที่ติดตั้งและสัญลักษณ์ของสัมประสิทธิ์ของพวกเขาไม่ถูกต้อง - แม้ว่าพวกเขาเรียงลำดับข้อมูลพอดี? (ความสัมพันธ์สูงสุดที่ฉันมีระหว่างฟีเจอร์ต่าง ๆ มีเพียง 0.25 แต่นั่นมีบทบาทอย่างแน่นอน?)

2
ความเป็นส่วนตัวในสถิติผู้ใช้บ่อย
ฉันมักจะได้ยินคำกล่าวอ้างว่าสถิติแบบเบย์นั้นเป็นเรื่องส่วนตัว เหตุผลหลักคือการอนุมานนั้นขึ้นอยู่กับการเลือกก่อนหน้า (แม้ว่าใครจะสามารถใช้หลักการของความไม่แยแส o สูงสุดของเอนโทรปีในการเลือกก่อน) ในการเปรียบเทียบการเรียกร้องไปสถิติบ่อยครั้งโดยทั่วไปมีวัตถุประสงค์มากขึ้น คำนี้มีความจริงมากน้อยแค่ไหน? นอกจากนี้ยังทำให้ฉันสงสัย: อะไรคือองค์ประกอบที่เป็นรูปธรรมของสถิติผู้ใช้บ่อย (ถ้ามี) ที่สามารถเป็นอัตนัยโดยเฉพาะและที่ไม่ปรากฏหรือมีความสำคัญน้อยกว่าในสถิติแบบเบย์? ความเป็นส่วนตัวนั้นแพร่หลายมากในเบย์มากกว่าในสถิติบ่อย

1
การวินิจฉัยลู่และลู่เข้าแบบเจลแมนและรูบินวิธีทั่วไปในการทำงานกับเวกเตอร์เป็นอย่างไร
การวินิจฉัย Gelman และ Rubin ใช้เพื่อตรวจสอบการลู่เข้าของเชน mcmc หลาย ๆ ตัวที่ทำงานแบบขนาน มันเปรียบเทียบความแปรปรวนภายในห่วงโซ่กับความแปรปรวนระหว่างห่วงโซ่การแสดงออกอยู่ด้านล่าง: ขั้นตอน (สำหรับแต่ละพารามิเตอร์): เรียกใช้ m ≥ 2 กลุ่มที่มีความยาว 2n จากค่าเริ่มต้นที่กระจายเกินพิกัด ยกเลิกการดึง n แรกในแต่ละเชน คำนวณความแปรปรวนภายในโซ่และระหว่างห่วงโซ่ คำนวณค่าความแปรปรวนโดยประมาณของพารามิเตอร์เป็นผลรวมถ่วงน้ำหนักของความแปรปรวนภายในห่วงโซ่และระหว่างห่วงโซ่ คำนวณปัจจัยการลดขนาดที่อาจเกิดขึ้น รายการสินค้า ฉันต้องการใช้สถิตินี้ แต่ตัวแปรที่ฉันต้องการใช้คือเวกเตอร์แบบสุ่ม มันสมเหตุสมผลไหมที่จะใช้ค่าเฉลี่ยของเมทริกซ์ความแปรปรวนร่วมในกรณีนี้?

1
คาร์ลเพียร์สันคิดสถิติไคสแควร์อย่างไร
เพียร์สันเกิดขึ้นได้อย่างไรกับสถิติเพียร์สันไคสแควร์ในปี 1900 ที่ K~χ2K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} K∼χ2K∼χ2 K \sim \chi^2 เขาคิดแบบไคสแควร์แล้วคิดมาตรวัดKKK (วิธีการจากล่างขึ้นบน) หรือเขาคิดค่าสถิติและต่อมาพิสูจน์ว่ามันเป็นไปตามการแจกแจงไคสแควร์ (บนลงล่าง)? ฉันต้องการที่จะรู้ว่าทำไมเขาถึงเลือกว่ารูปแบบที่เฉพาะเจาะจงและไม่ได้อื่น ๆ เช่นหรือΣ | O i j - E i j | และทำไมเขาจึงแบ่งสี่เหลี่ยมกับตัวส่วน∑(Oij−Eij)2∑(Oij−Eij)2\sum(O_{ij} -E_{ij})^2∑|Oij−Eij|∑|Oij−Eij|\sum|O_{ij} -E_{ij}|

4
“ สหสัมพันธ์” หมายถึงความชันในการวิเคราะห์การถดถอยด้วยหรือไม่
ฉันกำลังอ่านกระดาษและผู้เขียนเขียนว่า: ศึกษาผลของ A, B, C ต่อ Y โดยใช้การวิเคราะห์ถดถอยแบบพหุ A, B, C ถูกป้อนเข้าสู่สมการถดถอยด้วย Y เป็นตัวแปรตาม การวิเคราะห์ความแปรปรวนแสดงในตารางที่ 3 ผลกระทบของ B ต่อ Y มีนัยสำคัญโดยที่ B สัมพันธ์กับ. 27 กับ Y ภาษาอังกฤษไม่ใช่ภาษาแม่ของฉันและฉันสับสนมากที่นี่ ก่อนอื่นเขาบอกว่าเขาจะทำการวิเคราะห์การถดถอยจากนั้นเขาก็แสดงให้เราเห็นการวิเคราะห์ความแปรปรวน ทำไม? แล้วเขาก็เขียนเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์นั่นไม่ได้มาจากการวิเคราะห์ความสัมพันธ์? หรือคำนี้สามารถใช้อธิบายความชันถดถอยได้

1
ตัวแยกประเภทการเรียนรู้ของเครื่องใหญ่ -O หรือความซับซ้อน
เพื่อประเมินประสิทธิภาพของอัลกอริธึมลักษณนามใหม่ฉันพยายามเปรียบเทียบความแม่นยำและความซับซ้อน (big-O ในการฝึกอบรมและการจำแนก) จากเครื่องการเรียนรู้: ความคิดเห็นที่ฉันได้รับที่สมบูรณ์รายการลักษณนามภายใต้การดูแลยังเป็นตารางความถูกต้องระหว่างขั้นตอนวิธีการและปัญหาการทดสอบ 44 จากUCI repositoy อย่างไรก็ตามฉันไม่สามารถหาบทวิจารณ์กระดาษหรือเว็บไซต์กับ big-O สำหรับตัวแยกประเภททั่วไปเช่น: C4.5 RIPPER (ฉันคิดว่านี่อาจเป็นไปไม่ได้ แต่ใครจะรู้) ANN พร้อมการขยายพันธุ์กลับ Bayesian ไร้เดียงสา K-NN SVM ถ้าใครมีการแสดงออกสำหรับลักษณนามเหล่านี้มันจะมีประโยชน์มากขอบคุณ

3
วิธีการคำนวณการทับซ้อนระหว่างความหนาแน่นของความน่าจะเป็นเชิงประจักษ์
ฉันกำลังมองหาวิธีการคำนวณพื้นที่ทับซ้อนระหว่างการประมาณความหนาแน่นเคอร์เนลสองตัวใน R เป็นการวัดความคล้ายคลึงกันระหว่างสองตัวอย่าง เพื่อชี้แจงในตัวอย่างต่อไปนี้ฉันจะต้องหาปริมาณของพื้นที่ที่ทับซ้อนกันของสีม่วง: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) มีการอภิปรายคำถามที่คล้ายกันที่นี่ความแตกต่างที่ฉันต้องทำสำหรับข้อมูลเชิงประจักษ์โดยพลการมากกว่าการแจกแจงปกติที่กำหนดไว้ล่วงหน้า overlapแพคเกจที่อยู่คำถามนี้ แต่เห็นได้ชัดเฉพาะข้อมูลการประทับเวลาซึ่งไม่ทำงานสำหรับฉัน ดัชนี Bray-Curtis (ตามการนำไปใช้ในฟังก์ชั่นveganของบรรจุภัณฑ์vegdist(method="bray")) ก็มีความเกี่ยวข้องเช่นกัน แต่สำหรับข้อมูลที่แตกต่างกันบ้าง ฉันสนใจทั้งวิธีการทางทฤษฎีและฟังก์ชัน R ที่ฉันอาจใช้เพื่อนำไปใช้

1
ความแตกต่างระหว่างสัมประสิทธิ์การถดถอยและสัมประสิทธิ์การถดถอยบางส่วนคืออะไร?
ฉันอ่านใน Abdi (2003)แล้ว เมื่อตัวแปรอิสระเป็นค่ามุมฉากคู่ผลของแต่ละตัวแปรในการถดถอยจะถูกประเมินโดยการคำนวณความชันของการถดถอยระหว่างตัวแปรอิสระนี้และตัวแปรตาม ในกรณีนี้ (เช่น orthogonality ของ IV) สัมประสิทธิ์การถดถอยบางส่วนจะเท่ากับสัมประสิทธิ์การถดถอย ในกรณีอื่น ๆ ทั้งหมดสัมประสิทธิ์การถดถอยจะแตกต่างจากสัมประสิทธิ์การถดถอยบางส่วน อย่างไรก็ตามเอกสารไม่ได้อธิบายก่อนหน้านี้ว่าความแตกต่างระหว่างสัมประสิทธิ์การถดถอยทั้งสองประเภทนี้คืออะไร Abdi, H. (2003) สัมประสิทธิ์การถดถอยบางส่วน ใน Lewis-Beck M. , Bryman, A. , Futing T. (บรรณาธิการ) (2003) สารานุกรมสังคมศาสตร์: วิธีการวิจัย Thousand Oaks, CA: สิ่งพิมพ์ SAGE

3
การฝึกอบรมการทดสอบการตรวจสอบในการวิเคราะห์ปัญหาการอยู่รอด
ฉันดูหัวข้อต่างๆที่นี่ แต่ฉันไม่คิดว่าจะตอบคำถามที่แน่นอน ฉันมีชุดข้อมูลของนักเรียนประมาณ 50,000 คนและเวลาในการออกกลางคัน ฉันจะทำการลดความเสี่ยงตามสัดส่วนที่มีค่าความแปรปรวนจำนวนมาก ฉันกำลังจะทำการถดถอยโลจิสติกเมื่อออกกลางคัน / อยู่ต่อเป้าหมายหลักคือการคาดการณ์สำหรับนักเรียนกลุ่มใหม่ โดยทั่วไปแล้วฉันไม่มีความหรูหราของข้อมูลและทำตัวแบบที่เหมาะสมกับการลงโทษ แต่คราวนี้ฉันคิดว่าการแยกชุดฝึกอบรมและชุดข้อมูลทดสอบแล้วทำการเลือกตัวแปรในชุดฝึกอบรม จากนั้นใช้ชุดข้อมูลทดสอบสำหรับการประมาณค่าพารามิเตอร์และความสามารถในการทำนาย นี่เป็นกลยุทธ์ที่ดีใช่ไหม ถ้าไม่ดีกว่าอะไร ยินดีต้อนรับการอ้างอิง แต่ไม่จำเป็น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.