สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
พิสูจน์ว่าขณะสร้างฟังก์ชันทำหน้าที่พิจารณาการแจกแจงความน่าจะเป็นแบบไม่ซ้ำกัน
ข้อความของ Wackerly et al ได้กล่าวถึงทฤษฎีบทนี้ว่า "ให้และแสดงถึงช่วงเวลาที่สร้างฟังก์ชันของตัวแปรสุ่ม X และ Y ตามลำดับหากมีทั้งฟังก์ชันสร้างและสำหรับค่าทั้งหมดของ t ดังนั้น X และ Y จะมีการแจกแจงความน่าจะเป็นแบบเดียวกัน " โดยไม่มีการพิสูจน์ว่าเกินขอบเขตของข้อความ Scheaffer Young ยังมีทฤษฎีบทเดียวกันโดยไม่มีข้อพิสูจน์ ฉันไม่มีสำเนาของ Casella แต่การค้นหาหนังสือของ Google ดูเหมือนจะไม่พบทฤษฎีบทอยู่m y ( t ) m x ( t ) = m y ( t )ม.x( t )mx(t)m_x(t)ม.Y( t )my(t)m_y(t)ม.x( t ) = mY( t …

3
ฉันจะสร้างข้อมูลด้วยเมทริกซ์สหสัมพันธ์ที่ได้รับการกำหนดล่วงหน้าได้อย่างไร
ฉันพยายามที่จะสร้างสุ่มลำดับความสัมพันธ์กับค่าเฉลี่ย =แปรปรวน = , ค่าสัมประสิทธิ์สหสัมพันธ์ = 0.8ในรหัสด้านล่างนี้ฉันใช้& เป็นส่วนเบี่ยงเบนมาตรฐานและ& เป็นวิธีการ1 0.80001110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * u + sqrt(1 - p^2) * v) + m2 นี้ทำให้ผมที่ถูกต้องcorrcoef()0.8 ระหว่างและx yคำถามของฉันคือวิธีการที่ฉันสามารถสร้างชุดหมายความว่าถ้าผมต้องการzที่ยังมีความสัมพันธ์กับy(ที่มีความสัมพันธ์เดียวกัน ) แต่ไม่ได้อยู่กับ มีสูตรเฉพาะที่ฉันต้องรู้หรือไม่? ผมพบว่าหนึ่งแต่ไม่สามารถเข้าใจมันr=0.8r=0.8r=0.8x

3
เหตุผลที่ทำให้เป็นมาตรฐานในการวัดระยะทางแบบยุคลิดในการจัดกลุ่มแบบลำดับชั้น
เห็นได้ชัดว่าในการจัดกลุ่มแบบลำดับชั้นซึ่งการวัดระยะทางเป็นระยะทางแบบยุคลิดข้อมูลจะต้องเป็นมาตรฐานหรือมาตรฐานแรกเพื่อป้องกันการแปรปรวนร่วมกับความแปรปรวนสูงสุดจากการขับรถการจัดกลุ่ม ทำไมนี้ ความจริงข้อนี้ไม่เป็นที่ต้องการใช่หรือไม่

4
จะเริ่มต้นด้วยการจัดเรตและการจัดอันดับโดยใช้ข้อมูลการแข่งขันแบบจับคู่ได้อย่างไร
ฉันน่าสนใจในการเรียนรู้เกี่ยวกับวิธีจัดอันดับและจัดอันดับบุคคลในกลุ่มที่โต้ตอบ / แข่งขันแบบคู่เท่านั้น (เช่นระบบเช่นระบบจัดอันดับELOสำหรับหมากรุก) มีวิธีใดที่จะไปหรือมีวิธีการที่ถูกต้องและทันสมัยกว่าหรือไม่ มีแพ็คเกจ R ที่ทำให้การติดตั้งง่ายหรือไม่? มีวิธีการใดบ้างที่สามารถใช้ข้อมูลเสริมเช่นเดียวกับผลลัพธ์ของการแข่งขัน / เกม? มีวิธีการใดที่สามารถใช้ข้อมูลการชนะมาร์จิ้นได้ดีขึ้นเมื่อเทียบกับการชนะ / แพ้แบบแบ่งขั้วคู่ ฉันควรมองหาอะไรในวรรณกรรม?

3
การตีความแบบจำลอง ARIMA
ฉันมีคำถามเกี่ยวกับแบบจำลอง ARIMA สมมติว่าฉันมีอนุกรมเวลาที่ฉันต้องการคาดการณ์และแบบจำลองดูเหมือนจะเป็นวิธีที่ดีในการทำแบบฝึกหัดการพยากรณ์ ตอนนี้รั้ง 's หมายความว่าชุดของฉันในวันนี้เป็นผลมาจากเหตุการณ์ที่เกิดขึ้นก่อน มันสมเหตุสมผลแล้ว แต่การตีความข้อผิดพลาดคืออะไร? สิ่งที่เหลือก่อนหน้าของฉัน (ฉันจะคำนวณได้อย่างไร) มีอิทธิพลต่อมูลค่าของซีรี่ส์ของฉันในวันนี้ ส่วนที่เหลือล้าหลังจะคำนวณได้อย่างไรในการถดถอยนี้เนื่องจากเป็นผลิตภัณฑ์ / ส่วนที่เหลือของการถดถอย ARIMA ( 2 , 2 ) Δ Y t = α 1 Δ Y t - 1 + α 2 Δ Y t - 2 + ν t + θ 1 ν t - 1 + …

3
อะไรคือความสำคัญของฟังก์ชั่นในสถิติ?
ในชั้นเรียนแคลคูลัสของเราเราพบฟังก์ชันหรือ "bell curve" และฉันถูกบอกว่ามีแอปพลิเคชันบ่อยในสถิติอี- x2อี-x2e^{-x^2} ฉันอยากถามว่า: ฟังก์ชั่นมีความสำคัญในสถิติหรือไม่? ถ้าใช่มันเกี่ยวกับที่ทำให้มีประโยชน์และมีแอปพลิเคชันอะไรบ้าง e - x 2อี- x2อี-x2e^{-x^2}อี-x2อี-x2e^{-x^2} ฉันไม่สามารถหาข้อมูลมากเกี่ยวกับการทำงานบนอินเทอร์เน็ต แต่หลังจากทำวิจัยบางอย่างผมพบความเชื่อมโยงระหว่างเส้นโค้งระฆังทั่วไปและสิ่งที่เรียกว่าการกระจายปกติ หน้าวิกิพีเดียเชื่อมโยงเหล่านี้ประเภทของฟังก์ชั่นเพื่อการประยุกต์ใช้สถิติกับไฮไลต์โดยผมว่าฯ : "การแจกแจงแบบปกติถือเป็นการแจกแจงความน่าจะเป็นที่โดดเด่นที่สุดในสถิติมีหลายเหตุผลสำหรับสิ่งนี้: 1ขั้นแรกการแจกแจงแบบปกติเกิดขึ้นจากทฤษฎีบทขีด จำกัด กลางซึ่งระบุว่าภายใต้เงื่อนไขอ่อนจำนวนผลรวมของตัวแปรสุ่มจำนวนมาก จากการแจกแจงแบบเดียวกันนั้นมีการแจกแจงแบบปกติโดยไม่คำนึงถึงรูปแบบของการแจกแจงดั้งเดิม " ดังนั้นถ้าฉันรวบรวมข้อมูลจำนวนมากจากการสำรวจบางประเภทหรือสิ่งที่คล้ายกันพวกเขาสามารถกระจายอย่างเท่าเทียมกันระหว่างฟังก์ชั่นเช่น ? ฟังก์ชันนั้นมีความสมมาตรดังนั้นความสมมาตรคือประโยชน์ในการแจกแจงแบบปกติอะไรที่ทำให้มันมีประโยชน์ในทางสถิติ? ฉันแค่คาดเดาอี-x2อี-x2e^{-x^2} โดยทั่วไปแล้วอะไรที่ทำให้มีประโยชน์ในด้านสถิติ? หากการแจกแจงแบบปกติเป็นพื้นที่เพียงอย่างเดียวแล้วอะไรทำให้ไม่ซ้ำกันหรือมีประโยชน์โดยเฉพาะในฟังก์ชั่นประเภท gaussian อื่น ๆ ในการแจกแจงแบบปกติ? e - x 2อี- x2อี-x2e^{-x^2}อี- x2อี-x2e^{-x^2}

2
ความเสถียรของการตรวจสอบข้ามในแบบจำลองเบย์
ฉันเหมาะสม Bayesian HLM ใน JAGS โดยใช้การตรวจสอบความถูกต้องข้ามแบบ k-fold (k = 5) ฉันต้องการทราบว่าการประมาณค่าพารามิเตอร์นั้นเสถียรในทุกเท่าหรือไม่ วิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร?ββ\beta แนวคิดหนึ่งคือการค้นหาความแตกต่างของ posteriorsและดูว่า 0 อยู่ใน 95% CI ของความแตกต่างหรือไม่ กล่าวอีกนัยหนึ่งคือ 0 ในช่วง 95% ของ (จากนั้นทำซ้ำสำหรับทุกคู่เท่า)ββ\betaβk=1−βk=2βk=1−βk=2\beta_{k=1}-\beta_{k=2} อีกแนวคิดหนึ่งคือปฏิบัติต่อผู้โพสต์จากแต่ละวงในฐานะโซ่ MCMC ที่แตกต่างกันและเพื่อคำนวณ (ศักยภาพการลดสเกลปัจจัย) ของเจลแมนทั่วโซ่หลอกเหล่านี้R^R^\hat{R} เป็นหนึ่งในสิ่งที่ดีกว่าและมีทางเลือกอื่นหรือไม่?

5
ฉันจะศึกษา“ ความสัมพันธ์” ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดได้อย่างไร
การวัด "สหสัมพันธ์" ที่มีความหมายเพื่อศึกษาความสัมพันธ์ระหว่างตัวแปรทั้งสองประเภทนี้คืออะไร? ใน R ทำอย่างไร?


6
โปรแกรมเมอร์กำลังมองหาที่จะบุกเข้าไปในสนามการเรียนรู้ของเครื่อง
ฉันเป็นนักพัฒนาซอฟต์แวร์ (ส่วนใหญ่เป็น. NET และ Python ประมาณ 5 ปี) ฉันจะทำอะไรได้บ้างเพื่อช่วยให้ฉันได้งานในสาขาการเรียนรู้ของเครื่องหรืออะไรก็ตามที่จะทำให้ฉันเริ่มต้นในสาขานั้น? การเรียนระดับปริญญาโทถือเป็นเรื่องยากหรือไม่?

1
การทำนายแบบจำลอง - เราควรใส่ใจกับการสร้างแบบจำลองที่หลากหลายหรือไม่
สำหรับการสร้างแบบจำลองการทำนายเราจำเป็นต้องคำนึงถึงตัวเราด้วยแนวคิดทางสถิติเช่นเอฟเฟกต์แบบสุ่มและการไม่เป็นอิสระจากการสังเกต (มาตรการซ้ำ ๆ )? ตัวอย่างเช่น.... ฉันมีข้อมูลจากแคมเปญอีเมลโดยตรง 5 รายการ (เกิดขึ้นในช่วงหนึ่งปี) ที่มีคุณลักษณะและการตั้งค่าสถานะการซื้อต่างๆ เป็นการดีที่ฉันจะใช้ข้อมูลทั้งหมดนี้รวมกันเพื่อสร้างแบบจำลองสำหรับการซื้อที่กำหนดคุณลักษณะของลูกค้าในช่วงเวลาของแคมเปญ เหตุผลคือเหตุการณ์การซื้อหายากและฉันต้องการใช้ข้อมูลให้มากที่สุด มีโอกาสที่ลูกค้าที่กำหนดอาจอยู่ในทุก ๆ 1 ถึง 5 ของแคมเปญ - หมายความว่าไม่มีความเป็นอิสระระหว่างบันทึก ไม่สำคัญเมื่อใช้: 1) วิธีการเรียนรู้ของเครื่อง (เช่น tree, MLP, SVM) 2) วิธีการทางสถิติ (การถดถอยโลจิสติก)? **ADD:** ความคิดของฉันเกี่ยวกับการสร้างแบบจำลองการคาดการณ์คือถ้าแบบจำลองใช้งานได้ เพื่อให้ฉันไม่เคยพิจารณาความสำคัญของสมมติฐาน การนึกถึงกรณีที่ฉันอธิบายไว้ข้างต้นทำให้ฉันสงสัย MLP and SVMใช้ขั้นตอนวิธีการเรียนรู้เครื่องเช่น สิ่งเหล่านี้ถูกใช้อย่างประสบความสำเร็จในการสร้างแบบจำลองเหตุการณ์ไบนารีเช่นตัวอย่างของฉันด้านบน แต่ยังมีข้อมูลอนุกรมเวลาที่มีความสัมพันธ์อย่างชัดเจน อย่างไรก็ตามฟังก์ชั่นการสูญเสียการใช้งานจำนวนมากที่มีความเป็นไปได้และมาจากการสันนิษฐานว่าเป็นข้อผิดพลาดคือ id ตัวอย่างเช่นต้นไม้เพิ่มระดับความลาดชันใน R gbmใช้ฟังก์ชั่นการสูญเสียความเบี่ยงเบนที่ได้มาจากทวินาม ( หน้า 10 )

1
การแก้ไข Benjamini-Hochberg มีความระมัดระวังมากขึ้นหรือไม่เมื่อจำนวนการเปรียบเทียบเพิ่มขึ้น?
Benjamini-Hochberg มีความระมัดระวังมากน้อยเพียงใดเมื่อเปรียบเทียบกับจำนวนการเปรียบเทียบทั้งหมด? ตัวอย่างเช่นถ้าฉันมีรายการคุณลักษณะ 18,000 รายการสำหรับสองกลุ่มและฉันทำการทดสอบ Wilcoxon เพื่อรับค่า p ฉันปรับ p-value นั้นโดยใช้ Benjamini-Hochberg และถัดจากสิ่งใดก็ตามที่สำคัญ ฉันรู้ว่าการแก้ไข Bonferroni นั้นค่อนข้างอนุรักษ์นิยมเมื่อจำนวนการเปรียบเทียบเพิ่มขึ้น Benjamini-Hochberg มีคุณสมบัติเหมือนกันหรือไม่?

8
การจัดกลุ่มข้อมูลชนิดผสมด้วย R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะดำเนินการภายใน R การจัดกลุ่มข้อมูลที่มีตัวแปรข้อมูลแบบผสม กล่าวอีกนัยหนึ่งฉันมีชุดข้อมูลที่ประกอบด้วยตัวแปรตัวเลขและหมวดหมู่ภายในและฉันกำลังค้นหาวิธีที่ดีที่สุดในการจัดกลุ่มพวกเขา ใน SPSS ฉันจะใช้คลัสเตอร์สองขั้นตอน ฉันสงสัยว่าใน R ฉันสามารถหาเทคนิคที่คล้ายกันได้หรือไม่ ฉันได้รับแจ้งเกี่ยวกับแพคเกจ poLCA แต่ฉันไม่แน่ใจ ...

1
การใช้ข้อผิดพลาดมาตรฐานของการกระจาย bootstrap
(เพิกเฉยต่อรหัส R หากจำเป็นเนื่องจากคำถามหลักของฉันคือภาษาที่ไม่ขึ้นต่อกัน) หากฉันต้องการดูความแปรปรวนของสถิติอย่างง่าย (เช่นค่าเฉลี่ย) ฉันรู้ว่าฉันสามารถทำได้ผ่านทางทฤษฎีเช่น: x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) หรือด้วย bootstrap เช่น: library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... …

1
การวิเคราะห์การไกล่เกลี่ยหลายใน R
ฉันสงสัยว่าถ้าใครรู้วิธีเรียกใช้โมเดลการไกล่เกลี่ยหลาย ๆ แบบในอาร์ฉันรู้ว่าแพ็คเกจการไกล่เกลี่ยอนุญาตให้ใช้แบบจำลองการไกล่เกลี่ยหลายแบบได้ง่าย แต่ฉันต้องการเรียกใช้โมเดลหนึ่งที่ประเมินโมเดลการไกล่เกลี่ยหลายแบบพร้อมกัน ฉันสมมติว่าฉันสามารถทำได้ในกรอบ SEM (การวิเคราะห์เส้นทาง) แต่ก็สงสัยว่าใครใหม่ของแพคเกจที่คำนวณสถิติทั่วไปของการวิเคราะห์การไกล่เกลี่ยสำหรับผู้ไกล่เกลี่ยหลายคน (ผลทางอ้อมสัดส่วนของผลรวมผ่านการไกล่เกลี่ย ฯลฯ ) และสามารถใช้ประโยชน์จากความร่วมมือ ฉันรู้ว่านี่เป็นช็อตยาว แต่คิดว่าฉันควรถามก่อนลงทุนเวลาพัฒนาตั้งแต่เริ่มต้น อัปเดต: (11/11/2013) ตั้งแต่ถามคำถามนี้เมื่อสองสามปีที่แล้วฉันได้เรียนรู้การใช้ลาวาแพ็คเกจ R ที่ยอดเยี่ยมเพื่อทำหน้าที่เป็นสื่อกลางหลายอย่าง นี่คือตัวอย่างรหัส: model <- ' # outcome model outcomeVar ~ c*xVar + b1*medVar1 + b2*medVar2 # mediator models medVar1 ~ a1*xVar medVar2 ~ a2*xVar # indirect effects (IDE) medVar1IDE := a1*b1 medVar2IDE …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.