สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ตัวดำเนินการ (x) หมายถึงอะไร
ฉันได้เห็นตัวการทุกหนทุกแห่งในการทบทวนวรรณกรรมที่ฉันทำกับ Causality (ดูตัวอย่างเช่นรายการวิกิพีเดียนี้ ) อย่างไรก็ตามฉันไม่สามารถหาคำจำกัดความที่เป็นทางการและทั่วไปของโอเปอเรเตอร์นี้ได้do ( x )do(x)do(x) ใครสามารถชี้ให้ฉันอ้างอิงที่ดีเกี่ยวกับเรื่องนี้? ฉันสนใจคำจำกัดความทั่วไปมากกว่าการตีความในการทดสอบเฉพาะ

1
Kolmogorov – Smirnov test กับ t-test
ฉันมีความยากลำบากในการเข้าใจการตีความของการทดสอบ KS ตัวอย่าง 2 ตัวและมันแตกต่างจากการทดสอบแบบปกติระหว่าง 2 กลุ่ม ให้บอกว่าฉันมีชายและหญิงทำงานบางอย่างและฉันรวบรวมคะแนนจากงานนั้น เป้าหมายสูงสุดของฉันคือการพิจารณาว่าเพศชายและเพศหญิงปฏิบัติงานต่างกันหรือไม่ สิ่งหนึ่งที่ฉันทำได้คือทดสอบระหว่าง 2 กลุ่ม อีกสิ่งหนึ่งที่ฉันทำได้คือคำนวณ ECDF สำหรับชายและหญิงพล็อตและทำการทดสอบ KS 2 ตัวอย่าง ฉันจะได้รับสิ่งนี้: การทดสอบ KS สมมติฐานว่างสำหรับการทดสอบ KS คือการแจกแจงคะแนนต่อเนื่อง 2 ชุดมาจากประชากรเดียวกัน เมื่อทำการทดสอบ KS ฉันได้รับ: D = 0.18888, p-value = 0.04742 ก่อนอื่นฉันต้องการตรวจสอบว่าการตีความผลลัพธ์ของฉันถูกต้อง ที่นี่ฉันจะปฏิเสธสมมติฐานว่างและบอกว่าการแจกแจงคะแนนชายและหญิงมาจากประชากรที่แตกต่างกัน หรือกล่าวอีกนัยหนึ่งการกระจายของคะแนนชายและหญิงนั้นแตกต่างกัน โดยเฉพาะอย่างยิ่งเพศชายมักจะมีโอกาสสูงที่จะได้คะแนนต่ำกว่าในงานนี้และนั่นคือความแตกต่างระหว่าง 2 เพศที่ฉันตีความจากเนื้อเรื่อง t-test ตอนนี้ที่การทดสอบจะทดสอบความแตกต่างระหว่างชายและหญิงหมายถึงตัวแปรคะแนน ให้จินตนาการถึงกรณีที่การแสดงของผู้ชายนั้นแย่กว่าผู้หญิงในงานนี้ ในกรณีดังกล่าวการกระจายของคะแนนชายจะมุ่งไปที่ค่าเฉลี่ยต่ำในขณะที่การแจกแจงคะแนนหญิงจะอยู่กึ่งกลางค่าเฉลี่ยสูง สถานการณ์นี้จะสอดคล้องกับพล็อตด้านบนเนื่องจากผู้ชายจะมีโอกาสสูงที่จะได้รับคะแนนต่ำกว่า หากการทดสอบเสื้อยืดออกมามีนัยสำคัญฉันจะสรุปได้ว่าคะแนนผู้หญิงโดยเฉลี่ยสูงกว่าเพศชายอย่างมีนัยสำคัญ หรือในแง่ของประชากรคะแนนหญิงมาจากประชากรที่มีค่าเฉลี่ยสูงกว่าประชากรชายซึ่งฟังดูคล้ายกับข้อสรุปของแคนซัสว่ามาจากประชากรที่แตกต่างกัน ความแตกต่างคืออะไร? ดังนั้นข้อสรุปฉันจะวาดทั้งใน …

3
วิธีการสร้างแบบจำลองข้อมูลขนาดใหญ่ยาว?
ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่ ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่ เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ …

1
ไลบรารี Python Model แบบเติมแต่งทั่วไป
ฉันรู้ว่า R มีไลบรารี gam และ mgcv สำหรับโมเดลสารเติมแต่งทั่วไป แต่ฉันมีปัญหาในการค้นหาคู่หูของพวกเขาในระบบนิเวศของหลาม (สถิติเฉพาะรุ่นมีต้นแบบในกล่องทราย) มีใครรู้บ้างเกี่ยวกับห้องสมุดหลามที่มีอยู่? ใครจะรู้ว่านี่อาจเป็นโครงการที่ดีในการพัฒนา / มีส่วนร่วมในการเรียนรู้ Scikit ถ้าไม่
14 gam 

3
วิธีการหาค่าสัมประสิทธิ์การถดถอย
ในการถดถอยสันฟังก์ชันวัตถุประสงค์ที่จะลดลงคือRSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. สิ่งนี้สามารถเพิ่มประสิทธิภาพโดยใช้วิธีการเพิ่มทวีคูณ หรือมันคือความแตกต่างตรง?

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

2
Thompson Sampling ในเงื่อนไขของคนธรรมดาคืออะไร
ฉันไม่สามารถเข้าใจThompson Samplingและวิธีการทำงาน ฉันอ่านเกี่ยวกับ Multi Arm Bandit และหลังจากอ่านอัลกอริทึมผูกมัดความเชื่อมั่นบนข้อความจำนวนมากชี้ให้เห็นว่า Thompson Sampling ทำงานได้ดีกว่า UCB Thompson Sampling ในแง่ของคนธรรมดาหรือง่ายๆคืออะไร? อย่าลังเลที่จะให้บทความอ้างอิงเพื่อความเข้าใจเพิ่มเติม

4
มีวิธีการทางสถิติอะไรบ้างในการแนะนำภาพยนตร์เช่นเดียวกับใน Netflix
ฉันกำลังมองหาที่จะใช้รูปแบบไดนามิกเพื่อแนะนำภาพยนตร์ให้กับผู้ใช้ คำแนะนำควรได้รับการอัปเดตทุกครั้งที่ผู้ใช้ดูภาพยนตร์หรือให้คะแนน เพื่อให้ง่ายฉันคิดว่าการคำนึงถึงปัจจัยสองประการ: การจัดอันดับที่ผ่านมาของภาพยนตร์อื่น ๆ โดยผู้ใช้ เวลาที่ผู้ใช้ดูภาพยนตร์ที่ผ่านมาบางเรื่อง การตั้งค่าหนึ่งแบบนั้นจะเป็นอย่างไรและวรรณกรรมวิชาการแนะนำอะไร ฉันเป็นคนใหม่ในสาขานี้และฉันคาดเดาว่าแบบจำลองการเปลี่ยนทิศทางเชิงเส้นสามารถให้ผลลัพธ์ที่ดีได้โดยไม่ต้องนึกถึงวิธีการที่ซับซ้อนกว่าเพื่อหลีกเลี่ยงความไม่แน่นอนที่ไม่จำเป็นในการประมาณค่าพารามิเตอร์ แต่อาจมีวิธีการที่กำหนดไว้แล้วที่ใช้กันทั่วไปในการปฏิบัติ?

3
ใน GLM ความเป็นไปได้ของบันทึกของโมเดลอิ่มตัวมักเป็นศูนย์หรือไม่?
ในฐานะที่เป็นส่วนหนึ่งของเอาท์พุทของตัวแบบเชิงเส้นแบบทั่วไปนั้นการเบี่ยงเบนแบบ null และส่วนที่เหลือจะถูกใช้ในการประเมินแบบจำลอง ฉันมักจะเห็นสูตรสำหรับปริมาณเหล่านี้แสดงในแง่ของโอกาสในการเข้าสู่ระบบของรูปแบบอิ่มตัวเช่น: /stats//a/113022/22199 , ถดถอยโลจิสติ: วิธีการที่จะได้รับรูปแบบการอิ่มตัว แบบจำลองที่อิ่มตัวตามที่ฉันเข้าใจเป็นแบบจำลองที่เหมาะสมกับการตอบสนองที่สังเกตได้อย่างสมบูรณ์แบบ ดังนั้นในสถานที่ส่วนใหญ่ที่ฉันเคยเห็นความเป็นไปได้ของแบบจำลองความอิ่มตัวจะได้รับเป็นศูนย์เสมอ ทว่าวิธีการกำหนดสูตรการเบี่ยงเบนแสดงให้เห็นว่าบางครั้งปริมาณนี้ไม่ใช่ศูนย์ (ราวกับว่ามันเป็นศูนย์เสมอทำไมต้องรวมมันด้วย) ในกรณีใดบ้างที่ไม่เป็นศูนย์ ถ้าไม่ใช่ศูนย์ไม่ใช่ทำไมรวมไว้ในสูตรสำหรับการเบี่ยงเบน

3
จะหาโหมดของฟังก์ชันความหนาแน่นของความน่าจะเป็นได้อย่างไร
ได้รับแรงบันดาลใจจากคำถามอื่น ๆ ของฉันฉันอยากถามว่าโหมดค้นหาฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) ของฟังก์ชันอย่างไรฉ( x )f(x)f(x) มีขั้นตอน "ตำราทำอาหาร" สำหรับสิ่งนี้หรือไม่? เห็นได้ชัดว่างานนี้เป็นเรื่องยากกว่าที่ดูเหมือนในตอนแรก

2
ผลลัพธ์ของการทำนายการถดถอยโลจิสติก
ฉันสร้าง Logistic Regression โดยใช้รหัสต่อไปนี้: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) ฉันได้ใช้ผลลัพธ์เพื่อสร้างโมเดลสุดท้าย: final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) …

1
ตัวอย่างของการแจกแจงแบบ tailed ที่ไม่ใช่หางยาว
จากการอ่านเกี่ยวกับหนักและการกระจายหางยาวผมเข้าใจว่าทุกการกระจายหางยาวจะหนักนกแต่ไม่ทั้งหมดกระจายหนักนกจะหางยาว ใครก็ได้ช่วยกรุณายกตัวอย่าง: ฟังก์ชั่นความหนาแน่นแบบต่อเนื่องสมมาตรและไม่มีค่าเฉลี่ยที่เป็นแบบหางยาว ฟังก์ชั่นความหนาแน่นแบบต่อเนื่องสมมาตรและไม่มีค่าเฉลี่ยซึ่งเป็นแบบหนัก แต่ไม่ยาว ดังนั้นฉันสามารถเข้าใจความหมายของคำจำกัดความของพวกเขาได้ดีขึ้นหรือไม่ มันจะดียิ่งขึ้นถ้าทั้งคู่มีความแปรปรวนของหน่วย

8
ฝึกฝน Neural Network เพื่อแยกแยะตัวเลขคู่และคู่
คำถาม: เป็นไปได้ไหมที่จะฝึก NN ให้แยกแยะระหว่างเลขคี่กับเลขคู่โดยใช้เป็นตัวเลขเท่านั้น? ฉันมีชุดข้อมูลต่อไปนี้: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 ฉันฝึก NN ด้วยเซลล์ประสาทอินพุตสองตัว (อันหนึ่งคือตัวแปรหมายเลข, อีกอันคือเซลล์ประสาทอคติ), เก้าเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และเซลล์ประสาทเอาท์พุทหนึ่งโดยใช้อัลกอริธึมทางพันธุกรรมที่ง่ายมาก: ในแต่ละช่วงเวลา "ต่อกัน; ส่วนที่มีข้อผิดพลาดสูงที่สุดจะหายไปและจะถูกแทนที่ด้วยผู้ชนะที่ได้รับการแก้ไข สคริปต์สามารถแก้ปัญหาง่าย ๆ อย่างเช่นตัวดำเนินการ AND, OR และ XOR แต่ติดอยู่ในขณะที่พยายามจัดหมวดหมู่ตัวเลขคี่และคู่ ตอนนี้สิ่งที่ดีที่สุดที่จะจัดการคือการระบุหมายเลข 53 จาก 100 และใช้เวลาหลายชั่วโมง ไม่ว่าฉันจะทำให้ปกติหรือไม่อินพุตดูเหมือนจะไม่แตกต่างกัน หากฉันต้องการที่จะโกงฉันสามารถประมวลผลข้อมูลล่วงหน้าและป้อน% 2 …

1
เอนโทรปีค่าต่างน้อยกว่าค่าอนันต์หรือไม่?
สำหรับตัวแปรสุ่มแบบต่อเนื่องตามอำเภอใจบอกว่า , ค่าเอนโทรปีของค่านั้นน้อยกว่าหรือไม่? (มันก็โอเคถ้ามัน .) ถ้าไม่มันเป็นเงื่อนไขที่จำเป็นและเพียงพอสำหรับมันที่จะน้อยกว่า ?∞ - ∞ ∞XXX∞∞\infty- ∞−∞-\infty∞∞\infty

2
R: ฟังก์ชั่น glm พร้อมตระกูล = ข้อมูลจำเพาะ "ทวินาม" และ "น้ำหนัก"
ฉันสับสนมากกับการทำงานของน้ำหนักใน glm กับครอบครัว = "ทวินาม" ในความเข้าใจของฉันความเป็นไปได้ของ glm กับครอบครัว = "ทวินาม" ระบุไว้ดังนี้: f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) โดยที่yyyคือ "สัดส่วนของความสำเร็จที่สังเกต" และnnnคือจำนวนการทดลองที่ทราบ ในความเข้าใจของฉันความน่าจะเป็นที่จะประสบความสำเร็จpppถูกเปรียบเทียบกับสัมประสิทธิ์เชิงเส้นββ\betaเป็นp=p(β)p=p(β)p=p(\beta)และฟังก์ชัน glm กับครอบครัว = "ทวินาม" ค้นหา: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). ดังนั้นปัญหาการปรับให้เหมาะสมนี้สามารถทำให้ง่ายขึ้นเป็น: หาเรื่องสูงสุดβΣผมเข้าสู่ระบบฉ( yผม) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.