สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
จะหาช่วงเวลาที่น่าเชื่อถือ 95% ได้อย่างไร
ฉันพยายามคำนวณช่วงเวลาที่น่าเชื่อถือ 95% ของการแจกแจงหลัง ฉันไม่พบฟังก์ชันใน R สำหรับมัน แต่วิธีการด้านล่างถูกต้องหรือไม่ x <- seq(0.4,12,0.4) px <- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579, 0.7870, 0.72, 0.555, 0.37, 0.24, 0.11, 0.07, 0.02, 0.009, 0.005, 0.0001, 0,0.0002, 0, 0, 0) plot(x,px, type="l") mm <- sum(x*px)/sum(px) var <- (sum((x)^2*px)/sum(px)) - (mm^2) cat("95% …

3
การถดถอยเชิงเส้นอย่างง่ายค่า p และ AIC
ฉันรู้ว่าหัวข้อนี้เกิดขึ้นหลายครั้งก่อนเช่นที่นี่แต่ฉันยังไม่แน่ใจว่าจะตีความผลลัพธ์การถดถอยของฉันได้ดีที่สุดอย่างไร ฉันมีชุดข้อมูลที่ง่ายมากประกอบด้วยคอลัมน์ของค่า xและคอลัมน์ค่า yแบ่งออกเป็นสองกลุ่มตามที่ตั้ง (loc) คะแนนมีลักษณะเช่นนี้ เพื่อนร่วมงานได้ตั้งสมมติฐานว่าเราควรใส่การถดถอยเชิงเส้นอย่างง่ายแยกกันในแต่ละกลุ่มซึ่งฉันได้ใช้y ~ x * C(loc)ไปแล้ว เอาท์พุทที่แสดงด้านล่าง OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: …

3
เหตุใดจึงเป็นปัญหาคอร์ติสในเชิงบวกสูงสำหรับการทดสอบสมมติฐาน?
ฉันได้ยินมาแล้ว (ขออภัยไม่สามารถให้ลิงก์ไปยังข้อความสิ่งที่ฉันได้รับการบอกเล่า) ว่าการมีส่วนร่วมในเชิงบวกที่สูงอาจเป็นปัญหาสำหรับการทดสอบสมมติฐานที่ถูกต้องและช่วงความมั่นใจ (ดังนั้นจึงมีปัญหากับการอนุมานเชิงสถิติ) นี่เป็นเรื่องจริงและถ้าเป็นเช่นนั้นทำไม ความเชื่อมั่นในเชิงบวกที่สูงของเศษซากจะไม่บ่งบอกว่าส่วนใหญ่ที่เหลืออยู่ใกล้กับค่าเฉลี่ยที่เหลืออยู่ของ 0 และดังนั้นจึงมีจำนวนที่เหลือน้อยกว่ามากอยู่? (หากคุณมีคำตอบโปรดลองตอบคำถามทางคณิตศาสตร์ที่ไม่ค่อยมีใครรู้เพราะฉันไม่ค่อยชอบคณิตศาสตร์มากนัก)

6
เหตุใดเศษที่เหลือในการถดถอยเชิงเส้นจึงรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น?
ฉันกำลังเรียนหลักสูตรรูปแบบการถดถอยและหนึ่งในคุณสมบัติที่มีให้สำหรับการถดถอยเชิงเส้นคือส่วนที่เหลือจะรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น ใครสามารถให้คำอธิบายที่ดีว่าทำไมถึงเป็นเช่นนี้

3
การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression
นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม ! คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้: log(p1−p)=β0+β1x1log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1x 1exp(β1)exp⁡(β1)\exp(\beta_1) x1x1x_1 แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้: WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

4
อะไรคือความแตกต่างของ "เชิงกล" ระหว่างการถดถอยเชิงเส้นแบบหลายจุดด้วย lags และอนุกรมเวลา
ฉันสำเร็จการศึกษาด้านธุรกิจและเศรษฐศาสตร์ซึ่งกำลังศึกษาระดับปริญญาโทด้านวิศวกรรมข้อมูล ในขณะที่กำลังศึกษาการถดถอยเชิงเส้น (LR) และการวิเคราะห์อนุกรมเวลา (TS) คำถามหนึ่งก็ผุดขึ้นในใจของฉัน เหตุใดจึงต้องสร้างวิธีการใหม่ทั้งหมดเช่นอนุกรมเวลา (ARIMA) แทนที่จะใช้การถดถอยเชิงเส้นหลายเส้นและการเพิ่มตัวแปรที่ล้าหลัง (โดยใช้คำสั่งล่าช้าที่กำหนดโดยใช้ ACF และ PACF) ดังนั้นอาจารย์แนะนำให้ฉันเขียนเรียงความเล็ก ๆ น้อย ๆ เกี่ยวกับปัญหา ฉันจะไม่ขอความช่วยเหลือจากมือเปล่าดังนั้นฉันจึงทำการวิจัยในหัวข้อนี้ ฉันรู้แล้วว่าเมื่อใช้ LR หากการละเมิดสมมติฐานของเกาส์ - มาร์คอฟการถดถอยของ OLS นั้นไม่ถูกต้องและสิ่งนี้เกิดขึ้นเมื่อใช้ข้อมูลอนุกรมเวลา (ความสัมพันธ์อัตโนมัติเป็นต้น) (คำถามอื่นเกี่ยวกับเรื่องนี้สมมุติฐานของจีเอ็มหนึ่งข้อคือตัวแปรอิสระควรแจกแจงตามปกติหรือเพียงแค่ตัวแปรตามเงื่อนไขให้กับตัวแปรอิสระ) ฉันรู้ด้วยว่าเมื่อใช้การถดถอยแบบกระจายแบบกระจายซึ่งเป็นสิ่งที่ฉันคิดว่าฉันเสนอที่นี่และการใช้ OLS เพื่อประเมินค่าพารามิเตอร์ความหลากหลายทางหลายทางระหว่างตัวแปรอาจเกิดขึ้นอย่างชัดเจนดังนั้นการประมาณจึงผิด ในโพสต์ที่คล้ายกันเกี่ยวกับ TS และ LRที่นี่ @IrishStat กล่าวว่า: ... แบบจำลองการถดถอยเป็นกรณีเฉพาะของ Transfer Function Model หรือที่รู้จักกันในชื่อรุ่นการถดถอยแบบไดนามิกหรือรุ่น XARMAX จุดสำคัญคือการระบุรูปแบบในอนุกรมเวลานั่นคือความแตกต่างที่เหมาะสมความล่าช้าที่เหมาะสมของ X โครงสร้าง ARIMA ที่เหมาะสมการระบุที่เหมาะสมของโครงสร้างที่ไม่ระบุรายละเอียดที่กำหนดเช่นพัลส์ระดับเลื่อนแนวโน้มเวลาท้องถิ่นฤดูกาลและการรวม บริษัท …

1
Bayesian lasso vs spike และ slab
คำถาม:อะไรคือข้อดี / ข้อเสียของการใช้อันใดอันหนึ่งก่อนหน้าสำหรับการเลือกตัวแปร? สมมติว่าฉันมีความน่าจะเป็น: ที่ฉันสามารถใส่ได้ทั้งหนึ่งในไพรเออร์นี้: or: y∼N(Xw,σ2I)y∼N(Xw,σ2I)y\sim\mathcal{N}(Xw,\sigma^2I)wi∼πδ0+(1−π)N(0,100)π=0.9,wi∼πδ0+(1−π)N(0,100)π=0.9, w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, wi∼exp(−λ|wi|)λ∼Γ(1,1).wi∼exp⁡(−λ|wi|)λ∼Γ(1,1). w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. ฉันใส่เพื่อเน้นน้ำหนักส่วนใหญ่เป็นศูนย์และแกมม่าก่อนหน้าบนเพื่อเลือกพารามิเตอร์ 'normalizing'π=0.9π=0.9\pi=0.9λλ\lambda อย่างไรก็ตามอาจารย์ของฉันยังคงยืนยันว่ารุ่น lasso 'ลดค่าสัมประสิทธิ์และไม่ได้ทำการเลือกตัวแปรที่เหมาะสมจริง ๆ นั่นคือมีการหดตัวมากเกินไปของพารามิเตอร์ที่เกี่ยวข้อง ฉันพบว่าการนำ Lasso ไปใช้งานได้ง่ายขึ้นเนื่องจากฉันใช้ Bayes แบบแปรผัน ในความเป็นจริงแล้วSparse Bayesian Learning paper ซึ่งวางก่อนหน้าของให้การแก้ปัญหาแบบสปอร์1|wi|1|wi|\frac{1}{|w_i|}

3
มีทางเลือกอื่นในการ Elo สำหรับกิจกรรมที่ไม่ใช่ทีม / บุคคลหรือไม่?
มีระบบการให้คะแนนหรือการจัดอันดับที่รู้จักกันดีเช่นเดียวกับ Elo สำหรับกิจกรรมที่มีผู้เข้าร่วมหลายคนหรือไม่? ตัวอย่างเช่นระบบที่สามารถให้คะแนนการแข่งในรูปแบบต่าง ๆ (อัตโนมัติ, ตกต่ำ, ม้า ฯลฯ ) หรือกีฬาอื่น ๆ (เช่นกอล์ฟ)?
14 ranking  elo 

4
การปรับขนาดและการปรับมาตรฐาน
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng และไม่สามารถรับคำตอบสำหรับคำถามนี้ได้หลังจากพยายามหลายครั้ง กรุณาช่วยแก้ปัญหานี้แม้ว่าฉันจะผ่านระดับ สมมติว่านักเรียนเข้าเรียนในชั้นเรียนและชั้นเรียนมีการสอบกลางภาคและการสอบปลายภาค คุณได้รวบรวมชุดข้อมูลของคะแนนของพวกเขาในการสอบทั้งสองซึ่งเป็นดังนี้:m = 4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 คุณต้องการใช้การถดถอยพหุนามเพื่อทำนายคะแนนสอบขั้นสุดท้ายของนักเรียนจากคะแนนสอบกลางภาค หากคุณต้องการให้พอดีกับแบบจำลองของรูปแบบโดยที่คือคะแนนกลางภาคและคือ (คะแนนกลางภาค) ^ 2 นอกจากนี้คุณวางแผนที่จะใช้การปรับทั้งฟีเจอร์ (หารด้วย "max-min" หรือช่วงของฟีเจอร์) และหมายถึงการทำให้เป็นมาตรฐานx 1 x 2ชั่วโมงθ( x ) = θ0+ θ1x1+ θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 …

3
เครือข่ายนิวรัล - ไบนารีเทียบกับอินพุตแบบไม่ต่อเนื่อง
มีเหตุผลที่ดีสำหรับการเลือกค่าไบนารี (0/1) มากกว่าค่าปกติหรือต่อเนื่องเช่น (1; 3) เป็นอินพุตสำหรับเครือข่าย feedforward สำหรับโหนดอินพุตทั้งหมด (มีหรือไม่มี backpropagation) แน่นอนฉันแค่พูดถึงอินพุตที่สามารถเปลี่ยนเป็นรูปแบบใดรูปแบบหนึ่งได้ เช่นเมื่อคุณมีตัวแปรที่สามารถรับค่าได้หลายค่าไม่ว่าจะป้อนค่าเหล่านั้นโดยตรงเป็นค่าของอินพุตโหนดหนึ่งโหนดหรือเป็นโหนดฐานสองสำหรับแต่ละค่าที่ไม่ต่อเนื่อง และสันนิษฐานว่าช่วงของค่าที่เป็นไปได้ที่จะเป็นเหมือนกันสำหรับทุกโหนดการป้อนข้อมูล ดูรูปเพื่อเป็นตัวอย่างของความเป็นไปได้ทั้งสองอย่าง ขณะทำการค้นคว้าในหัวข้อนี้ฉันไม่สามารถหาข้อเท็จจริงที่ยากเย็นแสนเข็ญได้ สำหรับฉันดูเหมือนว่า - มากหรือน้อย - มันจะเป็น "การทดลองและข้อผิดพลาด" ในท้ายที่สุด แน่นอนว่าโหนดฐานสองสำหรับค่าอินพุตไม่ต่อเนื่องหมายถึงโหนดเลเยอร์อินพุตเพิ่มเติม (และโหนดเลเยอร์ที่ซ่อนอยู่) แต่มันจะสร้างการจำแนกประเภทเอาท์พุทที่ดีกว่าการมีค่าเดียวกันในโหนดเดียวหรือไม่ เลเยอร์ที่ซ่อนอยู่? คุณเห็นด้วยหรือไม่ว่าเป็นเพียง "ลองและดู" หรือคุณมีความคิดเห็นอื่นเกี่ยวกับเรื่องนี้หรือไม่?

4
ทำไมเราถึงพูดว่า“ ข้อผิดพลาดมาตรฐานที่ตกค้าง”?
มีข้อผิดพลาดมาตรฐานคือประมาณค่าเบี่ยงเบนมาตรฐานσ ( θ )ของประมาณการθสำหรับพารามิเตอร์θσ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta ทำไมค่าเบี่ยงเบนมาตรฐานโดยประมาณของส่วนที่เหลือเรียกว่า "ข้อผิดพลาดมาตรฐานส่วนที่เหลือ" (เช่นในผลลัพธ์ของsummary.lmฟังก์ชันR ) และไม่ใช่ "ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือ"? เราประมาณค่าพารามิเตอร์ที่จัดให้มีข้อผิดพลาดมาตรฐานที่นี่? เราพิจารณาแต่ละค่าส่วนที่เหลือเป็นตัวประมาณสำหรับข้อผิดพลาด "ของ" และประเมินข้อผิดพลาดมาตรฐาน "รวม" ของตัวประมาณเหล่านี้ทั้งหมดหรือไม่

2
ทำไมความแตกต่างยกกำลังสองจึงใช้กันทั่วไป
บ่อยครั้งที่ฉันตรวจสอบวิธีการทางสถิติและแนวคิดใหม่ ๆ ฉันพบความแตกต่างยกกำลังสอง เช่นเดียวกับตัวอย่าง r ของ Pearson ถูกตัดสินโดยใช้ความแตกต่างกำลังสองเฉลี่ยจากเส้นถดถอยที่จุดนั้นอยู่ สำหรับ ANOVA คุณกำลังดูผลรวมของกำลังสองและอื่น ๆ ตอนนี้ฉันเข้าใจแล้วว่าการยกกำลังทุกอย่างคุณต้องแน่ใจว่าข้อมูลที่มีค่าผิดจริง อย่างไรก็ตามทำไมเลขชี้กำลังจึงถูกใช้อย่างถูกต้อง 2 ทำไมไม่ใช้ 2.1 หรือ e หรือ pi หรืออะไรก็ตาม มีเหตุผลพิเศษว่าทำไม 2 ถูกใช้หรือเป็นเพียงแค่การประชุม? ฉันสงสัยว่าคำอธิบายอาจมีบางอย่างเกี่ยวกับเส้นโค้งระฆัง แต่ฉันค่อนข้างแน่ใจ

4
วิธีการตีความโค้ง ROC?
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

1
การพยากรณ์อนุกรมเวลาของ Arima (auto.arima) ที่มีตัวแปรที่แปลกประหลาดหลายตัวใน R
ฉันต้องการดำเนินการคาดการณ์ตามแบบอนุกรมเวลา ARIMA หลายรุ่นพร้อมกับตัวแปรที่แปลกประหลาดหลายตัว เนื่องจากฉันไม่ใช่ทักษะที่เกี่ยวข้องกับสถิติและ RI ที่ไม่ต้องการเก็บไว้เป็นเรื่องง่ายที่สุดเท่าที่จะทำได้ (การพยากรณ์แนวโน้ม 3 เดือนก็เพียงพอแล้ว) ฉันมีอนุกรมเวลา 1 ชุดและอนุกรมเวลาตัวทำนาย 3-5 ชุดข้อมูลรายเดือนทั้งหมดไม่มีช่องว่าง "ขอบฟ้า" ในเวลาเดียวกัน ฉันพบฟังก์ชัน auto.arima และถามตัวเองว่านี่จะเป็นวิธีการแก้ปัญหาที่เหมาะสมสำหรับปัญหาของฉันหรือไม่ ฉันมีราคาสินค้าโภคภัณฑ์ที่แตกต่างและราคาของผลิตภัณฑ์ที่ทำจากพวกเขา ข้อมูลดิบทั้งหมดไม่อยู่นิ่ง แต่ผ่านความแตกต่างในการสั่งซื้อครั้งแรกพวกเขาทั้งหมดกลายเป็นข้อมูลนิ่ง ADF, KPSS ระบุสิ่งนี้ (ซึ่งหมายความว่าฉันได้ทดสอบการรวมระบบแล้วใช่ไหม) คำถามของฉันคือ: ฉันจะใช้สิ่งนี้กับฟังก์ชั่น auto.arima และ ARIMA เป็นวิธีการที่ถูกต้องได้อย่างไร? ppl บางคนแนะนำให้ฉันใช้ VAR แล้ว แต่เป็นไปได้ไหมกับ ARIMA ด้วย? ตารางต่อไปนี้เป็นข้อมูลของฉัน ที่จริงแล้วชุดข้อมูลขึ้นไป 105 ข้อสังเกต แต่ 50 แรกจะทำ เทรนด์และฤดูกาลเป็นที่สนใจอย่างชัดเจนที่นี่ ขอบคุณสำหรับคำแนะนำและความช่วยเหลือ! เฟรดริก
14 r  time-series  arima 

1
เหตุใดการถดถอยของ Ridge จึงทำงานได้ดีในที่ที่มีความสัมพันธ์หลายระดับ?
ฉันกำลังเรียนรู้เกี่ยวกับการถดถอยของสันเขาและรู้ว่าการถดถอยของสันเขานั้นมีแนวโน้มที่จะทำงานได้ดีขึ้นเมื่อมีความหลากหลายทางชีวภาพ ฉันสงสัยว่าทำไมสิ่งนี้ถึงเป็นจริง ทั้งคำตอบที่ใช้งานง่ายหรือคำตอบทางคณิตศาสตร์ก็น่าพอใจ (คำตอบทั้งสองประเภทนั้นน่าพอใจยิ่งขึ้น) นอกจากนี้ฉันรู้ว่าสามารถรับได้เสมอ แต่การถดถอยของสันจะทำงานได้ดีเพียงใดเมื่อมี collinearity ที่แน่นอน (ตัวแปรอิสระตัวหนึ่งคือฟังก์ชันเชิงเส้นของอีกตัวหนึ่ง)β^β^\hat{\beta}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.