สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
คุณภาพคืออะไรเอนโทรปี
คำถามนี้ให้คำจำกัดความเชิงปริมาณของเอนโทรปีข้ามในแง่ของสูตร ฉันกำลังมองหาความหมายที่คาดการณ์เพิ่มเติมวิกิพีเดียพูดว่า: ในทฤษฎีสารสนเทศ, การข้ามเอนโทรปีระหว่างการแจกแจงความน่าจะเป็นสองครั้งเป็นการวัดจำนวนเฉลี่ยของบิตที่จำเป็นในการระบุเหตุการณ์จากชุดของความเป็นไปได้, หากใช้การเข้ารหัสแบบแผนบนพื้นฐานของการแจกแจงความน่าจะเป็นที่กำหนด . ฉันได้เน้นส่วนที่ทำให้ฉันมีปัญหาในการทำความเข้าใจนี้ ฉันต้องการคำจำกัดความที่ดีซึ่งไม่จำเป็นต้องมีความเข้าใจในเอนโทรปี

1
ทำไมฉันไม่สามารถจับคู่เอาต์พุต glmer (family = binomial) กับการใช้งานอัลกอริทึม Gauss-Newton ด้วยตนเองได้?
ฉันต้องการจับคู่ผลลัพธ์ของ lmer (ดูดีขึ้นจริง ๆ ) กับตัวอย่างของเล่นทวินาม ฉันอ่านบทความสั้น ๆ และเชื่อว่าฉันเข้าใจว่าเกิดอะไรขึ้น แต่เห็นได้ชัดว่าฉันทำไม่ได้ หลังจากติดขัดฉันได้แก้ไข "ความจริง" ในแง่ของเอฟเฟกต์แบบสุ่มและไปหลังจากประเมินค่าของผลกระทบคงที่เพียงอย่างเดียว ฉันรวมรหัสนี้ไว้ด้านล่าง หากต้องการดูว่าถูกต้องคุณสามารถแสดงความคิดเห็น+ Z %*% b.kและมันจะตรงกับผลลัพธ์ของ glm ปกติ ฉันหวังว่าจะยืมพลังสมองบางส่วนเพื่อหาสาเหตุที่ฉันไม่สามารถจับคู่ผลลัพธ์ของ lmer เมื่อรวมเอฟเฟกต์แบบสุ่ม # Setup - hard coding simple data set df <- data.frame(x1 = rep(c(1:5), 3), subject = sort(rep(c(1:3), 5))) df$subject <- factor(df$subject) # True coefficient values beta <- …

1
Cauchy Distribution และทฤษฎีขีด จำกัด กลาง
เพื่อให้ CLT ที่จะถือเราต้องกระจายเราต้องการที่จะใกล้เคียงกับที่จะมีค่าเฉลี่ยและความแปรปรวน จำกัด 2 มันจะเป็นจริงที่จะบอกว่าสำหรับกรณีของการกระจาย Cauchy ค่าเฉลี่ยและความแปรปรวนที่ไม่ได้กำหนดทฤษฎีบทขีด จำกัด กลางล้มเหลวในการให้การประมาณที่ดีแม้ asymptotically?μμ\muσ2σ2\sigma^2

2
ทำไมการกระจายของแรนด์ () ^ 2 แตกต่างจากแรนด์ () * แรนด์ ()
ใน Lotus Symphony Office rand()ฟังก์ชันจะพร้อมใช้งานซึ่งเลือกค่าสุ่มระหว่าง 0 ถึง 1 จากการแจกแจงแบบเดียวกัน ฉันเป็นสนิมขึ้นอยู่กับความน่าจะเป็นของฉันดังนั้นเมื่อฉันเห็นพฤติกรรมต่อไปนี้ฉันรู้สึกงงงวย: A = 200x1 คอลัมน์ของ rand()^2 B = 200x1 คอลัมน์ของ rand()*rand() mean(A) = 1/3 mean(B) = 1/4 ทำไมmean(A)! = 1/4?

1
วิธีที่ดีที่สุดในการแสดงความสัมพันธ์จากแบบจำลองเชิงเส้นหลายแบบ
ฉันมีโมเดลเชิงเส้นพร้อมตัวทำนายประมาณ 6 ตัวและฉันจะนำเสนอการประมาณค่า F ค่า p ฯลฯ ตัวแปรการตอบสนอง? scatterplot? พล็อตตามเงื่อนไข? พล็อตเอฟเฟกต์? etc? ฉันจะตีความพล็อตนั้นได้อย่างไร ฉันจะทำสิ่งนี้ใน R ดังนั้นอย่าลังเลที่จะให้ตัวอย่างถ้าคุณทำได้ แก้ไข: ฉันเกี่ยวข้องกับการนำเสนอความสัมพันธ์ระหว่างตัวทำนายที่ได้รับและตัวแปรการตอบสนองเป็นหลัก

1
รัฐของฟังก์ชั่นโลจิสติก
ฉันมีความยากลำบากในการได้มาซึ่งรัฐของฟังก์ชันวัตถุประสงค์l(θ)l(θ)l(\theta)ในการถดถอยโลจิสติกที่l(θ)l(θ)l(\theta)คือ: l(θ)=∑i=1m[yilog(hθ(xi))+(1−yi)log(1−hθ(xi))]l(θ)=∑i=1m[yilog⁡(hθ(xi))+(1−yi)log⁡(1−hθ(xi))] l(\theta)=\sum_{i=1}^{m} \left[y_{i} \log(h_\theta(x_{i})) + (1- y_{i}) \log (1 - h_\theta(x_{i}))\right] hθ(x)hθ(x)h_\theta(x)เป็นฟังก์ชันลอจิสติก แคว้นเฮ็ซเป็นXTDXXTDXX^T D X X ฉันพยายามหามาโดยการคำนวณ∂2l(θ)∂θi∂θj∂2l(θ)∂θi∂θj\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}แต่แล้วมันก็ไม่ชัดเจนกับผมว่าจะได้รับสัญกรณ์เมทริกซ์จาก∂2l(θ)∂θi∂θj∂2l(θ)∂θi∂θj\frac{\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}เจ ไม่มีใครรู้วิธีการใด ๆ ที่สะอาดและง่ายต่อการสืบมาXTDXXTDXX^T D X ?
15 logistic 

3
การทำให้เป็นมาตรฐานและการปรับขนาดในการเรียนรู้ออนไลน์?
สมมติว่าฉันมีลักษณนามการถดถอยโลจิสติก ในการเรียนรู้แบบกลุ่มตามปกติฉันมีคำศัพท์ปกติเพื่อป้องกันไม่ให้เกิดการ overfitting และทำให้น้ำหนักของฉันเล็ก ฉันจะทำให้ปกติและปรับขนาดคุณสมบัติของฉัน ในการเรียนรู้ออนไลน์ฉันได้รับกระแสข้อมูลอย่างต่อเนื่อง ฉันทำการอัพเดทโคตรลาดตามแต่ละตัวอย่างแล้วละทิ้งมัน ฉันควรจะใช้การปรับขนาดและคำศัพท์ในการเรียนรู้ออนไลน์หรือไม่ ถ้าใช่ฉันจะทำอย่างไร ตัวอย่างเช่นฉันไม่มีชุดข้อมูลการฝึกอบรมที่จะเทียบเคียง ฉันยังไม่มีชุดการตรวจสอบเพื่อปรับพารามิเตอร์การทำให้เป็นมาตรฐานของฉัน ถ้าไม่ทำไมล่ะ ในการเรียนรู้ออนไลน์ของฉันฉันได้รับตัวอย่างมากมายอย่างต่อเนื่อง สำหรับตัวอย่างใหม่แต่ละครั้งฉันทำนายผล จากนั้นในขั้นตอนต่อไปฉันจะได้รับเป้าหมายที่แท้จริงและทำการอัพเดทลาดลง

2
สับสนกับรูปแบบ MCMC Metropolis-Hastings: Random-Walk, Non-Random-Walk, Independent, Metropolis
ในช่วงสองสามสัปดาห์ที่ผ่านมาฉันพยายามทำความเข้าใจ MCMC และอัลกอริทึม Metropolis-Hastings ทุกครั้งที่ฉันคิดว่าฉันเข้าใจฉันรู้ว่าฉันผิด ตัวอย่างโค้ดส่วนใหญ่ที่ฉันพบในออนไลน์ใช้สิ่งที่ไม่สอดคล้องกับคำอธิบาย เช่นพวกเขากล่าวว่าพวกเขาใช้ Metropolis-Hastings แต่จริง ๆ แล้วพวกเขาใช้เมืองแบบสุ่มเดิน อื่น ๆ (เกือบตลอดเวลา) ข้ามการดำเนินการตามอัตราส่วนการแก้ไขเฮสติ้งส์อย่างเงียบ ๆ เนื่องจากใช้การกระจายข้อเสนอแบบสมมาตร ที่จริงแล้วฉันไม่พบตัวอย่างง่ายๆเพียงอย่างเดียวที่คำนวณอัตราส่วนจนถึงตอนนี้ นั่นทำให้ฉันสับสนมากขึ้น ใครสามารถให้ตัวอย่างรหัส (ภาษาใด ๆ ) ต่อไปนี้ให้ฉันได้: Vanilla Non-Random Walk Algorithm อัลกอริธึม Hastings พร้อมการคำนวณอัตราส่วนการแก้ไข Hastings (แม้ว่าสิ่งนี้จะกลายเป็น 1 เมื่อใช้การกระจายข้อเสนอแบบสมมาตร) ขั้นตอนวิธี Vanilla Random Metropolis-Hastings อัลกอรึทึมแห่งมหานคร - เฮสติ้งส์วานิลลาอิสระ ไม่จำเป็นต้องให้อัลกอริธึม Metropolis เพราะถ้าฉันไม่เข้าใจผิดความแตกต่างเพียงอย่างเดียวระหว่าง Metropolis และ Metropolis-Hastings ก็คือตัวแรกนั้นมักจะสุ่มตัวอย่างจากการกระจายแบบสมมาตรและทำให้พวกเขาไม่มีอัตราส่วนการแก้ไขเฮสติ้ง ไม่จำเป็นต้องอธิบายขั้นตอนวิธีโดยละเอียด …

4
สถิติ Ljung-Box สำหรับ ARIMA ที่เหลือใน R: ผลการทดสอบที่สับสน
ฉันมีอนุกรมเวลาที่ฉันพยายามคาดการณ์ซึ่งฉันใช้ ARIMA ตามฤดูกาล (0,0,0) (0,1,0) [12] โมเดล (= fit2) มันแตกต่างจากสิ่งที่ R แนะนำกับ auto.arima (R คำนวณ ARIMA (0,1,1) (0,1,0) [12] น่าจะเหมาะกว่าฉันตั้งชื่อมันว่า fit1) อย่างไรก็ตามในช่วง 12 เดือนสุดท้ายของซีรีส์เวลาของฉันโมเดลของฉัน (พอดี 2) ดูเหมือนจะดีกว่าเมื่อปรับแล้ว (มันมีอคติเรื้อรังฉันได้เพิ่มค่าเฉลี่ยที่เหลือ นี่คือตัวอย่างของ 12 เดือนล่าสุดและ MAPE สำหรับ 12 เดือนล่าสุดสำหรับทั้งสองพอดี: อนุกรมเวลามีลักษณะดังนี้: จนถึงตอนนี้ดีมาก ฉันทำการวิเคราะห์ที่เหลือสำหรับทั้งสองรุ่นและนี่คือความสับสน acf (ส่วนที่เหลือ (พอดี 1)) ดูดีมากเสียงดังมาก: อย่างไรก็ตามการทดสอบ Ljung-Box นั้นดูไม่ดีเช่น 20 lags: Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) ฉันได้รับผลลัพธ์ต่อไปนี้: …

3
วิธีตีความพารามิเตอร์ GARCH
ฉันใช้แบบจำลอง GARCH มาตรฐาน: rtσ2t=σtϵt=γ0+γ1r2t−1+δ1σ2t−1rt=σtϵtσt2=γ0+γ1rt−12+δ1σt−12\begin{align} r_t&=\sigma_t\epsilon_t\\ \sigma^2_t&=\gamma_0 + \gamma_1 r_{t-1}^2 + \delta_1 \sigma^2_{t-1} \end{align} ฉันมีการประมาณค่าสัมประสิทธิ์ที่แตกต่างกันและฉันจำเป็นต้องตีความมัน ดังนั้นฉันสงสัยเกี่ยวกับการตีความที่ดีดังนั้น ,และเป็นตัวแทนของอะไรγ0γ0\gamma_0γ1γ1\gamma_1δ1δ1\delta_1 ฉันเห็นว่าเป็นอะไรที่เหมือนส่วนที่คงที่ ดังนั้นมันจึงแสดงถึง "ความผันผวนโดยรอบ" \ gamma_1แสดงให้เห็นถึงการปรับตัวต่อการกระแทกที่ผ่านมา นอกจากนี้\ delta_1ไม่ได้หยั่งรู้ได้มากสำหรับฉัน: มันแสดงถึงการปรับตัวของความผันผวนของพาส แต่ฉันต้องการตีความพารามิเตอร์เหล่านี้ให้ดีขึ้นและครอบคลุมมากขึ้นγ0γ0\gamma_0γ1γ1\gamma_1δ1δ1\delta_1 ทุกคนสามารถให้คำอธิบายที่ดีแก่ฉันเกี่ยวกับสิ่งที่พารามิเตอร์เหล่านั้นเป็นตัวแทนและวิธีการอธิบายการเปลี่ยนแปลงของพารามิเตอร์ (เช่นนั้นหมายความว่าอย่างไรถ้าγ1γ1\gamma_1เพิ่มขึ้น?) นอกจากนี้ฉันค้นหาในหนังสือหลายเล่ม (เช่นใน Tsay) แต่ฉันไม่สามารถหาข้อมูลที่ดีได้ดังนั้นคำแนะนำวรรณกรรมที่เกี่ยวกับการตีความพารามิเตอร์เหล่านี้จะได้รับการชื่นชม แก้ไข: ฉันยังสนใจที่จะตีความการคงอยู่ ดังนั้นการคงอยู่คืออะไร ในหนังสือบางเล่มที่ฉันอ่านว่าการคงอยู่ของ GARCH (1,1) คือแต่เช่นในหนังสือของCarol Alexanderในหน้า 283 เขาพูดถึงพารามิเตอร์ (my ) ที่ยังคงอยู่ พารามิเตอร์. ดังนั้นจึงมีความแตกต่างระหว่างการคงอยู่ของความผันผวน ( ) และการคงอยู่ในแรงกระแทก ( …

5
การถดถอยโลจิสติกเป็นการทดสอบแบบไม่อิงพารามิเตอร์หรือไม่?
ฉันเพิ่งได้รับคำถามต่อไปนี้ทางอีเมล ฉันจะโพสต์คำตอบด้านล่าง แต่ฉันสนใจที่จะฟังสิ่งที่คนอื่นคิด คุณจะเรียกการถดถอยโลจิสติกว่าเป็นการทดสอบแบบไม่อิงพารามิเตอร์หรือไม่? ความเข้าใจของฉันคือการติดฉลากการทดสอบที่ไม่ใช่พารามิเตอร์เนื่องจากข้อมูลของมันไม่ได้กระจายตามปกติไม่เพียงพอ มันจะทำอย่างไรกับการขาดสมมติฐาน การถดถอยโลจิสติกมีสมมติฐาน

3
ทดสอบความแตกต่างที่สำคัญระหว่างค่าความชันสองค่า
ข้อมูลที่ฉันมีคือค่าความชันถดถอยของเวลา y ~, ข้อผิดพลาดมาตรฐาน, ค่า n และค่า ap, สำหรับสปีชีส์ที่เฉพาะเจาะจงในสองพื้นที่ที่แตกต่างกัน ฉันต้องการตรวจสอบว่าความชันถดถอยสำหรับหนึ่งพื้นที่นั้นแตกต่างจากความชันถดถอยสำหรับพื้นที่อื่น - เป็นไปได้ไหมที่มีข้อมูลเช่นนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ที่ฉันจะไปเกี่ยวกับเรื่องนี้? ฉันไม่สามารถเข้าถึงข้อมูลดิบได้อย่างน่าเสียดาย ... ขออภัยที่เป็นคำถามง่าย ๆ เช่นนี้!

2
จะทำการถดถอยด้วยเอฟเฟ็กต์โค้ดแทนที่จะใช้การจำลองแบบ dummy ใน R ได้อย่างไร
ขณะนี้ฉันกำลังทำงานกับตัวแบบการถดถอยที่ฉันมีตัวแปรเด็ดขาด / ตัวประกอบเป็นตัวแปรอิสระเท่านั้น ตัวแปรตามของฉันคืออัตราส่วนการแปลง logit มันค่อนข้างง่ายเพียงเรียกใช้การถดถอยปกติใน R เนื่องจาก R รู้วิธีการกำหนดรหัสโดยอัตโนมัติทันทีที่พวกมันอยู่ในประเภท "factor" อย่างไรก็ตามการเข้ารหัสประเภทนี้ก็หมายความว่าหนึ่งประเภทจากแต่ละตัวแปรนั้นถูกใช้เป็นพื้นฐานทำให้ยากต่อการตีความ อาจารย์ของฉันบอกให้ฉันใช้เอฟเฟ็กต์โค้ดแทน (-1 หรือ 1) เพราะนี่หมายถึงการใช้ความหมายที่ยิ่งใหญ่สำหรับการสกัดกั้น ไม่มีใครรู้วิธีจัดการกับสิ่งนั้น? จนถึงตอนนี้ฉันได้ลอง: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + …


1
ฉันจะตีความเมทริกซ์ความแปรปรวนร่วมได้อย่างไรจากเส้นโค้งที่พอดี
ฉันไม่ค่อยเก่งเรื่องสถิติดังนั้นขอโทษถ้านี่เป็นคำถามง่าย ๆ ฉันกำลังกระชับโค้งให้ข้อมูลบางส่วนและบางครั้งข้อมูลของฉันพอดีดีที่สุดชี้แจงเชิงลบในรูปแบบ* E ( - ข* x ) + Cและบางครั้งพอดีอยู่ใกล้กับ* E ( - ข* x 2 ) +ค อย่างไรก็ตามบางครั้งทั้งสองล้มเหลวและฉันต้องการที่จะถอยกลับไปเป็นแบบเชิงเส้น คำถามของฉันคือฉันจะทราบได้อย่างไรว่าแบบจำลองใดที่เหมาะกับข้อมูลชุดใดชุดหนึ่งที่ดีที่สุดจากเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมที่ส่งคืนจากa ∗ e( - b ∗ x )+ ca* * * *อี(-ข* * * *x)+คa * e^{(-b * x)} + ca ∗ e( - b ∗ x2)+ ca* …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.