สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การกระจายแบบไม่ระบุตัวอย่างความแปรปรวนของตัวอย่างที่ไม่ปกติ
นี่เป็นการแก้ไขปัญหาทั่วไปที่เกิดจาก คำถามนี้ หลังจากได้รับการแจกแจงเชิงซีมโทติคของความแปรปรวนตัวอย่างเราสามารถใช้วิธีเดลต้าเพื่อให้ได้การแจกแจงที่สอดคล้องกันสำหรับค่าเบี่ยงเบนมาตรฐาน ขอตัวอย่างขนาดของตัวแปรสุ่มแบบไม่ปกติของ iid , มีค่าเฉลี่ยและความแปรปรวน 2 ตั้งค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างเป็น nnn{Xi},i=1,...,n{Xi},i=1,...,n\{X_i\},\;\; i=1,...,nμμ\muσ2σ2\sigma^2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2x¯=1n∑i=1nXi,s2=1n−1∑i=1n(Xi−x¯)2\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2 เรารู้ว่า E(s2)=σ2,Var(s2)=1n(μ4−n−3n−1σ4)E(s2)=σ2,Var⁡(s2)=1n(μ4−n−3n−1σ4)E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right) โดยที่และเรา จำกัด ความสนใจของเราในการแจกแจงว่าช่วงเวลาใดที่จำเป็นต้องมีอยู่และมีขอบเขต จำกัด มีอยู่จริงและมีขอบเขต จำกัดμ4=E(Xi−μ)4μ4=E(Xi−μ)4\mu_4 = E(X_i -\mu)^4 มันถืออย่างนั้นหรือเปล่า n−−√(s2−σ2)→dN(0,μ4−σ4)?n(s2−σ2)→dN(0,μ4−σ4)?\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 …

5
“ ความน่าจะเป็นถูกนิยามไว้ในค่าคงที่หลายหลากของสัดส่วนเท่านั้น” หมายถึงในทางปฏิบัติอย่างไร
ฉันกำลังอ่านบทความที่ผู้เขียนนำมาจากการอภิปรายเกี่ยวกับการประเมินความเป็นไปได้สูงสุดถึงทฤษฎีบทของเบย์ซึ่งดูเหมือนจะเป็นบทนำสำหรับผู้เริ่มต้น ตัวอย่างเช่นพวกเขาเริ่มต้นด้วยการแจกแจงทวินาม: p ( x | n , θ ) = ( nx ) θx(1-θ)n-xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} จากนั้นเข้าสู่ระบบทั้งสองด้าน ℓ ( θ | x , n ) = x ln ( θ ) + ( n - x ) ln ( 1 - θ )ℓ(θ|x,n)=xln(θ)+(n−x)ln(1−θ)\ell(\theta|x, n) = x \ln (\theta) + …

2
ความหมายของโครงข่ายประสาทเทียมเป็นกล่องดำ?
ฉันมักจะได้ยินคนพูดถึงเครือข่ายประสาทเป็นสิ่งที่เป็นกล่องดำที่คุณไม่เข้าใจว่ามันทำอะไรหรือสิ่งที่พวกเขาหมายถึง จริง ๆ แล้วฉันไม่เข้าใจว่าพวกเขาหมายถึงอะไร! หากคุณเข้าใจว่าการขยายพันธุ์กลับทำงานได้อย่างไรมันเป็นกล่องดำอย่างไร พวกเขาหมายความว่าเราไม่เข้าใจว่าน้ำหนักที่คำนวณหรืออะไร

2
คุณ“ ควบคุม” สำหรับปัจจัย / ตัวแปรอย่างไร
เพื่อความเข้าใจของฉัน "การควบคุม" สามารถมีความหมายสองอย่างในสถิติ กลุ่มควบคุม: ในการทดสอบจะไม่มีการรักษาให้กับสมาชิกของกลุ่มควบคุม ตัวอย่าง: ยาหลอกเทียบกับยา: คุณให้ยาแก่กลุ่มหนึ่งและไม่ให้อีกกลุ่มหนึ่ง (กลุ่มควบคุม) ซึ่งเรียกอีกอย่างว่า "การทดลองที่ควบคุม" การควบคุมตัวแปร: เทคนิคการแยกเอฟเฟกต์ของตัวแปรอิสระเฉพาะ ชื่ออื่นที่ให้กับเทคนิคนี้คือ "การบัญชีสำหรับ", "การถือค่าคงที่", "การควบคุมสำหรับ", ตัวแปรบางตัว ตัวอย่างเช่น: ในการศึกษาดูฟุตบอล (เหมือนหรือไม่ชอบ) คุณอาจต้องการใช้เอฟเฟกต์ของเพศเมื่อเราคิดว่าเพศเป็นสาเหตุของความลำเอียงนั่นคือผู้ชายอาจชอบมากกว่าผู้หญิง ดังนั้นคำถามของฉันมีไว้สำหรับจุด (2) สองคำถาม: คุณ "ควบคุม" / "บัญชีสำหรับ" ตัวแปรโดยทั่วไปได้อย่างไร ใช้เทคนิคอะไร (ในแง่ของการถดถอยกรอบ ANOVA) ในตัวอย่างด้านบนการเลือกชายและหญิงจะเป็นการควบคุมแบบสุ่มหรือไม่? นั่นคือ "การสุ่ม" เป็นหนึ่งในเทคนิคในการควบคุมเอฟเฟกต์อื่น ๆ หรือไม่?

4
จะประเมินความพอดีของ binomial GLMM ที่ติดตั้ง lme4 (> 1.0) ได้อย่างไร?
ฉันมี GLMM ที่มีการแจกแจงแบบทวินามและฟังก์ชันการเชื่อมโยง logit และฉันรู้สึกว่าข้อมูลที่สำคัญไม่ได้ถูกนำเสนอในโมเดล เพื่อทดสอบสิ่งนี้ฉันอยากจะรู้ว่าข้อมูลถูกอธิบายอย่างดีโดยฟังก์ชันเชิงเส้นในสเกล logit หรือไม่ ดังนั้นฉันต้องการทราบว่าส่วนที่เหลือมีความประพฤติดีหรือไม่ อย่างไรก็ตามฉันไม่สามารถหาว่าพล็อตส่วนที่เหลือจะพล็อตและวิธีการตีความพล็อต โปรดทราบว่าฉันใช้รุ่นใหม่ของ lme4 ( รุ่นพัฒนาจาก GitHub ): packageVersion("lme4") ## [1] ‘1.1.0’ คำถามของฉันคือ: ฉันจะตรวจสอบและตีความส่วนที่เหลือของแบบผสมเชิงเส้นแบบทวินามเชิงเส้นทั่วไปพร้อมฟังก์ชันการเชื่อมโยง logit ได้อย่างไร ข้อมูลต่อไปนี้แสดงให้เห็นถึงข้อมูลจริงของฉันเพียง 17% แต่การติดตั้งอุปกรณ์ใช้เวลาประมาณ 30 วินาทีบนเครื่องของฉันดังนั้นฉันจึงปล่อยให้มันเป็นเช่นนี้: require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) พล็อตที่ง่ายที่สุด …

2
เหตุใดข้อมูลฟิวชั่นฟิชเชอร์ฟิวเจอร์เซมิเซ จำกัด
ให้ n เมทริกซ์ข้อมูลฟิชเชอร์ถูกกำหนดเป็น:θ∈Rnθ∈Rn\theta \in R^{n} I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] ฉันจะพิสูจน์ฟิชเชอร์ข้อมูลเมทริกซ์เป็น semidefinite เชิงบวกได้อย่างไร


6
การถดถอยเบต้าของข้อมูลสัดส่วนรวมถึง 1 และ 0
ฉันพยายามสร้างแบบจำลองที่ฉันมีตัวแปรตอบกลับซึ่งเป็นสัดส่วนระหว่าง 0 และ 1 ซึ่งรวมถึง 0 และ 1 ไม่กี่ แต่ยังมีค่าอีกมาก ฉันกำลังคิดเกี่ยวกับการพยายามถดถอยเบต้า แพ็คเกจที่ฉันพบสำหรับ R (betareg) อนุญาตเฉพาะค่าระหว่าง 0 ถึง 1 แต่ไม่รวม 0 หรือ 1 ตัวพวกเขา ฉันได้อ่านที่อื่นแล้วว่าตามหลักการแล้วการกระจายเบต้าควรจะสามารถจัดการค่า 0 หรือ 1 ได้ แต่ฉันไม่รู้วิธีจัดการกับสิ่งนี้ใน RI ได้เห็นบางคนเพิ่ม 0.001 ลงในศูนย์และรับ 0.001 จากอันที่จริง แต่ฉันไม่ แน่ใจว่านี่เป็นความคิดที่ดีหรือไม่? อีกทางหนึ่งฉันสามารถ logit แปลงตัวแปรการตอบสนองและใช้การถดถอยเชิงเส้น ในกรณีนี้ฉันมีปัญหาเดียวกันกับ 0 และ 1 ซึ่งไม่สามารถแปลงการบันทึกได้

2
อะไรคือวิธีที่ปราศจากความเจ็บปวดที่สุดในการปรับเส้นโค้งการเติบโตของโลจิสติกส์ใน R
นี่ไม่ใช่เรื่องง่ายสำหรับ Google เช่นเดียวกับสิ่งอื่น ๆ อย่างชัดเจนฉันไม่ได้พูดถึงการถดถอยแบบลอจิสติกในแง่ของการใช้การถดถอยเพื่อทำนายตัวแปรเด็ดขาด ฉันกำลังพูดถึงการปรับกราฟการเติบโตโลจิสติกให้เหมาะสมกับจุดข้อมูลที่กำหนด จะเฉพาะเจาะจง, เป็นปีที่ได้รับ 1958-2012 และปีคือประมาณ ppm CO2 ทั่วโลก (ส่วนต่อล้านส่วนของก๊าซคาร์บอนไดออกไซด์) ในเดือนพฤศจิกายนปีxxxxyyyxxx ตอนนี้มันกำลังเร่งความเร็ว แต่มันก็ต้องหยุดลงในบางจุด ดังนั้นฉันต้องการเส้นโค้งโลจิสติก ฉันยังไม่พบวิธีที่ตรงไปตรงมาในการทำเช่นนี้

2
แบบฝึกหัดสำหรับวิศวกรรมฟีเจอร์
วิศวกรรมคุณสมบัติเป็นสิ่งสำคัญอย่างยิ่งต่อการเรียนรู้ของเครื่อง แต่ฉันพบวัสดุบางอย่างที่เกี่ยวข้องกับเรื่องนี้ ฉันเข้าร่วมการแข่งขันหลายรายการในKaggleและเชื่อว่าคุณสมบัติที่ดีอาจมีความสำคัญมากกว่าตัวจําแนกที่ดีในบางกรณี ไม่มีใครรู้บทเรียนเกี่ยวกับวิศวกรรมฟีเจอร์หรือเป็นประสบการณ์ที่แท้จริง

1
ความสัมพันธ์ที่สามารถบรรลุได้สำหรับตัวแปรสุ่ม lognormal
พิจารณา lognormal ตัวแปรสุ่มX1X1X_1และX2X2X_2กับlog(X1)∼N(0,1)log⁡(X1)∼N(0,1)\log(X_1)\sim \mathcal{N}(0,1)และlog(X2)∼N(0,σ2)log⁡(X2)∼N(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) ) ρmaxρmax\rho_{\max}ρminρmin\rho_{\min}ρ(X1,X2)ρ(X1,X2)\rho (X_1,X_2) ρmax=ρ(exp(Z),exp(σZ))ρmax=ρ(exp⁡(Z),exp⁡(σZ))\rho_{\max}=\rho (\exp(Z),\exp(\sigma Z))และ ρmin=ρ(exp(Z),exp(−σZ))ρmin=ρ(exp⁡(Z),exp⁡(−σZ))\rho_{\min}=\rho (\exp(Z),\exp(-\sigma Z)) , แต่พวกเขาได้ทำการอ้างอิงถึง comonotonicity และ countercomonotonicity ฉันหวังว่าจะมีคนช่วยให้ฉันเข้าใจว่าพวกเขาเกี่ยวข้องกันอย่างไร (ฉันรู้วิธีที่จะได้รับสิ่งนี้จากการแสดงออกทั่วไป แต่ต้องการที่จะรู้ว่าสิ่งที่ส่วน comonotonicity กำลังพูด)

1
วิธีตั้งค่าอาร์กิวเมนต์ xreg ใน auto.arima () ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันกำลังทำงานในโครงการขนาดเล็กที่มีอนุกรมเวลาหนึ่งซึ่งวัดข้อมูลการเยี่ยมชมลูกค้า (รายวัน) โควาเรียตของฉันเป็นตัวแปรต่อเนื่องDayในการวัดจำนวนวันที่ผ่านไปนับตั้งแต่วันแรกของการรวบรวมข้อมูลและตัวแปรจำลองบางอย่างเช่นวันนั้นเป็นวันคริสต์มาสหรือวันไหนของสัปดาห์เป็นต้น ส่วนหนึ่งของข้อมูลของฉันดูเหมือนว่า: Date Customer_Visit Weekday Christmas Day 11/28/11 2535 2 0 1 11/29/11 3292 3 0 2 11/30/11 4103 4 0 3 12/1/11 4541 5 0 4 12/2/11 6342 6 0 5 12/3/11 7205 7 0 6 12/4/11 3872 1 0 …

2
ทำไมการถดถอยถึงความแปรปรวน?
ฉันกำลังอ่านบันทึกนี้ บนหน้า 2 มันระบุ: "ความแปรปรวนของข้อมูลอธิบายได้อย่างไรโดยตัวแบบการถดถอยที่กำหนด" "การตีความการถดถอยเป็นเรื่องเกี่ยวกับค่าเฉลี่ยของสัมประสิทธิ์; การอนุมานเป็นเรื่องของความแปรปรวน" ฉันได้อ่านเกี่ยวกับคำแถลงดังกล่าวหลายครั้งแล้วทำไมเราถึงสนใจ "ความแปรปรวนของข้อมูลอธิบายโดยตัวแบบการถดถอยที่ให้มาเท่าไหร่" ... โดยเฉพาะอย่างยิ่งทำไม "ความแปรปรวน"?

2
คำจำกัดความของการกระจายแบบสมมาตรคืออะไร
คำจำกัดความของการกระจายแบบสมมาตรคืออะไร มีคนบอกฉันว่าตัวแปรสุ่มXXXมาจากการแจกแจงแบบสมมาตรหากXXXและ−X−X-Xมีการแจกแจงแบบเดียวกัน แต่ฉันคิดว่าคำจำกัดความนี้เป็นจริงบางส่วน เพราะผมสามารถนำเสนอ counterexample X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})และμ≠0μ≠0\mu\neq0 0 เห็นได้ชัดว่ามันมีการกระจายแบบสมมาตร แต่XXXและ−X−X-Xมีการกระจายที่แตกต่างกัน! ฉันถูกไหม? พวกคุณเคยคิดเกี่ยวกับคำถามนี้หรือไม่? คำจำกัดความที่แน่นอนของการกระจายแบบสมมาตรคืออะไร

2
เอนโทรปีเชิงประจักษ์คืออะไร?
ในคำนิยามของชุดทั่วไปที่ใช้ร่วมกัน (ใน "องค์ประกอบของทฤษฎีข้อมูล", ch. 7.6, p. 195) เราใช้ เป็นเอนโทรปีเชิงประจักษ์ของn-sequence กับP(xn)=Π n ฉัน= 1 P(xฉัน) ฉันไม่เคยเจอคำศัพท์นี้มาก่อน ไม่ได้กำหนดไว้อย่างชัดเจนที่ใดก็ได้ตามดัชนีของหนังสือ−1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)}nnnp(xn)=∏ni=1p(xi)p(xn)=∏i=1np(xi)p(x^n) = \prod_{i=1}^{n}{p(x_i)} คำถามของฉันโดยทั่วไปคือ: ทำไมเอนโทรปีเชิงประจักษ์ไม่ได้ที่P ( x )−∑xp^(x)log(p^(x))−∑xp^(x)log⁡(p^(x))-\sum_{x}{\hat p (x) \log(\hat p(x))}p^(x)p^(x)\hat p(x)คือการกระจายเชิงประจักษ์? อะไรคือความแตกต่างและความคล้ายคลึงที่น่าสนใจที่สุดระหว่างสองสูตรนี้? (ในแง่ของคุณสมบัติที่พวกเขาแบ่งปัน / ไม่แชร์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.