สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ลักษณะทั่วไปของกฎหมายว่าด้วยความคาดหวังซ้ำแล้วซ้ำอีก
ฉันเพิ่งเจอตัวตนนี้: E[ E( Y| X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] แน่นอนว่าฉันคุ้นเคยกับกฎฉบับนั้นง่ายกว่านั่นคือแต่ฉันไม่สามารถหาเหตุผลในการวางหลักเกณฑ์ทั่วไปได้E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) ฉันจะขอบคุณถ้ามีคนสามารถชี้ให้ฉันอ้างอิงที่ไม่ช่างเทคนิคสำหรับความจริงที่ว่าหรือดีกว่าถ้ามีคนสามารถวางหลักฐานง่าย ๆ สำหรับผลลัพธ์ที่สำคัญนี้

3
เป็นไปได้ไหมที่จะตีความ bootstrap จากมุมมองแบบเบย์?
ตกลงนี่เป็นคำถามที่ทำให้ฉันตื่นขึ้นมาในตอนกลางคืน ขั้นตอนการบู๊ตสแตรปสามารถตีความได้ว่าใกล้เคียงกับโพรซีเดอร์แบบเบย์บางอย่าง (ยกเว้นเบย์แบบสแตรปบูต) ฉันชอบ "การตีความ" ของสถิติแบบเบย์ซึ่งฉันพบว่าสอดคล้องกันและเข้าใจง่าย อย่างไรก็ตามฉันมีจุดอ่อนสำหรับโพรซีเดอร์ bootstrap ซึ่งง่ายมาก แต่ให้ข้อสรุปที่สมเหตุสมผลในหลาย ๆ สถานการณ์ ฉันจะมีความสุขมากขึ้นกับ bootstrapping แต่ถ้าฉันรู้ว่า bootstrap นั้นประมาณการกระจายด้านหลังในบางแง่ ฉันรู้ว่า "Bayesian bootstrap" (Rubin, 1981) แต่จากมุมมองของฉันว่า bootstrap เวอร์ชันนั้นมีปัญหาเช่นเดียวกับ bootstrap มาตรฐาน ปัญหาคือสมมุติฐานที่แปลกประหลาดจริง ๆ ที่คุณทำทั้งในขณะที่ทำ bootstrap แบบคลาสสิคและแบบเบย์นั่นคือค่าที่เป็นไปได้ของการแจกแจงนั้นเป็นเพียงค่าที่ฉันเคยเห็นมาแล้วเท่านั้น สมมติฐานของตัวแบบจำลองแปลก ๆ เหล่านี้ยังคงให้ผลการอนุมานที่สมเหตุสมผลซึ่งโพรซีเดอร์บูทสแตรปให้ผลอย่างไร? ฉันกำลังมองหาบทความที่ตรวจสอบคุณสมบัติของ bootstrap (เช่น Weng, 1989) แต่ฉันไม่พบคำอธิบายที่ชัดเจนว่าฉันมีความสุข อ้างอิง โดนัลด์บี. รูบิน (1981) รองเท้าบู๊ทเบย์ แอน statist เล่มที่ 9, …

2
ทำไมรุ่นซีรีย์เวลา MA (q) เรียกว่า "ค่าเฉลี่ยเคลื่อนที่"
เมื่อฉันอ่าน "ค่าเฉลี่ยเคลื่อนที่" สัมพันธ์กับอนุกรมเวลาฉันคิดว่าหรืออาจเป็นน้ำหนัก เฉลี่ยเช่น{t-3} (ฉันรู้ว่าสิ่งเหล่านี้เป็นแบบจำลอง AR (3) แต่สิ่งเหล่านี้เป็นสิ่งที่สมองของฉันกระโดดไป) ทำไม MA (q) แบบจำลองสูตรของข้อผิดพลาดหรือ "นวัตกรรม" อะไรมีจะทำอย่างไรกับค่าเฉลี่ยเคลื่อนที่? ฉันรู้สึกเหมือนฉันขาดสัญชาตญาณบางอย่าง( xt - 1+ xt - 2+ xt - 3)3(xเสื้อ-1+xเสื้อ-2+xเสื้อ-3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5 xt - 1+ 0.3 xt - 2+ 0.2 xt - 30.5xเสื้อ-1+0.3xเสื้อ-2+0.2xเสื้อ-30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ ϵ }{ε}\{\epsilon\}

4
ข้อผิดพลาดมาตรฐานสำหรับค่าเฉลี่ยของตัวอย่างของตัวแปรสุ่มแบบทวินาม
สมมติว่าผมใช้การทดสอบที่สามารถมีผล 2 และฉันสมมติว่าพื้นฐานการกระจาย "ความจริง" ของ 2 ผลคือการกระจายทวินามกับพารามิเตอร์และ :P)p B ฉันn o m ฉันa l ( n , p )nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) ฉันสามารถคำนวณข้อผิดพลาดมาตรฐานจากรูปแบบของความแปรปรวนของ : ที่1-P ดังนั้น{} สำหรับข้อผิดพลาดมาตรฐานที่ฉันได้รับ:แต่ผมเคยเห็นบางที่{n}} ฉันทำผิดอะไร? Bฉันnomฉันal(n,p)SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}}Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)σ2X=npqσX2=npq \sigma^{2}_{X} = npqq=1−pq=1−pq = 1-pσX=npq−−−√σX=npq\sigma_X=\sqrt{npq}SEX=pq−−√SEX=pqSE_X=\sqrt{pq}SEX=pqn−−√SEX=pqnSE_X = \sqrt{\frac{pq}{n}}

4
ฝึกอบรมโครงสร้างการตัดสินใจเทียบกับข้อมูลที่ไม่สมดุล
ฉันยังใหม่กับการขุดข้อมูลและฉันพยายามฝึกอบรมต้นไม้ตัดสินใจกับชุดข้อมูลที่ไม่สมดุลกันมาก อย่างไรก็ตามฉันมีปัญหากับความแม่นยำในการทำนายที่ไม่ดี ข้อมูลประกอบด้วยนักเรียนที่เรียนหลักสูตรและตัวแปรระดับคือสถานะของหลักสูตรที่มีสองค่า - ถอนตัวหรือปัจจุบัน อายุ เชื้อชาติ เพศ หลักสูตร ... สถานะของหลักสูตร ในชุดข้อมูลมีอินสแตนซ์อีกมากมายซึ่งเป็นปัจจุบันกว่าถอนออก การถอนอินสแตนซ์นั้นคิดเป็นเพียง 2% ของอินสแตนซ์ทั้งหมด ฉันต้องการสร้างแบบจำลองที่สามารถทำนายความน่าจะเป็นที่คน ๆ หนึ่งจะถอนตัวในอนาคต อย่างไรก็ตามเมื่อทำการทดสอบแบบจำลองกับข้อมูลการฝึกอบรมความแม่นยำของแบบจำลองนั้นแย่มาก ฉันมีปัญหาที่คล้ายกันกับต้นไม้การตัดสินใจที่ข้อมูลถูกครอบงำโดยหนึ่งหรือสองชั้น ฉันจะใช้วิธีใดในการแก้ปัญหานี้และสร้างลักษณนามที่แม่นยำยิ่งขึ้น

3
วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอยโลจิสติก
การทำให้เป็นปกติโดยใช้วิธีการเช่น Ridge, Lasso, ElasticNet นั้นค่อนข้างทั่วไปสำหรับการถดถอยเชิงเส้น ฉันต้องการที่จะรู้ว่าต่อไปนี้: วิธีการเหล่านี้ใช้สำหรับการถดถอยโลจิสติก? ถ้าเป็นเช่นนั้นมีความแตกต่างในวิธีที่พวกเขาต้องใช้สำหรับการถดถอยโลจิสติกหรือไม่? หากวิธีการเหล่านี้ใช้ไม่ได้จะทำให้การถดถอยโลจิสติกเป็นปกติได้อย่างไร

2
maxout ในโครงข่ายประสาทเทียมคืออะไร
ใครสามารถอธิบายว่าหน่วย maxout ในเครือข่ายประสาทเทียมทำอะไรได้บ้าง พวกเขาทำงานได้อย่างไรและแตกต่างจากหน่วยทั่วไปอย่างไร ฉันพยายามอ่านกระดาษ"Maxout Network" 2013 โดย Goodfellow และคณะ (จากกลุ่มของศาสตราจารย์โยชูวาเบงกิโอ) แต่ฉันไม่เข้าใจเลย

2
วิธีความน่าจะเป็นสูงสุดเทียบกับวิธีกำลังสองน้อยที่สุด
อะไรคือความแตกต่างหลักระหว่างการประมาณค่าความน่าจะเป็นสูงสุด (MLE) กับการประมาณกำลังสองน้อยที่สุด (LSE)? เหตุใดเราไม่สามารถใช้ MLE เพื่อทำนายค่าในการถดถอยเชิงเส้นและในทางกลับกันได้YYy ความช่วยเหลือใด ๆ ในหัวข้อนี้จะได้รับการชื่นชมอย่างมาก

9
เมื่อสอนสถิติให้ใช้ "ปกติ" หรือ "เกาส์เซียน"?
ฉันใช้ "การกระจายแบบเกาส์" เป็นส่วนใหญ่ในหนังสือของฉัน แต่มีคนแนะนำว่าฉันเปลี่ยนเป็น "การกระจายแบบปกติ" ฉันทามติใดที่คำว่าจะใช้สำหรับผู้เริ่มต้น แน่นอนว่าคำทั้งสองนี้เป็นคำพ้องความหมายดังนั้นนี่ไม่ใช่คำถามเกี่ยวกับเนื้อหา แต่เป็นเรื่องที่ใช้กันอย่างแพร่หลาย และแน่นอนฉันใช้ทั้งสองคำ แต่สิ่งที่ควรใช้เป็นส่วนใหญ่?

7
ทำไม Random Forest ไม่จัดการค่าที่ขาดหายไปในตัวทำนาย?
อะไรคือเหตุผลทางทฤษฎีที่จะไม่จัดการกับค่าที่ขาดหายไป? เครื่องเร่งการไล่ระดับสีต้นไม้การถดถอยจัดการค่าที่ขาดหายไป ทำไม Random Forest ถึงไม่ทำเช่นนั้น?

3
วิธีการมองเห็นโมเดลการถดถอยแบบหลายจุดที่เหมาะสม?
ฉันกำลังเขียนบทความที่มีการวิเคราะห์การถดถอยหลายครั้ง ในขณะที่เห็นภาพการถดถอยเชิงเส้นแบบไม่แปรเปลี่ยนนั้นทำได้ง่าย ๆ ผ่านทางแผนการกระจายฉันสงสัยว่ามีวิธีใดที่ดีที่จะเห็นภาพการถดถอยเชิงเส้นหลายเส้น? ขณะนี้ฉันเพิ่งพล็อตแผนการกระจายเช่นตัวแปรตามกับตัวแปรอิสระตัวที่ 1 จากนั้นเทียบกับตัวแปรอิสระตัวที่สอง ฯลฯ ฉันจะขอขอบคุณข้อเสนอแนะใด ๆ

5
เพราะเหตุใดโดยเฉลี่ยแต่ละตัวอย่าง bootstrap มีประมาณสองในสามของการสังเกต?
ฉันได้วิ่งข้ามการยืนยันว่าแต่ละตัวอย่าง bootstrap (หรือ tree bagged) จะมีค่าเฉลี่ยประมาณของการสังเกต2/32/32/3 ฉันเข้าใจว่าโอกาสที่จะไม่ถูกเลือกในเสมอใด ๆจากตัวอย่างที่มีการแทนที่คือซึ่งคิดเป็นประมาณของโอกาสที่จะไม่ถูกเลือกnnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 อะไรคือคำอธิบายทางคณิตศาสตร์สำหรับสาเหตุที่สูตรนี้ให้เสมอ?≈1/3≈1/3\approx 1/3
42 bootstrap 

4
ความแตกต่างระหว่าง GARCH และ ARMA คืออะไร?
ฉันสับสน. ฉันไม่เข้าใจความแตกต่างของ ARMA และกระบวนการ GARCH .. สำหรับฉันแล้วมีเหมือนกันไหม? นี่คือกระบวนการ (G) ARCH (p, q) σ2t=α0+∑i=1qαir2t−iARCH+∑i=1pβiσ2t−iGARCHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} และนี่ก็เป็น ARMA ( ):p,qp,qp, q Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i.Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. X_t = c + \varepsilon_t + \sum_{i=1}^p \varphi_i X_{t-i} + \sum_{i=1}^q \theta_i \varepsilon_{t-i}.\, ARMA เป็นเพียงส่วนขยายของ GARCH หรือไม่ GARCH ถูกใช้เพื่อผลตอบแทนเท่านั้นและด้วยสมมติฐานโดยที่ติดตามกระบวนการสีขาวที่แรงหรือไม่r=σεr=σεr = …
42 arima  garch  finance 

4
ความคาดหวังของซีรี่ส์เทย์เลอร์
คำถามของฉันเกี่ยวข้องกับการพยายามพิสูจน์วิธีการที่ใช้กันอย่างแพร่หลายนั่นคือการนำค่าที่คาดหวังของ Taylor Series สมมติเรามีตัวแปรสุ่มมีค่าเฉลี่ยบวกและความแปรปรวน 2 นอกจากนี้เรายังมีฟังก์ชั่นการพูด,(x)XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) การขยายตัวของรอบ ๆเทย์เลอร์เราจะได้ ที่คือ st.logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3}, ξXξX\xi_X|ξX−μ|&lt;|X−μ||ξX−μ|&lt;|X−μ||\xi_X - \mu| < |X - \mu| ถ้าเราใช้ความคาดหวังเราจะได้สมการโดยประมาณซึ่งผู้คนมักจะอ้างถึงว่าเป็นสิ่งที่เห็นได้ชัดในตัวเอง(ดูเครื่องหมายในสมการแรกที่นี่)≈≈\approx : ElogX≈logμ−12σ2μ2Elog⁡X≈log⁡μ−12σ2μ2 \mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2} คำถาม : ฉันสนใจที่จะพิสูจน์ว่ามูลค่าที่คาดหวังของคำศัพท์ที่เหลือนั้นน้อยมากนั่นคือ (หรือกล่าวอีกนัยหนึ่ง )E[(X−μ)3ξ3X]=o(σ2)E[(X−μ)3ξX3]=o(σ2) …

2
การถดถอยปัวซองเพื่อประเมินความเสี่ยงสัมพัทธ์สำหรับผลลัพธ์ไบนารี
สรุปโดยย่อ เหตุใดจึงเป็นเรื่องธรรมดามากขึ้นที่จะใช้การถดถอยโลจิสติก (ด้วยอัตราต่อรอง) ในการศึกษาหมู่ที่มีผลลัพธ์เป็นเลขฐานสองเมื่อเทียบกับการถดถอยแบบปัวซอง (โดยมีความเสี่ยงสัมพัทธ์) พื้นหลัง ในระดับปริญญาตรีและระดับบัณฑิตศึกษาสถิติและหลักสูตรระบาดวิทยาในประสบการณ์ของฉันสอนโดยทั่วไปว่าการถดถอยโลจิสติกควรใช้สำหรับการสร้างแบบจำลองข้อมูลที่มีผลลัพธ์แบบไบนารีโดยมีการประเมินความเสี่ยงที่รายงานว่าเป็นอัตราต่อรอง อย่างไรก็ตามการถดถอยของปัวซอง (และที่เกี่ยวข้อง: กึ่งปัวซอง, ทวินามลบ ฯลฯ ) ยังสามารถใช้ในการสร้างแบบจำลองข้อมูลด้วยผลลัพธ์ไบนารีและด้วยวิธีการที่เหมาะสม (เช่นตัวประมาณความแปรปรวนแซนวิชที่แข็งแกร่ง) ให้การประเมินความเสี่ยง เช่น, Greenland S. , การประมาณแบบจำลองตามความเสี่ยงสัมพัทธ์และมาตรการทางระบาดวิทยาอื่น ๆ ในการศึกษาผลลัพธ์ทั่วไปและในกรณีศึกษาการควบคุม , Am J Epidemiol 2004 15 ส.ค. ; 160 (4): 301-5 Zou G. , วิธีการถดถอยแบบปัวซองเพื่อแก้ไขการศึกษาในอนาคตด้วยข้อมูลไบนารี , Am J Epidemiol 2004 1 เม.ย. ; 159 (7): 702-6 Zou …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.