สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
กฎสำหรับการเลือกพารามิเตอร์ไฮเปอร์เน็ตเวิร์กโครงข่ายประสาทเทียม
มีเอกสารที่ดีหรือไม่ที่ครอบคลุมวิธีการบางส่วนในการเลือกขนาดของตัวกรองรวบรวมหน่วยและกำหนดจำนวนชั้นของ convolutional

2
มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงทำนาย
ในการอนุมานแบบเบย์การกระจายการทำนายสำหรับข้อมูลในอนาคตนั้นได้มาจากการรวมเอาพารามิเตอร์ที่ไม่รู้จัก การบูรณาการการกระจายหลังของพารามิเตอร์เหล่านั้นจะช่วยให้การกระจายการคาดการณ์หลัง - การกระจายสำหรับข้อมูลในอนาคตเงื่อนไขตามที่สังเกตไว้แล้ว มีวิธีการใดที่ไม่ใช่แบบเบย์สำหรับการอนุมานเชิงคาดการณ์ที่มีการคำนึงถึงความไม่แน่นอนในการประมาณค่าพารามิเตอร์ ทุกคนรู้วิธีคำนวณช่วงเวลาการทำนายหลังจากการถดถอยเชิงเส้น แต่อะไรคือหลักการที่อยู่เบื้องหลังการคำนวณและวิธีการที่พวกเขาสามารถนำไปใช้ในสถานการณ์อื่น ๆ (เช่นการคำนวณช่วงเวลาการทำนายที่แน่นอนสำหรับการเปลี่ยนแปลงแบบเอ็กซ์โปเนนเชียล

2
หด VS เป็นกลาง : ประมาณของ
ในหัวของฉันมีความสับสนเกี่ยวกับตัวประมาณสองประเภทของค่าประชากรของสัมประสิทธิ์สหสัมพันธ์เพียร์สัน A. ฟิชเชอร์ (2458)แสดงให้เห็นว่าสำหรับประชากรปกติ bivariate เชิงประจักษ์คือตัวเอนเอียงของลำเอียงแม้ว่าอคติจะมีจำนวนมากพอสมควรจริงเพียงเล็กน้อยสำหรับกลุ่มตัวอย่างขนาดเล็ก ( ) ตัวอย่างดูถูกในแง่ที่ว่ามันอยู่ใกล้กับกว่า\(ยกเว้นเมื่อสมัยเป็นหรือสำหรับแล้วเป็นกลาง.) หลายเกือบประมาณเป็นกลางของได้รับการเสนอที่ดีที่สุดคนหนึ่งอาจจะเป็นOlkin และแพรตต์ (1958)ρ n &lt; 30 r ρrrrρρ\rhon&lt;30n&lt;30n<30rrrρρ\rhoρ 0 ± 1 r000ρρ\rho000±1±1\pm 1rrrρρ\rhoแก้ไข :rrr runbiased=r[1+1−r22(n−3)]runbiased=r[1+1−r22(n−3)]r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ] B.มีการกล่าวกันว่าในการถดถอยพบว่าประเมินค่าประชากร R-square ที่สอดคล้องกัน หรือมีการถดถอยง่ายๆก็คือว่า overestimates 2 จากข้อเท็จจริงนั้นฉันได้เห็นข้อความมากมายที่บอกว่านั้นมีอคติเชิงบวกเมื่อเทียบกับซึ่งหมายถึงค่าสัมบูรณ์:นั้นไกลจากมากกว่า (นั่นเป็นคำสั่งจริงหรือไม่) ข้อความบอกว่ามันเป็นปัญหาเดียวกันกับการประมาณค่าเกินของค่าเบี่ยงเบนมาตรฐานโดยค่าตัวอย่าง มีหลายสูตรที่จะ "ปรับ" สังเกตใกล้กับพารามิเตอร์ประชากรของ Wherry's (1931)r 2 ρ 2 rR2R2R^2r2r2r^2ρ2ρ2\rho^2rrrr 0 ρ …

1
การเลือกกฎการให้คะแนนที่เหมาะสม
ทรัพยากรส่วนใหญ่เกี่ยวกับกฎการให้คะแนนที่เหมาะสมพูดถึงจำนวนของกฎการให้คะแนนที่แตกต่างกันเช่นการสูญเสียบันทึกคะแนน Brier หรือการให้คะแนนทรงกลม อย่างไรก็ตามพวกเขามักไม่ค่อยให้คำแนะนำเกี่ยวกับความแตกต่างระหว่างพวกเขามากนัก (จัดแสดง A: Wikipedia ) การเลือกแบบจำลองที่เพิ่มคะแนนลอการิทึมให้สอดคล้องกับการเลือกแบบจำลองความน่าจะเป็นสูงสุดซึ่งดูเหมือนจะเป็นข้อโต้แย้งที่ดีสำหรับการใช้การให้คะแนนแบบลอการิทึม มีเหตุผลที่คล้ายกันสำหรับการให้คะแนน Brier หรือทรงกลมหรือกฎการให้คะแนนอื่น ๆ ? ทำไมบางคนถึงใช้หนึ่งในคะแนนมากกว่าลอการิทึม?

2
การคำนวณพีชคณิตเชิงเส้นอย่างน้อยกำลังสองน้อยที่สุด
เพื่อเป็นการตอบคำถามเกี่ยวกับโมเดลเชิงเส้นผสมใน R และเพื่อเป็นการอ้างอิงสำหรับผู้สนใจรักการเริ่มต้น / ขั้นกลางทางสถิติฉันตัดสินใจที่จะโพสต์ในฐานะ "Q &amp; A-style" อิสระขั้นตอนที่เกี่ยวข้องกับการคำนวณ "คู่มือ" ของ ค่าสัมประสิทธิ์และค่าทำนายของการถดถอยเชิงเส้นอย่างง่าย ตัวอย่างคือชุดข้อมูล R ที่สร้างขึ้นmtcarsและจะถูกตั้งค่าเป็นไมล์ต่อแกลลอนที่ใช้โดยยานพาหนะที่ทำหน้าที่เป็นตัวแปรอิสระซึ่งควบคุมน้ำหนักของรถ (ตัวแปรต่อเนื่อง) และจำนวนกระบอกสูบเป็น ปัจจัยที่มีสามระดับ (4, 6 หรือ 8) โดยไม่มีการโต้ตอบ แก้ไข: ถ้าคุณมีความสนใจในคำถามนี้แน่นอนคุณจะพบคำตอบที่มีรายละเอียดและความพึงพอใจในเรื่องนี้โพสต์โดยแมทธิว Drury นอก CV

1
ทำไมจึงมีเพียงองค์ประกอบหลักสำหรับข้อมูลหากจำนวนมิติคือ ?
ใน PCA เมื่อจำนวนมิติมากกว่า (หรือเท่ากับ) จำนวนตัวอย่างทำไมคุณถึงมีeigenvector ที่ไม่ใช่ศูนย์มากที่สุดในคำอื่น ๆ ยศแปรปรวนเมทริกซ์ในหมู่ที่มิติคือN-1N N - 1 d ≥ N N - 1dddยังไม่มีข้อความNNยังไม่มีข้อความ- 1N−1N-1d≥ Nd≥Nd\ge Nยังไม่มีข้อความ- 1N−1N-1 ตัวอย่าง: ตัวอย่างของคุณเป็นภาพเวกเตอร์ซึ่งมีขนาดแต่คุณมีเพียงภาพN = 10d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200ยังไม่มีข้อความ= 10N=10N=10

4
การสร้างภาพข้อมูลที่ดีที่สุดสำหรับตารางฉุกเฉินคืออะไร
จุดไหนที่ดีที่สุดจากมุมมองเชิงสถิติเพื่อแสดงตารางฉุกเฉินซึ่งโดยทั่วไปแล้วจะถูกวิเคราะห์โดยการทดสอบไคสแควร์ มันเป็น barplot ที่หลบ, barplot ที่ซ้อนกัน, heatmap, พล็อตรูปร่าง, scatterplot ของ jitterred, พล็อตหลายบรรทัดหรืออย่างอื่น? หนึ่งควรแสดงค่าสัมบูรณ์หรือเปอร์เซ็นต์ แก้ไข: หรือตามที่ @forecaster แนะนำในความคิดเห็นตารางของตัวเลขเป็นพล็อตที่เรียบง่ายและน่าจะเพียงพอ

2
“ การถดถอยอันดับที่ลดลง” คืออะไรเกี่ยวกับ?
ฉันได้อ่านองค์ประกอบของการเรียนรู้ทางสถิติแล้วและฉันไม่สามารถเข้าใจได้ว่าส่วนที่ 3.7 "การหดตัวและการเลือกหลายผลลัพธ์" นั้นเกี่ยวกับอะไร มันพูดเกี่ยวกับ RRR (การถดถอยลดอันดับ) และฉันสามารถเข้าใจได้ว่าหลักฐานเป็นเรื่องเกี่ยวกับโมเดลเชิงเส้นหลายตัวแปรแบบทั่วไปที่ไม่ทราบค่าสัมประสิทธิ์ นั่นเป็นสิ่งเดียวที่ฉันเข้าใจ คณิตศาสตร์ที่เหลืออยู่นั้นเกินกว่าฉัน มันไม่ได้ช่วยให้ผู้เขียนพูดว่า 'ใคร ๆ ก็สามารถแสดง' และทิ้งสิ่งต่าง ๆ ไว้เป็นแบบฝึกหัดได้ ใครช่วยกรุณาอธิบายสิ่งที่เกิดขึ้นที่นี่อย่างสังหรณ์ใจ? บทนี้ควรพูดถึงวิธีการใหม่ ๆ หรือไม่? หรืออะไร?

6
ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง
ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป แก้ไข จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้: กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์ โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum บทนำสู่การเรียนรู้เชิงสถิติ, …

2
การสร้างข้อมูลด้วยเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่กำหนด
ได้รับเมทริกซ์ความแปรปรวนร่วมΣsΣs\boldsymbol \Sigma_sวิธีสร้างข้อมูลเช่นนั้นจะมีเมทริกซ์ความแปรปรวนร่วมตัวอย่างΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s ? โดยทั่วไปเรามักจะมีความสนใจในข้อมูลที่สร้างจากความหนาแน่นของf(x|θ)f(x|θ) f(x \vert \boldsymbol\theta) กับข้อมูลxxxให้บางพารามิเตอร์เวกเตอร์\θθ\boldsymbol\thetaผลลัพธ์นี้เป็นตัวอย่างซึ่งเราอาจประมาณค่าθ^θ^\boldsymbol{\hat\theta}อีกครั้ง สิ่งที่ฉันสนใจคือปัญหาย้อนกลับ: เกิดอะไรขึ้นถ้าเราได้รับชุดพารามิเตอร์θsθs\boldsymbol\theta_{s}และเราต้องการสร้างตัวอย่างxxxเช่นนั้นθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s}{s} นี่เป็นปัญหาที่ทราบหรือไม่? วิธีการดังกล่าวมีประโยชน์หรือไม่? มีอัลกอริทึมหรือไม่

3
ฉันจะรวมเอฟเฟกต์แบบสุ่ม (หรือการวัดซ้ำ) ลงในป่าสุ่มได้อย่างไร
ฉันไม่แน่ใจด้วยซ้ำว่าคำถามนี้สมเหตุสมผลดี แต่ฉันคิดว่าฉันเห็นชื่อหนังสือสองเล่มที่พวกเขาเสนอป่าสุ่มโดยมีเอฟเฟกต์แบบสุ่ม เป็นไปได้ใน R?

3
มีวิธีการแบบเบย์ในการประมาณความหนาแน่นหรือไม่
ผมสนใจที่จะประเมินความหนาแน่นต่อเนื่องสุ่มตัวแปรXวิธีหนึ่งในการทำสิ่งนี้ที่ฉันได้เรียนรู้คือการใช้การประมาณความหนาแน่นของเคอร์เนลXXX แต่ตอนนี้ฉันสนใจวิธีการแบบเบย์ที่อยู่ในบรรทัดต่อไปนี้ ผมเริ่มเชื่อว่าต่อไปนี้การกระจายFฉันใช้เวลาอ่านXมีวิธีการอัพเดตตามการอ่านใหม่ของฉันหรือไม่?F n X FXXXFFFnnnXXXFFF ฉันรู้ว่าฉันดูเหมือนว่าฉันจะขัดแย้งกับตัวเอง: ถ้าฉันเชื่อว่าในเป็นการกระจายก่อนหน้านี้ของฉันเท่านั้นไม่มีข้อมูลควรโน้มน้าวฉันเป็นอย่างอื่น แต่สมมติว่ามีและจุดข้อมูลของฉันเป็นเหมือน1.7) เมื่อดูที่เห็นได้ชัดว่าฉันไม่สามารถยึดติดกับรุ่นก่อนหน้าได้ แต่ฉันควรอัปเดตอย่างไรF u n i f [ 0 , 1 ] ( 0.3 , 0.5 , 0.9 , 1.7 ) 1.7FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 อัปเดต:ตามคำแนะนำในความคิดเห็นที่ฉันได้เริ่มดูกระบวนการ Dirichlet ให้ฉันใช้สัญลักษณ์ต่อไปนี้: G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) …

2
ความแตกต่างระหว่างการทดสอบผลรวมของอันดับ Wilcoxon กับการทดสอบอันดับของ Wilcoxon
ฉันสงสัยว่าความแตกต่างทางทฤษฎีคืออะไรระหว่างการทดสอบ Wilcoxon Rank-Sum Test และ Wilcoxon Signed-Rank Test โดยใช้การสังเกตแบบคู่ ฉันรู้ว่าการทดสอบระดับผลรวมของ Wilcoxon ช่วยให้การสังเกตแตกต่างกันในสองตัวอย่างที่แตกต่างกันในขณะที่การทดสอบการลงนามอันดับสำหรับตัวอย่างที่จับคู่ไม่อนุญาตให้ทำได้อย่างไรก็ตามพวกเขาทั้งคู่ดูเหมือนจะทดสอบแบบเดียวกัน ใครสามารถให้ข้อมูลพื้นฐาน / ทฤษฎีเพิ่มเติมแก่ฉันได้บ้างเมื่อฉันควรใช้การทดสอบผลรวมลำดับของ Wilcoxon และเมื่อใดที่ควรใช้การทดสอบการลงนามระดับ Wilcoxon โดยใช้การสังเกตแบบคู่

5
สิ่งที่ต้องเรียนรู้หลังจาก Casella & Berger
ฉันเป็นนักเรียนที่จบการศึกษาคณิตศาสตร์ที่มีพื้นฐานเล็กน้อยในวิชาคณิตศาสตร์ประยุกต์ ตั้งแต่ฤดูใบไม้ร่วงปีที่แล้วฉันได้เข้าเรียนในหนังสือของ Casella &amp; Berger และฉันได้เสร็จสิ้นปัญหาการออกกำลังกายหลายร้อย (230+) หน้าในหนังสือ ตอนนี้ฉันอยู่ที่บทที่ 10 อย่างไรก็ตามเนื่องจากฉันไม่ได้เรียนวิชาเอกสถิติหรือวางแผนที่จะเป็นนักสถิติฉันไม่คิดว่าฉันจะสามารถใช้เวลาเป็นประจำเพื่อเรียนรู้การวิเคราะห์ข้อมูลต่อไป ประสบการณ์ของฉันจนถึงขณะนี้กำลังบอกฉันว่าการเป็นนักสถิติต้องมีการคำนวณที่น่าเบื่อมากมายที่เกี่ยวข้องกับการแจกแจงต่าง ๆ (Weibull, Cauchy, , F ... ) ฉันพบว่าในขณะที่แนวคิดพื้นฐานง่าย ๆ การใช้งาน (ตัวอย่างเช่น LRT ในการทดสอบสมมติฐาน) ยังคงเป็นเรื่องยากเนื่องจากเทคนิคเสื้อเสื้อtFFF ความเข้าใจของฉันถูกต้องหรือไม่ มีวิธีที่ฉันสามารถเรียนรู้ความน่าจะเป็น &amp; สถิติที่ไม่เพียง แต่ครอบคลุมเนื้อหาขั้นสูง แต่ยังสามารถช่วยในกรณีที่ฉันต้องการวิเคราะห์ข้อมูลในชีวิตจริงได้หรือไม่? ฉันจะต้องใช้จ่าย 20 ชั่วโมงต่อสัปดาห์หรือไม่กับที่เคยทำ≥≥\ge ในขณะที่ฉันเชื่อว่าไม่มีถนนหลวงในการเรียนรู้คณิตศาสตร์ฉันมักไม่สามารถช่วยสงสัยได้ - ส่วนใหญ่เราไม่ทราบว่าการแจกแจงนั้นเป็นข้อมูลในชีวิตจริงดังนั้นอะไรคือจุดประสงค์ของเราที่จะมุ่งเน้นเฉพาะครอบครัวของการแจกแจงแบบต่างๆ ? หากขนาดตัวอย่างมีขนาดเล็กและทฤษฎีบทขีด จำกัด กลางใช้ไม่ได้เราจะวิเคราะห์ข้อมูลอย่างถูกต้องนอกเหนือจากค่าเฉลี่ยตัวอย่างและความแปรปรวนได้อย่างไรหากการแจกแจงไม่เป็นที่รู้จัก ภาคการศึกษาของฉันจะสิ้นสุดในหนึ่งเดือนและฉันไม่ต้องการให้ความรู้ของฉันหายไปหลังจากที่ฉันเริ่มมุ่งเน้นการวิจัยระดับปริญญาเอกของฉัน ฉันเลยตัดสินใจถาม ฉันกำลังเรียนรู้ R และฉันมีพื้นหลังการเขียนโปรแกรมบ้าง แต่ระดับของฉันใกล้เคียงกับรหัสลิง

5

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.