สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

19
จะรบกวนผู้ตัดสินทางสถิติได้อย่างไร?
ฉันเพิ่งถามคำถามเกี่ยวกับหลักการทั่วไปรอบสถิติการตรวจสอบในหนังสือพิมพ์ สิ่งที่ฉันอยากจะถามตอนนี้คือสิ่งที่ทำให้คุณหงุดหงิดโดยเฉพาะอย่างยิ่งเมื่อตรวจสอบกระดาษนั่นคือวิธีที่ดีที่สุดที่จะรบกวนผู้ตัดสินทางสถิติ! โปรดหนึ่งตัวอย่างต่อคำตอบ

5
ความแตกต่างระหว่างการตรวจสอบความถูกต้องข้ามและความร่วมมือเพื่อประเมินข้อผิดพลาดในการทำนาย
ฉันต้องการความคิดของคุณเกี่ยวกับความแตกต่างระหว่างการตรวจสอบความถูกต้องระหว่างกันและการบูตสแตรปเพื่อประเมินข้อผิดพลาดในการทำนาย ทำงานได้ดีกว่าสำหรับชุดข้อมูลขนาดเล็กหรือชุดข้อมูลขนาดใหญ่หรือไม่

2
การกำจัดคำดักจับทางสถิติสำคัญเพิ่มในตัวแบบเชิงเส้น
ในโมเดลเชิงเส้นอย่างง่ายพร้อมตัวแปรอธิบายเดียว αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i ฉันพบว่าการลบคำดักจับช่วยเพิ่มความพอดีอย่างมาก (ค่าจาก 0.3 เป็น 0.9) อย่างไรก็ตามคำว่าการดักจับนั้นมีนัยสำคัญทางสถิติR2R2R^2 ด้วยการสกัดกั้น: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta …

3
การไล่ระดับสีแบบแบทช์กับการไล่ระดับสีแบบสุ่ม
สมมติว่าเรามีชุดการฝึกอบรมสำหรับม. นอกจากนี้สมมติว่าเราใช้อัลกอริทึมการเรียนรู้แบบมีผู้สอนในชุดฝึกอบรม สมมติฐานจะแสดงเป็นn} เราต้องการที่จะหาพารามิเตอร์ที่ลด "ระยะทาง" ระหว่างและ{(i)}) ให้(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} จากนั้นเราก็ต้องการที่จะหาที่ช่วยลดtheta) ในการไล่ระดับสีเราทำการเตรียมพารามิเตอร์แต่ละตัวและทำการอัพเดทต่อไปนี้:θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) อะไรคือความแตกต่างที่สำคัญระหว่างการไล่ระดับสีแบบแบทช์และการไล่ระดับสีแบบสุ่มแบบสุ่ม ทั้งคู่ใช้กฎการอัพเดทข้างต้น แต่สิ่งหนึ่งดีกว่าอันอื่นหรือไม่

8
ASA กล่าวถึงข้อ จำกัด ของ
เรามีแท็กหลายเธรดที่ติดแท็กเป็นค่า pที่เปิดเผยความเข้าใจผิดมากมายเกี่ยวกับพวกเขา สิบเดือนที่ผ่านมาเรามีหัวข้อเกี่ยวกับวารสารจิตวิทยาที่ "ต้องห้าม" -valuesพีppตอนนี้สมาคมอเมริกันสถิติ (2016)กล่าวว่ามีการวิเคราะห์ของเราที่เรา "ไม่ควรจบลงด้วยการคำนวณที่ -value"พีpp สมาคมสถิติอเมริกัน (ASA) เชื่อว่าชุมชนวิทยาศาสตร์จะได้รับประโยชน์จากคำแถลงอย่างเป็นทางการที่อธิบายถึงหลักการที่ใช้กันอย่างแพร่หลายในการใช้และการตีความอย่างเหมาะสมพีpp คณะกรรมการระบุวิธีการอื่น ๆ ซึ่งอาจเป็นทางเลือกหรือข้อมูลเพิ่มเติมเกี่ยวกับค่า :พีpp ในมุมมองของการใช้ผิดวิธีที่แพร่หลายและความเข้าใจผิดเกี่ยวกับค่า , สถิติบางคนชอบที่จะเสริมหรือแม้กระทั่งแทนที่ค่า ด้วยวิธีการอื่น ๆ เหล่านี้รวมถึงวิธีการที่เน้นการประมาณค่าการทดสอบเช่นความมั่นใจความน่าเชื่อถือหรือช่วงการทำนาย วิธีการแบบเบย์ มาตรการทางเลือกของหลักฐานเช่นอัตราส่วนความน่าจะเป็นหรือปัจจัยเบย์ และแนวทางอื่น ๆ เช่นการสร้างแบบจำลองเชิงทฤษฎีการตัดสินใจและอัตราการค้นพบที่ผิด มาตรการและวิธีการทั้งหมดเหล่านี้ขึ้นอยู่กับสมมติฐานต่อไป แต่พวกเขาอาจระบุขนาดของผลกระทบโดยตรง (และความไม่แน่นอนที่เกี่ยวข้อง) หรือว่าสมมติฐานนั้นถูกต้องหรือไม่พีพีppพีpp ดังนั้นขอจินตนาการหลัง -values ความเป็นจริง ASA แสดงวิธีการบางอย่างที่สามารถใช้แทนค่าแต่ทำไมถึงดีกว่า ข้อใดที่สามารถทดแทนชีวิตจริงสำหรับนักวิจัยที่ใช้ค่าสำหรับทุกชีวิตของเขา? ฉันคิดว่าชนิดของคำถามนี้จะปรากฏในโพสต์ -values ความเป็นจริงดังนั้นบางทีเรามาพยายามที่จะเป็นขั้นตอนหนึ่งไปข้างหน้าของพวกเขา อะไรคือทางเลือกที่สมเหตุสมผลที่สามารถนำไปใช้นอกกรอบได้? ทำไมวิธีนี้ควรทำให้นักวิจัยหัวหน้าบรรณาธิการหรือผู้อ่านนำของคุณเข้าใจพีพีพีพีppพีppพีppพีpp เนื่องจากรายการบล็อกติดตามผลนี้แนะนำค่าจึงไม่สามารถเอาชนะได้ในความเรียบง่าย:พีpp p-value ต้องการเพียงแบบจำลองทางสถิติสำหรับพฤติกรรมของสถิติภายใต้สมมติฐานว่างเพื่อเก็บไว้ แม้ว่ารูปแบบของสมมติฐานทางเลือกจะใช้ในการเลือกสถิติ "ดี" (ซึ่งจะใช้สำหรับการสร้าง p-value) รูปแบบทางเลือกนี้ไม่จำเป็นต้องถูกต้องเพื่อให้ p-value …


14
หนังสือสำหรับการวิเคราะห์อนุกรมเวลาด้วยตนเอง
ฉันเริ่มต้นด้วยการวิเคราะห์อนุกรมเวลาโดยแฮมิลตัน แต่ฉันหมดหวังอย่างสิ้นหวัง หนังสือเล่มนี้เป็นทฤษฎีจริงเกินไปที่ฉันจะเรียนรู้ด้วยตนเอง ใครบ้างมีคำแนะนำสำหรับหนังสือเรียนเกี่ยวกับการวิเคราะห์อนุกรมเวลาที่เหมาะสำหรับการศึกษาด้วยตนเอง

25
ค้นหาตัวอย่างข้อมูลที่มีอยู่อย่างอิสระ
ฉันกำลังทำงานกับวิธีการใหม่สำหรับการวิเคราะห์และการแยกชุดข้อมูลเพื่อระบุและแยกกลุ่มย่อยของประชากรโดยไม่ทราบล่วงหน้าถึงลักษณะของกลุ่มย่อยใด ๆ ในขณะที่วิธีการทำงานได้ดีพอกับตัวอย่างข้อมูลเทียม (เช่นชุดข้อมูลที่สร้างขึ้นโดยเฉพาะเพื่อจุดประสงค์ในการระบุและแยกกลุ่มย่อยของประชากร) ฉันต้องการลองทดสอบด้วยข้อมูลจริง สิ่งที่ฉันกำลังมองหาคือแหล่งข้อมูลที่พร้อมใช้งานได้ฟรี (เช่นไม่เป็นความลับไม่ใช่กรรมสิทธิ์) หนึ่งที่มีการแจกแจง bimodal หรือ multimodal หรือชัดเจนประกอบด้วยหลายส่วนย่อยที่ไม่สามารถดึงออกจากกันได้อย่างง่ายดายผ่านวิธีการแบบดั้งเดิม ฉันจะไปหาข้อมูลดังกล่าวที่ไหน?

9
นี่เป็นวิธีที่ค่า p ทำงานได้จริงหรือ งานวิจัยหนึ่งล้านชิ้นต่อปีสามารถใช้แบบแผนที่บริสุทธิ์ได้หรือไม่?
ฉันมากใหม่สถิติและฉันแค่เรียนรู้ที่จะเข้าใจพื้นฐานรวมทั้ง -values แต่ตอนนี้มีเครื่องหมายคำถามขนาดใหญ่ในใจของฉันและฉันหวังว่าฉันจะเข้าใจผิด นี่คือกระบวนการคิดของฉัน:พีpp ไม่ใช่งานวิจัยทั่วโลกเหมือนลิงในทฤษฎีบทอนันต์ลิงหรือไม่? พิจารณาว่ามีมหาวิทยาลัย 23887 แห่งในโลก หากแต่ละมหาวิทยาลัยมีนักศึกษา 1,000 คนนั่นคือนักเรียน 23 ล้านคนในแต่ละปี สมมติว่าในแต่ละปีนักเรียนแต่ละคนไม่อย่างน้อยหนึ่งชิ้นส่วนของการวิจัยโดยใช้การทดสอบสมมติฐานด้วย\α = 0.05α=0.05\alpha=0.05 นั่นไม่ได้หมายความว่าแม้ว่าตัวอย่างการวิจัยทั้งหมดจะถูกดึงจากประชากรสุ่ม แต่ประมาณ 5% ของพวกเขาจะ "ปฏิเสธสมมติฐานว่างเปล่าว่าไม่ถูกต้อง" ว้าว. ลองคิดดู นั่นคือประมาณหนึ่งล้านงานวิจัยต่อปีได้รับการเผยแพร่เนื่องจากผลลัพธ์ "สำคัญ" หากนี่เป็นวิธีการทำงานนี่น่ากลัว มันหมายความว่า "ความจริงทางวิทยาศาสตร์" จำนวนมากที่เราได้รับนั้นขึ้นอยู่กับการสุ่มอย่างแท้จริง รหัส R อันเรียบง่ายดูเหมือนจะสนับสนุนความเข้าใจของฉัน: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] ดังนั้นบทความนี้ในที่ประสบความสำเร็จ -fishing: ฉันหลงกลล้านในความคิดของช็อคโกแลตช่วยลดน้ำหนัก นี่คือวิธีการพีpp ทั้งหมดนี้มีไว้เพื่ออะไรหรือ? นี่เป็นวิธีที่ "วิทยาศาสตร์" ควรทำงานหรือไม่

1
ต้นไม้อนุมานแบบมีเงื่อนไขเทียบกับต้นไม้ตัดสินใจแบบดั้งเดิม
ใครสามารถอธิบายความแตกต่างหลักระหว่างต้นไม้การอนุมานแบบมีเงื่อนไข ( ctreeจากpartyแพ็คเกจใน R) เทียบกับอัลกอริทึมการตัดสินใจแบบดั้งเดิมมากขึ้น (เช่นrpartใน R) อะไรทำให้ต้นไม้ CI แตกต่างกัน จุดแข็งและจุดอ่อน? Update: ฉันได้ดูบทความโดย Horthorn และคณะที่ Chi อ้างถึงในความคิดเห็น ฉันไม่สามารถทำตามได้อย่างสมบูรณ์ - ทุกคนสามารถอธิบายได้ว่าตัวแปรถูกเลือกโดยใช้วิธีเรียงสับเปลี่ยน (เช่นฟังก์ชันอิทธิพลมีอะไร) ขอบคุณ!

9
การถดถอยเชิงเส้นใน y กับ x กับ x กับ y แตกต่างกันอย่างไร?
สัมประสิทธิ์สหสัมพันธ์ของ Pearson ของ x และ y ไม่ว่าคุณจะคำนวณ pearson (x, y) หรือ pearson (y, x) นี่แสดงให้เห็นว่าการทำการถดถอยเชิงเส้นของ y ที่ให้ x หรือ x ที่ให้ y ควรเหมือนกัน แต่ฉันไม่คิดว่าเป็นเช่นนั้น ใครบางคนสามารถแสดงความคิดเห็นได้เมื่อความสัมพันธ์ไม่สมมาตรและวิธีการที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (ซึ่งฉันคิดเสมอว่าเป็นการสรุปว่าเหมาะสมที่สุด)

6
ทำไม L1 จึงเป็นแบบอย่างสำหรับรุ่นที่กระจัดกระจาย
ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้น มีประโยคบางส่วนเกี่ยวกับบรรทัดฐาน L1 และ L2 ฉันรู้ว่าพวกเขาเพียงแค่ไม่เข้าใจว่าทำไมมาตรฐาน L1 สำหรับรุ่นที่กระจัดกระจาย ใครสามารถใช้คำอธิบายง่ายๆ?

3
คำอธิบายที่ใช้งานง่ายของหน่วยรูท
คุณจะอธิบายได้อย่างไรว่ารูทยูนิทรูทในบริบทของการทดสอบรูทยูนิตเป็นอย่างไร ฉันกำลังคิดถึงวิธีอธิบายอย่างที่ฉันได้ก่อตั้งขึ้นในคำถามนี้ กรณีที่มีหน่วยรูทคือฉันรู้ (เล็กน้อยโดยวิธี) ที่ใช้ทดสอบรูทยูนิตเพื่อทดสอบความคงที่ในอนุกรมเวลา แต่มันก็แค่นั้น คุณจะอธิบายเรื่องนี้กับคนทั่วไปหรือคนที่ศึกษาความน่าจะเป็นพื้นฐานและสถิติได้อย่างไร UPDATE ฉันยอมรับคำตอบของ whuber เพราะมันเป็นสิ่งที่สะท้อนถึงสิ่งที่ฉันถามมากที่สุดที่นี่ แต่ฉันขอให้ทุกคนที่มาที่นี่เพื่ออ่านคำตอบของ Patrick และ Michael เช่นกันเนื่องจากเป็น "ขั้นตอนต่อไป" โดยธรรมชาติในการทำความเข้าใจรูทยูนิต พวกเขาใช้คณิตศาสตร์ แต่ในวิธีที่ง่ายมาก

4
ความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและค่าเบี่ยงเบนมาตรฐาน
ฉันพยายามเข้าใจถึงความแตกต่างระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐาน มันแตกต่างกันอย่างไรและทำไมคุณต้องวัดความผิดพลาดมาตรฐาน?

7
วิธีเลือกระหว่างการทดสอบ t-test หรือ non-parametric เช่น Wilcoxon ในกลุ่มตัวอย่างขนาดเล็ก
สมมติฐานบางอย่างสามารถทดสอบได้โดยใช้นักศึกษาของT -test (อาจจะใช้การแก้ไขเวลช์การแปรปรวนไม่เท่ากันในกรณีที่สองตัวอย่าง) หรือโดยการทดสอบไม่ใช่ตัวแปรเช่น Wilcoxon จับคู่ลงนามในการทดสอบการจัดอันดับการทดสอบ Wilcoxon-Mann-Whitney U, หรือการทดสอบเครื่องหมายจับคู่ เราจะตัดสินใจอย่างมีหลักการเกี่ยวกับการทดสอบใดที่เหมาะสมที่สุดโดยเฉพาะอย่างยิ่งหากขนาดตัวอย่างเป็น "เล็ก" หลายตำราเบื้องต้นและบันทึกการบรรยายให้ "ผัง" วิธีการที่ปกติมีการตรวจสอบ (อย่างใดอย่างหนึ่ง - inadvisedly - โดยการทดสอบภาวะปกติหรือวงกว้างมากขึ้นโดยพล็อต QQหรือคล้ายกัน) ที่จะตัดสินใจระหว่างT -test หรือการทดสอบไม่ใช่ตัวแปร สำหรับ unpaired สองตัวอย่างT -test อาจจะมีการตรวจสอบต่อไปสำหรับความสม่ำเสมอของความแปรปรวนในการตัดสินใจว่าจะใช้การแก้ไขเวลช์ ปัญหาหนึ่งของวิธีนี้คือวิธีการตัดสินใจที่จะใช้การทดสอบขึ้นอยู่กับข้อมูลที่สังเกตและวิธีการนี้มีผลต่อประสิทธิภาพ (พลังงานอัตราความผิดพลาดประเภทที่ 1) ของการทดสอบที่เลือก ปัญหาอีกประการหนึ่งคือความยากลำบากในการตรวจสอบมาตรฐานอยู่ในชุดข้อมูลขนาดเล็ก: การทดสอบอย่างเป็นทางการมีพลังงานต่ำดังนั้นการละเมิดอาจไม่ถูกตรวจจับได้ดี แม้การละเมิดที่ร้ายแรงจะไม่สามารถตรวจจับได้เช่นหากมีการกระจายการผสม แต่ไม่มีการสังเกตจากส่วนประกอบหนึ่งของส่วนผสม ซึ่งแตกต่างจากขนาดใหญ่เราไม่สามารถพึ่งพาความปลอดภัยของทฤษฎีขีด จำกัด กลางและบรรทัดฐานเชิงเส้นกำกับของสถิติการทดสอบและการแจกแจงแบบtnnn หลักการหนึ่งในการตอบสนองต่อสิ่งนี้คือ "ปลอดภัยไว้ก่อน": ไม่มีทางที่จะพิสูจน์ความน่าเชื่อถือของสมมติฐานในตัวอย่างเล็ก ๆ อีกประการหนึ่งคือการพิจารณาเหตุใด ๆ สมมติว่าปกติในทางทฤษฎี (เช่นตัวแปรคือผลรวมของส่วนประกอบสุ่มหลาย CLT ใช้) หรือสังเกตุ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.