สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

30
มีวิธีในการจดจำคำจำกัดความของข้อผิดพลาด Type I และ Type II หรือไม่
ฉันไม่ใช่นักสถิติด้วยการศึกษาฉันเป็นวิศวกรซอฟต์แวร์ แต่สถิติเกิดขึ้นมากมาย ในความเป็นจริงคำถามที่เฉพาะเจาะจงเกี่ยวกับข้อผิดพลาดของ Type I และ Type II นั้นกำลังเกิดขึ้นมากมายในระหว่างการศึกษาของฉันสำหรับการสอบเพื่อการพัฒนาซอฟท์แวร์รองที่ได้รับการรับรอง (คณิตศาสตร์และสถิติคือ 10% ของการสอบ) ฉันมีปัญหาเกิดขึ้นเสมอกับคำจำกัดความที่ถูกต้องสำหรับข้อผิดพลาด Type I และ Type II - แม้ว่าฉันจะจำได้ตอนนี้ (และสามารถจดจำได้เกือบตลอดเวลา) แต่ฉันไม่ต้องการหยุดการสอบนี้ พยายามจดจำสิ่งที่แตกต่าง ฉันรู้ว่าข้อผิดพลาดประเภทที่ 1 นั้นเป็นค่าบวกเท็จหรือเมื่อคุณปฏิเสธสมมติฐานว่างเปล่าและมันเป็นจริงและข้อผิดพลาด Type II นั้นเป็นค่าลบที่ผิดพลาดหรือเมื่อคุณยอมรับสมมติฐานว่างและมันก็เป็นเท็จ มีวิธีง่าย ๆ ในการจดจำความแตกต่างเช่นตัวช่วยจำหรือไม่? นักสถิติมืออาชีพทำมันได้อย่างไร - มันเป็นแค่สิ่งที่พวกเขารู้จากการใช้หรือถกเถียงกันบ่อยๆ? (หมายเหตุด้านข้าง: คำถามนี้อาจใช้แท็กที่ดีกว่าได้สิ่งหนึ่งที่ฉันต้องการสร้างคือ "คำศัพท์" แต่ฉันไม่มีชื่อเสียงพอที่จะทำหากใครบางคนสามารถเพิ่มได้มันจะดีมากขอบคุณ)

2
เราน่ากลัวแค่ไหนเกี่ยวกับคำเตือนการบรรจบกันใน lme4
หากเราติดตั้ง glmer อีกครั้งเราอาจได้รับคำเตือนที่บอกเราว่าแบบจำลองกำลังค้นหาช่วงเวลาที่ยากลำบากในการบรรจบกัน ... เช่น >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) อีกวิธีในการตรวจสอบการสนทนาที่กล่าวถึงในหัวข้อนี้โดย @Ben Bolker คือ: relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 ถ้าmax(abs(relgrad))เป็นเช่น<0.001นั้นสิ่งที่อาจจะตกลง ... ดังนั้นในกรณีนี้เรามีผลลัพธ์ที่ขัดแย้งกัน? เราควรเลือกระหว่างวิธีการและรู้สึกปลอดภัยกับแบบจำลองของเราอย่างไร ในทางกลับกันเมื่อเราได้รับค่าสุดโต่งเช่น: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, …

3
การขาดอันดับคืออะไรและจะจัดการกับมันอย่างไร
การปรับการถดถอยโลจิสติกให้เหมาะสมโดยใช้lme4ลงท้ายด้วย Error in mer_finalize(ans) : Downdated X'X is not positive definite. สาเหตุที่เป็นไปได้ของข้อผิดพลาดนี้คือการขาดอันดับ การจัดอันดับบกพร่องคืออะไรและฉันควรจะแก้ไขอย่างไร
87 r  logistic  lme4-nlme 

5
อะไรคือความแตกต่างที่สำคัญระหว่าง K-Mean และ K- เพื่อนบ้านที่ใกล้ที่สุด?
ฉันรู้ว่า k-mean ไม่ได้รับการสำรองและใช้สำหรับการทำคลัสเตอร์ ฯลฯ และ k-NN นั้นได้รับการดูแล แต่ฉันต้องการรู้ความแตกต่างที่เป็นรูปธรรมระหว่างสองสิ่งนี้หรือไม่

2
เมื่อพิจารณาถึงพลังของคอมพิวเตอร์ในปัจจุบันมีเหตุผลที่จะทำการทดสอบแบบไคสแควร์มากกว่าการทดสอบที่แน่นอนของฟิชเชอร์หรือไม่?
เนื่องจากซอฟต์แวร์นั้นสามารถทำการคำนวณการทดสอบที่แน่นอนของ Fisher ได้อย่างง่ายดายในปัจจุบันมีสถานการณ์ใดที่การทดสอบไคสแควร์ดีกว่าการทดสอบที่แน่นอนของฟิชเชอร์จริงหรือไม่ ข้อดีของการทดสอบที่แน่นอนของฟิชเชอร์รวมถึง: สเกลไปยังตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2 (เช่นตารางr x cใด ๆ) ให้ค่า p ที่แน่นอน ไม่จำเป็นต้องมีจำนวนเซลล์ขั้นต่ำที่คาดว่าจะถูกต้อง

3
ตัวอย่างอะไรบ้างที่“ ไร้เดียงสา bootstrap” ล้มเหลว?
สมมติว่าฉันมีชุดข้อมูลตัวอย่างจากการแจกแจงที่ไม่รู้จักหรือซับซ้อนและฉันต้องการทำการอนุมานบนสถิติTTTของข้อมูล ความโน้มเอียงเริ่มต้นของฉันเป็นเพียงการสร้างพวงของตัวอย่างบูตด้วยการเปลี่ยนและคำนวณสถิติของฉันTTTในแต่ละตัวอย่างบูตเพื่อสร้างการกระจายประมาณสำหรับTTTT ตัวอย่างอะไรที่นี่เป็นความคิดที่ไม่ดี? ตัวอย่างเช่นกรณีหนึ่งที่การทำบูทสแตรปอย่างไร้เดียงสาจะล้มเหลวคือถ้าฉันพยายามใช้ bootstrap ในข้อมูลอนุกรมเวลา (พูดเพื่อทดสอบว่าฉันมีความสัมพันธ์อัตโนมัติที่สำคัญ) bootstrap ไร้เดียงสาที่อธิบายไว้ข้างต้น (การสร้างชุดข้อมูลที่iiiของชุดตัวอย่าง bootstrap ที่ n โดยการสุ่มตัวอย่างด้วยการแทนที่จากชุดเดิมของฉัน) จะ (ฉันคิดว่า) จะไม่ได้รับคำแนะนำเพราะมันละเว้นโครงสร้างในอนุกรมเวลาเดิมของฉัน รับเทคนิค bootstrap ที่นักเล่นชอบมากเช่น bootstrap บล็อก หากต้องการใช้วิธีอื่น Bootstrap จะมีอะไรอีกนอกเหนือจาก "การสุ่มตัวอย่างด้วยการแทนที่"

9
ช่วงเวลาของความมั่นใจคืออะไร
ฉันรู้ว่าช่วงความมั่นใจคืออะไรและอย่างไม่เป็นทางการ อย่างไรก็ตามฉันไม่สามารถคาดศีรษะรายละเอียดสำคัญ ๆ ไว้ได้: อ้างอิงจาก Wikipedia: ช่วงความเชื่อมั่นไม่ได้คาดการณ์ว่ามูลค่าที่แท้จริงของพารามิเตอร์มีความน่าจะเป็นโดยเฉพาะอย่างยิ่งที่จะอยู่ในช่วงความเชื่อมั่นที่ได้รับข้อมูลจริง ฉันเคยเห็นจุดที่คล้ายกันที่เกิดขึ้นในหลายแห่งบนเว็บไซต์นี้ คำจำกัดความที่ถูกต้องมากขึ้นจาก Wikipedia ก็คือ: หากช่วงความมั่นใจถูกสร้างขึ้นในการวิเคราะห์ข้อมูลที่แยกจากกันหลายครั้งของการทดลองซ้ำ (และอาจแตกต่างกัน) การทดลองสัดส่วนของช่วงเวลาดังกล่าวที่มีค่าจริงของพารามิเตอร์จะตรงกับระดับความเชื่อมั่นโดยประมาณ อีกครั้งฉันได้เห็นจุดที่คล้ายกันที่เกิดขึ้นในหลายแห่งบนเว็บไซต์นี้ ฉันไม่เข้าใจ ถ้าภายใต้การทดลองซ้ำส่วนของช่วงความเชื่อมั่นการคำนวณที่มีความจริงพารามิเตอร์คือแล้วว่าน่าจะเป็นที่สามารถอยู่ในช่วงความเชื่อมั่นคำนวณสำหรับการทดลองที่เกิดขึ้นจริงเป็นอะไรอื่นนอกจาก ? ฉันกำลังมองหาคำตอบต่อไปนี้:( 1 - α ) θ ( 1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) ชี้แจงความแตกต่างระหว่างคำจำกัดความที่ไม่ถูกต้องและคำนิยามที่ถูกต้องด้านบน คำจำกัดความที่เป็นทางการและแม่นยำของช่วงความมั่นใจที่แสดงให้เห็นอย่างชัดเจนว่าเหตุใดคำจำกัดความแรกจึงไม่ถูกต้อง ตัวอย่างที่ชัดเจนของกรณีที่คำจำกัดความแรกผิดอย่างน่าทึ่งแม้ว่าโมเดลต้นแบบนั้นจะถูกต้อง

9
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าทำไมความสัมพันธ์หลายระดับเป็นปัญหาในการถดถอยเชิงเส้น?
wiki กล่าวถึงปัญหาที่เกิดขึ้นเมื่อmulticollinearityเป็นปัญหาในการถดถอยเชิงเส้น ปัญหาพื้นฐานคือความสัมพันธ์ระหว่างกันหลายค่าทำให้การประมาณค่าพารามิเตอร์ไม่เสถียรซึ่งทำให้ยากที่จะประเมินผลของตัวแปรอิสระต่อตัวแปรตาม ผมเข้าใจเหตุผลทางเทคนิคที่อยู่เบื้องหลังปัญหา (อาจจะไม่สามารถที่จะกลับป่วยปรับอากาศฯลฯ ) แต่ฉันกำลังมองหาง่ายขึ้น (อาจเรขาคณิต?) คำอธิบายสำหรับปัญหานี้X ′ XX′XX′XX' XX′XX′XX' X มีรูปแบบทางเรขาคณิตหรือคำอธิบายรูปแบบอื่น ๆ ที่เข้าใจได้ง่ายว่าทำไมความสัมพันธ์หลากหลายรูปแบบเป็นปัญหาในบริบทของการถดถอยเชิงเส้น?

17
รวมถึงการมีปฏิสัมพันธ์ แต่ไม่ใช่ผลกระทบหลักในแบบจำลอง
มันเคยถูกต้องหรือไม่ที่จะรวมการโต้ตอบสองทางในแบบจำลองโดยไม่รวมถึงเอฟเฟกต์หลัก ๆ ? ถ้าสมมติฐานของคุณเกี่ยวกับการมีปฏิสัมพันธ์เพียงอย่างเดียวคุณยังจำเป็นต้องใส่เอฟเฟกต์หลัก ๆ หรือไม่?

24
กฎง่ายๆสำหรับสถิติ "ทันสมัย"
ฉันชอบหนังสือ G Van Belle เกี่ยวกับกฎทางสถิติของ Thumbและข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง)จาก Phillip I Good และ James W. Hardin ข้อผิดพลาดเหล่านี้จะจัดการกับข้อผิดพลาดทั่วไปเมื่อตีความผลลัพธ์จากการศึกษาเชิงทดลองและเชิงสังเกตการณ์และให้คำแนะนำเชิงปฏิบัติสำหรับการอนุมานเชิงสถิติหรือการวิเคราะห์ข้อมูลเชิงสำรวจ แต่ฉันรู้สึกว่าแนวทาง "ทันสมัย" ค่อนข้างขาดโดยเฉพาะอย่างยิ่งการใช้สถิติการคำนวณและการใช้งานที่เพิ่มขึ้นอย่างต่อเนื่องในหลาย ๆ ด้านหรือการแนะนำเทคนิคจากชุมชนการเรียนรู้ของเครื่องจักรเช่นชีวสถิติคลินิกหรือระบาดวิทยาทางพันธุกรรม นอกเหนือจากเทคนิคการคำนวณหรือข้อผิดพลาดทั่วไปในการสร้างภาพข้อมูลซึ่งสามารถแก้ไขได้ที่อื่นฉันต้องการถาม: อะไรคือกฎสูงสุดของหัวแม่มือที่คุณอยากจะแนะนำสำหรับการวิเคราะห์ข้อมูลที่มีประสิทธิภาพ? ( หนึ่งกฎต่อคำตอบโปรด ) ฉันกำลังคิดถึงแนวทางที่คุณอาจมอบให้กับเพื่อนร่วมงานนักวิจัยที่ไม่มีพื้นฐานด้านการสร้างแบบจำลองทางสถิติที่ดีหรือนักเรียนในระดับกลางถึงระดับสูง สิ่งนี้อาจเกี่ยวข้องกับขั้นตอนต่าง ๆ ของการวิเคราะห์ข้อมูลเช่นกลยุทธ์การสุ่มตัวอย่างการเลือกคุณสมบัติหรือการสร้างแบบจำลองการเปรียบเทียบแบบจำลองการประมาณค่าภายหลัง ฯลฯ

16
ภายใต้เงื่อนไขใดที่ความสัมพันธ์บ่งบอกถึงสาเหตุ?
เราทุกคนรู้ว่ามนต์ "ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ" ซึ่งตีกลองในนักเรียนสถิติปีแรกทั้งหมด มีตัวอย่างที่ดีที่นี่เพื่อแสดงความคิด แต่บางครั้งความสัมพันธ์ก็บอกเป็นนัยถึงสาเหตุ ตัวอย่างต่อไปนี้มาจากหน้า Wikipedia นี้ ตัวอย่างเช่นเราสามารถทำการทดสอบในฝาแฝดที่เหมือนกันซึ่งเป็นที่ทราบกันว่าได้คะแนนที่เท่ากันในการทดสอบ คู่หนึ่งถูกส่งไปเรียนหกชั่วโมงขณะที่อีกคู่ถูกส่งไปที่สวนสนุก หากคะแนนการทดสอบของพวกเขาแตกต่างกันไปในระดับใหญ่สิ่งนี้จะเป็นหลักฐานที่ชัดเจนว่าการศึกษา (หรือไปที่สวนสนุก) มีผลต่อคะแนนการทดสอบ ในกรณีนี้ความสัมพันธ์ระหว่างการเรียนและคะแนนการทดสอบจะบอกเป็นนัยถึงสาเหตุ มีสถานการณ์อื่นที่ความสัมพันธ์หมายถึงสาเหตุหรือไม่

4
วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม
ฉันมีโมเดลเอฟเฟ็กต์แบบผสมไม่กี่แบบ (โดยเฉพาะอย่างยิ่งแบบจำลองตามยาว) ที่ใช้lme4ในRแต่ต้องการที่จะเชี่ยวชาญโมเดลและโค้ดที่ไปกับพวกเขาจริงๆ อย่างไรก็ตามก่อนที่จะดำน้ำด้วยเท้าทั้งสองข้าง (และซื้อหนังสือ) ฉันต้องการให้แน่ใจว่าฉันกำลังเรียนรู้ห้องสมุดที่ถูกต้อง ฉันเคยชินlme4กับตอนนี้เพราะฉันเพิ่งพบว่าง่ายกว่าnlmeแต่ถ้าnlmeดีกว่าสำหรับวัตถุประสงค์ของฉันฉันก็รู้สึกว่าฉันควรจะใช้มัน ฉันแน่ใจว่าไม่มี "ดีกว่า" ในวิธีที่ง่าย แต่ฉันจะให้คุณค่าความคิดเห็นหรือความคิดบางอย่าง เกณฑ์หลักของฉันคือ: ใช้งานง่าย (ฉันเป็นนักจิตวิทยาโดยการฝึกอบรมและไม่เฉพาะในสถิติหรือการเข้ารหัส แต่ฉันกำลังเรียนรู้) คุณสมบัติที่ดีสำหรับการติดตั้งข้อมูลตามยาว (ถ้ามีความแตกต่างตรงนี้ - แต่นี่คือสิ่งที่ฉันใช้เป็นหลัก) สรุปกราฟิกที่ดี (ง่ายต่อการตีความ) อีกครั้งไม่แน่ใจว่ามีความแตกต่างที่นี่หรือไม่ แต่ฉันมักจะสร้างกราฟสำหรับคนที่มีความเชี่ยวชาญด้านเทคนิคน้อยกว่าฉันดังนั้นพล็อตที่ชัดเจนดีจึงเป็นสิ่งที่ดีเสมอ () สำหรับเหตุผลนี้). ตามปกติหวังว่าคำถามนี้จะไม่คลุมเครือเกินไปและขอบคุณล่วงหน้าสำหรับภูมิปัญญาใด ๆ !

8
ถ้าหมายถึงอ่อนไหวทำไมใช้มันตั้งแต่แรก?
มันเป็นความจริงที่รู้จักกันว่าค่ามัธยฐานสามารถทนต่อค่าผิดปกติ ถ้าเป็นเช่นนั้นเราจะใช้ค่าเริ่มต้นเมื่อใดและทำไม สิ่งหนึ่งที่ฉันสามารถนึกได้ก็คือเข้าใจว่ามีค่าผิดปกติเช่นถ้าค่ามัธยฐานอยู่ห่างจากค่าเฉลี่ยจากนั้นการแจกแจงจะเบ้และอาจต้องมีการตรวจสอบข้อมูลเพื่อตัดสินใจว่าจะทำอย่างไรกับค่าผิดปกติ มีการใช้อื่น ๆ ?

1
จะใช้เครือข่ายประสาทกับการพยากรณ์อนุกรมเวลาได้อย่างไร
ฉันยังใหม่กับการเรียนรู้ของเครื่องและฉันพยายามหาวิธีใช้เครือข่ายประสาทเทียมกับการพยากรณ์อนุกรมเวลา ฉันพบทรัพยากรที่เกี่ยวข้องกับข้อความค้นหาของฉัน แต่ดูเหมือนว่าจะหายไปเล็กน้อย ฉันคิดว่าคำอธิบายพื้นฐานที่ไม่มีรายละเอียดมากเกินไปจะช่วยได้ สมมติว่าฉันมีค่าราคาสำหรับแต่ละเดือนในช่วงสองสามปีที่ผ่านมาและฉันต้องการทำนายราคาใหม่ ฉันสามารถรับรายการราคาในช่วงสองสามเดือนที่ผ่านมาและลองหาแนวโน้มที่คล้ายกันในอดีตโดยใช้ K-ใกล้เคียงที่สุด - เพื่อนบ้าน ฉันสามารถใช้อัตราการเปลี่ยนแปลงหรือคุณสมบัติอื่น ๆ ของแนวโน้มในอดีตเพื่อลองและคาดการณ์ราคาใหม่ ฉันจะใช้เครือข่ายประสาทเทียมกับปัญหาเดียวกันนี้ได้อย่างไรคือสิ่งที่ฉันพยายามค้นหา

2
เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย
ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS? ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.