สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เปรียบเทียบเส้นโค้งที่ราบเรียบเทียบกับเหลืองเพื่อให้เรียบ
ฉันต้องการเข้าใจข้อดีข้อเสียของการใช้เส้นเหลืองหรือเส้นโค้งที่ราบเรียบเพื่อให้เส้นโค้งเรียบขึ้น อีกรูปแบบของคำถามของฉันคือถ้ามีวิธีสร้าง spline ที่ปรับให้เรียบในลักษณะที่จะให้ผลลัพธ์เหมือนกับการใช้เหลือง ยินดีต้อนรับการอ้างอิงหรือข้อมูลเชิงลึกใด ๆ

3
พล็อตการตีความของส่วนที่เหลือเทียบกับค่าติดตั้งจากการถดถอยปัวซอง
ฉันกำลังพยายามปรับให้พอดีกับข้อมูลด้วย GLM (การถดถอยปัวซอง) ในอาร์เมื่อฉันพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งพล็อตที่สร้างหลาย ๆ (เกือบเป็นเส้นตรง สิ่งนี้หมายความว่า? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

2
ความแตกต่างระหว่างตัวกรองคาลมานและค่าเฉลี่ยเคลื่อนที่คืออะไร
ฉันกำลังคำนวณตัวกรองคาลมานที่ง่ายมาก (รุ่นเดินสุ่ม + เสียงรบกวน) ฉันพบว่าผลลัพธ์ของตัวกรองนั้นใกล้เคียงกับค่าเฉลี่ยเคลื่อนที่มาก มีความเท่าเทียมกันระหว่างสองหรือไม่ ถ้าไม่ต่างกันคืออะไร

4
Ziliak (2011) คัดค้านการใช้ค่า p และกล่าวถึงทางเลือกบางอย่าง พวกเขาคืออะไร
ในบทความล่าสุดที่กล่าวถึง demerits ของการพึ่งพา p-value สำหรับการอนุมานเชิงสถิติเรียกว่า"Matrixx v. Siracusano และ Student v. Fisher นัยสำคัญทางสถิติในการทดลอง" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak คัดค้านการใช้ค่า p ในย่อหน้าสุดท้ายเขาพูดว่า: ข้อมูลเป็นสิ่งหนึ่งที่เรารู้และแน่นอน สิ่งที่เราต้องการทราบจริง ๆ คือสิ่งที่แตกต่างกันมาก: ความน่าจะเป็นของสมมติฐานที่เป็นจริง (หรืออย่างน้อยก็มีประโยชน์ในทางปฏิบัติ) จากข้อมูลที่เรามี เราต้องการทราบความน่าจะเป็นที่ยาทั้งสองนั้นแตกต่างกันและได้รับหลักฐานเท่าใด การทดสอบอย่างมีนัยสำคัญ - ขึ้นอยู่กับการเข้าใจผิดของเงื่อนไขการย้ายกับดักที่ฟิชเชอร์ล้มลง - ไม่ได้และไม่สามารถบอกเราว่าน่าจะเป็น ฟังก์ชั่นพลังงาน, ฟังก์ชั่นการสูญเสียที่คาดหวังและวิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ อีกมากมายที่สืบทอดมาจาก Student และ Jeffreys ซึ่งตอนนี้มีให้ใช้กันอย่างแพร่หลายและออนไลน์ฟรี ฟังก์ชั่นพลังงานฟังก์ชั่นการสูญเสียที่คาดหวังและ "วิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ " คืออะไร? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายหรือไม่? พวกเขามีอยู่ใน …

1
การสร้างช่วงความมั่นใจโดยพิจารณาจากความน่าจะเป็นของโปรไฟล์
ในหลักสูตรสถิติเบื้องต้นของฉันฉันได้เรียนรู้วิธีสร้างช่วงความมั่นใจ 95% เช่นค่าเฉลี่ยประชากรโดยยึดตามมาตรฐานเชิงเส้นกำกับสำหรับขนาดตัวอย่าง "ใหญ่" นอกเหนือจากresampling วิธี (เช่นบูต) มีวิธีการอื่นที่อยู่บนพื้นฐานของ"ความน่าจะเป็นรายละเอียด" มีคนอธิบายแนวทางนี้ได้ไหมμμ\mu ภายใต้สถานการณ์ใด CI 95% ที่สร้างขึ้นตามเกณฑ์เชิงเส้นกำกับและความน่าจะเป็นของโปรไฟล์นั้นเทียบเคียงได้อย่างไร ฉันไม่พบการอ้างอิงใด ๆ ในหัวข้อนี้การอ้างอิงที่แนะนำใด ๆ ทำไมมันไม่ใช้กันอย่างแพร่หลายมากขึ้น?

5
ทำไมต้องใช้วิธีมอนติคาร์โลแทนกริดแบบธรรมดา
เมื่อรวมฟังก์ชั่นหรือในการจำลองที่ซับซ้อนฉันได้เห็นวิธีการมอนติคาร์โลถูกนำมาใช้อย่างกว้างขวาง ฉันถามตัวเองว่าทำไมไม่มีใครสร้างกริดของจุดเพื่อรวมฟังก์ชั่นแทนการวาดจุดสุ่ม จะไม่ให้ผลลัพธ์ที่แน่นอนมากขึ้นหรือไม่

2
เมื่อใดที่ฉัน * ไม่ * ใช้ฟังก์ชัน nlm ของ R สำหรับ MLE
ฉันวิ่งข้ามคู่มือแนะนำว่าฉันใช้ nlm ของ R สำหรับการประเมินความเป็นไปได้สูงสุด แต่ไม่มีของพวกเขา (รวมถึงเอกสารประกอบของ R ) ให้คำแนะนำเชิงทฤษฎีมากสำหรับเมื่อใช้หรือไม่ใช้ฟังก์ชัน เท่าที่ฉันสามารถบอกได้ nlm ก็แค่ทำการลดระดับความลาดชันตามวิธีการของนิวตัน มีหลักการเมื่อมีเหตุอันควรที่จะใช้วิธีการนี้หรือไม่? มีทางเลือกอะไรบ้าง? นอกจากนี้ยังมีข้อ จำกัด เกี่ยวกับขนาดของอาร์เรย์และอื่น ๆ อย่างใดอย่างหนึ่งสามารถส่งไปยัง nlm?

7
เหตุใดจึงมีการเข้ารหัสรหัสเพศ 0/1 แทนที่จะเป็น 1/2
ฉันเข้าใจตรรกะของการเข้ารหัสสำหรับการวิเคราะห์ข้อมูล คำถามของฉันด้านล่างเป็นการใช้รหัสเฉพาะ มีเหตุผลใดที่รหัสเพศมักจะเป็น 0 สำหรับผู้หญิงและ 1 สำหรับผู้ชาย? ทำไมการเข้ารหัสนี้จึงถือเป็น 'มาตรฐาน' เปรียบเทียบสิ่งนี้กับหญิง = 1 และชาย = 2 มีปัญหากับการเข้ารหัสนี้หรือไม่?

2
PCA ไม่เสถียรภายใต้ความหลากสีหรือไม่
ฉันรู้ว่าในสถานการณ์การถดถอยหากคุณมีชุดของตัวแปรที่มีความสัมพันธ์สูงซึ่งมักจะเป็น "ไม่ดี" เนื่องจากความไม่แน่นอนของค่าสัมประสิทธิ์โดยประมาณ คำถามของฉันคือว่า "ความเลวร้าย" นี้ยังคงอยู่ในสถานการณ์ PCA หรือไม่ ค่าสัมประสิทธิ์ / การโหลด / น้ำหนัก / eigenvectors สำหรับพีซีใด ๆ โดยเฉพาะกลายเป็นไม่เสถียร / โดยพลการ / ไม่ซ้ำกันเป็นเมทริกซ์ความแปรปรวนร่วมกลายเป็นเอกพจน์? ฉันสนใจเป็นพิเศษในกรณีที่มีเพียงส่วนประกอบหลักแรกเท่านั้นที่ถูกเก็บไว้และอื่น ๆ ทั้งหมดจะถูกไล่ออกเป็น "เสียงรบกวน" หรือ "อย่างอื่น" หรือ "ไม่สำคัญ" ฉันไม่คิดว่ามันจะเป็นเช่นนั้นเพราะคุณจะเหลือองค์ประกอบหลักเพียงไม่กี่ตัวที่มีค่าศูนย์หรือใกล้เคียงกับค่าความแปรปรวนเป็นศูนย์ ดูง่ายกรณีนี้ไม่ได้เป็นในกรณีที่ง่ายมากที่มี 2 ตัวแปร - สมมติว่าพวกเขามีความสัมพันธ์อย่างสมบูรณ์ จากนั้นพีซีเครื่องแรกจะมีความสัมพันธ์เชิงเส้นตรงและพีซีเครื่องที่สองจะตั้งฉากกับพีซีเครื่องแรกโดยมีค่าพีซีทั้งหมดเท่ากับศูนย์สำหรับการสังเกตทั้งหมด (เช่นศูนย์แปรปรวน) สงสัยว่าถ้ามันทั่วไปมากขึ้น

2
โมเดลเชิงเส้นทั่วไปเทียบกับโมเดลเชิงเส้นทั่วไป (พร้อมฟังก์ชันลิงก์เอกลักษณ์)
นี่เป็นโพสต์แรกของฉันดังนั้นโปรดช่วยฉันถ้าฉันไม่ปฏิบัติตามมาตรฐาน! ฉันค้นหาคำถามและไม่มีอะไรเกิดขึ้น คำถามของฉันเกี่ยวข้องกับความแตกต่างในทางปฏิบัติระหว่างการสร้างแบบจำลองเชิงเส้นทั่วไป (GLM) และการสร้างแบบจำลองเชิงเส้นทั่วไป (GZLM) ในกรณีของฉันมันจะเป็นตัวแปรต่อเนื่องไม่กี่อย่างในรูปของโควาเรียตและอีกสองสามปัจจัยใน ANCOVA เทียบกับ GZLM ฉันต้องการตรวจสอบผลกระทบหลักของตัวแปรแต่ละตัวรวมถึงการโต้ตอบสามทางเดียวที่ฉันจะร่างในแบบจำลอง ฉันสามารถเห็นสมมติฐานนี้กำลังทดสอบใน ANCOVA หรือใช้ GZLM ในระดับหนึ่งฉันเข้าใจกระบวนการทางคณิตศาสตร์และการให้เหตุผลเบื้องหลังการใช้โมเดลเชิงเส้นทั่วไปเช่น ANCOVA และฉันค่อนข้างเข้าใจว่า GZLMs อนุญาตให้ฟังก์ชันลิงก์เชื่อมต่อโมเดลเชิงเส้นและตัวแปรตาม (ตกลงฉันโกหกบางทีฉันอาจไม่ เข้าใจคณิตศาสตร์จริงๆ) สิ่งที่ฉันไม่ชอบจริงๆ ไม่เข้าใจว่ามีความแตกต่างในทางปฏิบัติหรือเหตุผลในการดำเนินการวิเคราะห์หนึ่งและไม่ใช่อีกอย่างเมื่อการแจกแจงความน่าจะเป็นที่ใช้ใน GZLM เป็นปกติ (เช่นฟังก์ชั่นลิงค์ตัวตน?) ฉันได้ผลลัพธ์ที่แตกต่างกันมากเมื่อฉันวิ่งไปอีกอันหนึ่ง ฉันจะวิ่งได้ไหม ข้อมูลของฉันค่อนข้างไม่ปกติ แต่ทำงานได้ในระดับหนึ่งทั้งใน ANCOVA และ GZLM ในทั้งสองกรณีสมมติฐานของฉันได้รับการสนับสนุน แต่ใน GZLM ค่า p คือ "ดีกว่า" ความคิดของฉันคือ ANCOVA เป็นโมเดลเชิงเส้นที่มีตัวแปรตามการกระจายตามปกติโดยใช้ฟังก์ชั่นลิงค์ตัวตนซึ่งเป็นสิ่งที่ฉันสามารถป้อนใน GZLM ได้ แต่สิ่งเหล่านี้ยังคงแตกต่างกัน โปรดอธิบายคำถามเหล่านี้ให้ฉันฟังหน่อยถ้าคุณทำได้! จากคำตอบแรกฉันมีคำถามเพิ่มเติม: หากพวกเขาเหมือนกันยกเว้นการทดสอบนัยสำคัญที่ใช้ …

2
การทดสอบอัตราส่วนความน่าจะเป็นใน R
สมมติว่าฉันจะทำการถดถอยแบบลอจิสติกที่ไม่มีตัวแปรในตัวแปรอิสระหลายตัวเช่นนี้ mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) ฉันทำการเปรียบเทียบแบบจำลอง (การทดสอบอัตราส่วนความน่าจะเป็น) เพื่อดูว่าแบบจำลองนั้นดีกว่าตัวแบบโมฆะโดยคำสั่งนี้หรือไม่ 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) จากนั้นฉันสร้างโมเดลอื่นพร้อมตัวแปรทั้งหมดในนั้น mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) เพื่อดูว่าตัวแปรมีนัยสำคัญทางสถิติในโมเดลหลายตัวแปรหรือไม่ฉันใช้lrtestคำสั่งจากepicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically …
25 r  logistic  diagnostic 

4
การระบุความไม่แน่นอนของโมเดล
ฉันสงสัยว่า Bayesians ในชุมชน CrossValidated มองปัญหาความไม่แน่นอนของโมเดลอย่างไรและพวกเขาต้องการจัดการกับปัญหาอย่างไร ฉันจะพยายามตั้งคำถามของฉันในสองส่วน: ความสำคัญ (ในประสบการณ์ / ความคิดเห็นของคุณ) มีความสำคัญต่อความไม่แน่นอนของแบบจำลองอย่างไร ฉันไม่พบเอกสารใด ๆ ที่เกี่ยวข้องกับปัญหานี้ในชุมชนการเรียนรู้ของเครื่องดังนั้นฉันแค่สงสัยว่าทำไม อะไรคือวิธีการทั่วไปในการจัดการกับความไม่แน่นอนของแบบจำลอง (คะแนนโบนัสหากคุณให้การอ้างอิง) ฉันได้ยินเกี่ยวกับค่าเฉลี่ยของแบบจำลอง Bayesian แต่ฉันไม่คุ้นเคยกับเทคนิค / ข้อ จำกัด เฉพาะของวิธีการนี้ อะไรคือคนอื่นบ้างและทำไมคุณถึงชอบมากกว่ากัน?


3
ตัวแยกประเภทห้าอันดับแรกที่ควรลองก่อน
นอกจากลักษณะลักษณนามที่ชัดเจนเช่น ค่าใช้จ่ายในการคำนวณ คุณลักษณะ / ป้ายกำกับและประเภทข้อมูลที่คาดหวัง ความเหมาะสมสำหรับขนาดและมิติของชุดข้อมูล ตัวแยกประเภทห้าอันดับแรก (หรือ 10, 20)) ที่ควรลองใช้กับชุดข้อมูลใหม่เป็นอันดับแรกยังไม่ทราบมากนัก (เช่นความหมายและความสัมพันธ์ของคุณลักษณะส่วนบุคคล) ฉันมักจะลอง Naive Bayes, เพื่อนบ้านที่ใกล้ที่สุด, Decision Tree และ SVM - แม้ว่าฉันจะไม่มีเหตุผลที่ดีสำหรับการเลือกนี้นอกเหนือจากที่ฉันรู้จักพวกเขาและส่วนใหญ่เข้าใจว่าพวกเขาทำงานอย่างไร ฉันเดาว่าควรเลือกตัวแยกประเภทที่ครอบคลุมวิธีการจำแนกประเภททั่วไปที่สำคัญที่สุด คุณจะแนะนำตัวเลือกใดตามเกณฑ์นั้นหรือด้วยเหตุผลอื่นใด UPDATE:การกำหนดทางเลือกสำหรับคำถามนี้อาจเป็น: "วิธีการทั่วไปในการจำแนกประเภทใดที่มีอยู่และวิธีการเฉพาะใดที่ครอบคลุมวิธีที่สำคัญที่สุด / เป็นที่นิยม / มีแนวโน้ม?"

4
คำถามสัมภาษณ์อะมีบา
ฉันถูกถามคำถามนี้ในระหว่างการสัมภาษณ์ตำแหน่งการซื้อขายกับ บริษัท การค้าที่เป็นกรรมสิทธิ์ ฉันอยากรู้คำตอบสำหรับคำถามนี้และปรีชาที่อยู่เบื้องหลัง คำถามอะมีบา: ประชากรของอะมีบาเริ่มต้นด้วย 1 หลังจาก 1 ช่วงเวลาที่อะมีบาสามารถแบ่งออกเป็น 1, 2, 3, หรือ 0 (มันสามารถตายได้) ด้วยความน่าจะเป็นที่เท่ากัน ความน่าจะเป็นที่ประชากรทั้งหมดจะตายในที่สุดคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.