สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
วิธีการตรวจสอบเมื่อแบบจำลองการถดถอยมีความเหมาะสมมากเกินไป?
เมื่อคุณเป็นคนหนึ่งในการทำงานตระหนักถึงสิ่งที่คุณกำลังทำอยู่คุณพัฒนาความรู้สึกเมื่อคุณมีแบบจำลองที่พอดี สิ่งหนึ่งที่คุณสามารถติดตามแนวโน้มหรือการเสื่อมสภาพได้ใน Adjusted R Square ของโมเดล คุณสามารถติดตามการเสื่อมสภาพที่คล้ายกันในค่า p ของสัมประสิทธิ์การถดถอยของตัวแปรหลัก แต่เมื่อคุณเพิ่งอ่านคนอื่นศึกษาและคุณไม่มีความเข้าใจในกระบวนการพัฒนาแบบจำลองภายในของพวกเขาเองคุณจะสามารถตรวจพบอย่างชัดเจนว่าแบบจำลองนั้นเหมาะสมหรือไม่อย่างไร

2
การจัดการข้อผิดพลาดกับเส้นทาง GPS (กรอบทฤษฎี)
ฉันกำลังมองหากรอบทางทฤษฎีที่เหมาะสมหรือพิเศษเพื่อช่วยฉันจัดการกับการทำความเข้าใจวิธีจัดการกับข้อผิดพลาดที่ระบบ GPS มี - โดยเฉพาะเมื่อจัดการกับเส้นทาง โดยพื้นฐานฉันกำลังมองหาข้อกำหนดเกี่ยวกับข้อมูลและอัลกอริทึมใด ๆ ที่ใช้เพื่อให้สามารถสร้างความยาวของรอยทาง คำตอบนั้นต้องเชื่อถือได้ เพื่อนคนหนึ่งของฉันคือผู้กำกับการแข่งขันของการแข่งขันซึ่งถูกเรียกเก็บเงินเป็น 160 กม. แต่ Garmin เฝ้าดูทุกคนทำให้มันเหมือนกับ 190km + มันทำให้เกิดความโศกเศร้าบ้างที่เส้นชัยขอผมบอกคุณ! ดังนั้นเพื่อนของฉันกลับไปที่หลักสูตรพร้อมอุปกรณ์ GPS ต่างๆเพื่อทำการแมปใหม่และผลลัพธ์น่าสนใจ ใช้มือถือ Garmin Oregon 300 เธอมี 33.7km สำหรับขาข้างหนึ่ง สำหรับขาเดียวกันบนนาฬิกาข้อมือ Garmin Forerunner 310xt มันออกมาได้ 38.3km เมื่อฉันได้รับข้อมูลจากโอเรกอนมันชัดเจนว่ามันเป็นเพียงการบันทึกข้อมูลทุก ๆ 90 วินาทีหรือมากกว่านั้น ผู้เบิกทางทำทุกสองวินาที เมื่อฉันวางแผนข้อมูลจากโอเรกอนฉันจะเห็นว่ามันเกิดความสับสนด้วยการสลับกลับบางส่วนและวางเส้นตรงผ่านพวกเขาและเส้นโค้งก็ลดลงเล็กน้อย อย่างไรก็ตามฉันคิดว่าความแตกต่างของความถี่ในการบันทึกนั้นเป็นคำอธิบายที่มาก เช่นโดยการบันทึกทุก ๆ สองสามวินาทีผู้เบิกทางใกล้กับเส้นทางจริง อย่างไรก็ตามจะมีข้อผิดพลาดจำนวนหนึ่งเนื่องจากวิธีการทำงานของ GPS หากคะแนนที่บันทึกถูกกระจายไปทั่วเส้นทางจริงแบบสุ่ม (เนื่องจากข้อผิดพลาด) ระยะทางทั้งหมดจะใหญ่กว่าเส้นทางจริง (เส้นกระดิกไปด้านใดด้านหนึ่งของเส้นตรงยาวกว่าเส้นตรง) …
14 error  sampling 

1
วิธีที่จะทำให้ปิรามิดอายุเหมือนพล็อตใน R?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ Age pyramid มีลักษณะดังนี้: ฉันต้องการทำสิ่งที่คล้ายกันนั่นคือ 2 barplots (ไม่ใช่ histograms) ที่มีหมวดหมู่เดียวกันหมุนในแนวตั้งและขยายไปทั้งสองด้านเหมือนกับในปิรามิด มันเป็นวิธีง่ายๆในการทำเช่นนี้ใน R? มันก็ดีที่จะควบคุมสีของแต่ละแท่ง

3
โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่?
เพื่อนร่วมงานคนหนึ่งในสำนักงานของฉันพูดกับฉันในวันนี้ว่า "แบบจำลองต้นไม้ไม่ดีเพราะพวกเขาถูกจับด้วยการสังเกตอย่างหนัก" การค้นหาที่นี่ส่งผลให้เธรดนี้รองรับการอ้างสิทธิ์โดยทั่วไป ข้อใดทำให้ฉันมีคำถาม - โมเดลรถเข็น CART ในสถานการณ์ใดจะมีประสิทธิภาพและจะแสดงได้อย่างไร?

4
LOESS ที่ช่วยให้ไม่ต่อเนื่อง
มีเทคนิคการสร้างแบบจำลองเช่นLOESSที่อนุญาตให้มีศูนย์ไม่ต่อเนื่องหนึ่งหรือมากกว่านั้นซึ่งเวลาที่ไม่ต่อเนื่องไม่เป็นที่รู้จัก apriori? หากเทคนิคมีอยู่จะมีการนำไปใช้ใน R หรือไม่?

2
เหตุใดการประมาณข้อผิดพลาด OOB ฟอเรสต์แบบสุ่มจึงดีขึ้นเมื่อจำนวนของคุณสมบัติที่เลือกลดลง
ฉันใช้อัลกอริธึมฟอเรสต์แบบสุ่มเป็นตัวจําแนกในชุดข้อมูลขนาดเล็กซึ่งแบ่งออกเป็นสองกลุ่มที่รู้จักพร้อมกับคุณลักษณะ 1000s หลังจากรันครั้งแรกฉันดูความสำคัญของฟีเจอร์และเรียกใช้อัลกอริทึมแบบทรีอีกครั้งด้วยฟีเจอร์ที่สำคัญที่สุด 5, 10 และ 20 ฉันพบว่าสำหรับฟีเจอร์ทั้งหมดอันดับ 10 และ 20 ที่การประเมิน OOB ของอัตราข้อผิดพลาดคือ 1.19% ซึ่งสำหรับฟีเจอร์ 5 อันดับแรกนั้นคือ 0% นี่ดูเหมือนจะขัดกับฉันดังนั้นฉันจึงสงสัยว่าคุณจะอธิบายได้หรือไม่ว่าฉันขาดอะไรไปหรือฉันใช้เมตริกที่ไม่ถูกต้อง ฉันใช้แพ็คเกจ randomForest ใน R กับ ntree = 1,000, nodesize = 1 และ mtry = sqrt (n)

3
ผังงานเพื่อช่วยในการเลือกเทคนิคการวิเคราะห์และทดสอบที่เหมาะสม
ในฐานะคนที่ต้องการความรู้ทางสถิติ แต่ไม่ใช่นักสถิติที่ได้รับการฝึกฝนอย่างเป็นทางการฉันคิดว่ามันมีประโยชน์ที่จะมีแผนผังลำดับงาน (หรือต้นไม้แห่งการตัดสินใจบางอย่าง) เพื่อช่วยฉันเลือกวิธีที่ถูกต้องในการแก้ปัญหาเฉพาะเจาะจง ต้องการสิ่งนี้และรู้ว่าและนั่นและพิจารณาว่าข้อมูลจะกระจายตามปกติหรือไม่ใช้เทคนิค X หากข้อมูลไม่ปกติให้ใช้ Y หรือ Z ") หลังจากgooglingฉันได้เห็นความพยายามและคุณภาพที่หลากหลาย (ในขณะนี้ยังไม่พร้อม) ฉันเคยเห็นผังงานที่คล้ายกันในตำราเรียนสถิติที่ฉันเคยปรึกษาในห้องสมุด โบนัสจะเป็นเว็บไซต์เชิงโต้ตอบที่นอกเหนือจากการมีแผนภูมิจะให้ข้อมูลเพิ่มเติม (เช่นสมมติฐาน) และชี้ไปที่วิธีการปฏิบัติเทคนิคเหล่านั้นในแพ็คเกจสถิติยอดนิยม "ต้องการทำ ANOVA ใน R หรือไม่คุณต้องมีแพ็คเกจ X และนี่คือบทช่วยสอน" ฉันถามคำถามชุมชนด้วยความหวังว่ามีแหล่งข้อมูลที่ดีกว่าที่ฉันไม่สามารถหาได้ เนื่องจากสถิติเป็นวิชาที่มีขนาดใหญ่ฉันคิดว่าผังงานดังกล่าวจะเหมาะสำหรับเทคนิคที่สามารถเข้าถึงได้โดยผู้ที่มีความรู้ระดับเริ่มต้นหรือระดับกลาง อะไรที่ซับซ้อนกว่านี้ก็ต้องมีใครสักคนที่มีการฝึกฝนอย่างเป็นทางการ

3
แพคเกจ R สำหรับการถดถอยโลจิสติกผลคงที่
ฉันกำลังมองหาRแพคเกจสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลอง logit ที่มีผลกระทบคงที่ (การสกัดกั้นส่วนบุคคล) โดยใช้ตัวประมาณของ 1980 ของ Chamberlain เป็นที่รู้จักกันบ่อยในฐานะตัวประมาณค่า logit effect ของ Chamberlain มันเป็นเครื่องมือประมาณค่าแบบคลาสสิกเมื่อจัดการกับข้อมูลพาเนลผลลัพธ์แบบไบนารี (อย่างน้อยก็ในรูปเศรษฐมิติ) แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับมันใน CRAN เบาะแสใด ๆ

2
ช่วงความเชื่อมั่นรอบค่าที่ทำนายจากโมเดลเอฟเฟกต์ผสมหมายถึงอะไร
ฉันกำลังดูหน้านี้และสังเกตเห็นวิธีการสำหรับช่วงความเชื่อมั่นสำหรับ lme และ lmer ใน R สำหรับผู้ที่ไม่ทราบว่า R เป็นฟังก์ชั่นสำหรับสร้างเอฟเฟกต์ผสมหรือโมเดลหลายระดับ หากฉันมีผลกระทบคงที่ในบางสิ่งบางอย่างเช่นการวัดซ้ำออกแบบช่วงเวลาความมั่นใจรอบค่าที่ทำนาย (คล้ายกับค่าเฉลี่ย) หมายถึงอะไร ฉันสามารถเข้าใจได้ว่าสำหรับเอฟเฟกต์คุณสามารถมีช่วงความเชื่อมั่นที่สมเหตุสมผล แต่สำหรับฉันแล้วช่วงความเชื่อมั่นของค่าเฉลี่ยที่คาดการณ์ไว้ในแบบนี้ดูเหมือนจะเป็นไปไม่ได้ มันอาจมีขนาดใหญ่มากที่จะยอมรับความจริงที่ว่าตัวแปรสุ่มมีส่วนทำให้เกิดความไม่แน่นอนในการประมาณค่า แต่ในกรณีนี้มันจะไม่เป็นประโยชน์เลยในแง่ที่เปรียบเทียบระหว่างค่าต่างๆ หรือ, ฉันขาดอะไรบางอย่างที่นี่หรือการวิเคราะห์สถานการณ์ของฉันถูกต้องหรือไม่ ... [และอาจเป็นเหตุผลว่าทำไมมันไม่ถูกนำไปใช้ใน lmer (แต่ง่ายที่จะได้รับใน SAS) :)]

4
ติดตามผล: ในแบบผสมภายในระหว่างการวางแผน ANOVA ประมาณ SEs หรือ SE จริง
ขณะนี้ฉันกำลังเขียนบทความและสะดุดกับคำถามนี้เมื่อวานนี้ซึ่งทำให้ฉันตั้งคำถามเดียวกันกับตัวเอง มันจะดีกว่าหรือไม่ที่จะให้กราฟกับข้อผิดพลาดมาตรฐานจริงจากข้อมูลหรือประมาณจาก ANOVA ของฉัน เนื่องจากคำถามจากเมื่อวานค่อนข้างไม่เจาะจงและของฉันค่อนข้างเจาะจงฉันคิดว่ามันเหมาะสมที่จะถามคำถามติดตามนี้ รายละเอียด: ฉันได้ทำการทดลองในโดเมนจิตวิทยาเกี่ยวกับความรู้ความเข้าใจ (การใช้เหตุผลเชิงเงื่อนไข) เปรียบเทียบสองกลุ่ม (คำแนะนำแบบอุปนัยและนิรนัยคือการยักย้ายระหว่างอาสาสมัคร) กับการแก้ไขภายในสองวิชา (ประเภทปัญหาและเนื้อหาของปัญหาแต่ละรายการด้วย สองระดับปัจจัย) ผลลัพธ์มีลักษณะเช่นนี้ (แผงด้านซ้ายที่มีการประมาณค่า SE จาก ANOVA เอาท์พุท, แผงด้านขวาที่มีการประมาณค่า SE จากข้อมูล): โปรดสังเกตว่าบรรทัดที่แตกต่างกันแสดงถึงกลุ่มที่แตกต่างกันสองกลุ่ม (เช่น การปรับเปลี่ยนวิชาจะถูกพล็อตบนแกน x (เช่นระดับปัจจัย 2x2) ในข้อความที่ฉันให้ผลลัพธ์ตามความต้องการของ ANOVA และแม้แต่การเปรียบเทียบที่วางแผนไว้สำหรับการโต้ตอบข้ามที่สำคัญตรงกลาง SE อยู่ที่นั่นเพื่อให้คำแนะนำผู้อ่านเกี่ยวกับความแปรปรวนของข้อมูล ฉันชอบ SEs มากกว่าส่วนเบี่ยงเบนมาตรฐานและช่วงความเชื่อมั่นเนื่องจากไม่ใช่เรื่องธรรมดาที่จะพล็อต SD และมีปัญหาที่รุนแรงเมื่อเปรียบเทียบ CIs ภายในและระหว่างวิชา จากพวกเขา). หากต้องการทำซ้ำคำถามของฉัน: จะดีกว่าที่จะวางแผน SEs ที่ประเมินจาก ANOVA หรือฉันควรจะแปลง SEs ที่ประเมินจากข้อมูลดิบ? ปรับปรุง: …

9
ซอฟต์แวร์สร้างภาพข้อมูลสำหรับการทำคลัสเตอร์
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการรวมกลุ่ม ~ 22,000 คะแนน อัลกอริทึมการจัดกลุ่มจำนวนมากทำงานได้ดีขึ้นด้วยการเดาเริ่มต้นที่มีคุณภาพสูงขึ้น มีเครื่องมืออะไรบ้างที่สามารถให้ความคิดที่ดีเกี่ยวกับรูปทรงคร่าวๆของข้อมูล ฉันต้องการเลือกการวัดระยะทางของฉันเองดังนั้นโปรแกรมที่ฉันสามารถป้อนรายการระยะทางตามเข็มคู่เพื่อให้ใช้ได้ ฉันต้องการที่จะทำบางสิ่งบางอย่างเช่นไฮไลต์ภูมิภาคหรือคลัสเตอร์บนจอแสดงผลและรับรายการจุดข้อมูลที่อยู่ในพื้นที่นั้น ต้องการซอฟต์แวร์ฟรี แต่ฉันมี SAS และ MATLAB อยู่แล้ว

12
การประชุมสถิติ?
การประชุมสถิติที่สำคัญที่สุดประจำปีคืออะไร? กฎ: หนึ่งการประชุมต่อคำตอบ รวมลิงค์ไปยังการประชุม

4
มีคำถามเกี่ยวกับ KL divergence หรือไม่
ฉันกำลังเปรียบเทียบการแจกแจงสองแบบกับการกระจายของ KL ซึ่งให้ผลตอบแทนเป็นตัวเลขที่ไม่ได้มาตรฐานซึ่งตามที่ฉันอ่านเกี่ยวกับการวัดนี้คือปริมาณข้อมูลที่ต้องใช้เพื่อเปลี่ยนสมมติฐานหนึ่งไปเป็นอีกสมมติฐานหนึ่ง ฉันมีสองคำถาม: a) มีวิธีในการหาจำนวนความแตกต่างของ KL เพื่อให้การตีความมีความหมายมากกว่าเช่นขนาดของเอฟเฟกต์หรือ R ^ 2 หรือไม่? รูปแบบของมาตรฐานใด ๆ b) ใน R เมื่อใช้ KLdiv (แพ็คเกจ flexmix) เราสามารถตั้งค่า 'esp' (มาตรฐาน esp = 1e-4) ที่ตั้งค่าคะแนนทั้งหมดที่เล็กกว่า esp ถึงมาตรฐานบางอย่างเพื่อให้เสถียรภาพเชิงตัวเลข ฉันได้เล่นกับค่า esp ที่แตกต่างกันและสำหรับชุดข้อมูลของฉันฉันได้รับความแตกต่าง KL ที่ใหญ่ขึ้นเรื่อย ๆ ในจำนวนที่ฉันเลือกน้อยลง เกิดอะไรขึ้น? ฉันคาดหวังว่ายิ่ง esp ยิ่งน้อยผลลัพธ์ก็น่าเชื่อถือมากขึ้นเพราะพวกเขาปล่อยให้ 'คุณค่าที่แท้จริง' มากขึ้นกลายเป็นส่วนหนึ่งของสถิติ ไม่มี? ฉันต้องเปลี่ยน esp เพราะไม่เช่นนั้นจะไม่คำนวณสถิติ แต่แสดงเป็น NA ในตารางผลลัพธ์ …


4
เทคนิคกราฟิกใดที่ใช้ในการสร้างแบบจำลองสมการโครงสร้าง?
ฉันอยากรู้ว่ามีเทคนิคแบบกราฟิกที่เฉพาะเจาะจงหรือเหมาะสมกับการสร้างแบบจำลองสมการโครงสร้าง ฉันเดาว่าสิ่งนี้อาจอยู่ในหมวดหมู่สำหรับเครื่องมือสำรวจสำหรับการวิเคราะห์ความแปรปรวนร่วมหรือการวินิจฉัยเชิงกราฟิกสำหรับการประเมินโมเดล SEM (ฉันไม่ได้คิดถึงแผนภาพเส้นทาง / กราฟที่นี่จริง ๆ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.