คำถามติดแท็ก resampling

การสุ่มตัวอย่างใหม่คือการสุ่มตัวอย่างจากกลุ่มตัวอย่าง การใช้งานทั่วไปคือ jackknifing (การใช้ตัวอย่างย่อยเช่นค่าทั้งหมด แต่ 1) & bootstrapping (การสุ่มตัวอย่าง w / การแทนที่) เทคนิคเหล่านี้สามารถให้ค่าประมาณที่ชัดเจนของการแจกแจงการสุ่มตัวอย่างเมื่อการวิเคราะห์หายากหรือเป็นไปไม่ได้

2
วิธีการสุ่มตัวอย่าง / การจำลองใหม่: monte carlo, bootstrapping, jackknifing, cross-validation, การทดสอบแบบสุ่มและการทดสอบการเปลี่ยนรูป
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการสุ่มใหม่ (การจำลองมอนติคาร์โล, การบูตแบบพาราเมตริก, การบู๊ตแบบไม่มีพารามิเตอร์, การทดสอบแบบสุ่ม, การตรวจสอบข้าม, การทดสอบแบบสุ่มและการเปลี่ยนรูป) และการนำไปใช้ในบริบทของฉันเอง ว่าฉันมีสถานการณ์ดังต่อไปนี้ - ฉันต้องการดำเนินการ ANOVA ด้วยตัวแปรY ( Yvar) และX variable ( Xvar) Xvarเป็นหมวดหมู่ ฉันสนใจในสิ่งต่อไปนี้: (1) ความสำคัญของ p-values ​​- อัตราการค้นพบที่ผิด (2) ขนาดผลของXvarระดับ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) คุณช่วยให้ฉันอธิบายความแตกต่างของการสุ่มตัวอย่างด้วยตัวอย่างงานที่ชัดเจนว่าวิธีการสุ่มตัวอย่างใหม่นี้ทำงานอย่างไร การแก้ไข: นี่คือความพยายามของฉัน: Bootstrap …

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

2
การบูตสแตรปปิ้งประมาณการกระจายตัวตัวอย่างของตัวประมาณได้ดีเพียงใด
หลังจากศึกษา bootstrap มาฉันมีคำถามแนวความคิดที่ยังคงไขปริศนาฉันอยู่: คุณมีประชากรและคุณต้องการทราบแอตทริบิวต์ของประชากรนั่นคือซึ่งฉันใช้เพื่อเป็นตัวแทนของประชากร นี้อาจจะหมายถึงประชากรตัวอย่างเช่น โดยปกติแล้วคุณไม่สามารถรับข้อมูลทั้งหมดจากประชากร คุณวาดตัวอย่างขนาดจากประชากร สมมติว่าคุณมีตัวอย่าง iid เพื่อความง่าย แล้วคุณจะได้รับการประมาณการของคุณ(X) คุณต้องการที่จะใช้ที่จะทำให้การหาข้อสรุปเกี่ยวกับดังนั้นคุณอยากจะรู้ว่าความแปรปรวนของ theta}θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} ครั้งแรกมีความเป็นจริงการกระจายตัวอย่างของtheta} ตามแนวคิดคุณสามารถวาดตัวอย่างจำนวนมาก (แต่ละอันมีขนาด ) จากประชากร ในแต่ละครั้งที่คุณมีการรับรู้ตั้งแต่แต่ละครั้งคุณจะมีตัวอย่างที่แตกต่างกัน จากนั้นในท้ายที่สุดแล้วคุณจะสามารถที่จะกู้จริงการกระจายของtheta} ตกลงนี้อย่างน้อยเป็นมาตรฐานแนวคิดสำหรับการประมาณค่าการกระจายของtheta} ผมขอย้ำว่ามัน: เป้าหมายสูงสุดคือการใช้วิธีการต่างๆในการประมาณการหรือใกล้เคียงกับความจริงการกระจายของtheta}θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} ตอนนี้ที่นี่คำถามมา โดยปกติคุณจะมีหนึ่งตัวอย่างที่มีจุดข้อมูลแล้วคุณ resample จากนี้ตัวอย่างหลายครั้งและคุณจะเกิดขึ้นกับการกระจายของบูตtheta} คำถามของฉันคือการกระจาย bootstrap นี้ใกล้กับการแจกแจงตัวอย่างที่แท้จริงของแค่ไหน มีวิธีหาปริมาณหรือไม่XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

2
เหตุใดจึงต้องใช้การตรวจสอบข้ามแบบแบ่งชั้น ทำไมสิ่งนี้จึงไม่ได้สร้างความเสียหายแปรปรวนที่เกี่ยวข้องกับผลประโยชน์?
ฉันได้รับการบอกว่าเป็นประโยชน์ในการใช้การตรวจสอบความถูกต้องข้ามกลุ่มโดยเฉพาะอย่างยิ่งเมื่อคลาสการตอบกลับไม่สมดุล หากจุดประสงค์หนึ่งของการตรวจสอบข้ามจุดประสงค์คือเพื่อช่วยให้บัญชีสุ่มตัวอย่างข้อมูลการฝึกอบรมเดิมของเราแน่นอนว่าแต่ละครั้งที่การแจกจ่ายคลาสเดียวกันจะทำงานกับสิ่งนี้เว้นแต่ว่าคุณแน่ใจว่าชุดการฝึกอบรมดั้งเดิมของคุณมีการแจกจ่ายชั้นตัวแทน ตรรกะของฉันมีข้อบกพร่องหรือไม่ แก้ไข ฉันสนใจว่าวิธีนี้จะทำลายผลดีของ CV หรือไม่ ฉันสามารถดูว่าทำไมมันเป็นสิ่งจำเป็นถ้าคุณมีตัวอย่างขนาดเล็ก / คลาสที่ไม่สมดุลมาก / ทั้งคู่เพื่อหลีกเลี่ยงการไม่มีตัวแทนคนเดียวของคลาสรองลงมา กระดาษแอปเปิ้ลต่อแอปเปิ้ลในการศึกษาการตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนามส่งต่อกรณีสำหรับการแบ่งชั้นเป็นอย่างดี แต่ข้อโต้แย้งทั้งหมดดูเหมือนจะเป็นจำนวน 'การแบ่งชั้นเป็น ข้อมูล. คือคำตอบง่ายๆ"เราใช้มันโดยไม่จำเป็นเพราะเราไม่ค่อยมีข้อมูลเพียงพอ" ?

2
สมมติฐานของการทดสอบการเปลี่ยนแปลงคืออะไร
มันมักจะระบุว่าการทดสอบการเปลี่ยนแปลงไม่มีข้อสันนิษฐานอย่างไรก็ตามเรื่องนี้ไม่เป็นความจริง ตัวอย่างเช่นหากตัวอย่างของฉันมีความสัมพันธ์กันฉันสามารถจินตนาการได้ว่าการอนุญาตให้ใช้ป้ายกำกับของพวกเขาจะไม่ใช่สิ่งที่ถูกต้อง เพียงคิดว่าฉันพบเกี่ยวกับปัญหานี้คือประโยคนี้จากวิกิพีเดีย: "ข้อสมมติฐานที่สำคัญที่อยู่เบื้องหลังการทดสอบการเปลี่ยนแปลงคือการสังเกตสามารถแลกเปลี่ยนได้ภายใต้สมมติฐานว่าง" ซึ่งฉันไม่เข้าใจ ข้อสมมติฐานของการทดสอบการเปลี่ยนรูปคืออะไร? และสมมติฐานเหล่านี้เชื่อมโยงกับแผนการเปลี่ยนแปลงที่เป็นไปได้ที่แตกต่างกันอย่างไร

2
แคเร็ตวิธีการสุ่มตัวอย่างอีกครั้ง
ฉันใช้ไลบรารีcaretใน R เพื่อทดสอบขั้นตอนการสร้างแบบจำลองต่างๆ trainControlวัตถุช่วยให้หนึ่งเพื่อระบุวิธีการใหม่การสุ่มตัวอย่าง วิธีการที่อธิบายไว้ในเอกสารส่วน 2.3 และรวมถึง: boot, boot632, cv, LOOCV, LGOCV, และrepeatedcv oobถึงแม้ว่าสิ่งเหล่านี้บางอย่างจะอนุมานได้ง่าย แต่วิธีการเหล่านี้ไม่ได้มีการกำหนดไว้อย่างชัดเจน อะไรคือขั้นตอนที่สอดคล้องกับวิธีการสุ่มตัวอย่างใหม่เหล่านี้?
20 r  resampling  caret 

2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

2
ทดสอบการสุ่มตัวอย่าง IID
คุณจะทดสอบหรือตรวจสอบว่าการสุ่มตัวอย่างเป็น IID (เป็นอิสระและกระจายตัวเหมือนกัน) โปรดทราบว่าฉันไม่ได้หมายถึง Gaussian และการกระจายแบบเหมือนจริงเพียง IID และความคิดที่อยู่ในใจของฉันคือการแบ่งตัวอย่างซ้ำ ๆ เป็นสองตัวอย่างย่อยที่มีขนาดเท่ากันทำการทดสอบ Kolmogorov-Smirnov และตรวจสอบว่าการกระจายตัวของค่า p มีค่าเท่ากันหรือไม่ ความคิดเห็นใด ๆ เกี่ยวกับวิธีการนั้นและข้อเสนอแนะใด ๆ ยินดีต้อนรับ ความชัดเจนหลังจากเริ่มรับรางวัล: ฉันกำลังมองหาการทดสอบทั่วไปที่สามารถนำไปใช้กับข้อมูลอนุกรมที่ไม่ใช่เวลา

2
กระบวนการสำหรับ“ การตรวจสอบ bootstrap” (aka“ resampling cross-validation”) คืออะไร?
"การตรวจสอบความถูกต้อง Bootstrap" / "การตรวจสอบความถูกต้องแบบข้ามภาพ" เป็นสิ่งใหม่สำหรับฉัน แต่ได้มีการพูดคุยกันโดยคำตอบของคำถามนี้ ฉันรวบรวมมันประกอบด้วยข้อมูล 2 ประเภท: ข้อมูลจริงและข้อมูลจำลองที่ชุดข้อมูลจำลองที่กำหนดถูกสร้างขึ้นจากข้อมูลจริงโดยการสุ่มใหม่พร้อมเปลี่ยนใหม่จนกระทั่งข้อมูลจำลองมีขนาดเท่ากับข้อมูลจริง ฉันสามารถคิดถึงวิธีการสองแบบในการใช้ชนิดข้อมูลดังกล่าว: (1) ปรับโมเดลให้เหมาะสมครั้งเดียวประเมินมันหลายครั้งในชุดข้อมูลจำลองจำนวนมาก (2) ปรับโมเดลให้เหมาะสมหลายครั้งโดยใช้ชุดข้อมูลจำลองจำนวนมากแต่ละชุดแต่ละครั้งประเมินกับข้อมูลจริง อันไหนดีกว่ากัน?

2
หนังสือแนะนำที่ดีที่สุดเกี่ยวกับการสุ่มตัวอย่าง Bootstrap ใหม่?
ฉันแค่อยากจะถามว่าหนังสือที่ดีที่สุดใน bootstrap นั้นในความคิดของคุณ โดยสิ่งนี้ฉันไม่ได้หมายถึงเฉพาะสิ่งที่นักเขียนเขียน คุณช่วยกรุณาระบุว่าหนังสือเล่มใดที่ดีที่สุดสำหรับคุณสำหรับ bootstrap ที่ครอบคลุมเกณฑ์ต่อไปนี้ พื้นฐานทางปรัชญา / ญาณวิทยาสำหรับเทคนิคที่แสดงโดเมนของการบังคับใช้จุดแข็งและจุดอ่อนสำคัญสำหรับการเลือกแบบจำลองหรือไม่ ชุดตัวอย่างง่ายๆที่แสดงการใช้งานการวางรากฐานทางปรัชญาโดยเฉพาะกับ Matlab?

1
เป็นวิธีการของการสุ่มตัวอย่างเวลาชุดใหม่นี้เป็นที่รู้จักในวรรณคดี? มันมีชื่อหรือไม่?
เมื่อเร็ว ๆ นี้ฉันกำลังมองหาวิธีในการสุ่มตัวอย่างอนุกรมเวลาใหม่ในแบบที่ ประมาณรักษาความสัมพันธ์อัตโนมัติของกระบวนการหน่วยความจำยาว เก็บรักษาโดเมนของการสังเกต (ตัวอย่างเช่นชุดข้อมูลจำนวนเต็มครั้งที่ resampled ยังคงเป็นชุดข้อมูลจำนวนเต็มครั้ง) อาจส่งผลกระทบต่อเครื่องชั่งบางตัวเท่านั้นหากจำเป็น ฉันคิดรูปแบบการเปลี่ยนแปลงต่อไปนี้สำหรับอนุกรมเวลาที่มีความยาว :2ยังไม่มีข้อความ2ยังไม่มีข้อความ2^N Bin อนุกรมเวลาโดยการสังเกตต่อเนื่องเป็นคู่ (มีถังขยะ) พลิกแต่ละของพวกเขา ( เช่นดัชนีจากไป) อย่างอิสระที่มีความน่าจะเป็น1/22ยังไม่มีข้อความ- 12ยังไม่มีข้อความ-12^{N-1}1:22:11 / 21/21/2 Bin อนุกรมเวลาที่ได้รับจากการสังเกตครั้งติดต่อกัน(มีถังขยะ) ย้อนกลับแต่ละของพวกเขา ( เช่นดัชนีจากไป) independelty กับความน่า1/24442ยังไม่มีข้อความ- 22ยังไม่มีข้อความ-22^{N-2}1:2:3:44:3:2:11 / 21/21/2 ทำซ้ำขั้นตอนที่มีถังขยะขนาด , , ... ,เสมอย้อนกลับถังขยะที่มีความน่าจะเป็น1/28881616162N−12N−12^{N-1}1/21/21/2 การออกแบบนี้เป็นเชิงประจักษ์ล้วนและฉันกำลังมองหางานที่จะได้รับการตีพิมพ์ในประเภทของการเปลี่ยนแปลงนี้ ฉันยังเปิดรับข้อเสนอแนะสำหรับวิธีเรียงสับเปลี่ยนหรือโครงร่างการสุ่มใหม่

3
ทำไมการบูตสแตรปมีประโยชน์หรือไม่
หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์

1
การจัดกึ่งกลางจำเป็นเมื่อทำการสแตรปป์ตัวอย่างหมายถึงอะไร?
เมื่ออ่านเกี่ยวกับวิธีประมาณการกระจายตัวของค่าเฉลี่ยตัวอย่างฉันเจอวิธีการบูตแบบไม่มีพารามิเตอร์ เห็นได้ชัดว่าเราสามารถประมาณการกระจายตัวของโดยการกระจายของˉ X ∗ n - ˉ X nโดยที่ˉ X ∗ nหมายถึงค่าเฉลี่ยตัวอย่างของตัวอย่างบูตตัวอย่างX¯n- μX¯n−μ\bar{X}_n-\muX¯* * * *n- X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯* * * *nX¯n∗\bar{X}_n^* คำถามของฉันคือ: ฉันต้องการจุดศูนย์กลางหรือไม่ เพื่ออะไร? ฉันไม่สามารถประมาณโดยP ( ˉ X ∗ n ≤ x ) ได้ใช่ไหมP ( X)¯n≤ x )P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P ( X)¯* * * *n≤ x )P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
ทำไมไม่ใช้ bootstrap CIs เสมอไป
ฉันสงสัยว่า bootstrap CIs (และ BCa เป็น barticular) ทำงานกับข้อมูลที่กระจายแบบปกติได้อย่างไร ดูเหมือนว่าจะมีงานจำนวนมากที่ตรวจสอบประสิทธิภาพการทำงานของพวกเขาในการแจกแจงแบบต่าง ๆ แต่ไม่พบข้อมูลใด ๆ เกี่ยวกับข้อมูลที่กระจายตามปกติ เนื่องจากดูเหมือนเป็นสิ่งที่ชัดเจนในการศึกษาก่อนฉันจึงคิดว่าเอกสารนั้นเก่าเกินไป ฉันทำแบบจำลอง Monte Carlo โดยใช้แพ็คเกจการบูต R และพบว่า bootstrap CIs สอดคล้องกับ CIs ที่แน่นอนแม้ว่าสำหรับกลุ่มตัวอย่างขนาดเล็ก (N <20) พวกเขามีแนวโน้มที่จะเสรีเล็กน้อย (CIs ที่เล็กกว่า) สำหรับตัวอย่างที่มีขนาดใหญ่พอพวกมันจะเหมือนกัน นี้ทำให้ผมสงสัยว่ามีเหตุผลที่ดีใด ๆ ที่จะไม่เสมอใช้ความร่วมมือ ด้วยความยากลำบากในการประเมินว่าการแจกแจงเป็นเรื่องปกติหรือไม่และข้อผิดพลาดมากมายที่อยู่เบื้องหลังสิ่งนี้ดูเหมือนว่ามีเหตุผลที่จะไม่ตัดสินใจและรายงาน bootstrap CIs โดยไม่คำนึงถึงการกระจาย ฉันเข้าใจแรงจูงใจที่ไม่ใช้การทดสอบที่ไม่ใช่พารามิเตอร์อย่างเป็นระบบเนื่องจากมีพลังงานน้อยกว่า แต่การจำลองของฉันบอกฉันว่านี่ไม่ใช่กรณีของ bootstrap CIs พวกมันเล็กลง คำถามที่คล้ายกันที่ทำให้ฉันเป็นบ้าคือทำไมไม่ใช้ค่ามัธยฐานเป็นมาตรวัดแนวโน้มกลางเสมอไป ผู้คนมักจะแนะนำให้ใช้มันเพื่อจำแนกลักษณะข้อมูลที่ไม่ได้กระจายแบบปกติ แต่เนื่องจากค่ามัธยฐานเป็นเช่นเดียวกับค่าเฉลี่ยสำหรับข้อมูลที่กระจายตามปกติทำไมถึงแตกต่าง? มันจะมีประโยชน์มากถ้าเราสามารถกำจัดขั้นตอนการตัดสินใจว่าการแจกแจงเป็นเรื่องปกติหรือไม่ ฉันอยากรู้มากเกี่ยวกับความคิดของคุณเกี่ยวกับปัญหาเหล การอ้างอิงจะได้รับการชื่นชมอย่างมาก ขอบคุณ! …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.