Bootstrapping - ฉันต้องลบค่าผิดปกติก่อนหรือไม่


19

เราได้ทำการทดสอบแยกคุณลักษณะของผลิตภัณฑ์ใหม่และต้องการวัดว่าการเพิ่มขึ้นของรายได้นั้นสำคัญหรือไม่ โดยทั่วไปการสังเกตของเราจะไม่ได้รับการเผยแพร่อย่างแน่นอน (ผู้ใช้ส่วนใหญ่ของเราไม่ใช้จ่ายและภายในที่ทำนั้นจะมีการบิดเบือนอย่างมากต่อผู้ใช้รายย่อยจำนวนมากและผู้ใช้รายใหญ่สองสามราย)

เราได้ตัดสินใจใช้ bootstrapping เพื่อเปรียบเทียบวิธีการเพื่อให้ได้ข้อมูลที่ไม่ได้รับการเผยแพร่ตามปกติ (คำถามด้านข้าง: นี่เป็นการใช้ bootstrapping ที่ถูกกฎหมายหรือไม่)

คำถามของฉันคือฉันจำเป็นต้องตัดค่าชุดข้อมูล (เช่นผู้ใช้จ่ายจำนวนน้อยมาก) ก่อนที่จะเรียกใช้ bootstrapping หรือไม่นั้นสำคัญหรือไม่?


1
คำถามที่ดี: ฉันอาจโต้เถียงมืออาชีพและต่อต้านการกำจัดค่าผิดปกติ ทำไมไม่ใช้มีเดียถ้าคุณกังวลเกี่ยวกับค่าผิดปกติและสิ่งที่คุณกำลังมองหาเป็นเพียง "แนวโน้มกลาง" เนื่องจากตัวแปรที่เกี่ยวกับการเงินมักมีการกระจายที่เบ้อย่างสูง (เช่นพาเรโต) ที่อาจไม่ไร้เหตุผลในตอนแรก
usεr11852พูดว่า Reinstate Monic

1
@ user11852 Medians บอกคุณเล็กน้อยเกี่ยวกับค่าเฉลี่ยซึ่งเป็นสิ่งที่เกี่ยวข้องกับรายได้ เป็นที่น่าสนใจที่จะเห็นการโต้แย้งของคุณในการลบ "ค่าผิดปกติ" ออกไปโดยเฉพาะเมื่อสิ่งเหล่านี้น่าจะเป็นปัจจัยสำคัญที่ทำให้เกิดรายได้รวม
whuber

1
น่าเสียดายที่ค่ามัธยฐานจะเป็นศูนย์เสมอเนื่องจาก <10% ของผู้ใช้จ่ายเลย
user31228

2
@ user11852 อาร์กิวเมนต์ทั่วไปของคุณว่าค่าผิดปกติถูกต้องจะเป็นประโยชน์ แต่สำหรับความเป็นไปได้ของการขยายสัญญาณดูเหมือนว่าสำหรับฉันแล้วตรงกันข้าม: การบูตสแตรปมีโอกาสที่จะทำงานได้ก็ต่อเมื่อใช้ตัวอย่างเต็มรูปแบบ มิฉะนั้นมันจะนำเสนอเทพนิยายบอกเราว่าสิ่งที่จะเป็นถ้าไม่มีค่าผิดปกติ - แต่แน่นอนพวกเขาทำ ปัญหาใหญ่คือ bootstrapping มีเหตุผลทางทฤษฎีเล็กน้อยเมื่อนำไปใช้กับตัวอย่างขนาดเล็ก: ทฤษฎีเป็นหนึ่งasymptotic
whuber

2
นี่เป็นคำถามที่สำคัญ (+1) คุณสามารถเพิ่มตัวอย่างชุดข้อมูลขนาดเล็กหรือตัวอย่างแบบจำลองที่คล้ายกับคำถามได้หรือไม่ ฉันคิดว่าการให้ภาพประกอบจะมีประโยชน์มากกว่าในกรณีนี้
user603

คำตอบ:


6

ก่อนที่จะกล่าวถึงสิ่งนี้เป็นสิ่งสำคัญที่จะต้องยอมรับว่าการทุจริตต่อหน้าที่ทางสถิติของ "การลบค่าผิดปกติ" ได้ถูกประกาศใช้อย่างผิด ๆ ในการสอนเชิงสถิติ ตามธรรมเนียมแล้วค่าผิดปกติหมายถึงการใช้ประโยชน์สูงและการสังเกตที่มีอิทธิพลสูง หนึ่งสามารถและควรระบุการสังเกตดังกล่าวในการวิเคราะห์ข้อมูล แต่เงื่อนไขเหล่านั้นเพียงอย่างเดียวไม่รับประกันว่าการลบการสังเกตเหล่านั้น "ค่าผิดจริง" คือการใช้ประโยชน์จากการสังเกตการณ์ที่มีอิทธิพลสูง / สูงซึ่งไม่สอดคล้องกับการจำลองแบบของการออกแบบการทดลอง การสังเกตเช่นนี้ต้องการความรู้เฉพาะด้านของประชากรและวิทยาศาสตร์ที่อยู่เบื้องหลัง "กลไกการสร้างข้อมูล" สิ่งสำคัญที่สุดคือคุณควรจะสามารถระบุaprioriผู้ที่มีโอกาสเป็นโรคได้

สำหรับแง่มุมของการบูตสแตรปของสิ่งต่าง ๆ บู๊ทสแตรปนั้นมีวัตถุประสงค์เพื่อจำลองอิสระจากการสุ่มประชากรซ้ำ หากคุณ prespecify เกณฑ์การยกเว้นในการวางแผนการวิเคราะห์ของคุณ, คุณยังควรจะปล่อยให้ค่าการยกเว้นในการจัดจำหน่ายอ้างอิงบูตสุ่มตัวอย่าง นี่เป็นเพราะคุณจะบัญชีสำหรับการสูญเสียพลังงานเนื่องจากการใช้การยกเว้นหลังจากสุ่มตัวอย่างข้อมูลของคุณ อย่างไรก็ตามหากไม่มีเกณฑ์การยกเว้นที่กำหนดไว้ล่วงหน้าและค่าผิดปกติจะถูกลบออกโดยใช้การตัดสินหลังการตัดสินใจเนื่องจากการชุมนุมอย่างเห็นได้ชัดการลบค่าเหล่านี้จะทำให้เกิดข้อผิดพลาดเดียวกันในการอนุมานที่เกิดจากการลบค่าผิดปกติ

พิจารณาการศึกษาเกี่ยวกับความมั่งคั่งและความสุขในกลุ่มตัวอย่างแบบง่าย ๆ ที่ไม่มีการควบคุมจำนวน 100 คน ถ้าเราทำตามคำพูด "1% ของประชากรถือ 90% ของความมั่งคั่งของโลก" ตามตัวอักษรแล้วเราจะสังเกตโดยเฉลี่ยหนึ่งค่าที่มีอิทธิพลสูงมาก สมมติว่ายิ่งกว่านั้นจะทำให้คุณภาพชีวิตขั้นพื้นฐานไม่มีความสุขที่เกินจากรายได้ที่มากขึ้น (แนวโน้มเชิงเส้นที่ไม่คงที่) ดังนั้นบุคคลนี้จึงมีความสามารถในการก่อหนี้สูง

ค่าสัมประสิทธิ์การถดถอยกำลังสองน้อยที่สุดสอดคล้องกับข้อมูลที่ไม่บริสุทธิ์ประเมินค่าประชากรโดยเฉลี่ยแนวโน้มการสั่งซื้อครั้งแรกในข้อมูลเหล่านี้ มันถูกลดทอนอย่างมากโดยบุคคลที่ 1 ของเราในตัวอย่างที่มีความสุขสอดคล้องกับผู้ที่อยู่ใกล้ระดับรายได้เฉลี่ย หากเราลบบุคคลนี้ความชันการถดถอยกำลังสองน้อยที่สุดจะใหญ่กว่ามาก แต่ความแปรปรวนของการถดถอยจะลดลงดังนั้นการอนุมานเกี่ยวกับการเชื่อมโยงจึงมีค่าใกล้เคียงกัน ความยากลำบากในการทำเช่นนี้คือฉันไม่ได้กำหนดเงื่อนไขเบื้องต้นสำหรับบุคคลที่จะได้รับการยกเว้น หากนักวิจัยอีกคนทำซ้ำการออกแบบการศึกษานี้พวกเขาจะสุ่มตัวอย่างค่าเฉลี่ยของรายได้สูงหนึ่งรายบุคคลที่มีความสุขในระดับปานกลางและได้รับผลลัพธ์ที่ไม่สอดคล้องกับผลลัพธ์ "ตัด" ของฉัน

หากเราaprioriสนใจในสมาคมความสุขที่มีรายได้ปานกลางเราควรคาดการณ์ล่วงหน้าว่าเราจะทำได้เช่น "เปรียบเทียบบุคคลที่มีรายได้น้อยกว่า $ 100,000 ต่อปีของรายได้ครัวเรือน" ดังนั้นการลบค่าผิดปกติทำให้เราประเมินความสัมพันธ์ที่เราไม่สามารถอธิบายได้ดังนั้นค่า p จึงไม่มีความหมาย

ในทางกลับกันอุปกรณ์การแพทย์ที่คาดการผิดและการสำรวจด้วยตนเองที่รายงานด้วยตนเองจะสามารถลบออกได้ ยิ่งสามารถอธิบายเกณฑ์การยกเว้นได้อย่างแม่นยำมากขึ้นก่อนการวิเคราะห์ที่เกิดขึ้นจริงผลลัพธ์ที่ถูกต้องและสอดคล้องกันมากขึ้นซึ่งการวิเคราะห์ดังกล่าวจะสร้างขึ้น


ฉันไม่แน่ใจว่าฉันเข้าใจว่าทำไม " ถ้าคุณ prespecify เกณฑ์การแยกในแผนการวิเคราะห์ของคุณคุณยังควรปล่อยให้ค่าที่ยกเว้นในการกระจายการสุ่มตัวอย่าง bootstrap อ้างอิง " คุณพูดถึงว่านี่คือ " เพราะคุณจะบัญชีสำหรับการสูญเสียพลังงานเนื่องจาก การใช้การยกเว้นหลังจากการสุ่มตัวอย่างข้อมูลของคุณ "ฉันไม่เห็นว่าทำไมการสันนิษฐานว่าการใช้เกณฑ์การยกเว้นหลังจากการสุ่มตัวอย่างนำไปสู่การสูญเสียพลังงานหรือวิธี / สาเหตุที่ทำให้กรณีที่ยกเว้นในบัญชีตัวอย่างบูต" สำหรับ "(?) นี้ และต่อไปว่าทำไมสิ่งนี้จึงเป็นสิ่งที่ชัดเจนว่าต้อง "คิด" บางทีฉันอาจจะหนาแน่นที่นี่
Jake Westfall

พี

อืมฉันคิดว่าถ้ามีใครระบุเกณฑ์การยกเว้นล่วงหน้า - เพื่อที่เราจะไม่สนใจในบางกรณีอย่างชัดเจนและการจำลองแบบการศึกษาในอนาคตน่าจะใช้เกณฑ์การยกเว้นเดียวกัน - จากนั้นมันจะสมเหตุสมผล กรณีเหล่านั้นไม่อยู่ในตัวอย่างบูตสแตรปเนื่องจากเป็นส่วนของประชากรที่เราไม่ต้องการทำการอ้างถึงใด ๆ ฉันจะดูว่าซ้ำในอนาคตอาจจะจบลงไม่รวมในสัดส่วนที่แตกต่างกันของกรณี แต่ฉันไม่สามารถค่อนข้างทำให้การเชื่อมต่อไปว่าทำไมเรื่องนี้สำหรับกรณีที่เราอย่างชัดเจนจะสนใจใน ..
เจคเวสท์

1
พีH0

0

การมองสิ่งนี้เป็นปัญหาที่ผิดเพี้ยนดูเหมือนว่าผิดสำหรับฉัน หาก "<10% ของผู้ใช้จ่ายเลย" คุณต้องสร้างแบบจำลองด้านนั้น การถดถอยของ Tobit หรือ Heckman จะเป็นไปได้สองทาง


2
ในปัจจุบันนี้เป็นความคิดเห็นมากกว่าคำตอบ คุณจะขยายความคิดเล็กน้อยเพื่อให้ได้คำตอบที่มากขึ้นไหม?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.