เมื่อใดที่ฉันไม่สามารถแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ยได้


10

ความเรียบง่ายบ่อยครั้งในการสร้างแบบจำลองและการจำลองคือการแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ย

เมื่อการทำให้เข้าใจง่ายนี้จะนำไปสู่ข้อสรุปที่ผิด?


2
"Var" หมายถึงตัวแปรหรือความแปรปรวนหรือค่าที่มีความเสี่ยงหรือไม่?
Henry

3
มันคงจะสนุกที่จะเริ่มบริการที่จ่ายสำหรับการสมัครสมาชิก Netflix ของสมาชิก เราจะเรียกเก็บเงินเท่านั้น , โดยที่ถูกเลือกแบบสุ่มในโดเมนดังนั้น ya รู้ฟรี Netflix! หลังจากนั้นเราจะเสนอตัวเลือกให้ลูกค้าชำระแทนแทน x[-100,100]x2USD|x| USDmonthx[100,100]x2 USDmonth
แน็

3
ในกรณีที่ง่ายมากถ้าเรานำไปสู่จุดสูงสุดเราอาจสูญเสียข้อมูลทั้งหมดที่เราสนใจ พิจารณาการถดถอยของ Y บน X โดยที่เราแทนที่ทั้ง Y และ X ด้วยค่าเฉลี่ย ข้อมูลใด ๆ เกี่ยวกับความชันจะหายไป
Dason

1
คุณกำลังถามเกี่ยวกับการแทนที่ค่าที่หายไปหรือคุณกำลังถามเกี่ยวกับการแทนที่ตัวแปรแบบสุ่มในบริบทที่เฉพาะเจาะจง (เช่นการคาดการณ์จากแบบจำลองเอฟเฟกต์แบบสุ่ม)
IWS

คำตอบ:


20

หากคุณแทนที่ค่าที่หายไปโดยประมาณบางจุดคุณไม่ต้องสนใจความแปรปรวนทั้งหมด ดังนั้นคุณจะไม่เผยแพร่ความแปรปรวนดั้งเดิมทั้งหมดให้กับแบบจำลองของคุณ ประมาณการค่าพารามิเตอร์ของคุณจะปรากฏที่จะมีต่ำเกินไป s หากคุณอนุมานค่า p ของคุณจะมีอคติต่ำ ของคุณจะแคบเกินไป หากคุณคาดของคุณจะแคบเกินไป

โดยรวม: คุณจะมั่นใจในข้อสรุปของคุณมากเกินไป


2
คำตอบที่ดี! คิดแบบนี้: ตัวแปรสุ่มมีการแจกแจง สามารถเลื่อนไปทางซ้ายไปทางขวาได้ ฉันสามารถเป็น bi-modal ฯลฯ โดยการลดตัวแปรให้เป็นค่าเฉลี่ยคุณจะลบข้อมูลพิเศษทั้งหมด (ความไม่แน่นอน) และแทนที่การกระจาย (ช่วงเวลา) โดยการประมาณจุดเดียว
elevendollar

1
หากคุณแทนที่ค่าที่ขาดหายไปโดยประมาณบางจุดคุณจะถือว่าข้อมูลหายไปโดยการสุ่ม ค่าเฉลี่ยของตัวแปรสุ่มอาจไม่เท่ากับค่าเฉลี่ยของข้อมูลเมื่อมันหายไป
Neil G

@NililG ขออภัยที่ nitpick แต่การแทนที่ค่าที่หายไปโดยค่าเฉลี่ยนั้นไม่ได้หมายความว่าสมมติว่าข้อมูลหายไปโดยการสุ่ม โดยเฉพาะอย่างยิ่งตั้งแต่ - ค่อนข้างสับสน - คำศัพท์รอบ ๆ ข้อมูลที่หายไปพิจารณาว่า 'ขาดโดยสุ่ม' เป็นข้อมูลที่หายไปโดยมีเงื่อนไขแบบสุ่มบนข้อมูลอื่น แต่เป็นข้อมูลที่รู้จัก ( en.wikipedia.org/wiki/Missing_data ) IMO วิธีการเปลี่ยนข้อมูลไม่ได้บอกเป็นนัยถึงเหตุผลที่อยู่เบื้องหลัง เหตุผลนั้นควรมีความชัดเจนและนำไปสู่วิธีการที่เหมาะสมในการจัดการข้อมูลที่หายไป ที่กล่าวว่าฉันเห็นด้วยกับคำตอบของสเตฟาน
IWS

@IWS มันเป็นเรื่องดีที่ตัวบ่งชี้การหายตัวไปจะเป็นไปตามเงื่อนไขกับข้อมูลที่สังเกตได้ การพลาดแบบสุ่มหมายความว่าตัวบ่งชี้การหายไปขึ้นอยู่กับข้อมูลที่ไม่ได้รับการตรวจสอบ หากคุณแทนที่ตัวแปรด้วยค่าเฉลี่ยตามเงื่อนไขที่มีการสังเกตว่าอาจไม่เหมือนกับค่าเฉลี่ยที่ไม่มีเงื่อนไข - เว้นแต่ว่าข้อมูลจะหายไปโดยการสุ่ม
Neil G

@NeilG คุณหมายถึง 'ขาดการสุ่มอย่างสมบูรณ์ ' เมื่อคุณเขียน 'สุ่มที่หายไป' ในประโยคสุดท้ายของความคิดเห็นสุดท้ายของคุณ? ถ้าเป็นเช่นนั้นเราเห็นด้วย แต่ฉันแค่พูดถึงคำศัพท์ (ดูหน้า wiki ที่ฉันใส่ไว้ในความคิดเห็นของฉันด้านบนฉันได้รับการสอนอ่านและใช้คำศัพท์นั้นเสมอ)
IWS

13

นอกจากคะแนนของสเตฟานแล้ว:

  • ในเกือบทุกแอปพลิเคชันที่คุณสนใจฟังก์ชั่นไม่เชิงเส้นของตัวแปรสุ่มการแทนที่ค่าเฉลี่ยจะแนะนำอคติและผลลัพธ์ที่ขัดแย้งกัน ความเร็วเฉลี่ยและมวลเฉลี่ยของอนุภาคโดยทั่วไปจะไม่สอดคล้องกับพลังงานจลน์เฉลี่ยเพราะระดับพลังงานกับ V ^ 2
  • ค่าเฉลี่ยอาจไม่ได้เป็นผลลัพธ์ที่เป็นไปได้สำหรับตัวแปรสุ่ม หากผลลัพธ์ที่เป็นไปได้ของฉันคือ 0 "ผู้ป่วยเสียชีวิต" และ 1 "ชีวิตผู้ป่วย" อาจไม่มีประโยชน์หากมีแบบจำลองที่อธิบายผู้ป่วยว่า 0.1 "ส่วนใหญ่เสียชีวิต แต่มีชีวิตอยู่เล็กน้อย"

1
หน้าที่: youtube.com/watch?v=xbE8E1ez97M
Alexis

1
@Alexis แต่แน่นอน!
Geoffrey Brent

0

ตัวอย่างชีวิตจริง (เกี่ยวข้องกับคำตอบทั้งสองที่คุณได้รับ) ในตลาดการเงิน ราคาของตัวเลือกขึ้นอยู่กับความน่าจะเป็นที่ราคาของสินทรัพย์สูงกว่า (หรือต่ำกว่า) ระดับที่กำหนด

ตัวอย่างเช่นราคาของตัวเลือกสำหรับการซื้อสินทรัพย์ที่ราคา 100 เมื่อมูลค่าที่คาดหวังของสินทรัพย์คือ 80 หากคุณแทนที่ตัวแปรสุ่ม (ราคาสินทรัพย์) โดยใช้ค่าเฉลี่ยคุณจะได้รับราคาศูนย์ (เช่น คุณจะไม่เคยมีสินทรัพย์ 100 รายการที่มีค่าใช้จ่าย 80) เมื่อคุณคำนึงถึงความไม่แน่นอนของสินทรัพย์ (และนั่นคือวิธีที่ถูกต้องในการทำ) คุณจะได้รับราคาบวกเนื่องจากมีความเป็นไปได้ที่ราคาสินทรัพย์จะสูงกว่า 100

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.