การจัดการกับค่า 0,1 ในการถดถอยเบต้า

20

ฉันมีข้อมูลบางส่วนใน [0,1] ซึ่งฉันต้องการวิเคราะห์ด้วยการถดถอยเบต้า แน่นอนว่าสิ่งที่ต้องทำเพื่อรองรับค่า 0,1 ฉันไม่ชอบการแก้ไขข้อมูลให้พอดีกับแบบจำลอง นอกจากนี้ฉันไม่เชื่อว่าศูนย์และ 1 เงินเฟ้อเป็นความคิดที่ดีเพราะฉันเชื่อว่าในกรณีนี้เราควรพิจารณาว่า 0 เป็นค่าบวกที่น้อยมาก (แต่ฉันไม่อยากบอกว่าค่าใดเหมาะสม ฉันเชื่อว่าจะเลือกค่าขนาดเล็กเช่น. 001 และ. 999 และเพื่อให้พอดีกับแบบจำลองโดยใช้ dist dist สะสมสำหรับเบต้าดังนั้นสำหรับการสังเกต y_i โอกาสในการบันทึก LL_iwould จะเป็น

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

สิ่งที่ฉันชอบเกี่ยวกับรุ่นนี้คือถ้ารุ่นการถดถอยเบต้าถูกต้องโมเดลนี้ก็ใช้ได้เช่นกัน แต่มันจะลบความไวเล็กน้อยต่อค่าที่มากที่สุด อย่างไรก็ตามเรื่องนี้ดูเหมือนจะเป็นวิธีธรรมชาติที่ฉันสงสัยว่าทำไมฉันไม่พบการอ้างอิงที่ชัดเจนในวรรณคดี ดังนั้นคำถามของฉันคือแทนที่จะปรับเปลี่ยนข้อมูลทำไมไม่แก้ไขโมเดล การปรับเปลี่ยนข้อมูลอคติผลลัพธ์ (ตามสมมติฐานที่ว่าแบบจำลองดั้งเดิมนั้นถูกต้อง) ในขณะที่การปรับเปลี่ยนแบบจำลองโดยการผสมค่าที่มากที่สุดจะไม่ทำให้เกิดผลลัพธ์

อาจจะมีปัญหาที่ฉันมองข้าม?

— เดฟ fournier
แหล่งที่มา

1

เป็นไปไม่ได้จริงๆที่จะให้คำตอบที่ดีสำหรับคำถามนี้โดยไม่ทราบเพิ่มเติมเกี่ยวกับปัญหาเฉพาะ คำถามที่สำคัญคือว่าศูนย์และคนที่ถูกสร้างขึ้นโดยกระบวนการที่แตกต่างกันเพื่อที่จะสร้างข้อมูลใน (0,1) ตัวอย่างคลาสสิกคือปริมาณน้ำฝนที่มีเลขศูนย์ที่แน่นอนซึ่งสะท้อนวันที่ไม่ได้ฝน ในแอปพลิเคชันของคุณมีค่าศูนย์และค่าที่ "พิเศษ" ในบางวิธี?

— Dikran Marsupial

ที่เกี่ยวข้อง / ซ้ำกัน: stats.stackexchange.com/questions/48028

— อะมีบาพูดว่า Reinstate Monica

16

ตามรายงานนี้การเปลี่ยนแปลงที่เหมาะสมคือ

x^{'} = \frac{x (N - 1) + s}{N}

$x' = \frac{x(N-1) + s}{N}$

"โดยที่ N คือขนาดตัวอย่างและ s คือค่าคงที่ระหว่าง 0 และ 1 จากจุดยืนแบบเบย์เราจะทำหน้าที่เสมือนว่าเรากำลังพิจารณาก่อนหน้านี้ตัวเลือกที่สมเหตุสมผลสำหรับ s คือ. 5

นี้จะบีบข้อมูลที่โกหกในที่จะอยู่ใน )อ้างข้างต้นและเหตุผลทางคณิตศาสตร์ของการเปลี่ยนแปลงที่มีอยู่ในบันทึกเสริมกระดาษ $[0,1]$ $(0,1)$

— Cam.Davidson.Pilon
แหล่งที่มา

1

+1 .. แต่คุณสามารถแก้ไขลิงก์แรกหรืออย่างน้อยก็อ้างถึงกระดาษเพื่อให้เราสามารถค้นหาได้อย่างอิสระหรือไม่

— whuber

1

แต่นั่นไม่ได้ตอบคำถามของฉัน ฉันตระหนักดีว่าสามารถแปลงข้อมูลได้ คำถามของฉันคือทำไมไม่เปลี่ยนรูปแบบแทน?

— เดฟ fournier

1

เดฟแล้วโปรดแก้ไขคำถามของคุณเพื่อให้สะท้อนถึงนี้ขณะนี้มันอ่านเช่นถ้าคุณกำลังมองหาวิธีที่จะเปลี่ยนเป็นข้อมูล ในกระบวนการมันจะช่วยให้คุณระบุสิ่งที่คุณคิดว่าความแตกต่างระหว่างการแปลงข้อมูลและการเปลี่ยนแปลงของแบบจำลองเพราะถ้ามีมันจะมีความละเอียดอ่อน

— whuber

@davefournier หากคุณอ่านไซต์ Cam ในส่วนของคำถามของคุณ พวกเขายังให้คำแนะนำตัวแบบอื่น (ดูหน้า 69) และส่วนหนึ่งของคำแนะนำนั้นขึ้นอยู่กับลักษณะของข้อมูล ความน่าจะเป็นที่ปรับของคุณดูเหมือนว่า "กระบวนการแบบไม่ต่อเนื่องแบบผสม" (กล่าวถึงตอนท้ายของหน้า 69) อาจเป็นกรณีที่โมเดล Tobit จะได้รับข้อมูลของคุณเป็นที่น่าพอใจแม้ว่าจะเป็นการดีที่สุดที่จะเห็นการอ้างอิงอื่น ๆ สำหรับความเหมาะสมของโมเดล Tobit เช่นหนังสือของ Scott Long เกี่ยวกับการถดถอยเชิงหมวดหมู่

— Andy W

1

แต่พวกเขาไม่ใช้วิธีนี้ พวกเขาเสนอโมเดลที่แตกต่างซึ่งเป็นกระบวนการต่อเนื่องแบบไม่ต่อเนื่องแบบผสม นั่นแตกต่างจากการทำลายค่าสุดขีด อย่างที่ฉันบอกไปแล้วว่าถ้ารุ่นเบต้าถูกต้องแล้วรุ่น binning นั้นถูกต้อง หากโมเดลต่อเนื่องไม่ถูกต้องโมเดลเบต้านั้นจะไม่ถูกต้อง ฉันสงสัยว่าพวกเขาส่วนใหญ่เป็นแรงผลักดันในการวิเคราะห์ของพวกเขาโดยรูปแบบผสมที่พวกเขาสามารถพอดีกับซอฟต์แวร์ของพวกเขา รุ่นผสมเบต้า binned เป็นบิตยากขึ้นเพื่อให้พอดี

— เดฟ fournier

3

เดฟ

วิธีการทั่วไปในการแก้ไขปัญหานี้คือเพื่อให้พอดีกับแบบจำลองการถดถอยโลจิสติก 2 แบบเพื่อคาดการณ์ว่ากรณีเป็น 0 หรือ 1 จากนั้นจะใช้การถดถอยเบต้าสำหรับผู้ที่อยู่ในช่วง (0,1)

— B_Miner
แหล่งที่มา

คุณยกตัวอย่างได้ไหม หรือกระดาษที่พูดถึงรายละเอียดเพิ่มเติม?

— user1607

2

$(\log(x), \log(1-x))$

$x$ $(x,x^2)$

ฉันเชื่อว่าทั้งสองวิธีนั้นง่ายในแบบเบย์เนื่องจากเป็นทั้งครอบครัวเอ็กซ์โพเนนเชียล นี่คือการดัดแปลงโมเดลตามที่คุณคาดหวัง

— นีลจี
แหล่งที่มา

1

ฉันคิดว่าคำตอบ "ถูกต้อง" ที่แท้จริงสำหรับคำถามนี้คือการถดถอยเบต้าที่ไม่มีศูนย์ สิ่งนี้ได้รับการออกแบบมาเพื่อจัดการข้อมูลที่แตกต่างกันอย่างต่อเนื่องในช่วงเวลา [0,1] และอนุญาตให้ 0 ของจริงและ 1 อยู่ในข้อมูล วิธีนี้เหมาะกับโมเดลสามแบบที่แยกกันในบริบทแบบเบย์คล้ายกับที่ @B_Miner เสนอ

รุ่นที่ 1: ค่าเป็นค่าไม่ต่อเนื่อง 0/1 หรือเป็นค่าใน (0,1) หรือไม่ เหมาะสมกับการกระจายเบอเนลลี่

รุ่น 2: ติดตั้งชุดย่อยที่ไม่ต่อเนื่องโดยมีการกระจายเบอโนลลี

รุ่น 3: Fit (0,1) เซ็ตย่อยด้วยการถดถอยเบต้า

สำหรับการทำนายผลลัพธ์ของแบบจำลองแรกนั้นสามารถนำมาใช้เพื่อถ่วงน้ำหนักการคาดการณ์ของแบบจำลอง 2 และ 3 ซึ่งสามารถนำไปใช้ภายในzoibแพ็คเกจ R หรือใช้ในการปรุงที่บ้านใน BUGS / JAGS / STAN / ฯลฯ

— โคลิน
แหล่งที่มา