การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ


20

มีทางเลือก (ที่แข็งแกร่งกว่า) ในการแปลงอาร์ซินสแควร์รูทสำหรับข้อมูลเปอร์เซ็นต์ / สัดส่วนหรือไม่ ในชุดข้อมูลที่ฉันกำลังทำงานอยู่ในขณะนี้การทำเครื่องหมายเฮเทอโรเซซิติกยังคงอยู่หลังจากฉันใช้การแปลงนี้นั่นคือพล็อตของค่าคงค้างเทียบกับค่าติดตั้งยังคงเป็นรูปสี่เหลี่ยมด้านขนานมาก

แก้ไขเพื่อตอบกลับความคิดเห็น: ข้อมูลเป็นการตัดสินใจลงทุนโดยผู้เข้าร่วมทดลองซึ่งอาจลงทุน 0-100% ของเงินบริจาคในทวีคูณ 10% ฉันได้ดูข้อมูลเหล่านี้โดยใช้การถดถอยแบบลอจิสติกอันดับแล้ว แต่ต้องการดูว่า GLM ที่ถูกต้องจะผลิตอะไร ฉันเห็นคำตอบว่ามีประโยชน์สำหรับการทำงานในอนาคตเนื่องจากอาร์ซินสแควร์รูทดูเหมือนจะถูกใช้เป็นโซลูชั่นขนาดเดียวที่เหมาะกับทุกสาขาของฉันและฉันไม่ได้เจอทางเลือกอื่นใด


2
ค่าติดตั้งจากอะไร รุ่นของคุณคืออะไร? Arcsin คือความแปรปรวน (โดยประมาณ) ที่เสถียรสำหรับทวินาม แต่คุณยังคงมีเอฟเฟกต์ "edge" หากสัดส่วนใกล้เคียงกับ 0 หรือ 1 - เนื่องจากส่วนปกติได้รับการตัดทอนอย่างมีประสิทธิภาพ
ความน่าจะเป็นทางการที่

1
ให้ฉันพูดถึงสิ่งที่ @probabilityislogic พูดและถามว่าข้อมูลมาจากไหน อาจมีบางสิ่งในปัญหาที่แนะนำการเปลี่ยนแปลงอื่นหรือแบบจำลองอื่นทั้งหมดซึ่งอาจเหมาะสมกว่าและ / หรือตีความได้
JMS

1
@prob @ JMS ทำไมเราไม่ปล่อยให้ OP ซึ่งฉันเชื่อว่าค่อนข้างมีความรู้เกี่ยวกับสถิติลองเปลี่ยนเส้นทางก่อน จากนั้นหากยังไม่ได้ผลก็จะเป็นผลดีที่จะเริ่มต้นเธรดใหม่ที่แสดงปัญหาน้อยลง ความคิดเห็นของคุณจะเหมาะสมในบริบทนั้น
whuber

1
มีปัญหาใหญ่กับการแปลงรากอาร์ซีซีนที่อธิบายไว้ในบทความบรรดาศักดิ์อาร์ซิซีนคืออาซิน: การวิเคราะห์สัดส่วนในระบบนิเวศ
mkt - Reinstate Monica

1
@mkt ขอบคุณสำหรับการอ้างอิงสิ่งนี้ได้นำไปสู่การบรรยายของเทอมถัดไปสำหรับโมเดลเชิงเส้นทั่วไป
Freya Harrison

คำตอบ:


28

แน่ใจ จอห์นทูกีอธิบายครอบครัว (เพิ่มขึ้นแบบหนึ่งต่อหนึ่ง) การเปลี่ยนแปลงในEDA มันขึ้นอยู่กับความคิดเหล่านี้:

  1. เพื่อให้สามารถขยายส่วนท้าย (ไปยัง 0 และ 1) ตามที่ควบคุมโดยพารามิเตอร์

  2. อย่างไรก็ตามเพื่อให้ตรงกับค่าดั้งเดิม (ไม่ถูกแปลง) ใกล้กลาง ( ) ซึ่งทำให้การแปลงตีความง่ายขึ้น1/2

  3. เพื่อทำให้สมมาตรแสดงซ้ำประมาณ นั่นคือถ้าถูกแสดงอีกครั้งเป็น1/2.pf(p)แล้ว1pจะได้รับการแสดงเป็นf(p) )

หากคุณเริ่มต้นด้วยการใด ๆ ที่เพิ่มขึ้นต่อเนื่องฟังก์ชั่นg:(0,1)Rอนุพันธ์ที่1/2คุณสามารถปรับให้ตรงตามที่สองและสามเกณฑ์: เพียงแค่กำหนด

f(p)=g(p)g(1p)2g(1/2).

ตัวเศษเป็นสมมาตรอย่างชัดเจน (เกณฑ์(3) ) เนื่องจากการสลับpมี1pจะเป็นการลบการลบดังนั้นจึงเป็นการลบ จะเห็นว่า(2)มีความพึงพอใจทราบว่าตัวหารเป็นอย่างแม่นยำปัจจัยที่จำเป็นเพื่อให้f(1/2)=1. จำได้ว่าใกล้เคียงกับอนุพันธ์พฤติกรรมท้องถิ่นของฟังก์ชั่นที่มีฟังก์ชั่นเชิงเส้น ความชัน1=1:1ดังนั้นหมายความว่าf(p)p(บวกค่าคงที่1/2 ) เมื่อpพอใกล้กับ1/2. นี้เป็นความรู้สึกในการที่ค่าเดิมเป็น "การจับคู่ที่อยู่ใกล้ตรงกลาง."

Tukey นี้เรียกว่า "พับ" รุ่นกรัมgครอบครัวของเขาประกอบไปด้วยอำนาจและเข้าสู่ระบบการแปลงg(p)=pλที่ไหนเมื่อλ=0เราจะพิจารณาg(p)=log(p) )

ลองดูตัวอย่าง เมื่อλ=1/2ที่เราได้รับรากพับหรือ "Froot" f(p)=1/2(p1p) ) เมื่อλ=0เรามีลอการิทึมแบบพับได้หรือ "flog,"f(p)=(log(p)log(1p))/4. เห็นได้ชัดว่านี่เป็นเพียงการแปลงlogitหลายค่าคงที่log(p1p) )

กราฟสำหรับแลมบ์ดา = 1, 1/2, 0 และ arcsin

ในกราฟนี้สอดคล้องกับเส้นสีฟ้าเพื่อλ=1เส้นสีแดงระดับกลางถึงλ=1/2และสายสีเขียวมากจะλ=0 0 เส้นประทองเปลี่ยนแปลง arcsine ที่arcsin(2p1)/2=arcsin(p)arcsin(1/2) ) "การจับคู่" ของความลาดชัน (เกณฑ์(2)) สาเหตุกราฟทั้งหมดที่จะอยู่ใกล้ตรงp=1/2.

ค่าที่มีประโยชน์มากที่สุดของพารามิเตอร์λอยู่ระหว่าง1และ00(คุณสามารถทำให้หางหนักที่มีค่าเชิงลบของλแต่การใช้งานนี้เป็นของหายาก.) λ=1ไม่ได้ทำอะไรเลยยกเว้น recenter ค่า ( f(p)=p1/2 ) ในฐานะที่เป็นλหดตัวต่อศูนย์หางได้รับการดึงอีกต่อ± สิ่งนี้เป็นไปตามเกณฑ์ # 1 ดังนั้นโดยการเลือกค่าที่เหมาะสมของλคุณสามารถควบคุม "ความแข็งแกร่ง" ของการแสดงออกครั้งนี้ในหาง


ถ้ารู้ฟังก์ชั่น R ที่ใช้อันนี้โดยอัตโนมัติ
จอห์น

1
@ John No ฉันทำไม่ได้ แต่มันง่ายพอที่จะทำให้สำเร็จ
whuber

2
ฉันไม่เห็นว่ามันเป็นเรื่องยาก แต่มันจะดีถ้ามีอะไรบางอย่างเช่น boxcox tranforms ที่วางแผนเลือกที่ดีที่สุดสำหรับแลมบ์ดาโดยอัตโนมัติ ใช่ไม่น่ากลัวที่จะติดตั้ง ...
John

2
ขอบคุณ whuber นี่คือสิ่งที่ฉันกำลังมองหาและกราฟนั้นมีประโยชน์จริงๆ เห็นด้วยอย่างแน่นอนกับจอห์นว่าสิ่งที่ชอบ boxcox จะเป็นประโยชน์ แต่ดูเหมือนง่ายพอที่จะทำงานผ่าน
Freya Harrison

7

วิธีหนึ่งในการรวมคือการรวมการแปลงดัชนี วิธีการหนึ่งที่โดยทั่วไปคือการใช้สมมาตรใด ๆ (ผกผัน) ฟังก์ชันการแจกแจงสะสมเพื่อให้และF ( x ) = 1 - F ( - x ) ตัวอย่างหนึ่งคือการแจกแจงมาตรฐานของนักเรียนโดยมีνองศาอิสระ พารามิเตอร์vควบคุมความเร็วที่ตัวแปรที่แปลงแล้วเลื่อนออกไปเป็นอนันต์ หากคุณตั้งค่าv = 1คุณจะมีการแปลงอาร์คตัน:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

นี่คือสุดขีดยิ่งกว่า arcsine และรุนแรงกว่าการแปลง logit โปรดทราบว่า Logit แปลงสามารถประมาณคร่าว ๆ โดยใช้ t-กับการกระจาย 8 ในทางใดทางหนึ่งมันให้การเชื่อมโยงโดยประมาณระหว่าง logit และ probit ( ν = ) การแปลงและส่วนขยายของพวกมันเพื่อการแปลงที่มากขึ้นν8ν=

ปัญหาเกี่ยวกับการแปลงเหล่านี้คือการที่พวกเขาให้เมื่อสัดส่วนสังเกตเท่ากับ1หรือ0 ดังนั้นคุณต้องอย่างใดหดเหล่านี้อย่างใด - วิธีที่ง่ายที่สุดที่จะเพิ่มเป็น+ 1 "ความสำเร็จ" และ+ 1 "ความล้มเหลว"±10+1+1


2
ด้วยเหตุผลหลายประการ Tukey แนะนำให้เพิ่ม +1/6 เพื่อนับ โปรดทราบว่าคำตอบนี้เป็นกรณีพิเศษของวิธีการพับของ Tukey ที่ฉันอธิบายไว้: CDF ใด ๆ ที่มี PDF เป็นบวกนั้นเป็นแบบ monotonic การพับ CDF แบบสมมาตรทำให้ไม่เปลี่ยนแปลง
whuber

2
ν8p01ν=5p1/2tνlogit

2
@whuber - คุณให้เครดิตฉันมากเกินไป ข้อเสนอแนะของฉันขึ้นอยู่กับการดูกราฟของไฟล์ pdf ของกราฟของไฟล์ PDF โลจิสติกf ( x ) = e - x ( 1 + e - x ) - 2และกราฟของ pdf มาตรฐานทั่วไป เสรีภาพ5องศาตรงกับความเกินส่วนเกินและอาจดีกว่า t8f(x)=ex(1+ex)25
ความน่าจะเป็นที่เป็นไปได้

5
@whuber เหตุผลหนึ่งที่เพิ่ม 1/6 ให้กับการนับก็คือการนับผลลัพธ์ "เริ่มต้น" นั้นใกล้เคียงกับค่ามัธยฐานด้านหลังที่สมมติว่ามีการแจกแจงทวินามกับ Jeffreys ก่อนหน้านี้ (ฉันเขียนเรื่องนี้เล็กน้อยที่นี่: sumsar.net/blog/2013/09/ a-bayesian-Twist-on-tukeys-flogs ) อย่างไรก็ตามฉันไม่รู้ว่านี่เป็นเหตุผลของ Tukey ในการเพิ่ม 1/6 หรือไม่ คุณรู้ไหมว่าเหตุผลของเขาอาจเป็นเพราะอะไร?
Rasmus Bååth

4
xxi<xxi=x(xi)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.