วิธีที่เหมาะสมที่สุดในการแปลงสัดส่วนเมื่อเป็นตัวแปรอิสระคืออะไร


12

ฉันคิดว่าฉันเข้าใจปัญหานี้ แต่ตอนนี้ฉันไม่แน่ใจและฉันต้องการตรวจสอบกับผู้อื่นก่อนที่ฉันจะดำเนินการต่อ

ฉันมีสองตัวแปรXและY. Yเป็นอัตราส่วนและไม่ได้ล้อมรอบด้วย 0 และ 1 และโดยทั่วไปแล้วจะกระจาย Xเป็นสัดส่วนและมันถูกล้อมรอบด้วย 0 และ 1 (มันวิ่งจาก 0.0 ถึง 0.6) เมื่อฉันเรียกใช้การถดถอยเชิงเส้นของY ~ Xและฉันพบว่าXและYมีความสัมพันธ์เชิงเส้นอย่างมีนัยสำคัญ จนถึงตอนนี้ดีมาก

แต่แล้วผมตรวจสอบต่อไปและผมก็เริ่มคิดว่าบางทีXและY'ความสัมพันธ์อาจจะโค้งมากกว่าเชิงเส้น ให้ฉันดูเหมือนความสัมพันธ์ของXและYอาจจะใกล้ชิดกับY ~ log(X), Y ~ sqrt(X)หรือY ~ X + X^2, หรือสิ่งที่ต้องการ ฉันมีเหตุผลเชิงประจักษ์ที่จะถือว่าความสัมพันธ์นั้นอาจเป็นเส้นโค้ง แต่ไม่ใช่เหตุผลที่จะถือว่าความสัมพันธ์ที่ไม่ใช่เชิงเส้นใด ๆ อาจดีกว่าความสัมพันธ์อื่น

ฉันมีคำถามที่เกี่ยวข้องสองสามข้อจากที่นี่ ก่อนอื่นXตัวแปรของฉันรับค่าสี่ค่า: 0, 0.2, 0.4 และ 0.6 เมื่อฉันล็อก - หรือสแควร์รูท - แปลงข้อมูลเหล่านี้ระยะห่างระหว่างค่าเหล่านี้จะผิดเพี้ยนเพื่อให้ค่า 0 อยู่ห่างจากค่าอื่นทั้งหมดมาก เพราะขาดวิธีการถามที่ดีกว่านี่คือสิ่งที่ฉันต้องการหรือไม่ ฉันคิดว่ามันไม่ใช่เพราะฉันได้รับผลลัพธ์ที่แตกต่างกันมากขึ้นอยู่กับระดับความผิดเพี้ยนที่ฉันยอมรับ หากนี่ไม่ใช่สิ่งที่ฉันต้องการฉันควรหลีกเลี่ยงได้อย่างไร

ประการที่สองการบันทึกข้อมูลเหล่านี้ฉันต้องเพิ่มจำนวนลงในแต่ละXค่าเพราะคุณไม่สามารถบันทึก 0 ได้เมื่อฉันเพิ่มจำนวนน้อยมากพูด 0.001 ฉันได้รับการบิดเบือนอย่างมาก เมื่อฉันเพิ่มจำนวนที่มากขึ้นพูด 1 ฉันได้รับการบิดเบือนน้อยมาก มีจำนวน "ถูกต้อง" เพื่อเพิ่มXตัวแปรหรือไม่? หรือมันไม่เหมาะสมที่จะเพิ่มอะไรลงXในตัวแปรแทนการเลือกการแปลงทางเลือก (เช่นคิวบ์รูท) หรือโมเดล (เช่นการถดถอยโลจิสติก)

สิ่งเล็ก ๆ น้อย ๆ ที่ฉันสามารถค้นพบในประเด็นนี้ทำให้ฉันรู้สึกว่าควรเหยียบอย่างระมัดระวัง สำหรับผู้ใช้ R เพื่อนรหัสนี้จะสร้างข้อมูลบางอย่างที่มีโครงสร้างคล้ายกันกับของฉัน

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

คุณบอกว่า Y เป็นสัดส่วน แต่ในข้อมูลของคุณมันอยู่ระหว่าง 6 ถึง 10?

ใช่ฉันแก้ไขสิ่งนี้ด้านบน - เป็นอัตราส่วนไม่ใช่สัดส่วน
Bajcz

คำตอบ:


13

คำถามหลักเกี่ยวกับการเปลี่ยนสัดส่วน (ฉันจะใช้เป็นสัญลักษณ์ในทำนองเดียวกัน แต่ไม่เหมือนกันกับสัญลักษณ์ของคุณ) อนุญาตความคิดเห็นทั่วไปบางอย่างx

ในสิ่งต่อไปนี้ฉันคิดว่าแรงจูงใจหลักในการเปลี่ยนสัดส่วนที่เป็น covariates (ตัวทำนายตัวแปรอิสระ) คือการปรับปรุงการประมาณความสัมพันธ์เชิงเส้นของความสัมพันธ์หรือถ้าอยู่ในโหมดสำรวจเพื่อให้ได้แนวคิดที่ชัดเจนขึ้น ความสัมพันธ์ใด ๆ ตามปกติไม่ว่าจะเป็น covariate (เช่น) กระจายโดยทั่วไปประมาณไม่สำคัญเช่นนี้ (สัดส่วนไม่สัมพันธ์กับตัวแปรตัวบ่งชี้ที่มีค่าซึ่งไม่สามารถกระจายได้ตามปกติและสัดส่วนจะต้องถูก จำกัด ขอบเขตด้วย)0,1

หากสัดส่วนสามารถบรรลุค่าศูนย์หรือจำนวนที่แน่นอนได้จำเป็นต้องมีการกำหนดการแปลงสำหรับข้อ จำกัด เหล่านั้นซึ่งออกกฎอย่างชัดเจนเนื่องจากไม่ได้กำหนด ยิ่งไปกว่านั้นรูปร่างที่เฉพาะเจาะจงต้องมีเหตุผล (วิทยาศาสตร์ปฏิบัติ) สำคัญ แต่ขาดจากการวิเคราะห์อย่างง่าย ๆ ว่ามีความไวสูงต่อค่าของตามที่คุณแนะนำ logxlog0log(x+c)c

นี้เป็นเพียงเล็กน้อยง่ายที่จะเห็นด้วยกับฐานลอการิทึมเพื่อเป็นการชั่วคราวให้พิจารณาเพื่อให้แผนที่จะk10c=10klog10(x+10k)x=0k

ดังนั้นแผนที่ถึงและถึงประมาณในขณะที่แผนที่ถึงและถึง smidgen มากกว่าเท่านั้นk=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

ในทำนองเดียวกันสิ่งที่หมายความว่าแมปข้อ จำกัด เหล่านั้นในขณะที่การประมาณการที่ดีมากขึ้นถูกแมปไป0k=6,9,0x=10

ดังนั้นขอบเขตล่างจะถูกยืดออกไปด้านนอกด้วยค่าคงที่ที่เล็กลงและเล็กลงในขณะที่ค่าสูงสุดยังคงเท่าเดิม การเปลี่ยนแปลงดังกล่าวจึงสามารถยืดส่วนล่างของช่วงเหลือเกินและแม้กระทั่งการสร้างค่าผิดปกติจากค่าขนาดเล็กมากหรือใกล้0c0

เพียงแค่ผู้คนที่แนะนำสิ่งนี้น่าจะจินตนาการว่า (ตอนนี้ไปยังฐานที่คุณชอบ) ควรทำตัวคล้ายกับสำหรับขนาดเล็กซึ่งเห็นได้ชัดว่าเป็นจริงสำหรับขนาดใหญ่แต่ไม่จริงเลยสำหรับขนาดเล็ก . มิเช่นนั้นความชันและชันชันของเป็นฟังก์ชั่นของเมื่อสามารถกัดที่นี่ได้ยากมากlog(x+c)logxcxxlogxxx0

ดูเหมือนว่าดีกว่าที่จะมุ่งเน้นไปที่การเปลี่ยนแปลงที่แตกต่างกันมากขึ้นค่อยๆใกล้และ (สำหรับอื่น ๆ แต่ที่เกี่ยวข้องกับเหตุผล) นอกจากนี้ยังอยู่ใกล้กับ1x=0x=1

รากและรากที่สามและอำนาจอื่น ๆ สแควร์จะดีที่สุดที่กำหนดไว้อย่างดีสำหรับและมักจะช่วยเหลือเมื่อมีความจำเป็นที่จะยืดค่าใกล้0แต่การเปลี่ยนแปลงเหล่านี้เป็นที่รู้จักกันดีและฉันก็มุ่งเน้นที่ความเป็นไปได้อื่น ๆxpx=0,10

ครอบครัวของอำนาจนิยมโดยพับเจดับบลิวทูกี ( สำรวจวิเคราะห์ข้อมูล , อ่านหนังสือ, MA: Addison-Wesley, 1977) เป็นหนึ่งในความเป็นไปได้และเป็น P แม้ว่าจะไม่มีการบีบบังคับให้เลือกพลังที่อนุญาตให้สร้างชื่อแบบง่าย ๆ แต่ตัวเลือก (รูทพับ) และ (รูทคิวบ์แบบพับ) ดูเหมือนสมาชิกที่มีประโยชน์ที่สุดของตระกูลนี้xp(1x)pp=1/2p=1/3

ครอบครัวมีลักษณะที่คุ้นเคย logit เปลี่ยนแปลงและแน่นอน logit เป็นกรณี จำกัด เป็นมีแนวโน้มที่จะ0ความแตกต่างที่สำคัญคือการที่อำนาจพับมีการกำหนดไว้สำหรับและ0p 0 x = 0 , 1 p 0logit x=logxlog(1x)p0x=0,1p0

กำลังพับรวมถึงตอนนี้ logit, รักษากรณีที่รุนแรงใกล้และเอียง - สมมาตรและพล็อตเป็นเส้นโค้ง sigmoid ผกผัน (กราฟบางกราฟด้านล่าง) ผสมพฤติกรรมเสริมและ multiplicative สะท้อนคุณภาพบ่อย (ถ้าไม่ทางกายภาพชีวภาพเศรษฐกิจอะไร) ข้อเท็จจริงสำหรับปรากฏการณ์พื้นฐานที่101

  • ความแตกต่างจากการพูดถึงสามารถเป็น "เรื่องใหญ่" (แน่นอนว่าเปลี่ยนแปลงเพียงแต่ยังเป็นสองเท่า)0.02 x 0.010.010.02x0.01

  • ความแตกต่างจากการพูดถึงสามารถเป็น "เรื่องใหญ่" ได้เช่นกัน (แน่นอนว่าเปลี่ยนแปลงเพียงแต่ส่วน "ที่ไม่มี"ก็แบ่งครึ่ง)0.99 x 0.01 1 - x0.980.99x0.011x

  • ความแตกต่างจากการพูดถึงอาจเป็น "ข้อตกลงที่น้อยกว่า" (แน่นอนว่าเปลี่ยนแปลงด้วยเช่นกัน แต่การเปลี่ยนแปลงสัดส่วนมีขนาดเล็กกว่ามาก)0.51 x 0.010.500.51x0.01

นี่อาจเป็นวิธีที่ง่ายที่สุดที่จะนึกถึงเมื่อมีการจินตนาการถึงพลวัตพื้นฐาน: ส่วนที่เพิ่มขึ้นของคนที่รู้หนังสือต้องการการผลักดันที่ยิ่งใหญ่เพื่อก้าวไปข้างหน้าเร่งความเร็วแล้วช้าลงเมื่อมันเข้าใกล้เส้นกำกับของความรู้สากล ดังนั้นเส้นโค้งในเวลาสามารถคล้ายกับโลจิสติกที่เพิ่มขึ้นหรือลดลง ความจริงที่ว่าและสัดส่วนนั้นเข้ามาใกล้มากขึ้นหรือช้าลงตามธรรมชาติเป็นหนึ่งในแรงจูงใจหลายประการสำหรับ logit และตัวแบบที่คล้ายกันสำหรับการตอบสนองแบบสัดส่วน แม้ว่าเราจะมุ่งเน้นไปที่โควาเรียต์ตามสัดส่วน แต่ sigmoids ก็มีประโยชน์เช่นกัน101

อำนาจพับเช่นรากพับหรือรากที่สามไม่ได้ sigmoid เป็นอย่างมาก logit แต่บุญที่มีคุณค่าที่นี่จะถูกโดยตรงและง่ายดายของพวกเขาโดยไม่ต้องกำหนด fudges, kludges หรือนัดสำหรับ1x=0,1

หันไปใช้ชุดข้อมูลปลอม แต่ดูเหมือนเป็นจริง (ซึ่งฉันนำเข้ามาในซอฟต์แวร์ที่ฉันโปรดปราน แต่การวิเคราะห์นั้นง่ายมากในสิ่งที่เหมาะสม) ปรากฎว่าไม่มีการเปลี่ยนแปลงใด ๆ ที่จะช่วยได้เลย แต่การทำกราฟข้อมูลให้คำเตือนที่ชัดเจนว่าแม้เป็นการเปลี่ยนแปลงที่แข็งแกร่งอย่างยิ่งซึ่งสามารถเห็นได้ด้วยการวางแผนโดยตรงlog(x+0.001)

ประเด็นหลักสองข้อที่ฉันต้องการทำคือ

  1. xlog(x+c)มักจะแนะนำและดูเหมือนว่าไร้เดียงสามักจะถูกมองว่าเป็นการเปลี่ยนแปลงที่อันตรายเว้นแต่จะเข้าใจและไม่เหมาะสมเมื่อใดก็ตามที่มันแผ่ขยายการกระจายอย่างมากสำหรับเล็ก(เว้นแต่ว่านี่จะเป็นพฤติกรรมที่ต้องการ)x

  2. สำหรับข้อมูลตัวอย่างของคุณไม่มีการแปลงข้อมูลที่ฉันพยายามจะช่วย

ในขณะเดียวกันความเป็นไปได้อื่น ๆ ก็ยังห่างไกลจากความเหนื่อยล้า (โดยเฉพาะอย่างยิ่งฉันไม่ได้ลองสแควร์รูทหรือคิวบ์รูทและเน้นว่าในปัญหาอื่น ๆ อีกมากมายที่อาจทำให้ผู้สมัครเห็นได้ชัดและจริงจัง)

ชุดแรกของกราฟก็แสดงให้เห็นถึงการเปลี่ยนแปลงผู้สมัครบางอย่างสำหรับสัดส่วนที่สามารถบรรลุทั้งและ1(ฉันใช้ลอการิทึมธรรมชาติ แต่รูปร่างไม่ได้ขึ้นอยู่กับฐานที่เลือก)101

ป้อนคำอธิบายรูปภาพที่นี่

กราฟชุดที่สองแสดงให้เห็นว่าไม่มีการแปลงใดช่วยในข้อมูลตัวอย่างได้มากนัก (สำหรับการเปรียบเทียบการถดถอยแบบธรรมดากับข้อมูลดั้งเดิมให้ผลตอบแทน %, RMSE )= 0.994R2=3.7=0.994

ป้อนคำอธิบายรูปภาพที่นี่

ปริศนาเล็ก ๆ คุณกล่าวจะเป็นสัดส่วน แต่ค่าของมันอยู่ที่ประมาณไป106 10y610

แก้ไข: ข้อมูลดั้งเดิมสามารถพล็อตได้ที่นี่เพราะ OP โพสต์ข้อมูลสั้น ๆ แต่หลังจากนั้นก็ลบออก

หัวข้ออื่น ๆ ที่นี่โดยใช้อำนาจการพับรวมถึง

การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ

การถดถอย: Scatterplot ที่มี R กำลังสองต่ำและค่า p สูง

พล็อตชุดข้อมูลที่เบ้อย่างมาก


คำตอบที่ยอดเยี่ยมและทั่วถึงมาก ฉันคิดว่าฉันควรจะบอกว่าYอัตราส่วนของฉันมากกว่าสัดส่วนซึ่งน่าจะเป็นความแตกต่างอย่างมากดังนั้นจึงเป็นการดีที่คุณจะชี้ให้เห็น
Bajcz

สัดส่วนถูก จำกัด ขอบเขตตามที่ฉันกำหนดไว้ ขอบคุณสำหรับความกระจ่างซึ่งไม่ได้สร้างความแตกต่างให้กับการวิเคราะห์ของฉัน (ซึ่งเป็นสาเหตุที่ฉันติดป้ายรายละเอียดเล็ก ๆ )
Nick Cox

2
ความคิดเห็นเพิ่มเติม: ตามหลักการคุณสามารถตรวจสอบความโค้ง ฯลฯ โดยใช้เส้นโค้งหรือสมูทเตอร์ แต่มีเพียง 4 ระดับที่แตกต่างกันของตัวทำนายที่ไม่ใช่เรื่องง่าย ฉันจะพิจารณาการถดถอยเชิงปริมาณสำหรับข้อมูลของคุณ
Nick Cox

ฉันสังเกตเพิ่มเติมว่า ,และอื่น ๆ คือการแปลงตัวเลือกหากคุณมีโอกาสยืดหางขวา ( ) มากกว่าด้านซ้าย ( ) เห็นได้ชัดว่าพวกเขาจะดีที่สุดที่กำหนดไว้อย่างดีสำหรับ0,1 x 3 1 0 x = 0 , 1x2x310x=0,1
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.