คำถามหลักเกี่ยวกับการเปลี่ยนสัดส่วน (ฉันจะใช้เป็นสัญลักษณ์ในทำนองเดียวกัน แต่ไม่เหมือนกันกับสัญลักษณ์ของคุณ) อนุญาตความคิดเห็นทั่วไปบางอย่างx
ในสิ่งต่อไปนี้ฉันคิดว่าแรงจูงใจหลักในการเปลี่ยนสัดส่วนที่เป็น covariates (ตัวทำนายตัวแปรอิสระ) คือการปรับปรุงการประมาณความสัมพันธ์เชิงเส้นของความสัมพันธ์หรือถ้าอยู่ในโหมดสำรวจเพื่อให้ได้แนวคิดที่ชัดเจนขึ้น ความสัมพันธ์ใด ๆ ตามปกติไม่ว่าจะเป็น covariate (เช่น) กระจายโดยทั่วไปประมาณไม่สำคัญเช่นนี้ (สัดส่วนไม่สัมพันธ์กับตัวแปรตัวบ่งชี้ที่มีค่าซึ่งไม่สามารถกระจายได้ตามปกติและสัดส่วนจะต้องถูก จำกัด ขอบเขตด้วย)0 , 1
หากสัดส่วนสามารถบรรลุค่าศูนย์หรือจำนวนที่แน่นอนได้จำเป็นต้องมีการกำหนดการแปลงสำหรับข้อ จำกัด เหล่านั้นซึ่งออกกฎอย่างชัดเจนเนื่องจากไม่ได้กำหนด ยิ่งไปกว่านั้นรูปร่างที่เฉพาะเจาะจงต้องมีเหตุผล (วิทยาศาสตร์ปฏิบัติ) สำคัญ แต่ขาดจากการวิเคราะห์อย่างง่าย ๆ ว่ามีความไวสูงต่อค่าของตามที่คุณแนะนำ logxlog0log(x+c)c
นี้เป็นเพียงเล็กน้อยง่ายที่จะเห็นด้วยกับฐานลอการิทึมเพื่อเป็นการชั่วคราวให้พิจารณาเพื่อให้แผนที่จะk10c=10klog10(x+10k)x=0k
ดังนั้นแผนที่ถึงและถึงประมาณในขณะที่แผนที่ถึงและถึง smidgen มากกว่าเท่านั้นk=0,c=1x=00x=10.301k=−3,c=0.001x=0−3x=10
ในทำนองเดียวกันสิ่งที่หมายความว่าแมปข้อ จำกัด เหล่านั้นในขณะที่การประมาณการที่ดีมากขึ้นถูกแมปไป0k=−6,−9,0x=10
ดังนั้นขอบเขตล่างจะถูกยืดออกไปด้านนอกด้วยค่าคงที่ที่เล็กลงและเล็กลงในขณะที่ค่าสูงสุดยังคงเท่าเดิม การเปลี่ยนแปลงดังกล่าวจึงสามารถยืดส่วนล่างของช่วงเหลือเกินและแม้กระทั่งการสร้างค่าผิดปกติจากค่าขนาดเล็กมากหรือใกล้0c0
เพียงแค่ผู้คนที่แนะนำสิ่งนี้น่าจะจินตนาการว่า (ตอนนี้ไปยังฐานที่คุณชอบ) ควรทำตัวคล้ายกับสำหรับขนาดเล็กซึ่งเห็นได้ชัดว่าเป็นจริงสำหรับขนาดใหญ่แต่ไม่จริงเลยสำหรับขนาดเล็ก . มิเช่นนั้นความชันและชันชันของเป็นฟังก์ชั่นของเมื่อสามารถกัดที่นี่ได้ยากมากlog(x+c)logxcxxlogxxx↓0
ดูเหมือนว่าดีกว่าที่จะมุ่งเน้นไปที่การเปลี่ยนแปลงที่แตกต่างกันมากขึ้นค่อยๆใกล้และ (สำหรับอื่น ๆ แต่ที่เกี่ยวข้องกับเหตุผล) นอกจากนี้ยังอยู่ใกล้กับ1x=0x=1
รากและรากที่สามและอำนาจอื่น ๆ สแควร์จะดีที่สุดที่กำหนดไว้อย่างดีสำหรับและมักจะช่วยเหลือเมื่อมีความจำเป็นที่จะยืดค่าใกล้0แต่การเปลี่ยนแปลงเหล่านี้เป็นที่รู้จักกันดีและฉันก็มุ่งเน้นที่ความเป็นไปได้อื่น ๆxpx=0,10
ครอบครัวของอำนาจนิยมโดยพับเจดับบลิวทูกี ( สำรวจวิเคราะห์ข้อมูล , อ่านหนังสือ, MA: Addison-Wesley, 1977) เป็นหนึ่งในความเป็นไปได้และเป็น
P แม้ว่าจะไม่มีการบีบบังคับให้เลือกพลังที่อนุญาตให้สร้างชื่อแบบง่าย ๆ แต่ตัวเลือก (รูทพับ) และ (รูทคิวบ์แบบพับ) ดูเหมือนสมาชิกที่มีประโยชน์ที่สุดของตระกูลนี้xp−(1−x)pp=1/2p=1/3
ครอบครัวมีลักษณะที่คุ้นเคย logit เปลี่ยนแปลงและแน่นอน logit เป็นกรณี จำกัด เป็นมีแนวโน้มที่จะ0ความแตกต่างที่สำคัญคือการที่อำนาจพับมีการกำหนดไว้สำหรับและ0p 0 x = 0 , 1 p ≠ 0logit x=logx−log(1−x)p0x=0,1p≠0
กำลังพับรวมถึงตอนนี้ logit, รักษากรณีที่รุนแรงใกล้และเอียง - สมมาตรและพล็อตเป็นเส้นโค้ง sigmoid ผกผัน (กราฟบางกราฟด้านล่าง) ผสมพฤติกรรมเสริมและ multiplicative สะท้อนคุณภาพบ่อย (ถ้าไม่ทางกายภาพชีวภาพเศรษฐกิจอะไร) ข้อเท็จจริงสำหรับปรากฏการณ์พื้นฐานที่101
ความแตกต่างจากการพูดถึงสามารถเป็น "เรื่องใหญ่" (แน่นอนว่าเปลี่ยนแปลงเพียงแต่ยังเป็นสองเท่า)0.02 x 0.010.010.02x0.01
ความแตกต่างจากการพูดถึงสามารถเป็น "เรื่องใหญ่" ได้เช่นกัน (แน่นอนว่าเปลี่ยนแปลงเพียงแต่ส่วน "ที่ไม่มี"ก็แบ่งครึ่ง)0.99 x 0.01 1 - x0.980.99x0.011−x
ความแตกต่างจากการพูดถึงอาจเป็น "ข้อตกลงที่น้อยกว่า" (แน่นอนว่าเปลี่ยนแปลงด้วยเช่นกัน แต่การเปลี่ยนแปลงสัดส่วนมีขนาดเล็กกว่ามาก)0.51 x 0.010.500.51x0.01
นี่อาจเป็นวิธีที่ง่ายที่สุดที่จะนึกถึงเมื่อมีการจินตนาการถึงพลวัตพื้นฐาน: ส่วนที่เพิ่มขึ้นของคนที่รู้หนังสือต้องการการผลักดันที่ยิ่งใหญ่เพื่อก้าวไปข้างหน้าเร่งความเร็วแล้วช้าลงเมื่อมันเข้าใกล้เส้นกำกับของความรู้สากล ดังนั้นเส้นโค้งในเวลาสามารถคล้ายกับโลจิสติกที่เพิ่มขึ้นหรือลดลง ความจริงที่ว่าและสัดส่วนนั้นเข้ามาใกล้มากขึ้นหรือช้าลงตามธรรมชาติเป็นหนึ่งในแรงจูงใจหลายประการสำหรับ logit และตัวแบบที่คล้ายกันสำหรับการตอบสนองแบบสัดส่วน แม้ว่าเราจะมุ่งเน้นไปที่โควาเรียต์ตามสัดส่วน แต่ sigmoids ก็มีประโยชน์เช่นกัน101
อำนาจพับเช่นรากพับหรือรากที่สามไม่ได้ sigmoid เป็นอย่างมาก logit แต่บุญที่มีคุณค่าที่นี่จะถูกโดยตรงและง่ายดายของพวกเขาโดยไม่ต้องกำหนด fudges, kludges หรือนัดสำหรับ1x=0,1
หันไปใช้ชุดข้อมูลปลอม แต่ดูเหมือนเป็นจริง (ซึ่งฉันนำเข้ามาในซอฟต์แวร์ที่ฉันโปรดปราน แต่การวิเคราะห์นั้นง่ายมากในสิ่งที่เหมาะสม) ปรากฎว่าไม่มีการเปลี่ยนแปลงใด ๆ ที่จะช่วยได้เลย แต่การทำกราฟข้อมูลให้คำเตือนที่ชัดเจนว่าแม้เป็นการเปลี่ยนแปลงที่แข็งแกร่งอย่างยิ่งซึ่งสามารถเห็นได้ด้วยการวางแผนโดยตรงlog(x+0.001)
ประเด็นหลักสองข้อที่ฉันต้องการทำคือ
xlog(x+c)มักจะแนะนำและดูเหมือนว่าไร้เดียงสามักจะถูกมองว่าเป็นการเปลี่ยนแปลงที่อันตรายเว้นแต่จะเข้าใจและไม่เหมาะสมเมื่อใดก็ตามที่มันแผ่ขยายการกระจายอย่างมากสำหรับเล็ก(เว้นแต่ว่านี่จะเป็นพฤติกรรมที่ต้องการ)x
สำหรับข้อมูลตัวอย่างของคุณไม่มีการแปลงข้อมูลที่ฉันพยายามจะช่วย
ในขณะเดียวกันความเป็นไปได้อื่น ๆ ก็ยังห่างไกลจากความเหนื่อยล้า (โดยเฉพาะอย่างยิ่งฉันไม่ได้ลองสแควร์รูทหรือคิวบ์รูทและเน้นว่าในปัญหาอื่น ๆ อีกมากมายที่อาจทำให้ผู้สมัครเห็นได้ชัดและจริงจัง)
ชุดแรกของกราฟก็แสดงให้เห็นถึงการเปลี่ยนแปลงผู้สมัครบางอย่างสำหรับสัดส่วนที่สามารถบรรลุทั้งและ1(ฉันใช้ลอการิทึมธรรมชาติ แต่รูปร่างไม่ได้ขึ้นอยู่กับฐานที่เลือก)101
กราฟชุดที่สองแสดงให้เห็นว่าไม่มีการแปลงใดช่วยในข้อมูลตัวอย่างได้มากนัก (สำหรับการเปรียบเทียบการถดถอยแบบธรรมดากับข้อมูลดั้งเดิมให้ผลตอบแทน %, RMSE )= 0.994R2=3.7=0.994
ปริศนาเล็ก ๆ คุณกล่าวจะเป็นสัดส่วน แต่ค่าของมันอยู่ที่ประมาณไป106 10y610
แก้ไข: ข้อมูลดั้งเดิมสามารถพล็อตได้ที่นี่เพราะ OP โพสต์ข้อมูลสั้น ๆ แต่หลังจากนั้นก็ลบออก
หัวข้ออื่น ๆ ที่นี่โดยใช้อำนาจการพับรวมถึง
การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ
การถดถอย: Scatterplot ที่มี R กำลังสองต่ำและค่า p สูง
พล็อตชุดข้อมูลที่เบ้อย่างมาก