การกระจายตัวของ


26

การกระจายของสัมประสิทธิ์การตัดสินใจคืออะไรหรือ R กำลังสอง, , ในการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นภายใต้สมมติฐาน ?R2H0:β=0

มันขึ้นอยู่กับจำนวนของตัวทำนายและจำนวนตัวอย่างอย่างไร มีนิพจน์แบบปิดสำหรับโหมดของการแจกแจงนี้หรือไม่?kn>k

โดยเฉพาะฉันมีความรู้สึกว่าการถดถอยอย่างง่าย (ด้วยตัวทำนายหนึ่งตัว ) การแจกแจงนี้มีโหมดเป็นศูนย์ แต่สำหรับการถดถอยหลายครั้งโหมดจะอยู่ในค่าบวกที่ไม่เป็นศูนย์ หากนี่เป็นเรื่องจริงมีคำอธิบายง่ายๆเกี่ยวกับ "การเปลี่ยนเฟส" นี้หรือไม่?x


ปรับปรุง

ในฐานะที่เป็น @Alecos แสดงให้เห็นด้านล่างกระจายแน่นอนยอดเขาที่ศูนย์เมื่อและและไม่ได้อยู่ที่ศูนย์เมื่อ 3 ฉันรู้สึกว่าควรมีมุมมองทางเรขาคณิตในการเปลี่ยนเฟสนี้ พิจารณามุมมองเชิงเรขาคณิตของ OLS:เป็นเวกเตอร์ใน ,กำหนดพื้นที่ย่อย -dimensional จำนวน OLS จะฉาย\ mathbf Yบนสเปซนี้และR ^ 2คือโคไซน์กำลังสองของมุมระหว่าง\ Y mathbfและประมาณการ\ hat {\ mathbf y}k=2k=3k>3yRnXkyR2yy^

ทีนี้จากคำตอบของ @ Alecos ตามมาว่าถ้าเวกเตอร์ทั้งหมดสุ่มแล้วการกระจายความน่าจะเป็นของมุมนี้จะสูงสุดที่สำหรับและแต่จะมีโหมดที่ค่าอื่น ๆสำหรับ 3 ทำไม?!90k=2k=3<90k>3


อัปเดต 2:ฉันยอมรับคำตอบ @ Alecos'es แต่ก็ยังรู้สึกว่าฉันขาดความเข้าใจที่สำคัญบางอย่างที่นี่ หากใครเคยแนะนำมุมมองอื่น ๆ (เชิงเรขาคณิตหรือไม่) ในปรากฏการณ์นี้ที่จะทำให้มัน "ชัดเจน" ฉันจะมีความสุขที่จะนำเสนอรางวัล


1
คุณยินดีที่จะรับข้อผิดพลาดปกติ?
Dimitriy V. Masterov

1
ใช่ฉันเดาว่าต้องคิดเอาเองเพื่อให้คำถามนี้ตอบได้ (?)
อะมีบาพูดว่า Reinstate Monica

1
คุณได้ตรวจสอบdavegiles.blogspot.jp/2013/05/good-old-r-squared.htmlนี้หรือไม่
Khashaa

1
@Khashaa: อันที่จริงฉันต้องยอมรับว่าฉันพบหน้าเว็บบล็อกนั้นก่อนโพสต์คำถามของฉันที่นี่ สุจริตฉันยังต้องการที่จะมีการอภิปรายของปรากฏการณ์นี้ในฟอรั่มของเราดังนั้นแกล้งทำเป็นฉันไม่เห็นว่า
อะมีบาพูดว่า Reinstate Monica

1
อย่างยิ่งที่เกี่ยวข้องกับคำถาม CV stats.stackexchange.com/questions/123651/...
Alecos Papadopoulos

คำตอบ:


33

สำหรับสมมติฐานที่เฉพาะเจาะจง (ว่าสัมประสิทธิ์การถดถอยทั้งหมดเป็นศูนย์ไม่รวมเทอมคงที่ซึ่งไม่ได้ตรวจสอบในการทดสอบนี้) และภายใต้กฎเกณฑ์ปกติเรารู้ (ดูเช่น Maddala 2001, p. 155 แต่ทราบว่ามีkนับ regressors ที่ไม่มีเทอมคงที่ดังนั้นนิพจน์จะดูต่างออกไปเล็กน้อย) ซึ่งสถิติ

F=nkk1R21R2
ถูกกระจายเป็นตัวแปรสุ่มกลางF(k1,nk)

โปรดทราบว่าแม้ว่าเราจะไม่ทดสอบเทอมคงที่ แต่kก็นับได้เช่นกัน

ย้ายสิ่งต่าง ๆ รอบ ๆ

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

แต่ทางด้านขวามือจะกระจายเป็นการแจกแจงแบบเบต้าโดยเฉพาะ

R2Beta(k12,nk2)

โหมดของการกระจายนี้คือ

modeR2=k121k12+nk22=k3n5

FINITE & UNIQUE MODE
จากความสัมพันธ์ข้างต้นเราสามารถอนุมานได้ว่าสำหรับการแจกแจงที่จะมีโหมดที่ไม่ซ้ำกันและ จำกัด เราต้องมี

k3,n>5

สิ่งนี้สอดคล้องกับข้อกำหนดทั่วไปสำหรับการเผยแพร่เบต้าซึ่งก็คือ

{α>1,β1},OR{α1,β>1}

เป็นหนึ่งสามารถอนุมานจากด้าย CV นี้หรืออ่านที่นี่
โปรดทราบว่าถ้าเราได้รับการกระจายแบบสม่ำเสมอดังนั้นจุดความหนาแน่นทั้งหมดเป็นโหมด (จำกัด แต่ไม่เฉพาะ) ซึ่งจะสร้างคำถาม: ทำไมถ้าk = 3 , n = 5 , R 2มีการกระจายเป็นU ( 0 , 1 ) ?{α=1,β=1}k=3,n=5R2U(0,1)

ผลกระทบ
สมมติว่าคุณมีการถดถอย (รวมถึงค่าคงที่) และการสังเกตn = 99 การถดถอยที่ดีงาม แล้วก็k=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

และพล็อตความหนาแน่น

enter image description here

โปรดปรีชา:นี่คือการกระจายของภายใต้สมมติฐานที่ว่าไม่มีการถดถอยจริงเป็นของการถดถอย ดังนั้น a) การแจกแจงนั้นเป็นอิสระจาก regressors, b) เมื่อขนาดตัวอย่างเพิ่มขึ้นการกระจายของมันจะกระจุกตัวไปที่ศูนย์เมื่อข้อมูลที่เพิ่มขึ้นมีความแปรปรวนตัวอย่างเล็ก ๆ น้อย ๆ ที่อาจสร้าง "พอดี" แต่ก็ยัง เพิ่มขึ้นสำหรับขนาดตัวอย่างที่กำหนดการแจกแจงมุ่งไปที่1และเรามีปรากฏการณ์ R21

แต่ให้สังเกตด้วยว่า "ง่าย" คือการปฏิเสธสมมติฐานว่าง: ในตัวอย่างเฉพาะสำหรับความน่าจะเป็นสะสมได้ถึง0.99ดังนั้นR 2 ที่ได้รับ> 0.13จะปฏิเสธโมฆะของ "การถดถอยที่ไม่มีนัยสำคัญ" ที่ ระดับนัยสำคัญ1 %R2=0.130.99R2>0.131

ADDENDUM
เพื่อตอบสนองต่อปัญหาใหม่เกี่ยวกับโหมดการกระจายฉันสามารถเสนอแนวความคิดต่อไปนี้ (ไม่ใช่เชิงเรขาคณิต) ซึ่งเชื่อมโยงกับปรากฏการณ์ "เก๊ปลอม": เมื่อเรารันชุดข้อมูลน้อยที่สุด เราจำเป็นต้องแก้ระบบสมการเชิงเส้นnด้วยk unknowns (ความแตกต่างเพียงอย่างเดียวจากคณิตศาสตร์ระดับมัธยมปลายคือตอนนั้นเราเรียกว่า "สัมประสิทธิ์ที่รู้จัก" สิ่งที่อยู่ในการถดถอยเชิงเส้นที่เราเรียกว่า "ตัวแปร / regressors", "unknown x" ตอนนี้เรียกว่า "สัมประสิทธิ์ที่ไม่รู้จัก" และ "คำศัพท์คงที่" สิ่งที่เรารู้ว่าเรียกว่า "ตัวแปรตาม" ตราบเท่าที่k < nR2nkk<nระบบจะมากกว่าการระบุและไม่มีการแก้ปัญหาที่แน่นอนตัวอย่างเท่านั้นและอื่นแตกต่างกันโผล่ออกมาเป็น "ความแปรปรวนได้อธิบายของตัวแปร" ซึ่งถูกจับโดย 2 หากk = nระบบมีวิธีแก้ไขปัญหาที่แน่นอนหนึ่งข้อ (สมมติว่าเป็นอิสระเชิงเส้น) ในระหว่างนั้นเมื่อเราเพิ่มจำนวนkเราจะลด "ระดับการ overidentification" ของระบบและเรา "ไปสู่" คำตอบเดียวที่แน่นอน ภายใต้มุมมองนี้ทำให้รู้สึกได้ว่าทำไมR 2เพิ่มขึ้นอย่างไม่เกรงกลัวด้วยการเพิ่มการถดถอยที่ไม่เกี่ยวข้องดังนั้นเหตุใดโหมดของมันจึงค่อยๆเคลื่อนไปทาง1เมื่อkเพิ่มขึ้นสำหรับการให้1R2k=nkR21k .n


1
คณิตศาสตร์ของมัน สำหรับพารามิเตอร์แรกของการแจกแจงแบบเบต้า (" α " ในรูปแบบมาตรฐาน) จะมีขนาดเล็กกว่าความสามัคคี ในกรณีนี้การกระจายเบต้าไม่มีโหมด จำกัด ให้เล่นกับkeisan.casio.com/exec/system/1180573226เพื่อดูว่ารูปร่างเปลี่ยนแปลงอย่างไร k=2α
Alecos Papadopoulos

1
@Alcos คำตอบที่ยอดเยี่ยม! (+1) ฉันขอแนะนำอย่างยิ่งให้คุณเพิ่มคำตอบที่ต้องการสำหรับโหมดที่มีอยู่ได้หรือไม่? นี่มักจะถูกระบุว่าเป็นและβ > 1แต่รายละเอียดเพิ่มเติมก็โอเคถ้าความเสมอภาคในหนึ่งในสอง ... ฉันคิดว่าสำหรับวัตถุประสงค์ของเรานี้จะกลายเป็นk 3และn k + 2และอย่างน้อยหนึ่งใน ความไม่เท่าเทียมกันเหล่านี้เป็นที่เข้มงวด α>1β>1k3 nk+2
Silverfish

2
@Khashaa ยกเว้นถ้าทฤษฎีเรียกร้องฉันไม่เคยแยกการสกัดกั้นจากการถดถอย - มันเป็นระดับเฉลี่ยของตัวแปรตาม, regressors หรือไม่มี regressors (และระดับนี้มักจะเป็นบวกดังนั้นมันจะเป็นการผิดพลาดที่สร้างขึ้นเองอย่างโง่เขลา ละเว้นมัน) แต่ฉันมักจะแยกมันออกจากการทดสอบ F ของการถดถอยเนื่องจากสิ่งที่ฉันสนใจไม่ใช่ว่าตัวแปรตามมีค่าเฉลี่ยที่ไม่มีเงื่อนไขแบบไม่มีเงื่อนไขหรือไม่ แต่ผู้ลงทะเบียนมีอำนาจอธิบายใด ๆ หรือไม่เกี่ยวกับการเบี่ยงเบนจากค่าเฉลี่ยนี้
Alecos Papadopoulos

1
+1! เป็นผลมีสำหรับการกระจายตัวของสำหรับภัณฑ์β เจ ? R2βj
Christoph Hanck


18

ฉันจะไม่ rederive การกระจายในคำตอบที่ยอดเยี่ยมของ @ Alecos (เป็นผลลัพธ์มาตรฐานดูที่นี่สำหรับการสนทนาที่ดีอีกครั้ง) แต่ฉันต้องการกรอกรายละเอียดเพิ่มเติมเกี่ยวกับผลที่ตามมา! ประการแรกสิ่งที่ไม่การกระจาย null ของR2มีลักษณะเหมือนช่วงของค่าของnและk? กราฟในคำตอบของ @ Alecos เป็นตัวแทนของสิ่งที่เกิดขึ้นในการถดถอยหลายทางปฏิบัติ แต่บางครั้งก็มีการรวบรวมข้อมูลเชิงลึกได้ง่ายขึ้นจากกรณีที่เล็กกว่า ฉันได้รวมค่าเฉลี่ยโหมด (ซึ่งมีอยู่) และค่าเบี่ยงเบนมาตรฐาน กราฟ / ตารางสมควรได้รับลูกตาดีดูดีที่สุดที่ขนาดเต็ม ฉันสามารถรวมมุมมองได้น้อยลง แต่รูปแบบจะชัดเจนน้อยลง ฉันได้ต่อท้ายBeta(k12,nk2)R2nkRรหัสเพื่อให้ผู้อ่านที่สามารถทดสอบกับส่วนย่อยที่แตกต่างกันของและknk

Distribution of R2 for small sample sizes

ค่าพารามิเตอร์รูปร่าง

โทนสีของกราฟแสดงให้เห็นว่าแต่ละพารามิเตอร์รูปร่างน้อยกว่าหนึ่ง (สีแดง) เท่ากับหนึ่ง (สีน้ำเงิน) หรือมากกว่าหนึ่ง (สีเขียว) ด้านซ้ายแสดงค่าของขณะที่βอยู่ทางด้านขวา ตั้งแต่α = k - 1αβค่าของมันเพิ่มขึ้นในความก้าวหน้าทางเลขคณิตโดยความแตกต่างทั่วไปของ1α=k12เมื่อเราเลื่อนจากคอลัมน์หนึ่งไปอีกคอลัมน์หนึ่ง (เพิ่ม regressor เข้ากับโมเดลของเรา) ในขณะที่สำหรับค่าคงที่n,β=n-k12nลดลง1β=nk2 . จำนวนรวมα+β=n-112ได้รับการแก้ไขสำหรับแต่ละแถว (สำหรับขนาดตัวอย่างที่กำหนด) แต่ถ้าเราจะแก้ไขปัญหาkและย้ายลงคอลัมน์ (เพิ่มขนาดกลุ่มตัวอย่างโดยการ 1) แล้วαการเข้าพักอย่างต่อเนื่องและβเพิ่มขึ้น1α+β=n12kαβ . ในเงื่อนไขการถดถอยαคือครึ่งหนึ่งของจำนวน regressors ที่รวมอยู่ในแบบจำลองและβคือครึ่งหนึ่งขององศาอิสระที่เหลือ เพื่อกำหนดรูปทรงของการแจกแจงเราสนใจเป็นพิเศษในกรณีที่αหรือβเท่ากับหนึ่ง12αβαβ

พีชคณิตตรงไปตรงมาสำหรับ : เรามีk - 1αดังนั้นk=3 นี่เป็นคอลัมน์เดียวของพล็อตด้านที่เติมสีฟ้าทางด้านซ้าย ในทำนองเดียวกันα<1สำหรับk<3(คอลัมน์k=2เป็นสีแดงด้านซ้าย) และα>1สำหรับk>3(จากคอลัมน์k=4เป็นต้นไปด้านซ้ายเป็นสีเขียว)k12=1k=3α<1k<3k=2α>1k>3k=4

สำหรับเรามีn - kβ=1จึงk=n-2 สังเกตว่ากรณีเหล่านี้ (ทำเครื่องหมายด้วยด้านขวามือสีน้ำเงิน) ตัดเป็นเส้นทแยงมุมข้ามพล็อตด้าน สำหรับβ>1เราได้k<n-2(กราฟที่มีด้านซ้ายสีเขียวอยู่ด้านซ้ายของเส้นทแยงมุม) สำหรับβ<1เราต้องการk>n-2ซึ่งเกี่ยวข้องกับเฉพาะกรณีที่ถูกต้องที่สุดในกราฟของฉัน: ที่n=kเรามีβ=0และการกระจายตัวลดลง แต่nnk2=1k=n2β>1k<n2β<1k>n2n=kβ=0โดยที่ β = 1n=k1ถูกพล็อต (ด้านขวาเป็นสีแดง)β=12

เนื่องจาก PDF คือก็เป็นที่ชัดเจนว่าถ้า (และถ้ามี) α < 1แล้ว F ( x ) เป็น x 0 เราสามารถมองเห็นได้ในกราฟ: เมื่อทางด้านซ้ายเป็นสีเทาสีแดงสังเกตพฤติกรรมที่ 0. ในทำนองเดียวกันเมื่อ β < 1แล้ว F ( x ) เป็น x 1 ดูที่ด้านขวาเป็นสีแดง!f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

symmetries

หนึ่งในคุณสมบัติที่สะดุดตาที่สุดของกราฟคือระดับความสมมาตร แต่เมื่อมีการแจกแจงแบบเบต้ามีส่วนเกี่ยวข้องนี่ไม่น่าแปลกใจ!

การกระจายเบต้าตัวเองเป็นสมมาตรถ้า β สำหรับเราสิ่งนี้เกิดขึ้นหากn = 2 k - 1ซึ่งระบุพาเนลได้อย่างถูกต้อง( k = 2 , n = 3 ) , ( k = 3 , n = 5 ) , ( k = 4 , n = 7 )และ( k = 5 , n = 9 )α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9). ขอบเขตของการแจกแจงแบบสมมาตรทั่วขึ้นอยู่กับจำนวนตัวแปรรีเคอเรเตอร์ที่เรารวมไว้ในโมเดลสำหรับขนาดตัวอย่างนั้น ถ้าk = n + 1R2=0.5k=n+12 the distribution of R2 is perfectly symmetric about 0.5; if we include fewer variables than that it becomes increasingly asymmetric and the bulk of the probability mass shifts closer to R2=0; if we include more variables then it shifts closer to R2=1. Remember that k includes the intercept in its count, and that we are working under the null, so the regressor variables should have coefficient zero in the correctly specified model.

There is also an obviously symmetry between distributions for any given n, i.e. any row in the facet grid. For example, compare (k=3,n=9) with (k=7,n=9). What's causing this? Recall that the distribution of Beta(α,β) is the mirror image of Beta(β,α) across x=0.5. Now we had αk,n=k12 and βk,n=nk2. Consider k=nk+1 and we find:

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

So this explains the symmetry as we vary the number of regressors in the model for a fixed sample size. It also explains the distributions that are themselves symmetric as a special case: for them, k=k so they are obliged to be symmetric with themselves!

This tells us something we might not have guessed about multiple regression: for a given sample size n, and assuming no regressors have a genuine relationship with Y, the R2 for a model using k1 regressors plus an intercept has the same distribution as 1R2 does for a model with k1 residual degrees of freedom remaining.

Special distributions

When k=n we have β=0, which isn't a valid parameter. However, as β0 the distribution becomes degenerate with a spike such that P(R2=1)=1. This is consistent with what we know about a model with as many parameters as data points - it achieves perfect fit. I haven't drawn the degenerate distribution on my graph but did include the mean, mode and standard deviation.

When k=2 and n=3 we obtain Beta(12,12) which is the arcsine distribution. This is symmetric (since α=β) and bimodal (0 and 1). Since this is the only case where both α<1 and β<1 (marked red on both sides), it is our only distribution which goes to infinity at both ends of the support.

The Beta(1,1) distribution is the only Beta distribution to be rectangular (uniform). All values of R2 from 0 to 1 are equally likely. The only combination of k and n for which α=β=1 occurs is k=3 and n=5 (marked blue on both sides).

The previous special cases are of limited applicability but the case α>1 and β=1 (green on left, blue on right) is important. Now f(x;α,β)xα1(1x)β1=xα1 so we have a power-law distribution on [0, 1]. Of course it's unlikely we'd perform a regression with k=n2 and k>3, which is when this situation occurs. But by the previous symmetry argument, or some trivial algebra on the PDF, when k=3 and n>5, which is the frequent procedure of multiple regression with two regressors and an intercept on a non-trivial sample size, R2 will follow a reflected power law distribution on [0, 1] under H0. This corresponds to α=1 and β>1 so is marked blue on left, green on right.

You may also have noticed the triangular distributions at (k=5,n=7) and its reflection (k=3,n=7). We can recognise from their α and β that these are just special cases of the power-law and reflected power-law distributions where the power is 21=1.

Mode

If α>1 and β>1, all green in the plot, f(x;α,β) is concave with f(0)=f(1)=0, and the Beta distribution has a unique mode α1α+β2. Putting these in terms of k and n, the condition becomes k>3 and n>k+2 while the mode is k3n5.

All other cases have been dealt with above. If we relax the inequality to allow β=1, then we include the (green-blue) power-law distributions with k=n2 and k>3 (equivalently, n>5). These cases clearly have mode 1, which actually agrees with the previous formula since (n2)3n5=1. If instead we allowed α=1 but still demanded β>1, we'd find the (blue-green) reflected power-law distributions with k=3 and n>5. Their mode is 0, which agrees with 33n5=0. However, if we relaxed both inequalities simultaneously to allow α=β=1, we'd find the (all blue) uniform distribution with k=3 and n=5, which does not have a unique mode. Moreover the previous formula can't be applied in this case, since it would return the indeterminate form 3355=00.

When n=k we get a degenerate distribution with mode 1. When β<1 (in regression terms, n=k1 so there is only one residual degree of freedom) then f(x) as x1, and when α<1 (in regression terms, k=2 so a simple linear model with intercept and one regressor) then f(x) as x0. These would be unique modes except in the unusual case where k=2 and n=3 (fitting a simple linear model to three points) which is bimodal at 0 and 1.

Mean

The question asked about the mode, but the mean of R2 under the null is also interesting - it has the remarkably simple form k1n1. For a fixed sample size it increases in arithmetic progression as more regressors are added to the model, until the mean value is 1 when k=n. The mean of a Beta distribution is αα+β so such an arithmetic progression was inevitable from our earlier observation that, for fixed n, the sum α+β is constant but α increases by 0.5 for each regressor added to the model.

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Code for plots

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Really illuminating visualization. +1
Khashaa

Great addition, +1, thanks. I noticed that you call 0 a mode when the distribution goes to + when x0 (and nowhere else) -- something @Alecos above (in the comments) did not want to do. I agree with you: it is convenient.
amoeba says Reinstate Monica

1
@amoeba from the graphs we'd like to say "values around 0 are most likely" (or 1). But the answer of Alecos is also both self-consistent and consistent with many authorities (people differ on what to do about the 0 and 1 full stop, let alone whether they can count as a mode!). My approach to the mode differs from Alecos mostly because I use conditions on alpha and beta to determine where the formula is applicable, rather than taking my starting point as the formula and seeing which k and n give sensible answers.
Silverfish

1
(+1), this is a very meaty answer. By keeping k too close to n and both small, the question studies in detail, and so decisively, the case of really small samples with relatively too many and irrelevant regressors.
Alecos Papadopoulos

@amoeba You probably noticed that this answer furnishes an algebraic answer for why, for sufficiently large n, the mode of the distribution is 0 for k=3 but positive for k>3. Since f(x)x(k3)/2(1x)(nk2)/2 then for k=3 we have f(x)(1x)(n5)/2 which will clearly have mode at 0 for n>5, whereas for k=4 we have f(x)x1/2(1x)(n6)/2 whose maximum can be found by calculus to be the quoted mode formula. As k increases, the power of x rises by 0.5 each time. It's this xα1 factor which makes f(0)=0 so kills the mode at 0
Silverfish
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.