จะประเมินควอไทล์ที่สามของข้อมูลที่ถูกรวมเป็นอย่างไร


12

มีเคล็ดลับทางเทคนิคในการกำหนดควอไทล์ที่สามหรือไม่ถ้ามันเป็นช่วงเวลาเปิดซึ่งมีจำนวนมากกว่าหนึ่งในสี่ของประชากร (ดังนั้นฉันจึงไม่สามารถปิดช่วงเวลาและใช้สูตรมาตรฐานได้)

แก้ไข

ในกรณีที่ฉันเข้าใจผิดบางสิ่งฉันจะให้บริบทเต็มรูปแบบไม่มากก็น้อย ฉันมีข้อมูลที่จัดเรียงในตารางที่มีสองคอลัมน์และพูดว่า 6 แถว ด้วยแต่ละคอลัมน์จะสอดคล้องกับช่วงเวลา (ในคอลัมน์แรก) และปริมาณของประชากรที่ "เป็น" กับช่วงเวลานั้น ช่วงเวลาสุดท้ายเปิดและมีประชากรมากกว่า 25% ช่วงเวลาทั้งหมด (ยกเว้นช่วงสุดท้าย) มีช่วงเดียวกัน

ข้อมูลตัวอย่าง (แสดงเพื่อการนำเสนอ):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182 

คอลัมน์แรกจะถูกตีความเป็นช่วงระดับรายได้ ที่สองคือการตีความว่าเป็นจำนวนพนักงานที่มีรายได้เป็นช่วงเวลา

สูตรมาตรฐานที่ฉันคิดคือ{3}}Q3=xQ3+3N4i=1k1ninQ3rQ3


ข้อสันนิษฐานทั่วไปเมื่อพยายามที่จะประมาณปริมาณด้วยข้อมูล binned คือการถือว่าสม่ำเสมอในถังขยะ แต่เมื่อคุณรู้อะไรบางอย่างเกี่ยวกับวิธีการที่ข้อมูลมีแนวโน้มที่จะกระจาย (เช่นเดียวกับรายได้ซึ่งถูกเอียง) สมมติฐานที่สะท้อนให้เห็นว่าความรู้จะมีแนวโน้มที่จะดีขึ้น อีกทางเลือกหนึ่งคือสมมติว่ามันราบรื่นจากนั้นปรับข้อมูลให้ราบรื่น (ไม่ว่าจะด้วย KDE หรือการกระจายที่เหมาะสม) แจกจ่ายจุดภายในถังขยะตามโมเดล [& อาจเป็นไปได้ที่จะประเมินใหม่ & กระจายในถังขยะอีกครั้ง] จากนั้นประมาณปริมาณจากนั้น
Glen_b -Reinstate Monica

คำตอบ:


16

คุณต้องใส่ข้อมูล binnedเหล่านี้กับแบบจำลองการกระจายบางอย่างเพื่อให้เป็นวิธีเดียวที่จะคาดการณ์ถึงควอไทล์ส่วนบน

แบบจำลอง

ตามคำนิยามรูปแบบดังกล่าวจะได้รับโดยcadlagฟังก์ชั่นเพิ่มขึ้นจากที่จะ1ความน่าจะเป็นที่จะกำหนดให้กับช่วงเวลาใด ๆคือเพื่อให้เหมาะสมคุณจะต้องวางตำแหน่งของฟังก์ชันที่เป็นไปได้ที่จัดทำดัชนีโดยพารามิเตอร์ (เวกเตอร์) , . สมมติว่ากลุ่มตัวอย่างสรุปกลุ่มคนที่เลือกแบบสุ่มและเป็นอิสระจากประชากรที่อธิบายโดยเฉพาะบางคน (แต่ไม่ทราบ) , ความน่าจะเป็นของกลุ่มตัวอย่าง (หรือความน่าจะเป็น , ) เป็นผลิตภัณฑ์ของแต่ละบุคคล ความน่าจะเป็นในตัวอย่างมันจะเท่ากันF01(a,b]F(b)F(a)θ{Fθ}FθL

L(θ)=(Fθ(8)Fθ(6))51(Fθ(10)Fθ(8))65(Fθ()Fθ(16))182

เนื่องจากคนมีความน่าจะเป็นที่เกี่ยวข้อง ,มีความน่าจะเป็นและอื่น ๆ51Fθ(8)Fθ(6)65Fθ(10)Fθ(8)

การปรับโมเดลให้เหมาะสมกับข้อมูล

ประมาณการสูงสุดโอกาสของเป็นค่าซึ่งจะเพิ่ม (หรือเท่ากันลอการิทึมของ )θLL

การแจกแจงรายได้มักจะเป็นแบบจำลองโดยการแจกแจงแบบปกติ (ดูตัวอย่างเช่นhttp://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ) กำลังเขียนตระกูลของการแจกแจงแบบปกติคือθ=(μ,σ)

F(μ,σ)(x)=12π(log(x)μ)/σexp(t2/2)dt.

สำหรับตระกูลนี้ (และอื่น ๆ อีกมากมาย) มันเป็นเรื่องง่ายที่จะเพิ่มประสิทธิภาพเชิงตัวเลข ตัวอย่างเช่นเราจะเขียนฟังก์ชันเพื่อคำนวณแล้วปรับให้เหมาะสมเพราะค่าสูงสุดของเกิดขึ้นพร้อมกับค่าสูงสุดของและ (ปกติ)ง่ายต่อการคำนวณและมีเสถียรภาพในการทำงานกับตัวเลข:LRlog(L(θ))log(L)Llog(L)

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

วิธีการแก้ปัญหาในตัวอย่างนี้คือที่พบในค่าθ=(μ,σ)=(2.620945,0.379682)fit$par

การตรวจสอบสมมติฐานรูปแบบ

อย่างน้อยเราต้องการตรวจสอบว่าสิ่งนี้สอดคล้องกับ lognormality ที่คาดเดาได้อย่างไรดังนั้นเราจึงเขียนฟังก์ชันเพื่อคำนวณ :F

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

มันถูกนำไปใช้กับข้อมูลเพื่อรับประชากร bin ที่ "คาดการณ์"

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

เราสามารถวาดฮิสโตแกรมของข้อมูลและการคาดคะเนเพื่อเปรียบเทียบกับภาพที่แสดงในแถวแรกของพล็อตเหล่านี้:

histograms

เพื่อเปรียบเทียบพวกเราสามารถคำนวณสถิติไคสแควร์ สิ่งนี้มักถูกอ้างถึงการแจกแจงแบบไคสแควร์เพื่อประเมินความสำคัญ :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

"ค่า p" ของมีขนาดเล็กพอที่จะทำให้หลายคนรู้สึกว่าไม่พอดี เมื่อมองไปที่แปลงปัญหานั้นจะเน้นไปที่ถังที่ต่ำที่สุด บางทีเทอร์มินัลที่ต่ำกว่าน่าจะเป็นศูนย์? ถ้าในแบบสำรวจเราต้องลดให้เหลือน้อยกว่าเราจะได้ขนาดที่พอดีในแถวล่างของแปลง ค่า p-chi-squared อยู่ที่ซึ่งบ่งชี้ (สมมุติฐานเพราะเราอยู่ในโหมดสำรวจตอนนี้) ว่าสถิตินี้ไม่พบความแตกต่างอย่างมีนัยสำคัญระหว่างข้อมูลและความพอดี0.008768630.40

ใช้ความพอดีในการประมาณปริมาณ

ถ้าเรายอมรับก็คือ (1) รายได้มีการกระจายโดยประมาณ lognormally และ (2) ขีด จำกัด ล่างของรายได้น้อยกว่า (พูด ) แล้วการประเมินความน่าจะเป็นสูงสุดคือ =0.405454) การใช้พารามิเตอร์เหล่านี้เราสามารถสลับเพื่อให้ได้เปอร์เซ็นต์ไทล์ :3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 th63(μ,σ)(2.620334,0.405454)F75th

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

ค่าเป็น18.06(หากเราไม่เปลี่ยนขีด จำกัด ล่างของถังขยะแรกจากเป็นเราจะได้รับแทน )6 3 17.7618.066317.76

ขั้นตอนเหล่านี้และรหัสนี้สามารถนำไปใช้โดยทั่วไป ทฤษฎีความน่าจะเป็นสูงสุดที่สามารถนำไปใช้ในการคำนวณช่วงความมั่นใจรอบควอไทล์ที่สามหากเป็นที่น่าสนใจ


ว้าวขอบคุณ! ฉันต้องยอมรับว่าฉันไม่ได้คาดหวังว่าเครื่องจักรขั้นสูง (อย่างน้อยสำหรับฉัน) ดังกล่าวจะถูกใช้เพื่อค้นหาวิธีแก้ปัญหา
atad

เครื่องจักรไม่จำเป็นต้องมีความก้าวหน้าหรือความซับซ้อน แต่สิ่งที่คุณควรทำตามบรรทัดทั่วไปเดียวกันของตัวอย่างนี้: สมมติว่ามีบางอย่างเกี่ยวกับการกระจายรายได้ใช้สิ่งนั้นเพื่อให้พอดีกับแบบจำลองทางคณิตศาสตร์ตรวจสอบแบบจำลองเพื่อความสมเหตุสมผล แบบที่เหมาะสมใช้เพื่อคำนวณควอไทล์ ระหว่างทางใช้วิธีกราฟิกเพราะพวกเขาสามารถเปิดเผยรูปแบบที่น่าสนใจ (ที่นี่ความสนใจก็คือว่ามีการออกจาก lognormality ชัดเจนในวงเล็บรายได้ต่ำ : ฉันจะสงสัยว่าทำไมที่เกิดขึ้นและสิ่งที่มันอาจพูดเกี่ยวกับประชากรนี้)
whuber

+1, คำตอบที่ดี ดูเหมือนว่าฉันจะต้องเรียนรู้ R
dav

8

ยาวเกินไปสำหรับความคิดเห็น:

คำตอบของ whubers นั้นดีเหมือนกัน แต่เขาถือว่าความถูกต้องในแบบจำลองบันทึกปกติของเขา นี่อาจเป็นจริงสำหรับรายได้มากกว่าประชากรทั่วไป แต่อาจไม่เป็นรายได้สำหรับนายจ้างรายเดียวที่มีเกรดเฉพาะ

คุณสามารถเลือกที่จะทำแบบจำลองการกระจายแบบสมมาตรซึ่งคุณอาจใส่ในช่วง 16-18,เป็น 18-20 และในช่วง 22-24 และนี่จะให้ค่าประมาณควอไทล์ที่สามของคุณประมาณ17.564 50 17.568645017.5

คุณจะต้องต่ำกว่าประมาณการหากคุณเลือกที่จะดำเนินการต่อความถี่ที่เกี่ยวกับหน่วยละสองครั้งซึ่งจะทำให้คุณประมาณการควอไทล์ที่สามของรอบ17.317.38017.3

การประมาณการที่สูงขึ้นเป็นไปได้ด้วยสมมติฐานอื่น ดังนั้นข้อสรุปของฉันก็คือจุดควอไทล์ที่สามน่าจะสูงกว่าแต่คุณมีข้อมูลไม่เพียงพอที่จะทำการประเมินที่แม่นยำโดยไม่ต้องรู้ (หรือสมมติ) มากขึ้นเกี่ยวกับการกระจายรายได้ที่ปลายบนสุดและ เป็นสิ่งที่คุณไม่รู้17


1
(+1) ขอบคุณสำหรับการเน้น (และการวิเคราะห์) การพึ่งพาของคำตอบเกี่ยวกับสมมุติฐานของแบบจำลอง ถ้า (ในตัวอย่าง) คุณจะไม่สามารถสันนิษฐานได้ว่าอะไรแล้วทั้งหมดที่คุณสามารถพูดได้ว่าควอไทล์ที่สามเกิน16ถ้าคุณคิดแบบจำลองอย่างน้อยที่สุดคุณก็สามารถพูดกับผู้บริโภคของคำแนะนำของคุณได้ "ถ้ารูปภาพของการกระจายรายได้ของคุณเป็นอย่างที่ฉันคิดไว้อย่างน้อยคุณก็สามารถใช้ผลลัพธ์ของฉันเป็นค่าประมาณที่เหมาะสม quantile." (ข้อสรุปทางสถิติส่วนใหญ่เป็นเงื่อนไขโดยนัยของการจัดเรียงนี้)16
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.