การกำหนดปริมาณในตัวอย่างน้ำหนัก

ฉันมีตัวอย่างถ่วงน้ำหนักซึ่งฉันต้องการคำนวณปริมาณ ¹

จะเป็นการดีที่น้ำหนักเท่ากัน (ไม่ว่าจะ = 1 หรืออื่น ๆ ) ผลจะสอดคล้องกับพวกและอาร์เอสscipy.stats.scoreatpercentile()quantile(...,type=7)

วิธีการง่ายๆวิธีหนึ่งคือ "คูณออก" ตัวอย่างโดยใช้ตุ้มน้ำหนักที่ให้ ที่ให้ ecdf "แบน" ในพื้นที่ได้อย่างมีประสิทธิภาพในพื้นที่น้ำหนัก> 1 ซึ่งดูเหมือนว่าวิธีการที่ไม่ถูกต้องโดยสัญชาตญาณเมื่อตัวอย่างเป็นตัวอย่างย่อย โดยเฉพาะมันหมายความว่าตัวอย่างที่มีน้ำหนักทั้งหมดเท่ากับ 1 มีควอนไทล์ที่แตกต่างกันมากกว่าหนึ่งที่มีน้ำหนักทั้งหมดเท่ากับ 2 หรือ 3 (หมายเหตุอย่างไรก็ตามกระดาษที่อ้างถึงใน [1] จะใช้วิธีการนี้)

http://en.wikipedia.org/wiki/Percentile#Weighted_percentileเป็นสูตรทางเลือกสำหรับเปอร์เซ็นไทล์แบบถ่วงน้ำหนัก มันไม่ชัดเจนในการกำหนดนี้ว่าตัวอย่างที่อยู่ติดกันที่มีค่าเหมือนกันควรนำมารวมกันก่อนและรวมน้ำหนักและในกรณีใด ๆ ผลลัพธ์ของผลลัพธ์จะไม่สอดคล้องกับชนิดเริ่มต้นของ R 7 quantile()ในกรณีที่ไม่มีน้ำหนัก / น้ำหนักเท่ากัน หน้าวิกิพีเดียเกี่ยวกับ quantiles ไม่ได้พูดถึงกรณีน้ำหนักเลย

มีฟังก์ชั่นทั่วไปของฟังก์ชั่น quantile "type 7" แบบถ่วงน้ำหนักของ R หรือไม่?

[ใช้ Python แต่เพียงมองหาอัลกอริทึมจริงๆดังนั้นภาษาใดก็ตามที่จะทำ]

[1] น้ำหนักเป็นจำนวนเต็ม น้ำหนักเป็นของผู้บัฟเฟอร์ซึ่งจะรวมกันใน "ล่มสลาย" และ "ส่งออก" การดำเนินงานตามที่อธิบายในhttp://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf โดยพื้นฐานแล้วตัวอย่างที่ถ่วงน้ำหนักคือการสุ่มตัวอย่างย่อยของตัวอย่างที่ไม่ได้ชั่งน้ำหนักเต็มโดยแต่ละองค์ประกอบ x (i) ในตัวอย่างย่อยที่เป็นตัวแทนของน้ำหนัก (i) ในตัวอย่างเต็ม

algorithms quantiles weighted-sampling

— Misha
แหล่งที่มา

หัวข้อนี้ค่อนข้างเก่า แต่นี่คือรหัส numpy สำหรับถ่วงน้ำหนักstackoverflow.com/a/29677616/498892

— Alleo

นี่เป็นวิธีหนึ่งที่เป็นไปได้:

สมมติว่าคุณมีการสั่งซื้อตัวอย่างที่มีน้ำหนักตามลำดับW_n $X_1 \le X_2 \le \cdots \le X_n$ $W_1, W_2, \ldots, W_n$

กำหนดดังนั้นและW_i

S_{k} = (k - 1) W_{k} + (N - 1) \sum_{i = 1}^{k - 1} W_{i}

$S_k = (k-1) W_k+ (N-1) \sum_{i=1}^{k-1} W_i$

S_{1} = 0

$S_1=0$

S_{n} = (N - 1) \sum_{i = 1}^{N} W_{i}

$S_n = (N-1) \sum_{i=1}^{N} W_i$

สำหรับการแก้ไขของ quantileค้นหาดังกล่าวว่า{} ประมาณการของคุณอาจเป็น $p$ $k$ $\frac{S_k}{S_n} \le p \le \frac{S_{k+1}}{S_n}$

X_{k} + (X_{k + 1} - X_{k}) \frac{p S_{n} - S_{k}}{S_{k + 1} - S_{k}} .

$X_k + (X_{k+1}-X_k)\frac{pS_n-S_k}{S_{k+1}-S_k}.$

ฉันคิดว่าคุณจะพบว่าถ้าเท่ากันทั้งหมดนี้จะทำซ้ำ R-7 มีวิธีอื่นที่ทำเช่นกัน แต่ฉันคิดว่าพวกเขาไม่ได้ปฏิบัติกับน้ำหนักที่สั่งทั้งหมดว่ามีความสำคัญเท่าเทียมกัน $W_i$

— เฮนรี่
แหล่งที่มา

อาจมีปัญหาหากค่าสองค่าในตัวอย่างเท่ากัน แต่มีน้ำหนักแตกต่างกัน - ฉันไม่ได้คิดเกี่ยวกับมัน

— Henry