ควอไทล์ใน Excel


10

ฉันสนใจคำจำกัดความของควอไทล์ที่มักใช้เมื่อคุณอยู่ในสถิติพื้นฐาน ฉันมีหนังสือประเภท Stat 101 และมันให้นิยามที่เข้าใจง่าย "ประมาณหนึ่งในสี่ของข้อมูลตรงกับหรือต่ำกว่าควอไทล์แรก ... " แต่มันให้ตัวอย่างที่จะคำนวณ Q1, Q2 และ Q3 สำหรับชุดข้อมูล

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

เนื่องจากมีข้อมูล 15 ชิ้นจึงเลือก 15 ค่ามัธยฐาน Q2 จากนั้นจะแยกข้อมูลที่เหลือออกเป็นสองส่วนคือ 5 ถึง 14 และ 16 ถึง 37 แต่ละอันประกอบด้วยข้อมูล 7 ชิ้นและพวกเขาพบค่ามัธยฐานของแต่ละชุดเหล่านี้คือ 10 และ 18 ตามลำดับในไตรมาสที่ 1 และไตรมาสที่ 3 ตามลำดับ นี่คือวิธีที่ฉันจะคำนวณเอง

ฉันอ่านบทความของ Wikipedia และให้ 2 วิธี หนึ่งเห็นด้วยกับข้างต้นและอีกหนึ่งบอกว่าคุณสามารถรวมมัธยฐาน 15 ในทั้งสองชุด (แต่คุณจะไม่รวมค่ามัธยฐานถ้ามันเป็นค่าเฉลี่ยของสองตัวเลขกลางในกรณีของจุดข้อมูลจำนวนคู่) ทั้งหมดนี้ทำให้รู้สึกถึงฉัน

แต่จากนั้นฉันตรวจสอบ Excel เพื่อดูว่า Excel คำนวณอย่างไร ฉันใช้ Excel 2010 ซึ่งมีฟังก์ชันที่แตกต่างกัน 3 ประการ ควอไทล์มีให้บริการในปี 2007 และเวอร์ชั่นก่อนหน้า ดูเหมือนว่าพวกเขาต้องการให้คุณหยุดใช้สิ่งนี้ในปี 2010 แต่ก็ยังมีให้ใช้งาน Quartile.Inc เป็นของใหม่ แต่ตกลงอย่างแน่นอนกับ Quartile เท่าที่ฉันสามารถบอกได้ และก็มีควอไทล์เช่นกัน ฉันเชื่อว่าทั้ง 2 รายการใหม่ล่าสุดในปี 2010 ครั้งนี้ฉันแค่ลองใช้จำนวนเต็ม 1, 2, 3, ... , 10 ฉันคาดหวังว่า Excel จะให้ค่ามัธยฐานของ 5.5, Q1 ของ 3, และ Q3 ของ 8 วิธีจากหนังสือสถิติเช่นกัน เนื่องจากทั้งสองวิธีใน Wikipedia จะให้คำตอบเหล่านี้เนื่องจากค่ามัธยฐานเป็นค่าเฉลี่ยของตัวเลขสองตัวที่อยู่ตรงกลาง Excel ให้

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

ทั้งสองอย่างนี้ไม่เห็นด้วยกับสิ่งที่ฉันเคยพูดถึง

คำอธิบายในไฟล์ช่วยเหลือสำหรับ Excel ได้แก่ :

Quartile.Inc - ส่งคืนควอไทล์ของชุดข้อมูลขึ้นอยู่กับค่าร้อยละจาก 0..1 รวม

Quartile.Exc - ส่งคืนควอไทล์ของชุดข้อมูลโดยยึดตามค่าเปอร์เซ็นต์ไทล์จาก 0..1 ซึ่งเป็นเอกสิทธิ์

มีใครช่วยฉันเข้าใจว่าคำจำกัดความนี้ใช้ Excel หรือไม่


5
อีกตัวอย่างที่ดีว่าทำไมไม่ใช้ Excel สำหรับสถิติเชิงสถิติ :-)
เวย์น

1
เพื่อนไม่ให้เพื่อนใช้ Excel เป็นสถิติ เศร้า แต่เป็นจริง
Chris Beeley

คำตอบ:


11

โดยทั่วไปอันดับ (ระหว่างถึงสำหรับข้อมูล ) จะถูกแปลงเป็นเปอร์เซ็นต์ผ่านสูตรr1nnp

p=100rαn+12α

สำหรับบางตำแหน่งที่กำหนดไว้ล่วงหน้า "ตำแหน่งการวางแผน"ระหว่างถึงโดยรวม การหาในรูปของให้α01rp

r=(n+12α)(p/100)+α.

Excel ได้ใช้ในอดีตสำหรับด้านและα=1PERCENTILEQUARTILEฟังก์ชั่น เอกสารออนไลน์สำหรับQUARTILE.INCและQUARTILE.EXCไม่มีประโยชน์ดังนั้นเราจึงต้องย้อนกลับวิศวกรสิ่งที่ฟังก์ชั่นเหล่านี้จะทำ

ตัวอย่างเช่นด้วยข้อมูลเรามีและสำหรับสามควอไทล์ ใช้ในการจัดอันดับก่อนหน้านี้อัตราผลตอบแทนสูตร ,และ , การทำซ้ำผลสำหรับ(1,2,3,4,5,6,7,8,9,10)n=10p{25,50,75}α=19(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

แต่ถ้าเราตั้งอันดับที่สอดคล้องกันเป็น ,และ , การทำซ้ำผลสำหรับ11 ( 0.25 ) = 2.75 11 ( 0.50 ) = 5.5 11 ( 0.75 ) = 8.25α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

การทดสอบเพิ่มเติมในส่วนของคุณ (ผมไม่ได้มีรุ่นล่าสุดของ Excel) อาจสร้างความถูกต้องของฉันเดาว่าทั้งสองรุ่นของฟังก์ชั่นควอไทล์จะถูกกำหนดโดยทั้งสอง (มาก) ค่าα \

โดยวิธีการจัดอันดับเศษส่วนจะถูกแปลงเป็นค่าข้อมูลโดยการแก้ไขเชิงเส้น กระบวนการนี้ได้รับการอธิบายและแสดงในบันทึกหลักสูตรของฉันที่Percentiles และ EDF Plots -มองใกล้ด้านล่างของหน้านั้น นอกจากนี้ยังมีลิงก์ไปยังสเปรดชีต Excel ที่แสดงการคำนวณ

หากคุณต้องการใช้ฟังก์ชั่นเปอร์เซ็นไทล์ทั่วไปใน Excelนี่คือแมโคร VBA ที่จะทำ:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

มันจะแปลงเปอร์เซ็นต์เล็กน้อย (เช่น 25/100) เป็นเปอร์เซ็นต์ที่จะทำให้PERCENTILEฟังก์ชันของ Excel คืนค่าที่ต้องการ =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))มันมีไว้สำหรับการใช้งานในสูตรในเซลล์ในขณะที่


โปรดทราบว่าเมื่อคุณเข้าใจอย่างชัดเจนว่า Excel กำลังทำอะไรคุณสามารถใช้งานได้อย่างมีประสิทธิภาพสำหรับงานสถิติ
whuber

5
ถ้าฉันไม่เห็นด้วยอย่างขบขันกับความคิดเห็นของคุณ: Excel สามารถใช้งานได้อย่างมีประสิทธิภาพสำหรับงานทางสถิติหากคุณเป็นพ่อมดทางสถิติที่สามารถพิสูจน์ได้จากหลักการแรกว่าควรทำอะไร เมื่อคุณเก่งเครื่องมือส่วนใหญ่จะทำ แม้ว่าฉันจะชี้ให้เห็นว่าในหัวข้อนี้ แต่พ่อมด 100% ที่เกี่ยวข้องกับการสนทนานี้ยังไม่สามารถเข้าถึง Excel เวอร์ชันล่าสุดได้ดังนั้นจึงไม่น่าจะใช้งานได้จริง
Wayne

Touche ', @Wayne (แต่พวกเราบางคนยังใช้ Excel เวอร์ชันเก่ากว่า :-).)
whuber

1
Whuber ขอบคุณที่แบ่งปันโซลูชัน VBA สิ่งนี้จะเป็นประโยชน์อย่างยิ่ง ในฐานะคนที่ต้องการทำสถิติ แต่ติดอยู่กับ Excel เป็นเครื่องมือเดียวที่พร้อมใช้งาน (ใช่ฉันได้ลอง R แล้ว แต่ไม่สามารถเอาหัวของฉันไปรอบ ๆ ได้) ฉันขอขอบคุณเครื่องมือที่ช่วยโค้ง Excel กับความต้องการของฉัน
dav

4

สำหรับฉันแล้วปรากฏว่า Excel quartile.incเห็นด้วยกับต้นฉบับquartileซึ่งเห็นด้วยกับค่าเริ่มต้นและข้อกำหนดอื่น ๆ ของ R

ด้วยคำใบ้ที่เป็นประโยชน์จาก whuber ฉันพบว่า Excel quartile.excดูเหมือนว่าจะเห็นด้วย (ในกรณี 1..10) ด้วยtype=6คำจำกัดความของ quantile R :

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

ซึ่งเห็นได้ชัดว่าทำให้คำตอบสำหรับคำถามของคุณ: "ใช่ Minitab และ SPSS ทำ"


R ไม่มีนิยามของควอนไทล์เก้าคำนิยามใช่หรือไม่ (+1 สำหรับการแก้ไข btw)
whuber

@whuber: ไม่ต้องสนใจผู้ชายที่อยู่หลังม่าน! (ฉันจะแก้ไขคำตอบของฉันในการตรวจสอบเพิ่มเติมมันตรงกับหนึ่งในคำจำกัดความอื่น ๆ ของ R ซึ่งเห็นได้ชัดว่าสิ่งที่ Minitab และ SPSS ใช้ขอบคุณ!)
Wayne

2

ฉันคิดว่ารสชาติของควอไทล์เป็นเพียงการละเว้น 5 และ 37 (ขั้นต่ำและสูงสุดในข้อมูลต้นฉบับของคุณ)

ใน Stata ทั้งรุ่นเริ่มต้นและรุ่นอื่นให้ค่า quartile.exc กับข้อมูลนี้


เดานี้ดูเหมือนจะไม่สอดคล้องกับเอกสารQUARTILE.EXCที่อ้างว่านาทีสูงสุดและสามารถจริงจะส่งกลับโดย
whuber

ใน Excel 2010 รุ่นของฉัน QUARTILE.EXC (ช่วงเซลล์, k) จะส่งกลับ #NUM! ยกเว้น k = {1,2,3} ซึ่งตรงกับเปอร์เซนต์ไทล์ 25, 50 และ 75 ตามเมนูป๊อปอัพที่ปรากฏขึ้น QUARTILE ดั้งเดิมจะยอมรับ 0 และ 4 เป็นอาร์กิวเมนต์ที่สองซึ่งสอดคล้องกับขั้นต่ำและสูงสุด
Dimitriy V. Masterov

1
เอกสารระบุว่า "ถ้า quart ≤ 0 หรือถ้า quart ≥ 4 ฟังก์ชัน QUARTILE.EXC จะส่งกลับค่าความผิดพลาด #NUM!" ดูเหมือนจริง คำสั่งที่สอง "MIN, MEDIAN และ MAX คืนค่าเดียวกันกับ QUARTILE.EXC เมื่อ quart เท่ากับ 0 (ศูนย์), 2 และ 4 ตามลำดับ" ปรากฏเป็นเท็จเว้นแต่ฉันจะหายไปบางอย่าง ช่างเป็นระเบียบ!
Dimitriy V. Masterov

+1 ขอบคุณที่ตรวจสอบสิ่งนี้ Dimitriy! แน่นอนความแตกต่างเพียงอย่างเดียวระหว่างการเดาของฉันและของคุณ (ซึ่งเปลี่ยนเป็นและลบจากแต่ละอันดับอย่างมีประสิทธิภาพ) คือสูตรของฉันควรคืนค่าต่ำสุดและสูงสุดสำหรับ 0 และ 100 เปอร์เซนต์ตามลำดับแทนที่จะเป็นเช่นนั้นดูเหมือนว่าตัวละครของคุณดีกว่า (แต่ตัวละครของฉันยังให้เหตุผลสำหรับคุณ) ฉันสงสัยว่าฟังก์ชันปัจจุบันของ Excel ทำอะไรได้บ้าง :-)n - 1 1nn11#NUM!PERCENTILE
whuber

1
เปอร์เซ็นไทล์ทั้ง 3 รสชาตินั้นมีวิธีการเดียวกับควอไทล์สำหรับฉัน สำหรับข้อมูล 5-37 PERCENTILE.EXC (range, k) จะให้ #NUM! สำหรับ k = {0,1} สำหรับ k = 0.25, PERCENTILE.EXC ให้ 10 ถ้าฉันทิ้ง 5 และ 37 มันให้ 10.5 ซึ่งเห็นด้วยกับอีก 2 วิธี
Dimitriy V. Masterov

2

มีรายละเอียดที่น่าสนใจมากมาย แต่กลับไปที่คำถามเดิมฉันไม่เห็นว่ามีสองวิธีที่แตกต่างกันเล็กน้อยที่อาจไม่ได้ให้คำตอบที่เหมือนกันจริงๆ Quatile แรกคือจุดที่ 25% ของการสังเกตลดลงหรือต่ำกว่านั้น ขึ้นอยู่กับขนาดตัวอย่างของคุณที่อาจหรืออาจไม่ใช่จุดที่แน่นอนในข้อมูล ดังนั้นหากมีจุดหนึ่งอยู่ด้านล่างและจุดต่อไปอยู่เหนือควอไทล์แรกนี้ไม่ได้นิยามไว้อย่างชัดเจนและจุดใด ๆ เช่นเดียวกับค่ามัธยฐานเมื่อขนาดตัวอย่างเป็นเท่ากัน กฎจะเลือกจุดกึ่งกลางระหว่างจุดข้อมูลด้านล่างและด้านบน แต่ไม่มีอะไรบอกว่าตัวเลือกที่กำหนดโดยกฎนั้นดีกว่าประเด็นอื่นใด


+1 อย่างไรก็ตามฉันอยากจะแนะนำเหตุผลนี้ถึงแม้ว่าจะเหมาะสำหรับบางแอปพลิเคชั่น แต่อาจมีข้อ จำกัด เล็กน้อยสำหรับวัตถุประสงค์ทั่วไป: ตัวเลือกบางอย่างของการวางแผนตำแหน่ง (ระหว่างและโดยปกติ) ให้ค่าที่ดีกว่าเล็กน้อยสำหรับ ตัวอย่างเช่นการวางแผนความน่าจะเป็น สิ่งนี้จะไม่เกี่ยวข้องกับการคำนวณควอไทล์อย่างที่คุณทราบ แต่มันจะเกี่ยวข้องกับการคำนวณเปอร์เซ็นไทล์ที่มากขึ้น เปอร์เซนต์การคำนวณมีความสัมพันธ์อย่างใกล้ชิดกับการคำนวณควอไทล์ 1 / 3 1 / 2α1/31/2
whuber

0

สำหรับบรรดาของคุณที่ใช้ Excel มีการแบ่งรายละเอียดของวิธีการต่าง ๆ ที่นี่http://peltiertech.com/WordPress/comparison/


2
มันจะดีกว่าถ้าคุณสามารถสรุปได้ในคำตอบของคุณ แม้ว่าลิงก์อาจตอบคำถามบางครั้งพวกเขาอาจล้าสมัยซึ่งในกรณีนี้คำตอบของคุณจะไม่เป็นประโยชน์สำหรับผู้อ่านในอนาคต
Andy

0

ใน excel 2016 ฉันสังเกตเห็นว่าหนึ่งสามารถรับค่า quartiles ที่ถูกต้องได้หาก:

  • ชุดข้อมูลมีจำนวนรายการคี่: ใช้ QUARTILE.EXC
  • ชุดข้อมูลมีจำนวนรายการ: ใช้ค่าเฉลี่ยของ QUARTILE.EXC และ QUARTILE.INC

1
เมื่อพิจารณาถึงจำนวนคำจำกัดความของปริมาณที่มีให้เห็นในคำตอบอื่น ๆ คุณสามารถอธิบายความหมายของค่าที่เหมาะสมได้อย่างไร
mdewey
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.