99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือตัวแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล?


27

99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือเส้นแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล?

ฉันคิดว่าคำถามเดียวกันจะใช้กับควอไทล์หรือควอไทล์ใด ๆ

ฉันได้อ่านแล้วว่าดัชนีของตัวเลขที่มีค่าเฉพาะเปอร์เซนต์ (p), ที่ได้รับจากรายการ n คือ i = (p / 100) * n

นั่นแนะนำให้ฉันรู้ว่ามี 100 เปอร์เซ็นไทล์ .. เพราะหากคุณมี 100 หมายเลข (i = 1 ถึง i = 100) จากนั้นแต่ละคนจะมีดัชนี (1 ถึง 100)

หากคุณมี 200 หมายเลขอาจมี 100 เปอร์เซนต์ แต่แต่ละกลุ่มจะอ้างถึงกลุ่มของตัวเลขสองตัว หรือตัวหาร 100 ตัวที่ไม่รวมตัวหารซ้ายสุดหรือขวาสุดมิฉะนั้นคุณจะได้ตัวแบ่ง 101 หรือพอยน์เตอร์ของแต่ละหมายเลขดังนั้นเปอร์เซนต์แรกจะอ้างถึงตัวเลขที่สอง (1/100) * 200 = 2 และเปอร์เซ็นต์ที่หนึ่งจะอ้างถึงตัวเลขลำดับที่ 200 (100/100) * 200 = 200

บางครั้งฉันเคยได้ยินว่ามี 99 เปอร์เซ็นต์ไทล์

Google แสดงพจนานุกรมออกฟอร์ดที่บอกว่ามีเปอร์เซนต์ - "แต่ละกลุ่มเท่ากัน 100 กลุ่มที่ประชากรสามารถแบ่งได้ตามการกระจายของค่าของตัวแปรเฉพาะ" และ "แต่ละค่า 99 ค่ากลางของตัวแปรสุ่มซึ่งแบ่งการแจกแจงความถี่ออกเป็น 100 กลุ่มดังกล่าว"

Wikipedia บอกว่า "เปอร์เซ็นไทล์ที่ 20 คือค่าต่ำกว่าซึ่งอาจพบ 20% ของการสังเกต" แต่จริง ๆ แล้วมันหมายถึง "ค่าต่ำกว่าหรือเท่ากับที่ 20% ของการสังเกตอาจพบ" คือ "ค่าที่ 20 % ของค่าคือ <= ถึง " หากเป็นเพียง <และไม่ใช่ <= ดังนั้นด้วยเหตุผลนั้นเปอร์เซ็นไทล์ที่ 100 จะเป็นค่าที่ต่ำกว่าซึ่งจะพบค่า 100% ฉันได้ยินมาว่าเป็นข้อโต้แย้งที่ว่าไม่มีเปอร์เซ็นต์ไทล์ลำดับที่ 100 เพราะคุณไม่สามารถมีตัวเลขที่มีตัวเลขด้านล่าง 100% แต่ฉันคิดว่าการโต้แย้งที่คุณไม่สามารถมีเปอร์เซ็นไทล์ที่ 100 นั้นไม่ถูกต้องและเป็นไปตามข้อผิดพลาดที่คำจำกัดความของเปอร์เซ็นไทล์เกี่ยวข้องกับ <= ไม่ใช่ < (หรือ> = ไม่>) ดังนั้นเปอร์เซ็นไทล์ร้อยจะเป็นหมายเลขสุดท้ายและจะเป็น>


4
ฉันคิดว่ามันไม่น่าเป็นไปได้ 100 คำตอบที่สมเหตุสมผลเนื่องจากการรักษาที่ไม่สมดุลของสุดขั้ว สามารถสร้างเคสได้ทั้ง 99 (ตามคำจำกัดความที่คุณอ้างถึง) หรือ 101
whuber

4
ควอนไทล์ในอดีต - อย่างที่เราพูดกันโดยทั่วไป - เป็นจุดสรุปแรกและจากนั้นก็ขยายถังขยะคลาสหรือช่วงเวลาที่พวกเขากำหนด ดังนั้นสามควอไทล์รวมถึงค่ามัธยฐานกำหนดสี่ถังขยะและอื่น ๆ
Nick Cox

1
@whuber คุณเขียน "ฉันคิดว่ามันคงไม่น่าจะเป็น 100 คำตอบที่สมเหตุสมผลเนื่องจากการรักษาแบบไม่สมมาตรของความสุดขั้ว" <- คุณสามารถอธิบายรายละเอียดเกี่ยวกับเรื่องนี้ได้ไหม?
barlop

3
ฉันแสดงรายการการใช้คำศัพท์แบบควอไทล์ก่อนหน้านี้หลายครั้งที่ หากคุณดูใน OED หรือ jstor คุณจะได้รับตัวอย่างของการใช้งานในอดีต
Nick Cox

2
@whuber ใช่ปรากฏว่าสิ่งที่ฉันอ้างอิงถูกเรียกว่า "เปอร์เซนต์ไทล์" ซึ่งใช้ในรายงานคะแนนการทดสอบ & c: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org ขออภัยในการเพิ่มความสับสน ในการป้องกันของฉันความแตกต่างปรากฏขึ้นกับการใช้คำบุพบท "ที่" vs. "ใน" (ดูลิงค์ที่ 1)
Jeff Y

คำตอบ:


32

ความรู้สึกทั้งสองนี้ของเปอร์เซนต์ , ควอไทล์และอื่น ๆ มีการใช้กันอย่างแพร่หลาย มันง่ายที่สุดในการอธิบายความแตกต่างด้วยควอไทล์:

  1. ความรู้สึก“ divider” - มี 3 ควอไทล์ซึ่งเป็นค่าที่แบ่งการแจกแจง (หรือตัวอย่าง) ออกเป็น 4 ส่วนเท่า ๆ กัน:

       1   2   3
    ---|---|---|---
    

    (บางครั้งสิ่งนี้จะใช้กับค่าสูงสุดและต่ำสุดที่รวมอยู่ด้วยดังนั้นจึงมี 5 ควอไทล์หมายเลข 0-4; ทราบว่านี่ไม่ขัดแย้งกับหมายเลขข้างต้นมันแค่ขยายมัน)

  2. ความรู้สึก“ bin”: มี 4 ควอไทล์, เซตย่อยที่ 3 ค่าเหล่านั้นแบ่งการแจกแจง (หรือตัวอย่าง)

     1   2   3   4
    ---|---|---|---
    

การใช้งานอย่างไม่สมเหตุสมผลสามารถถูกเรียกว่า "ผิด": ทั้งคู่ถูกใช้โดยผู้ฝึกที่มีประสบการณ์จำนวนมากและทั้งคู่ปรากฏในแหล่งข้อมูลที่เชื่อถือได้ (ตำราตำราพจนานุกรมทางเทคนิคและอื่น ๆ )

ด้วยควอไทล์ความรู้สึกที่ใช้มักจะชัดเจนจากบริบท: การพูดของค่าในควอไทล์ที่สามสามารถเป็นเพียง "ถังขยะ" ความรู้สึกในขณะที่การพูดของค่าทั้งหมดต่ำกว่าควอไทล์ที่สามมีความหมายมากที่สุด ด้วยเปอร์เซ็นไทล์ความแตกต่างมักไม่ชัดเจน แต่ก็ไม่ได้มีความสำคัญสำหรับจุดประสงค์ส่วนใหญ่เนื่องจาก 1% ของการแจกแจงมีขนาดเล็กมาก - แถบแคบ ๆ มีเส้นประมาณหนึ่งเส้น การพูดของทุกคนที่อยู่เหนือเปอร์เซ็นไทล์ 80อาจหมายถึง 20% แรกหรือ 19% สูงสุด แต่ในบริบทที่ไม่เป็นทางการซึ่งไม่แตกต่างกันมากและในการทำงานอย่างเข้มงวดความหมายที่จำเป็นควรได้รับการชี้แจงโดยบริบทที่เหลือ

(บางส่วนของคำตอบนี้ดัดแปลงมาจาก/math/1419609/are-there-3-or-4-quartiles-99-or-100-percentilesซึ่งให้ใบเสนอราคา + การอ้างอิงด้วย)


2
(+1) คำตอบที่ล่าช้านี้เป็นหัวใจสำคัญของเรื่องนี้
Nick Cox

สิ่งที่เกี่ยวกับen.wikipedia.org/wiki/Percentileบอกว่า "ทุกคะแนนอยู่ในเปอร์เซ็นไทล์ที่ 100" <- ดูเหมือนถังขยะขนาดของชุดข้อมูลทั้งหมดในขณะที่ถังขยะของคุณมีขนาดเท่ากันทั้งหมด
barlop

1
รายการ Wikipedia นั้นบอกว่า ฉันไม่สามารถคิดถึงการป้องกันสำหรับถ้อยคำดังกล่าว Wikipedia นั้นยอดเยี่ยมยกเว้นเมื่อมันทำให้เข้าใจผิดหรือผิด นั่นจะฟังดูเยือกเย็น แต่สิ่งที่ฉันทำได้คือสนับสนุนให้ทุกคนที่ดูว่าใครกำลังใช้งาน Wikipedia เพื่อปรับปรุงรายการ ทุกคนต้องมีกฎสำหรับสิ่งที่พวกเขาทำและไม่ทำและการทำงานที่นี่และในสถานที่อื่น ๆ เป็นข้อ จำกัด ส่วนตัวของฉัน
Nick Cox

5

ตอบคำถามนี้ด้วยเกลือเม็ดหนึ่ง - มันเริ่มผิดไปพอสมควรและฉันยังตัดสินใจว่าจะทำอย่างไรกับมัน

คำถามส่วนหนึ่งเกี่ยวกับภาษาและการใช้งานในขณะที่คำตอบนี้มุ่งเน้นไปที่คณิตศาสตร์ ฉันหวังว่าคณิตศาสตร์จะให้กรอบสำหรับการทำความเข้าใจประเพณีที่แตกต่างกัน

วิธีที่ดีในการจัดการสิ่งนี้คือเริ่มต้นด้วยคณิตศาสตร์อย่างง่ายและทำงานย้อนกลับไปยังกรณีของข้อมูลจริงที่ซับซ้อน เริ่มจาก PDF, CDF และ inverse CDF's (หรือเรียกอีกอย่างว่าฟังก์ชั่นควอนไทล์) x TH quantile ของการกระจายกับไฟล์ PDF fและ CDF FคือF1(x) ) สมมติว่าzเปอร์เซ็นต์ TH เป็นF1(z/100) ) นี่เป็นวิธีในการตรึงความกำกวมที่คุณระบุ: เราสามารถดูสถานการณ์ที่F คือ 1) ไม่สามารถย้อนกลับได้ 2) กลับด้านได้เฉพาะในโดเมนที่กำหนดหรือ 3) กลับด้านได้ แต่อินเวอร์สกลับจะไม่มีค่าที่แน่นอน

ตัวอย่างจาก 1): ฉันจะปล่อยให้เรื่องนี้อยู่เป็นครั้งสุดท้าย อ่านต่อไป

ตัวอย่างของ 2): สำหรับการกระจายชุด 0,1 ที่ CDF คือ invertible จำกัด เมื่อ [0, 1] ดังนั้นเปอร์เซนต์ที่ 100 และ 0 อาจจะหมายถึงF1(1)และF1(0)ได้รับ ข้อแม้นั้น มิฉะนั้นจะถูกกำหนดอย่างไม่เหมาะสมเนื่องจาก F(0.5) (ตัวอย่าง) ก็เป็น 0 เช่นกัน

อีกตัวอย่างของ 2): สำหรับการแจกแจงแบบสม่ำเสมอในช่วง disjoint สองช่วงจาก 0 ถึง 1 และ 2 ถึง 3 CDF จะเป็นดังนี้

ป้อนคำอธิบายรูปภาพที่นี่

ควอนไทล์ส่วนใหญ่ของการกระจายตัวนี้มีอยู่จริงและไม่ซ้ำกัน แต่ค่ามัธยฐาน (เปอร์เซ็นไทล์ 50) นั้นไม่ชัดเจนโดยเนื้อแท้ ใน R พวกเขาไปครึ่งทาง:quantile(c(runif(100), runif(100) + 2), 0.5)ส่งคืนประมาณ 1.5

ตัวอย่างของ 3): สำหรับการแจกแจงแบบปกติเปอร์เซ็นต์ที่ 100 และ 0 ไม่มีอยู่ (หรือพวกเขา "คือ" ± ) นี่เป็นเพราะ CDF ปกติไม่เคยมีค่า 0 หรือ 1

การสนทนา 1): สำหรับ cdf ของ "nice" เช่นด้วยปริมาณที่ไม่มากหรือการแจกแจงแบบต่อเนื่องเปอร์เซ็นต์จะมีอยู่และไม่ซ้ำกัน แต่สำหรับการกระจายที่ไม่ต่อเนื่องเช่นการกระจาย Poisson นิยามของฉันคือคลุมเครือเพราะส่วนใหญ่z/100ไม่มีyกับF(y)=z/100 100 สำหรับการแจกแจงปัวซงโดยมีความคาดหวัง 1 CDF จะเป็นดังนี้

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับเปอร์เซ็นไทล์ที่ 60 นั้น R จะส่งกลับ 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)) สำหรับเปอร์เซ็นไทล์ที่ 65, R ก็คืนค่า 1 ด้วยคุณสามารถคิดว่านี่เป็นการวาดการสังเกต 100 แบบการจัดอันดับต่ำไปสูงและส่งคืนรายการที่ 60 หรือ 65 หากคุณทำเช่นนี้คุณมักจะได้รับ 1

เมื่อพูดถึงข้อมูลจริงการแจกแจงทั้งหมดจะไม่ต่อเนื่อง (CDF เชิงประจักษ์ของrunif(100)หรือnp.random.random(100)มี 100 เพิ่มขึ้นกลุ่มประมาณ 0.5.) แต่แทนที่จะปฏิบัติต่อพวกเขาในฐานะที่ไม่ต่อเนื่องquantileฟังก์ชั่นR ดูเหมือนว่าจะปฏิบัติต่อพวกเขาเป็นตัวอย่างจากการกระจายอย่างต่อเนื่อง ตัวอย่างเช่นค่ามัธยฐาน (เปอร์เซ็นไทล์ 50 หรือ 0.5 ควอไทล์) ของตัวอย่าง 3,4, 5, 6, 7, 8 ให้เป็น 5.5 หากคุณดึงตัวอย่าง 2n จากการแจกแจงยูนิฟ (3,8) และนำตัวเลขใด ๆ ระหว่างตัวอย่างที่ n และ (n + 1) th คุณจะมาบรรจบกับ 5.5 เมื่อ n เพิ่มขึ้น

มันน่าสนใจที่จะพิจารณาการกระจายตัวแบบไม่ต่อเนื่องที่มีความน่าจะเป็นเท่ากับการกดปุ่ม 3,4,5,6,7,8 (ดายโรลบวกสอง) หากคุณใช้วิธีตัวอย่างและอันดับที่ระบุไว้ด้านบนสำหรับการแจกแจงปัวซงคุณจะได้ 5 หรือ 6 เมื่อตัวอย่างใหญ่ขึ้นการกระจายตัวของเลขครึ่งทางจะรวมกันครึ่งหนึ่ง ห้าและครึ่งแตก 5.5 ดูเหมือนว่าจะมีการประนีประนอมที่เหมาะสมเช่นกัน


2
F1[0,1]F[0,1]F
whuber

จุดดี. ฉันพยายามแยกบางกรณีออกมาเพื่อชี้แจงว่า คุณจะปรับปรุงการอภิปรายเรื่องความต่อเนื่องได้อย่างไร การตีความควอนไทล์เป็นตัวประมาณเป็นจุดศูนย์กลางของคำตอบของฉัน พวกเขาไม่สมเหตุสมผลกับฉันหากปราศจากสิ่งนั้น
eric_kernfeld

อีกครั้งหลัง: quantiles ไม่จำเป็นต้องประเมินอะไรเลย พวกมันมีประโยชน์ในสิทธิของตนเองในการอธิบายและแสดงภาพข้อมูล (และมักใช้เป็นสถิติเชิงพรรณนาเท่านั้น) เรื่องความต่อเนื่อง: ฉันคิดว่าหน่วยงานส่วนใหญ่จะบอกว่ามีเปอร์เซนต์ทั้งหมดสำหรับการแจกแจงแบบไม่ต่อเนื่อง ยืนยันเป็นอย่างอื่นเป็นภาวะแทรกซ้อนที่ไม่จำเป็น นอกจากนี้ยังจะแสดงผลลัพธ์ของการคำนวณซอฟต์แวร์ส่วนใหญ่ลึกลับอย่างเต็มที่ซึ่งให้ปริมาณทั้งหมดตั้งแต่ 0 ถึง 1 ( รวม ) สำหรับชุดข้อมูลใด ๆอย่างมีความสุข ในตัวอย่างเช่นประเภทR quantile(0)
whuber

การสนทนานี้ทำให้ฉันตระหนักว่าฉันไม่เข้าใจปริมาณของการแจกแจงแบบไม่ต่อเนื่อง ฉันคิดว่าฉันควรลบคำตอบนี้
eric_kernfeld

1
ผู้คนต่างกันเกี่ยวกับเรื่องนี้เอริค เมื่อคำตอบของฉันผิดไปจนทำให้เข้าใจผิดฉันจะลบมันเสียก่อน หากฉันเห็นคุณค่าที่เป็นไปได้บางส่วนในส่วนของคำตอบฉันจะแก้ไขเพื่อลบ (หรืออธิบาย) ส่วนที่ทำให้เข้าใจผิดและยกเลิกการลบ คนอื่นเพียงแค่ปล่อยให้สิ่งต่าง ๆ ยืนและเอาก้อนของพวกเขาในการลงคะแนน ผู้อื่นเพิ่มการแก้ไขที่แนะนำว่าอาจมีค่าในผู้อ่านที่เห็นว่ามีความเข้าใจผิดเกิดขึ้น แต่คนอื่นก็แค่ลบ คุณสามารถเปลี่ยนคำตอบได้อย่างสมบูรณ์หากคุณต้องการ
whuber

2

ฉันถูกสอนว่าการสังเกตในเปอร์เซ็นไทล์ที่ n นั้นมากกว่า n% ของการสังเกตในชุดข้อมูลภายใต้การพิจารณา ซึ่งสำหรับฉันก็หมายความว่าไม่มีเปอร์เซ็นต์ไทล์ที่ 0 หรือ 100 ไม่สามารถสังเกตได้มากกว่า 100% ของการสังเกตเพราะมันเป็นส่วนหนึ่งของ 100% นั้น (และใช้ตรรกะที่คล้ายกันในกรณีของ 0)

แก้ไข: สำหรับสิ่งที่มีค่าสิ่งนี้ก็สอดคล้องกับการใช้งานที่ไม่ใช่เชิงวิชาการของคำศัพท์ที่ฉันได้พบ: "X อยู่ในเปอร์เซ็นไทล์ที่ n " หมายความว่าเปอร์เซ็นไทล์เป็นกลุ่มไม่ใช่ขอบเขต

ฉันโชคไม่ดีที่ฉันสามารถบอกคุณได้


6
คุณมีข้อมูลอ้างอิงที่เชื่อถือได้สำหรับสิ่งที่คุณจำได้ว่ากำลังสอนอยู่หรือไม่? โปรดทราบว่าคุณกำลังใช้คำจำกัดความของ "เปอร์เซ็นไทล์" โดยปริยายว่าเป็นกลุ่มของตัวเลข คำจำกัดความอื่น ๆ ที่ยกมาในคำถามคือเปอร์เซ็นต์ไทล์เป็นขอบเขตระหว่างกลุ่มดังกล่าว
whuber

1
นั่นไม่สมเหตุสมผลกับฉันเพราะสมมติว่าข้อมูลของคุณคือ 2,2,2,2,2,2,2,2,2,2,2,2 ดังนั้นรายการใน quantile หนึ่งเท่ากับรายการทางซ้ายใน quantile ก่อนหน้า ดังนั้นไอเท็มใน quantile ที่ n จะไม่มากกว่า quantile ที่เหลือของมัน ดังนั้นรายการในเปอร์เซ็นไทล์ที่ n จึงไม่มากกว่า n% ของการสังเกตในชุดข้อมูล มัน> = n% ของการสังเกตในชุดข้อมูล แต่ไม่ใช่เพียง> และด้วยเหตุนี้คุณสามารถมี pecentile ลำดับที่ 100 .. คุณทำอะไรกับตรรกะนั้น
barlop

4
คำจำกัดความจำนวนมากมาภายใต้ความเครียดหากค่าทั้งหมดเหมือนกัน!
Nick Cox

2
ผู้ที่เป็นนามธรรมทางคณิตศาสตร์และนามธรรมในขณะที่ผู้เขียนซอฟต์แวร์จำเป็นต้องจัดการกับความยุ่งเหยิงของข้อมูล ตัวอย่างของค่า 16 ค่าของคุณจะได้รับการปฏิบัติแตกต่างกันไปโดยซอฟต์แวร์ที่ฉันรู้ซึ่งต่อไปนี้กฎที่ค่าเหมือนกันจะต้องถูกขัดขืนกัน (และฉันเห็นด้วย) ฉันประหลาดใจที่คุณไม่ได้ทนทุกข์ทรมานกับข้อมูลที่มีค่า 15 หรือ 17 ที่แม้ว่าค่าทั้งหมดจะแตกต่างกันไม่มีกฎสามารถแบ่งข้อมูลออกเป็น 4 ถังขยะขนาดเท่ากัน
Nick Cox

3
ตรรกะที่คล้ายกันสำหรับศูนย์คืออะไร? "มากกว่าร้อยละศูนย์ของการสังเกตการณ์" หมายความว่า "เท่ากับหรือเล็กกว่าการสังเกตทั้งหมด" นั่นคือเปอร์เซ็นต์ไทล์ที่ 0 จะเป็นค่าต่ำสุดที่สังเกตได้หรือไม่
ilkkachu

2

มีวิธีอื่นในการคำนวณเปอร์เซ็นไทล์สิ่งต่อไปนี้ไม่ใช่เพียงวิธีเดียว นำมาจาก แหล่งนี้


ความหมายของเปอร์เซ็นต์จะถูกจับโดยระบุว่าp pp%28808028

x1xn

nxipi

pi=100(i0.5)n

ตัวอย่างจากภาพประกอบเดียวกันสำหรับภาพประกอบ:

ป้อนคำอธิบายรูปภาพที่นี่

7507

หากคุณมี 200 หมายเลขอาจมี 100 เปอร์เซนต์ แต่แต่ละกลุ่มจะอ้างถึงกลุ่มของตัวเลขสองตัว

เลขที่

x1x200

100(10.5)200100(20.5)200100(30.5)200...

ที่เกิดขึ้นใน

0.25,0.75,1.25...1,2,3,...


3
ประโยคแรกนั้นดูดีมากและหนึ่งในคำที่สำคัญที่สุดก็คือ ประมาณหลังจากนั้นนี่เป็นคำอธิบายที่ละเอียดรอบคอบของเพียงหนึ่งสูตร สิ่งที่สำคัญคือมีหลายสูตรและส่วนใหญ่ถ้าไม่ใช่ทั้งหมดจะมีตรรกะที่สามารถป้องกันได้เกี่ยวกับพวกเขา ดูกระดาษ Hyndman และ Fan ที่อ้างถึงในหลาย ๆ หัวข้อได้ที่ CV ฉันสงสัยว่าหลายคนจะใช้ย่อหน้าสุดท้ายของคุณเป็นวิธีรายงานเปอร์เซนต์สำหรับตัวอย่างของคุณ
Nick Cox

@Nick Cox ขอบคุณสำหรับความคิดเห็นที่ลึกซึ้ง เกี่ยวกับย่อหน้าสุดท้ายฉันเชื่อว่าวิธีการควรใช้งานได้ดีเมื่อการสังเกตทั้งหมดแตกต่างจากกัน ในกรณีที่มีตัวเลขซ้ำกันจะไม่มีค่าเปอร์เซ็นต์ไทล์เฉพาะสำหรับหมายเลขเดียวกันซึ่งไม่ดี คุณช่วยแนะนำวิธีจัดการกับกรณีได้ไหม และคุณสามารถชี้ให้เห็นข้อผิดพลาดที่อาจเกิดขึ้นได้ในย่อหน้าสุดท้าย
ไร้เดียงสา

1
ฉันไม่คิดว่าฉันต้องการหรือต้องการเพิ่มสิ่งที่อธิบายไว้ในวรรณกรรมแล้ว ก่อนอื่นคุณมีซอฟต์แวร์ตัวโปรดสำหรับเรื่องนี้ ดูว่าเอกสารอะไรและมันทำอะไร ประการที่สองฉันไม่ได้คำนวณเปอร์เซนต์ด้วยตนเองมานานหลายสิบปีและเราไม่จำเป็นต้องทำ ประการที่สามประเด็นของฉันเกี่ยวกับย่อหน้าสุดท้าย: ฉันเดาว่าไม่มีใครอยากบอกว่าจุดข้อมูลที่สังเกตได้คือ 0.25, 0.75, 1.25, ... เปอร์เซนต์ สิ่งที่ผู้คนต้องการนั้นแตกต่างกันไป แต่จากประสบการณ์ของฉันมันมักจะต้องการบทสรุปที่มากที่สุดเช่น 1, 5, 10, 25, 50, 75, 90, 95, 95, 99% คะแนนรวมถึงตัวอย่างสุดขั้ว
Nick Cox

1
ฉันเพิ่งสังเกตเห็นว่าคุณยืนยันว่า 0.5 อยู่ในศัพท์แสง EDA มักจะเรียกว่าค่า p สำหรับค่ามัธยฐาน ไม่ได้อยู่ในการอ่านของฉันและแม้ว่าคุณจะพบตัวอย่างที่เป็นคำศัพท์ที่แย่มากที่ได้รับความรู้สึกส่วนใหญ่สำหรับค่า p ตามระดับนัยสำคัญที่สังเกต
Nick Cox

ฉันจะอ่านบทความที่คุณแนะนำ ขอบคุณ
ไร้เดียงสา

0

หมายเหตุ - ฉันจะยอมรับคำตอบของคนอื่นมากกว่าของฉัน แต่ฉันเห็นความเห็นที่เป็นประโยชน์ดังนั้นฉันแค่เขียนคำตอบที่กล่าวถึงสิ่งเหล่านั้น

ตามคำศัพท์ "-iles"ของ Nick คำศัพท์สำหรับครึ่งบนเปอร์เซ็นต์

ดูเหมือนว่าคำเหล่านี้มีความคลุมเครือและฉันคิดว่า (ขึ้นอยู่กับความเข้าใจในโพสต์นั้น) คำศัพท์ที่ดีกว่าจะเป็นจุด X% และกลุ่ม X% -Y% จุดควอไทล์ (เช่นสำหรับควอไทล์จุดที่อาจเป็นอะไรก็ได้จาก 0 ถึง 4); กลุ่มควอนไทล์ตั้งแต่จุดควอนตัม X ถึงจุดควอนตัม Y

วิธีใดวิธีหนึ่งจะได้รับ 101 สำหรับเปอร์เซนต์แม้ว่าความคิดเห็นหนึ่งแสดงว่าสามารถอ้างถึง 101 คะแนน (ฉันคิดว่าถ้าคุณนับคะแนนเปอร์เซนต์และจำนวนเต็มเท่านั้น) แต่ถึงอย่างนั้นถ้าใครพูดถึง 1, 2, 3, เปอร์เซ็นไทล์หรือ ควอไทล์มันนับและหนึ่งไม่สามารถนับเป็น 0 ได้และคุณไม่สามารถมีควอไทล์ได้มากกว่า 4 ควอไทล์หรือมากกว่า 100 เปอร์เซนต์ ดังนั้นถ้าพูดถึง 1, 2, 3 คำศัพท์นั้นไม่สามารถอ้างถึงจุดที่ 0 หากใครบางคนบอกว่าจุดที่ 0 จากนั้นในขณะที่มันชัดเจนว่าพวกเขาหมายถึงจุด 0 ฉันคิดว่าพวกเขาควรพูดจุดควอนไทล์ 0 หรือกลุ่ม Quantile 0 แม้แต่นักวิทยาศาสตร์คอมพิวเตอร์ก็ไม่ได้บอกว่า 0 แม้ว่าพวกเขาจะนับรายการแรกเป็น 1 และถ้าพวกเขาเรียกมันว่ารายการ 0 นั่นคือการจัดทำดัชนีจาก 0 ไม่ใช่การนับ

ความคิดเห็นที่กล่าวถึง "ไม่สามารถมี 100 ไม่ว่าจะเป็น 99 หรือ 101 ขึ้นอยู่กับว่าคุณนับสูงสุดและต่ำสุด" ฉันคิดว่ามีกรณีสำหรับ 99 หรือ 101 เมื่อพูดถึงจุดควอไทล์มากกว่ากลุ่มแม้ว่าฉันจะไม่พูด 0 สำหรับ n items ดัชนีอาจไปจาก 0 ... n-1 และหนึ่งจะไม่เขียน th / st เช่น 1st, 2nd ฯลฯ ในดัชนี (เว้นแต่บางทีดัชนีอาจเกิดขึ้นกับดัชนีรายการแรกเป็น 1) แต่ดัชนีที่เริ่มต้นรายการแรกด้วยดัชนี 0 ไม่ใช่จำนวนที่ 1 และ 2 เช่นรายการที่มีดัชนี 0 เป็นรายการที่ 1 รายการหนึ่งจะไม่พูดว่า 0 และติดป้ายรายการที่สองเป็นที่ 1


ความคลุมเครือใด ๆ ที่ได้รับการแนะนำโดยผู้ที่ออกจากก่อนหน้าประวัติศาสตร์ที่ชัดเจน ในทางปฏิบัติมันไม่ได้กัดอะไร
Nick Cox

นักคณิตศาสตร์ทุกคนเริ่มนับที่ศูนย์ แนวคิดนั้นเรียบง่ายและเป็นธรรมชาติ: การพูดคำว่า "ศูนย์" ออกมาดัง ๆ เป็นการประกาศความตั้งใจที่จะนับ จากนั้นจะทำการกำหนดลำดับของคำว่า "หนึ่ง" "สอง" "สาม" และอื่น ๆ ให้กับวัตถุที่ถูกนับ คำสุดท้ายของคำเหล่านั้น (ถ้ามี) จะถูกบรรจุด้วยความสำคัญของเซต ความงามของความคิดนี้คือเมื่อไม่มีองค์ประกอบในชุดคำสุดท้ายที่พูดคือ "ศูนย์" ซึ่งเป็นค่าที่ถูกต้องไม่เหมือนใคร
whuber

@ เมื่อคุณเขียน "นักคณิตศาสตร์ทุกคนเริ่มนับที่ศูนย์" <- คุณคิดว่าฉันพูดอย่างอื่นที่ไหน?
barlop

"มันกำลังนับและไม่สามารถนับเป็น 0 ได้"
whuber

1
@ อาจเป็นไปได้มากที่ฉันคิดว่าหลายปีที่ผ่านมาฉันอาจมีเช่นเดียวกับเมื่อเรียนวิทยาศาสตร์คอมพิวเตอร์ฉันได้ยินบางครั้งว่านักวิทยาศาสตร์คอมพิวเตอร์นับจาก 0 นักคณิตศาสตร์ unilke (นั่นไม่ใช่การเรียกร้องของคุณหรือของฉัน) แต่หลังจากความคิดลึก ๆ ความชัดเจนและตระหนักว่านักวิทยาศาสตร์คอมพิวเตอร์และนักคณิตศาสตร์ทั้งสองนับจาก 0 .. ความแตกต่างคือนักวิทยาศาสตร์คอมพิวเตอร์มักจะใช้ดัชนีและดัชนีดัชนีรายการแรกเป็น 0 (แต่ยังคงนับได้ 1) ..
barlop
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.