มีคำจำกัดความที่ยอมรับได้สำหรับค่ามัธยฐานของตัวอย่างบนระนาบหรือเว้นวรรคที่สูงขึ้นหรือไม่


33

ถ้าเป็นเช่นนั้นอะไร ถ้าไม่ทำไมไม่

สำหรับตัวอย่างในบรรทัดค่ามัธยฐานจะลดความเบี่ยงเบนสัมบูรณ์ทั้งหมด มันดูเหมือนเป็นธรรมชาติที่จะขยายคำจำกัดความให้เป็น R2 เป็นต้น แต่ฉันไม่เคยเห็นมาก่อน แต่ฉันออกไปจากสนามไปนานแล้ว


คำตอบ:


19

ฉันไม่แน่ใจว่ามีคำจำกัดความที่ยอมรับได้สำหรับมัธยฐานหลายตัวแปร สิ่งที่ฉันคุ้นเคยคือค่ามัธยฐานของ Ojaซึ่งจะลดผลรวมของปริมาตรของความเรียบง่ายที่เกิดขึ้นบนส่วนย่อยของคะแนน (ดูลิงก์สำหรับคำจำกัดความด้านเทคนิค)

อัปเดต: ไซต์ที่อ้างถึงคำจำกัดความของ Oja ด้านบนมีกระดาษที่ดีซึ่งครอบคลุมจำนวนคำจำกัดความของค่ามัธยฐานหลายตัวแปร:


1
การอ้างอิงที่ดี: ขอบคุณ ครอบคลุมทุกอย่างที่กล่าวถึงที่นี่
whuber

เว็บไซต์เดียวกันยังมีภาพรวม nive ใน html: cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
Aditya

15

ตามที่@Arsบอกว่าไม่มีคำจำกัดความที่ยอมรับได้ (และนี่เป็นจุดที่ดี) มีทางเลือกทั่วไปสำหรับครอบครัวในการหาวิธีสรุปปริมาณบนฉันคิดว่าสิ่งที่สำคัญที่สุดคือ:Rd

  • พูดคุยเรื่องกระบวนการควอนไทล์ให้เป็นตัวชี้วัดเชิงประจักษ์ (= สัดส่วนของการสังเกตใน) จากนั้นด้วยเซตย่อยที่ได้รับการเลือกอย่างดีของชุด Borel ในและเป็นการวัดมูลค่าที่แท้จริงคุณสามารถกำหนดฟังก์ชันควอนไทล์เชิงประจักษ์ได้:A A R d λPn(A)AARdλ

    ยูn(เสื้อ)=INF(λ(A):Pn(A)เสื้อAA)

    สมมติว่าคุณสามารถหาหนึ่งที่ให้ขั้นต่ำแก่คุณ จากนั้นชุด (หรือองค์ประกอบของชุด)ให้ค่ามัธยฐานเมื่อถูกทำให้เล็กพอ ความหมายของค่ามัธยฐานมีการกู้คืนเมื่อใช้ และ x คำตอบArsตกอยู่ในกรอบที่ฉันคิดว่า ... ที่ตั้งครึ่งช่องว่างของ tukeyอาจได้รับโดยใช้และ (กับ , )1 / 2 - ε1 / 2 + ε ε = ( ] - , x ] x R ) λ ( ] - , x ]Aเสื้อA1/2-εA1/2+εεA=(]-,x]xR)( ) = ( H x = ( t R d :λ(]-,x])=xλ (A(a)=(Hx=(เสื้อRd:a,เสื้อx)x RR dλ(Hx)=xxRaRd

  • นิยามการแปรปรวนและการประมาณค่า M ความคิดในที่นี้คือ -quantileของตัวแปรสุ่มในสามารถกำหนดผ่านความเท่าเทียมกันเชิงแปรปรวนQ α Y RαQαYR

    • คำจำกัดความที่ใช้กันมากที่สุดคือการใช้ฟังก์ชันการถดถอยแบบควอไทล์ (เรียกอีกอย่างว่าการสูญเสียพินบอลเดาว่าทำไม?) (Yx)] เคสให้และคุณสามารถพูดคุยว่ามิติที่สูงขึ้นโดยใช้ระยะทางที่เป็นทำในคำตอบ @Srikant นี่คือค่ามัธยฐานทางทฤษฎี แต่ให้ค่ามัธยฐานเชิงประจักษ์ถ้าคุณแทนที่ความคาดหวังด้วยความคาดหวังเชิงประจักษ์ (หมายถึง) Q α = R กรัมINF x R E [ ρ α ( Y - x ) ] α = 1 / 2 ρ 1 / 2 ( Y ) = | y | l 1ραQα=aRก.INFxRE[ρα(Y-x)]α=1/2ρ1/2(y)=|y|l1

    • แต่Kolshinskiiเสนอให้ใช้การแปลง Legendre-Fenchel: เนื่องจาก โดยที่สำหรับ{R} เขาให้เหตุผลลึก ๆ มากมายกับสิ่งนั้น (ดูกระดาษ;) Generalizing นี้เพื่อมิติที่สูงขึ้นต้องทำงานร่วมกับ vectorialและแทนที่โดยแต่คุณสามารถใช้2/1)f ( s ) = 1Qα=ARก.จีบs(sα-(s))sRαsαs,αα=(1/2,...,1/2)(s)=12E[|s-Y|-|Y|+s]sRαsαs,αα=(1/2,...,1/2)

  • การสั่งซื้อบางส่วนคุณสามารถพูดคุยนิยามของ quantiles ในทันทีที่คุณสามารถสร้างคำสั่งบางส่วน (พร้อมคลาสเทียบเท่า)Rd

เห็นได้ชัดว่ามีสะพานเชื่อมระหว่างสูตรต่าง ๆ พวกเขาไม่ชัดเจนทั้งหมด ...


คำตอบที่ดีโรบิน!
ARS

12

มีวิธีที่แตกต่างในการวางแนวความคิดของค่ามัธยฐานให้อยู่ในระดับที่สูงขึ้น ยังไม่มีใครพูดถึง แต่ที่เสนอมานานคือการสร้างเรือนูนลอกมันออกไปและย้ำตราบเท่าที่คุณสามารถ: สิ่งที่เหลืออยู่ในเรือลำสุดท้ายคือชุดของคะแนนที่ผู้สมัครทุกคนจะเป็น " มีเดีย."

"การต่อสู้หัว"เป็นอีกความพยายามครั้งล่าสุด (ค. ศ. 1980) เพื่อสร้างศูนย์กลางที่แข็งแกร่งให้กับระบบคลาวด์แบบจุด 2D (ลิงค์นี้เป็นเอกสารและซอฟต์แวร์ที่สถาบันมะเร็งแห่งชาติของสหรัฐอเมริกา)

สาเหตุหลักที่ทำให้มีการวางนัยทั่วไปหลายแบบและไม่มีใครแก้ปัญหาได้ชัดเจนว่า R1 สามารถสั่งซื้อได้ แต่ R2, R3, ...


การวัดใด ๆ ที่เกิดขึ้นกับค่ามัธยฐานปกติเมื่อ จำกัด ให้ R1 เป็นลักษณะทั่วไปของผู้สมัคร จะต้องมีจำนวนมาก
phv3773

phv:> ใคร ๆ ก็สามารถขอให้ 'การ' วางนัยทั่วไปเพื่อรักษา (ในมิติที่สูงกว่า) คุณสมบัติที่น่าสนใจของค่ามัธยฐาน สิ่งนี้ จำกัด จำนวนผู้สมัครอย่างรุนแรง (ดูความคิดเห็นหลังจากคำตอบของ Srikant ด้านล่าง)
603

@Wuber:> จากนั้นความคิดในการสั่งซื้อสามารถทั่วไปถึง R ^ n สำหรับการกระจาย unimodal (ดูคำตอบของฉันด้านล่าง)
user603

@kwak: คุณช่วยอธิบายหน่อยได้ไหม? คำจำกัดความทางคณิตศาสตร์ตามปกติของการเรียงลำดับของสเปซนั้นไม่ขึ้นอยู่กับการแจกแจงความน่าจะเป็นใด ๆ ดังนั้นคุณต้องมีข้อสันนิษฐานเพิ่มเติมในใจ
whuber

1
@Wuber: คุณระบุ: "สามารถสั่งซื้อ R1 ได้ แต่ R2, R3, ... ไม่สามารถเป็นได้" R2, .. , R3 สามารถสั่งซื้อได้หลายวิธีโดยการจับคู่จาก Rn ถึง R วิธีหนึ่งคือความลึกของ tukey มันมีคุณสมบัติที่สำคัญหลายอย่าง (ความทนทานต่อการขยาย, ไม่ใช่พารามิเตอร์, การแปรปรวน, ... ) แต่สิ่งเหล่านี้มีไว้สำหรับกรณีของการกระจายแบบ unimodal เท่านั้น แจ้งให้เราทราบหากคุณต้องการรายละเอียดเพิ่มเติม
user603


6

ค่ากลางของ Tukey สามารถขยายได้ถึง> 2 มิติโดยใช้ DEEPLOC ซึ่งเป็นอัลกอริทึมเนื่องจาก Struyf และ Rousseeuw; ดูที่นี่สำหรับรายละเอียด

อัลกอริทึมที่ใช้ในการประมาณจุดที่ลึกที่สุดได้อย่างมีประสิทธิภาพ; วิธีการที่ไร้เดียงสาซึ่งพยายามที่จะตรวจสอบสิ่งนี้มักจะเรียกใช้ afoul ของ (เวอร์ชั่นการคำนวณของ) "คำสาปของมิติ" ที่รันไทม์ที่จำเป็นในการคำนวณสถิติเติบโตขึ้นชี้แจงกับจำนวนของมิติของพื้นที่



0

ผมไม่ทราบว่าถ้ามีความหมายดังกล่าวอยู่ แต่ฉันจะพยายามขยายความคมชัดมาตรฐานของค่ามัธยฐานเพื่อ 2 ฉันจะใช้สัญลักษณ์ต่อไปนี้:R2

, Y : ตัวแปรสุ่มที่เกี่ยวข้องกับสองมิติXY

, m y : ค่าเฉลี่ยที่สอดคล้องกันม.xม.Y

: PDF ร่วมสำหรับตัวแปรสุ่มของเรา(x,Y)

ในการเพิ่มความหมายของค่ามัธยฐานเป็นเราเลือกm xและm yเพื่อลดสิ่งต่อไปนี้:R2ม.xม.Y

E(|(x,Y)-(ม.x,ม.Y)|

ปัญหาตอนนี้คือเราต้องการคำนิยามสำหรับสิ่งที่เราหมายถึงโดย:

|(x,Y)-(ม.x,ม.Y)|

ด้านบนมีความหมายว่าการวัดระยะทางและคำจำกัดความที่เป็นไปได้หลายประการอาจเป็นไปได้

การวัดแบบยุคลิด

|(x,Y)-(ม.x,ม.Y)|=(x-ม.x)2+(Y-ม.Y)2

(x,Y)

ตัวชี้วัดแท็กซี่

|(x,Y)-(ม.x,ม.Y)|=|x-ม.x|+|Y-ม.Y|

XYxY


Srikant: ไม่ไม่คำจำกัดความต้องมีคุณสมบัติที่สำคัญสองประการของค่ามัธยฐาน univariate a) ค่าคงที่ต่อการเปลี่ยนแปลงข้อมูลแบบ monotone, b) แข็งแกร่งต่อการปนเปื้อนจากผู้ผิดกฎหมาย ขอบเขตที่คุณเสนอไม่มีสิ่งเหล่านี้ ความลึกของ Tukey มีคุณสมบัติเหล่านี้
user603

@kwak สิ่งที่คุณพูดทำให้รู้สึก

@Srikant:> ตรวจสอบเอกสาร R&S ที่อ้างถึงโดย Gary Campbell ด้านบน;) ดีที่สุด
603

@kwak เมื่อคิดเพิ่มอีกบางครั้งตัวชี้วัดรถแท็กซี่จะมีคุณสมบัติที่คุณพูดถึงเพราะมันจะลดค่ามัธยฐานของค่ากลาง ไม่ได้หรือไม่

2
@Srikant:> ไม่มีคำตอบที่ไม่ถูกต้องสำหรับคำถามของ phv เพราะไม่มี 'คำตอบที่ดี' เช่นกัน การวิจัยด้านนี้ยังอยู่ระหว่างการพัฒนา ฉันแค่อยากจะชี้ให้เห็นว่าทำไมมันถึงยังคงเป็นปัญหาเปิดอยู่
user603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.