ฉันจะประเมินความน่าจะเป็นของสมาชิกสุ่มจากประชากรหนึ่งที่จะ“ ดีขึ้น” กว่าสมาชิกสุ่มจากประชากรอื่นได้อย่างไร


15

สมมติว่าฉันมีกลุ่มตัวอย่างจากประชากรสองกลุ่มที่แตกต่างกัน ถ้าฉันวัดว่าสมาชิกแต่ละคนใช้เวลาทำงานนานแค่ไหนฉันสามารถประมาณค่าเฉลี่ยและความแปรปรวนของประชากรแต่ละคนได้อย่างง่ายดาย

หากตอนนี้ฉันตั้งสมมติฐานการจับคู่แบบสุ่มกับบุคคลหนึ่งคนจากแต่ละประชากรฉันสามารถประเมินความน่าจะเป็นที่คนแรกเร็วกว่าคนที่สองหรือไม่

ฉันมีตัวอย่างที่เป็นรูปธรรมในใจ: การวัดเป็นการกำหนดเวลาสำหรับฉันขี่จักรยานจาก A ถึง B และประชากรเป็นตัวแทนของเส้นทางที่แตกต่างที่ฉันสามารถทำได้ ฉันพยายามหาว่าความน่าจะเป็นที่การเลือกเส้นทาง A สำหรับรอบต่อไปของฉันจะเร็วกว่าการเลือกเส้นทาง B เมื่อฉันทำวัฏจักรจริง ๆ ฉันได้รับจุดข้อมูลอีกชุดสำหรับชุดตัวอย่างของฉัน :)

ฉันรู้ว่านี่เป็นวิธีที่ง่ายอย่างน่ากลัวในการพยายามทำสิ่งนี้ไม่ใช่อย่างน้อยเพราะในวันหนึ่ง ๆ ลมจะมีผลต่อเวลาของฉันมากกว่าสิ่งอื่นดังนั้นโปรดแจ้งให้เราทราบหากคุณคิดว่าฉันกำลังถาม คำถามที่ผิด ...


สามารถทำได้ผ่านการทดสอบทวินามแบบง่าย & @Macro มีคำตอบที่ดี อย่างไรก็ตามมีปัญหาหนึ่งที่เกิดขึ้นกับกลุ่มตัวอย่าง: มีอะไรที่ส่งผลต่อการตัดสินใจของคุณในการใช้เส้นทาง A หรือเส้นทาง B โดยเฉพาะอย่างยิ่งคุณชอบที่จะใช้เส้นทาง A เมื่อถนนแห้งลมที่ด้านหลังของคุณและรออาหารเย็นหรือไม่? :) ระวังสิ่งที่อาจส่งผลกระทบต่อค่าผิดปกติในแต่ละชุดหรืออาจทำให้ตัวอย่างมีอคติ ตัวอย่างเช่นลองตั้งค่าแผนการสุ่มตัวอย่างล่วงหน้าโดยพิจารณาถึงความต้องการที่แตกต่าง (เช่นความปลอดภัย)
Iterator

สิ่งที่ต้องพิจารณาอีกประการหนึ่ง: สมมติว่าคุณมีเส้นทางสองเส้นทางที่มีวิธีการคล้ายกันมากและไม่ได้ใช้เส้นทางอื่นในแง่ของความน่าจะเป็นที่จะเร็วขึ้น ตัวที่หนึ่งจะใช้เวลา 10 หรือ 20 นาทีในขณะที่ตัวอื่น ๆ จะแม่นยำ 15 นาที คุณอาจพบว่าดีกว่าที่จะลงโทษความไม่แน่นอนที่มากขึ้น (เช่นค่าเบี่ยงเบนมาตรฐาน) หรือให้ความสำคัญกับโอกาสที่จะใช้เวลาน้อยกว่าเกณฑ์ คำถามของคุณตามที่เป็นดี ฉันแค่แนะนำการปรับแต่งในอนาคต
Iterator

คำถามเชิงสถิติเป็นเรื่องดี แต่ถ้าคุณต้องการหาความน่าจะเป็นที่เส้นทางจะเร็วกว่านี้ฉันควรแนะนำการวัดความยาวของเส้นทาง หากภูมิประเทศไม่เป็นภูเขาเส้นทางที่สั้นกว่าจะเร็วกว่าเสมอ
mpiktas

หากลมเป็นปัจจัยสำคัญและหากความเร็วลมสัมพันธ์กับสองเส้นทางก็ดูเหมือนว่าบุคคลนั้นต้องการข้อมูลเกี่ยวกับการพึ่งพาระหว่าง A และ B เพื่อตอบคำถามอย่างถูกต้อง คุณต้องการข้อมูลที่แตกต่างกันสำหรับเรื่องนั้นและมันยากที่จะขี่สองเส้นทางในเวลาเดียวกัน คุณสามารถขอความช่วยเหลือจากคนอื่นเพื่อช่วยคุณรวบรวมข้อมูล แต่จะต้องพิจารณาความแปรปรวนระหว่างผู้ขับขี่ ในกรณี A และ B เป็นอิสระคำตอบด้านล่างนั้นยอดเยี่ยม

อีกทางหนึ่ง: ถ้าฉันพยายามที่จะตัดสินใจว่าจะใช้เส้นทางไหนผ่านอุโมงค์หนึ่งผ่านทุ่งนาและลมที่พัดอย่างบ้าคลั่งฉันอาจจะเลือกสนามแม้ว่ามันจะแย่ลงโดยเฉลี่ย

คำตอบ:


12

วิธีการแก้

ปล่อยให้ทั้งสองหมายความว่าและμ yและส่วนเบี่ยงเบนมาตรฐานของพวกเขาคือσ xและσ yตามลำดับ ความแตกต่างในการกำหนดเวลาระหว่างการขี่สองครั้ง ( Y - X ) จึงมีค่าเฉลี่ยμ y - μ xและค่าเบี่ยงเบนมาตรฐานμxμyσxσyYXμyμxปี ความแตกต่างที่เป็นมาตรฐาน ("คะแนน z") คือσx2+σy2

z=μyμxσx2+σy2.

เว้นแต่ครั้งการนั่งของคุณมีการกระจายแปลกโอกาสที่ขี่ใช้เวลานานกว่านั่งXYXจะอยู่ที่ประมาณกระจายสะสมปกติประเมินที่ZΦz

การคำนวณ

คุณสามารถใช้ความน่าจะเป็นนี้กับการขี่ของคุณเพราะคุณมีค่าประมาณμxฯลฯ :-) เพื่อจุดประสงค์นี้มันเป็นเรื่องง่ายที่จะจดจำค่าที่สำคัญบาง : Φ ( 0 ) = 0.5 = 1 / 2 , Φ ( - 1 ) 0.16 1 / 6 , Φ ( - 2 ) 0.022 1 / 40 , และΦ ( - 3 ) 0.0013ΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 750 (การประมาณอาจไม่ดีสำหรับ | z |มากกว่า 2แต่การรู้ Φ ( - 3 )ช่วยในการแก้ไข) ร่วมกับ Φ ( z ) = 1 - Φ ( - z )และการแก้ไขเล็กน้อยคุณ สามารถประมาณความน่าจะเป็นได้อย่างรวดเร็วหนึ่งตัวเลขที่สำคัญซึ่งมีความแม่นยำมากกว่าเพียงพอเนื่องจากลักษณะของปัญหาและข้อมูลΦ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

ตัวอย่าง

สมมติว่าเส้นทางใช้เวลา 30 นาทีโดยมีค่าเบี่ยงเบนมาตรฐาน 6 นาทีและเส้นทางYใช้เวลา 36 นาทีโดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 8 นาที ด้วยข้อมูลที่เพียงพอซึ่งครอบคลุมเงื่อนไขที่หลากหลายทำให้ฮิสโทแกรมของข้อมูลของคุณอาจประมาณค่าเหล่านี้ในที่สุด:XY

ฮิสโทแกรมสองอัน

(นี่คือฟังก์ชั่นความหนาแน่นของความน่าจะเป็นสำหรับตัวแปร Gamma (25, 30/25) และ Gamma (20, 36/20) สังเกตว่าพวกมันเอียงไปทางขวาอย่างแน่นอน

แล้วก็

μx=30,μy=36,σx=6,σy=8.

จากไหน

z=363062+82=0.6.

เรามี

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

ดังนั้นเราจึงประเมินคำตอบคือ 0.6 ระหว่าง 0.5 ถึง 0.84: 0.5 + 0.6 * (0.84 - 0.5) = ประมาณ 0.70 (ค่าที่ถูกต้อง แต่แม่นยำมากเกินไปสำหรับการแจกแจงแบบปกติคือ 0.73)

มีโอกาส 70% ที่เส้นทางจะใช้เวลานานกว่าเส้นทางXYX Xการคำนวณนี้ในหัวของคุณจะทำให้คุณไม่ต้องสนใจเขาอีกต่อไป :-)

(ความน่าจะเป็นที่ถูกต้องสำหรับฮิสโตแกรมที่แสดงคือ 72% แม้ว่าจะไม่ใช่แบบปกติ: สิ่งนี้แสดงขอบเขตและประโยชน์ของการประมาณแบบปกติสำหรับความแตกต่างในเวลาเดินทาง)


P(X>Y)

@Macro: หากข้อมูลสามารถลดลงเป็นสถิติสรุปสำหรับ Q ที่น่าสนใจใคร ๆ ก็สามารถเก็บข้อมูลได้น้อยลง ... แค่คิด
Iterator

ขออภัยสมองของฉันถูกทอดด้วยความร้อนและฉันพลาดคำตอบที่ชัดเจน คุณแต่ละคนตอบคำถามต่าง ๆ กัน วิธีบูตสแตรปที่คุณให้ค่าประมาณP(X>Y)YXYX

FWIW: @whuber อธิบายการทดสอบแบบ t ของนักเรียนสำหรับความแตกต่างของค่าเฉลี่ยระหว่างสองตัวอย่างที่มีค่าเบี่ยงเบนมาตรฐานต่างกัน
Iterator

1
ขอบคุณ @whuber นี่คือคำตอบสำหรับคำถามที่ฉันพยายามถาม :)
Andrew Aylett

6

สัญชาตญาณของฉันอาจไม่ซับซ้อนที่สุดในเชิงสถิติ แต่คุณอาจพบว่ามันสนุกกว่า :)

ฉันจะได้กระดาษกราฟขนาดพอดีและแบ่งคอลัมน์ออกเป็นบล็อคเวลา ขึ้นอยู่กับระยะเวลาในการขี่ของคุณเรากำลังพูดถึงเวลาเฉลี่ย 5 นาทีหรือหนึ่งชั่วโมงคุณอาจใช้บล็อกขนาดต่างกัน สมมติว่าแต่ละคอลัมน์เป็นบล็อกสองนาที เลือกสีสำหรับเส้นทาง A และสีอื่นสำหรับเส้นทาง B และหลังจากการขับขี่แต่ละครั้งให้ทำจุดในคอลัมน์ที่เหมาะสม หากมีจุดสีใดอยู่ให้เลื่อนขึ้นหนึ่งแถว กล่าวอีกนัยหนึ่งนี่จะเป็นฮิสโตแกรมเป็นจำนวนสัมบูรณ์

จากนั้นคุณจะสร้างฮิสโตแกรมที่สนุกสนานในการขับขี่แต่ละครั้งและสามารถมองเห็นความแตกต่างระหว่างสองเส้นทาง

ความรู้สึกของฉันตามประสบการณ์ของฉันในฐานะผู้ขับขี่จักรยาน (ไม่ผ่านการตรวจสอบปริมาณ) คือว่าเวลาจะไม่ถูกกระจายตามปกติ - พวกเขาจะมีความเบ้บวกหรือกล่าวอีกนัยหนึ่งคือหางยาวของเวลาปลายสูง เวลาทั่วไปของฉันนั้นไม่นานกว่าเวลาที่สั้นที่สุดเท่าที่จะเป็นไปได้ แต่ทุก ๆ ครั้งและจากนั้นฉันดูเหมือนจะโดนแสงสีแดงทั้งหมดและมีระดับสูงกว่ามาก ประสบการณ์ของคุณอาจแตกต่างกัน นั่นเป็นเหตุผลที่ฉันคิดว่าวิธีฮิสโตแกรมอาจดีกว่าดังนั้นคุณสามารถสังเกตรูปร่างของการกระจายตัวได้

PS: ฉันมีตัวแทนไม่เพียงพอที่จะแสดงความคิดเห็นในฟอรัมนี้ แต่ฉันชอบคำตอบของ whuber! เขาพูดถึงความกังวลของฉันเกี่ยวกับความเบ้ค่อนข้างมีประสิทธิภาพด้วยการวิเคราะห์ตัวอย่าง และฉันชอบความคิดในการคำนวณในหัวของคุณเพื่อให้ใจของคุณออกไปจากเนินเขาต่อไป :)


1
+1 สำหรับความคิดสร้างสรรค์ ที่จริงแล้วความคิดของคุณอยู่บนเส้นทางสู่ยูทิลิตี้ในทางปฏิบัติ มันน่าสนใจกว่าที่จะใช้หนึ่งในเว็บไซต์ติดตามการขี่จักรยาน (ฉันลืมที่หนึ่งตอนนี้ แต่เพิ่มถ้าคุณรู้) เพื่อติดตามเวลาส่วน ถ้า OP กลับมาที่ CV หรือ StackOverflow ด้วยคำถามเกี่ยวกับการวางแผนเวลาของเซ็กเมนต์และรับความหนาแน่นที่เกี่ยวข้องมันจะเป็นการออกกำลังกายทางสถิติที่ยอดเยี่ยม - GIS, การสร้างภาพข้อมูลเชิงสถิติและฟังก์ชั่นความหนาแน่นโอ้ฉัน! :)
Iterator

1
ฉันใช้ Google MyTracks บนโทรศัพท์ของฉันเพื่อติดตามกลุ่มจักรยาน ฉันพบว่าโทรศัพท์ไม่ได้ยอดเยี่ยมเพราะมันมีแนวโน้มที่จะดูดพลังงานในอุปกรณ์ที่ไม่เหมาะสำหรับมัน Garmin (และอื่น ๆ ) ทำให้อุปกรณ์ GPS กำหนดเป้าหมายไปที่นักวิ่งและนักปั่นจักรยานโดยเฉพาะเพื่อติดตามเวลาที่ใช้ในเส้นทางและจัดทำแผนภูมิที่เรียบร้อยในอินเทอร์เฟซออนไลน์ ฉันไม่ได้ใช้อุปกรณ์ GPS เฉพาะตัว แต่เพื่อนของฉันบางคนใช้เพื่อแชร์เส้นทางบน facebook
Jonathan

1
นี่คือตัวอย่างของอุปกรณ์ Garmin ที่ผลิต ปัญหาเกี่ยวกับแผนภูมิก็คือพวกเขามีการประมวลผลล่วงหน้าปรับให้เรียบและอื่น ๆ เป็นอย่างมากนอกจากนี้ยังไม่มีวิธีที่สะดวกในการนำเข้าข้อมูลไปยัง R ตัวอย่างเช่น แต่ในฐานะที่เป็นอุปกรณ์เฉพาะมันทำงานได้อย่างยอดเยี่ยมฉันไม่สามารถจินตนาการได้ว่าวิ่งหรือปั่นจักรยานหากไม่มีมัน
mpiktas

+1 โปรดทราบว่าความเบ้ไม่มากมาจากการกดปุ่มไฟสีแดง (เว้นแต่ว่ากำหนดเวลาไว้): โดยรวมพวกเขามักจะเพิ่มเสียงเกาส์เซียนบางส่วนให้กับการกระจายเวลาเท่านั้น (การคำนวณความแปรปรวนของมันคือการออกกำลังกายทางจิตอีกอย่างหนึ่งที่คุณสามารถทำได้บนเนินเขาต่อไป) ในทางปฏิบัติความลาดเอียงมาจากการผันแปรที่ไม่ใช่แบบเกาส์เซียนในปัจจัยสำคัญสองสามข้อที่ควบคุมการขับขี่ทั้งหมด: สภาพอากาศความรู้สึกของคุณ กำลังขับขี่และอุบัติเหตุ / อ้อม / การจราจรติดขัดเป็นครั้งคราว
whuber

ตอนนี้ฉันคิดถึงมันมากกว่านี้อีกปัจจัยที่สำคัญมากคือช่วงเวลาของวัน สัญญาณไฟจราจรทำหน้าที่แตกต่างกันอย่างมากในช่วงเวลาที่มีการจราจรมากที่สุด - สีเขียวที่ยาวกว่าสำหรับถนนที่มีการจราจรสูง ในช่วงเวลาที่มีแสงน้อยไฟมักจะวนรอบอย่างรวดเร็วเริ่มต้นเป็นสีเขียวสำหรับถนนที่มีการจราจรสูง แต่เปลี่ยนอย่างรวดเร็วเมื่อฉันกดปุ่มข้ามหรือรถเปิดใช้งานเซ็นเซอร์
โจนาธาน

5

XYx,yx>yP(Xi>Yj)i,j

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

นี่คือคำตอบที่ดี แต่คุณสามารถลดความซับซ้อนของมันโดยการเอาforห่วงขอให้x1 = sample(X, 10000, replace = TRUE)และy1 = sample(Y, 10000, replace = TRUE)แล้วคำนวณmean(x1 > y1)พร้อมกับmean(x1 == y1)- ที่จะได้รับความรู้สึกของ # ครั้งที่ค่าจะเท่ากัน
Iterator

ขอบคุณ ฉันรู้ว่าการวนซ้ำนั้นไม่จำเป็น แต่ฉันต้องการตรรกะที่เป็นพื้นฐานของวิธีการที่ชัดเจน รหัสของคุณจะให้ผลลัพธ์ที่เหมือนกันอย่างแน่นอน
มาโคร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.