วันนี้มีใครบางคนที่เร็วกว่า Usain Bolt ไหม?


12

แก้ไข: ฉันสนใจในปัญหาทางเทคนิคและวิธีการในการกำหนดโอกาสสูงสุด "จริง" ในประชากรที่กำหนดให้สถิติตัวอย่าง มีปัญหาเกี่ยวกับการประเมินความเป็นไปได้ของนักวิ่งที่เร็วกว่า Mr. Bolt จากช่วงเวลาบันทึกการตั้งค่าที่ชัดเจนและละเอียดอ่อน ขำขันฉันด้วยการจินตนาการว่านี่จะไม่เป็นอย่างนั้น


Usain Bolt เป็นมนุษย์ที่วัดได้เร็วที่สุดในระยะ 100 เมตร อย่างไรก็ตามจากจำนวนนักกีฬาจำนวนน้อยดูเหมือนว่ามนุษย์ที่เร็วที่สุดที่ "จริง" ยังมีชีวิตอยู่กำลังนั่งบนโซฟาอยู่ที่ไหนสักแห่งและไม่เคยพยายามประกอบอาชีพการแข่งขัน

ฉันพยายามใช้ความจริงที่ว่าความแตกต่างระหว่างตัวอย่างที่ส่วนท้ายของการแจกแจงแบบปกตินั้นเล็กลงและเล็กลง ฉันใช้สิ่งนี้เพื่อคำนวณความเป็นไปได้ที่จะมีใครบางคนที่เร็วกว่า Usain Bolt โดยการเปรียบเทียบ Usain กับอันดับที่สองที่เร็วที่สุดอันดับที่ 3 และอื่น ๆ

เมื่อต้องการทำสิ่งนี้ฉันพยายามคำนวณค่าที่มากที่สุดที่มีอยู่นอกเหนือจาก "Usain Bolt" โดยการหาอนุพันธ์ของ CDF ของการแจกแจงแบบปกติเทียบกับyยกให้เป็นn th (โดยที่nมีค่าประมาณ 7,000,000,000 หรือจำนวน ตัวอย่างน้อยกว่า "สูงสุด" - ตรรกะที่อยู่เบื้องหลังนี้อธิบายไว้ในหน้าปัญหารถถังเยอรมันวิกิพีเดียซึ่งสรุปการกระจายตัวที่แตกต่างกัน) เช่น:

0yfYN(y)dy=λn0y[12[1+erf(yμσ2)]]n112πσ2e(yμ)22σ2dy

  1. นี่เป็นวิธีที่ถูกต้องในการคำนวณความน่าจะเป็นที่มีคนเร็วกว่า Usain Bolt ไหม

  2. มีชื่อคำถามประเภทนี้นอก "ปัญหารถถังเยอรมันสำหรับการแจกแจงอื่น ๆ "

  3. มีวิธีที่ดีในการประมาณค่าเบี่ยงเบนมาตรฐานจากตัวอย่างที่มากที่สุดของการแจกแจงหรือไม่? การค้นหาข้อมูลเกี่ยวกับขีดคั่น 100m ที่เร็วที่สุดของเวลาทั้งหมดนั้นเป็นเรื่องง่ายการหาค่าเฉลี่ยและความแปรปรวนนั้นยาก)

ขอบคุณสำหรับความอดทนในการจัดการกับโปรแกรมเมอร์โดยไม่มีพื้นฐานในหัวข้อ


2
คุณตั้งสมมติฐานว่าคุณเป็นนักกีฬาหรือไม่นั้นขึ้นอยู่กับความเร็วในการวิ่งของคุณ ซึ่งก็โอเค แต่สงสัย
bayerj

@bayerj ใช่ฉันคิดว่ามันค่อนข้างชัดเจนว่านี่จะเป็นวิธีที่ไม่ดีจริง ๆ ในการทำนายการแข่งขันกีฬาโอลิมปิกครั้งต่อไป อย่างไรก็ตามดูเหมือนว่าเป็นคำถามที่น่าสนใจโดยทั่วไปและฉันพยายามที่จะตอบคำถามอย่างดีที่สุดในความสามารถของฉันด้วยความหวังว่าบางคนจะสงสารและช่วยเหลือฉัน
ŹV -

1
ฉันพบคำถามที่ไม่ดีเนื่องจากคุณภาพของการเป็น "fast (er)" ที่นี่หมายถึงศักยภาพทางพันธุกรรมหรือความสามารถด้านกีฬาไม่ใช่ความสามารถที่แท้จริงในการเข้าถึงความเร็วสูง
Digio

@Digio แทนที่ "เร็วขึ้น" ด้วย "มีหมายเลขซีเรียลสูงกว่า" สมมติว่าบาง บริษัท "Fubarco" สร้างชุดผลิตภัณฑ์ที่มีหมายเลขซีเรียลกระจายทั่วไป
ŹV -

1
การสร้างคำถามด้วยตัวอย่างเป็นสิ่งที่ดี อย่างไรก็ตามตัวอย่างนี้ดูเหมือนจะเบี่ยงเบนความสนใจของผู้คนจากสิ่งที่คุณพยายามถาม คุณสามารถแก้ไขสิ่งนี้เพื่อหารือเกี่ยวกับสถานการณ์ที่คุณกำลังเผชิญอยู่จริงๆ
gung - Reinstate Monica

คำตอบ:


2

ตรงกันข้ามกับคำตอบอื่น ๆ ฉันขอยืนยันว่าคุณสามารถพูดอะไรบางอย่างเกี่ยวกับความสามารถของ Bolts ที่ให้ข้อมูลที่มีอยู่ ก่อนอื่นมาไขคำถามของคุณให้แคบลง คุณกำลังถามเกี่ยวกับมนุษย์ที่เร็วที่สุด แต่เนื่องจากมีความแตกต่างในการกระจายความเร็วในการวิ่งสำหรับผู้ชายและผู้หญิงซึ่งนักวิ่งหญิงที่ดีที่สุดดูเหมือนว่าจะช้ากว่านักวิ่งชายที่ดีที่สุดเล็กน้อย เพื่อให้ได้ข้อมูลบางอย่างที่เราสามารถมองไปที่ที่ดีที่สุดการแสดงปีใน 100 วิ่งจากที่ผ่านมา 45 ปี มีหลายสิ่งที่จะสังเกตเห็นเกี่ยวกับข้อมูลนี้:

  • นี่เป็นช่วงเวลาที่ดีที่สุดดังนั้นพวกเขาจึงไม่บอกเราเกี่ยวกับความสามารถของมนุษย์ทุกคน แต่เกี่ยวกับความเร็วที่ทำได้น้อยที่สุด
  • เราคิดว่าข้อมูลนี้สะท้อนตัวอย่างของนักวิ่งที่ดีที่สุดในโลก ในขณะที่อาจเกิดขึ้นว่ามีนักวิ่งที่ดีกว่าที่ไม่ได้มีส่วนร่วมในการแข่งขัน แต่ข้อสันนิษฐานนี้ดูเหมือนจะสมเหตุสมผล

ก่อนอื่นเรามาคุยกันว่าจะไม่วิเคราะห์ข้อมูลนี้อย่างไร คุณสามารถสังเกตเห็นว่าถ้าเราวางแผนเวลาทำงานกับเวลาเราจะสังเกตเห็นความสัมพันธ์เชิงเส้นที่แข็งแกร่ง

เวลาทำงานที่ดีที่สุดเทียบกับเวลา

สิ่งนี้อาจนำคุณไปสู่การใช้การถดถอยเชิงเส้นเพื่อคาดการณ์จำนวนนักวิ่งที่เราสามารถสังเกตเห็นได้ในปีถัดไป อย่างไรก็ตามนี่เป็นความคิดที่แย่มากซึ่งจะนำคุณไปสู่ข้อสรุปที่สรุปได้ว่าในมนุษย์ประมาณสองพันปีจะสามารถวิ่งได้ 100 เมตรในศูนย์วินาทีและหลังจากนั้นพวกเขาก็จะเริ่มการวิ่งเชิงลบได้ทันที! นี่เป็นเรื่องไร้สาระที่เห็นได้ชัดว่าเราสามารถจินตนาการได้ว่ามีขีด จำกัด ทางชีวภาพและทางกายภาพของขีดความสามารถของเราซึ่งเป็นที่รู้จักของเรา

Y=max(X1,X2,,Xn)X1,X2,,XnYiZ1,Z2,,ZkZiติดตามการกระจายของ GEV สำหรับขั้นต่ำ ดังนั้นเราสามารถใส่การกระจาย GEV กับข้อมูลความเร็วในการวิ่งสิ่งที่นำไปสู่ความเหมาะสมที่ดีงาม (ดูด้านล่าง)

การกระจาย GEV สำหรับความเร็วในการวิ่ง

หากคุณดูที่การกระจายแบบสะสมที่แนะนำโดยโมเดลคุณจะสังเกตเห็นว่าเวลาที่ดีที่สุดในการใช้งานโดย Usain Bolt อยู่ในระดับต่ำสุด1%หางของการกระจาย ดังนั้นหากเรายึดติดกับข้อมูลนี้และการวิเคราะห์ตัวอย่างของเล่นนี้เราจะสรุปได้ว่าเวลาการทำงานที่น้อยลงนั้นไม่น่าเป็นไปได้ ปัญหาที่ชัดเจนของการวิเคราะห์นี้คือการไม่สนใจความจริงที่ว่าเราเห็นการปรับปรุงปีต่อปีของเวลาทำงานที่ดีที่สุด สิ่งนี้ทำให้เราย้อนกลับไปยังปัญหาที่อธิบายไว้ในส่วนแรกของคำตอบนั่นคือสมมติว่าตัวแบบการถดถอยในที่นี้มีความเสี่ยง อีกสิ่งหนึ่งที่สามารถปรับปรุงได้คือเราสามารถใช้วิธีการแบบเบย์และให้ข้อมูลก่อนที่จะพิจารณาความรู้นอกข้อมูลเกี่ยวกับเวลาทำงานที่เป็นไปได้ทางสรีรวิทยาซึ่งอาจยังไม่ได้รับการสังเกต (แต่เท่าที่ฉันรู้ ไม่เป็นที่รู้จักในขณะนี้) ในที่สุดทฤษฎีค่าสุดขีดที่คล้ายกันนี้ได้ถูกนำไปใช้ในการวิจัยการกีฬาเช่นโดย Einmahl และ Magnus (2008) ในบันทึกในกรีฑาผ่านกระดาษทฤษฎีค่ามาก

คุณสามารถคัดค้านว่าคุณไม่ได้ถามเกี่ยวกับความน่าจะเป็นในการใช้เวลาที่เร็วขึ้น แต่เกี่ยวกับความน่าจะเป็นในการสังเกตการวิ่งที่เร็วขึ้น น่าเสียดายที่เราไม่สามารถทำอะไรได้มากนักเนื่องจากเราไม่รู้ว่าความน่าจะเป็นที่นักวิ่งจะกลายเป็นนักกีฬาอาชีพและเวลาวิ่งที่บันทึกไว้จะมีให้สำหรับเขา สิ่งนี้ไม่ได้เกิดขึ้นแบบสุ่มและมีหลายปัจจัยที่ทำให้เกิดความจริงที่ว่านักวิ่งบางคนกลายเป็นนักกีฬามืออาชีพและบางคนก็ไม่ได้ (หรือแม้แต่คนที่ชอบวิ่งและวิ่งเลย) สำหรับสิ่งนี้เราจะต้องมีข้อมูลรายละเอียดกว้าง ๆ เกี่ยวกับนักวิ่งนอกจากนี้เมื่อคุณถามถึงความสุดขั้วของการกระจายข้อมูลจะต้องมีขนาดใหญ่มาก ดังนั้นฉันจึงเห็นด้วยกับคำตอบอื่น ๆ


1

สัญชาตญาณแรกของฉันคือสิ่งนี้เป็นความคิดที่ไม่ดี แต่ให้ฉันทำลายมันทำไม

1) คุณต้องการวัดตัวแปรที่ไม่สามารถสังเกตเห็นได้, ทักษะการวิ่งแบบซ่อนเร้น, ด้วยตัวแปรที่สังเกตได้, บันทึกเวลาทำงาน ไม่เป็นไร แต่: ในปัญหารถถังเยอรมันหมายเลขซีเรียลทั้งหมดนั้นสร้างขึ้นจากการกระจายที่เหมือนกัน ในปัญหาของคุณคุณต้องสรุปทักษะตัวแปรแฝง (จาก 7 พันล้านคน) จากเวลาที่ใช้ตัวแปรที่สังเกตได้ ใน GTP มีการรู้จักหมายเลขซีเรียลหลายหมายเลข ในปัญหาของคุณคุณไม่ได้รวบรวมข้อมูลใด ๆ เลยและกำลังดำเนินไปถึงค่าสูงสุด (Bolt) ยิ่งไปกว่านั้นคุณคิดว่าทักษะแฝงที่ไม่สามารถสังเกตได้นี้ไม่มีความเกี่ยวข้องกับเวลาทำงานจริงจนถึงจุดที่เป็นไปได้ที่คนที่ไม่เคยวิ่งเลยจะเก่งกว่า Bolt ดูเหมือนไร้สาระ!

2) นักกีฬาไม่ใช่กลุ่มตัวอย่างของประชากร พวกเขาจะถูกเลือกอย่างระมัดระวังโดยการทดสอบหลายครั้ง หากเราคิดว่าทุกคนที่มีความสามารถในการวิ่งอาจจะวิ่งแข่งอย่างน้อยหนึ่งครั้งในชีวิตของพวกเขาและแต่ละคนได้ตัดสินใจว่าพวกเขาควรจะแข่งขันต่อไปในระดับที่สูงขึ้นหรือไม่ขึ้นอยู่กับว่าพวกเขาชนะมากแค่ไหน เผ่าพันธุ์ --- จากนั้นดูเหมือนจะไม่น่าเป็นไปได้ที่ Bolt จะเป็นมนุษย์ที่เร็วที่สุดในนั้น

นี่เป็นเพียงเหตุผลแรกที่นึกถึง พูดตามตรงคุณเป็นคนโง่ไปทำธุระกับสิ่งนี้ ไม่มีวิธีวัด "ความน่าจะเป็น" ของสิ่งที่คุณกำลังพูดถึง


ผู้ตอบอีกคนพูดอย่างเดียวกันและเป็นความจริงอย่างไม่ต้องสงสัยเลยว่าการประเมินความเป็นไปได้ว่ามีใครบางคนที่เร็วกว่าคุณโบลต์ในเรื่องนี้มีข้อบกพร่องมาก มันจะน่าสนใจมากขึ้นที่จะทราบว่าตรรกะทางเทคนิคของการทำนายตามค่าสุดขีดเหล่านี้ถูกต้องในหลักการ
ŹV -

3
ฉันขอแนะนำให้สรุปคำถามเพื่อให้เป็นหัวใจของสิ่งที่คุณพยายามถามจริง ๆ เพราะบริบทจะสร้างความว้าวุ่นใจมากมาย ยังไม่ชัดเจนสำหรับฉันว่า "การกระจายแบบปกติ" ที่คุณหมายถึงหมายถึงอะไร เวลาดำเนินการจริง ความสามารถในการวิ่งของนักกีฬา?
เสื่อมสภาพใน

-2

คำตอบคือไม่

คุณสมมติว่ามีตัวอย่างจากประชากร (นักกีฬา) และ Bolt เป็นค่าสูงสุดของตัวอย่างนี้ คุณกำลังมองหาความน่าจะเป็นที่จำนวนสูงสุดของประชากรมากกว่าจำนวนสูงสุดของตัวอย่าง นั่นคือสมมติฐานของคุณ

เกิดอะไรขึ้นถ้าการสันนิษฐานของคุณผิดและตัวอย่างนั้นเป็นประชากรจริงหรือ

ฉันสามารถโต้แย้งอย่างสมเหตุสมผลว่าทุกคนที่วิ่งได้มีโอกาสเอาชนะเขาได้ ไม่มีใครทำดังนั้นเขาจึงเป็นจำนวนสูงสุดที่แท้จริงของประชากรโลก

เป็นที่ชัดเจนว่านักกีฬาไม่ใช่กลุ่มตัวอย่างแบบสุ่ม ฉันหวังว่าจะไม่มีคำถามเกี่ยวกับเรื่องนี้ แน่นอนว่าการเป็นนักกีฬาจะมีความสุ่มในระดับหนึ่ง ในทางกลับกันหากไม่ใช่นักกีฬาแล้วทักษะการกีฬาและความสำเร็จของเขาจะไม่เปรียบเทียบกับนักกีฬา ฉันสามารถใช้มันที่ใครบางคนอาจมีศักยภาพทำงานได้เร็วกว่า Bolt ให้เงื่อนไขทั้งหมดสำหรับการฝึกอบรมและมีการฝึกฝนอย่างหนักเท่ากับ Bolt อย่างไรก็ตามมันไม่น่าเป็นไปได้ที่คุณจะดึงนักกีฬาที่ไม่ใช่และเขาจะเต้นโบลต์ในระยะ 100 ม. ภายใต้สภาพสนามและสนาม


ฉันสนใจวิธีการที่อยู่ด้านหลังถูกต้องมากขึ้นลองนึกภาพรถถังที่มีหมายเลขซีเรียลกระจายโดยทั่วไปอาจมีซ้ำซ้อนแทนความเร็วในการวิ่ง :)
ŹV -
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.