คำอธิบายของคนธรรมดาที่คุณชื่นชอบสำหรับแนวคิดทางสถิติที่ยากคืออะไร?


36

ฉันสนุกกับการฟังคำอธิบายง่ายๆเกี่ยวกับปัญหาที่ซับซ้อน การเปรียบเทียบหรือเรื่องเล็ก ๆ น้อยที่คุณชื่นชอบที่อธิบายแนวคิดทางสถิติที่ยากคืออะไร

สิ่งที่ฉันชอบคือคำอธิบายของเมอเรย์ต่อการใช้เครื่องดื่มเมาและสุนัขของเธอ เมอร์เรย์อธิบายว่ากระบวนการสุ่มสองแบบ (เมาค้างและสุนัขโอลิเวอร์) สามารถมีรากของหน่วยได้ แต่ยังคงมีความเกี่ยวข้อง

เมาออกจากบาร์กำลังจะเร่ร่อนอย่างไม่มีจุดหมายในการเดินแบบสุ่ม แต่บางครั้งเธอก็พูดว่า "โอลิเวอร์คุณอยู่ที่ไหน" และโอลิเวอร์ก็ขัดจังหวะการเห่าของเขาอย่างไร้จุดหมาย เขาได้ยินเธอ; เธอได้ยินเขา เขาคิดว่า "โอ้ฉันไม่สามารถปล่อยให้เธอออกไปไกลเกินไปเธอจะล็อกฉันไว้" เธอคิดว่า "โอ้ฉันไม่สามารถปล่อยให้เขาไปไกลเกินไปเขาจะปลุกฉันในตอนกลางคืนด้วยเสียงเห่าของเขา" แต่ละคนประเมินว่าอีกฝ่ายอยู่ห่างกันมากแค่ไหนและย้ายไปที่ช่องว่างนั้นเพียงบางส่วน

คำตอบ:


18

ค่า p เป็นการวัดว่าข้อมูลน่าอายสำหรับสมมติฐานว่างได้อย่างไร

Nicholas Maxwell, Data Data: สถิติเชิงแนวคิดสำหรับโลกสุ่มเอเมอรีวิลล์แคลิฟอร์เนีย: สำนักพิมพ์วิทยาลัยที่สำคัญ, 2004


15
  1. หากคุณแกะสลักการกระจาย (ฮิสโตแกรม) ออกมาจากไม้และพยายามที่จะรักษาสมดุลไว้บนนิ้วของคุณจุดสมดุลก็จะมีค่าเฉลี่ยไม่ว่ารูปร่างของการกระจายจะเป็นเท่าไหร่

  2. หากคุณวางไม้ไว้ที่กึ่งกลางของพล็อตกระจายของคุณและติดแท่งกับจุดข้อมูลแต่ละจุดด้วยสปริงจุดพักของแท่งจะเป็นเส้นถดถอยของคุณ [1]

[1] นี่จะเป็นเทคนิคการถดถอยส่วนประกอบหลัก คุณจะต้องบังคับให้สปริงเคลื่อนย้ายเฉพาะ "แนวตั้ง" ให้เป็นสี่เหลี่ยมจัตุรัสน้อยที่สุด แต่ตัวอย่างเป็นตัวอย่างที่อธิบายได้ทั้งสองทาง


2
แรงสปริงเป็นสัดส่วนกับการเสียรูปดังนั้นนี่ไม่ใช่การถดถอยกำลังสองน้อยที่สุด!
shabbychef

1
พยายามได้ดี! ขึ้นอยู่กับฤดูใบไม้ผลิ ตัวอย่างเช่นถ้าค่าคงที่ของฤดูใบไม้ผลิเป็น 1 / sigma, ใช้งานได้ดี;)
Neil McGuigan

2
ไม่ไม่ประเด็นคือในดุลยภาพผลรวมของแรงจะเป็นศูนย์ สมมติว่าค่าคงที่ของฤดูใบไม้ผลิเท่ากับคุณจะลดผลรวมของการเบี่ยงเบนสัมบูรณ์เช่นการถดถอยไม่ใช่กำลังสองน้อยที่สุด สิ่งนี้เพิกเฉยต่อความจริงที่ว่าสปริงจะต้องลอยอย่างอิสระบนไม้ดังนั้นพวกเขาจะเลื่อนเพื่อไม่ให้ความผิดปกติไปในทิศทางyทำให้เกิดอะไรขึ้นเหมือนกับส่วนประกอบหลัก แต่มีข้อผิดพลาดแน่นอน L1Y
shabbychef

L1L1

12

ฉันใช้การเดินของคนขี้เมามาก่อนเพื่อเดินแบบสุ่มและคนเมาและสุนัขของเธอเป็นผู้ทำการสังฆราช พวกเขามีประโยชน์มาก (บางส่วนเพราะพวกเขาสนุก)

หนึ่งในตัวอย่างทั่วไปที่ฉันโปรดปรานคือBirthday Paradox ( รายการวิกิพีเดีย ) ซึ่งแสดงให้เห็นแนวคิดที่สำคัญของความน่าจะเป็น คุณสามารถจำลองสิ่งนี้ได้ด้วยห้องที่เต็มไปด้วยผู้คน

บังเอิญฉันขอแนะนำ"สถิติการสอน: A Bag of Tricks" ของ Andrew Gelman สำหรับตัวอย่างของวิธีที่สร้างสรรค์ในการสอนแนวคิดทางสถิติ (ดูสารบัญ ) นอกจากนี้ยังมองไปที่กระดาษของเขาเกี่ยวกับหลักสูตรที่เขาสอนเกี่ยวกับสถิติการเรียนการสอน: "หลักสูตรการเรียนการสอนสถิติในระดับมหาวิทยาลัย" และ"การเรียนการสอนเพื่อ Bayes นักศึกษาระดับบัณฑิตศึกษารัฐศาสตร์สังคมวิทยาสาธารณสุข, การศึกษาเศรษฐศาสตร์ ..."

สำหรับการอธิบายวิธีการแบบเบย์การใช้เหรียญที่ไม่เป็นธรรมและการพลิกหลาย ๆ ครั้งเป็นวิธีที่ใช้กันทั่วไป / มีประสิทธิภาพ


1
ไม่มีสิ่งใดเป็นเหรียญที่ไม่เป็นธรรม: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
ทิม

11

ฉันชอบที่จะแสดงให้เห็นถึงความผันแปรของการสุ่มตัวอย่างและทฤษฎีบทขีด จำกัด กลางผ่านทางการฝึกหัด "ในชั้นเรียน" ทุกคนในชั้นเรียนบอกว่านักเรียน 100 คนเขียนอายุลงบนกระดาษ กระดาษทุกชิ้นมีขนาดเท่ากันและพับแบบเดียวกันหลังจากฉันคำนวณค่าเฉลี่ยแล้ว นี่คือประชากรและฉันคำนวณอายุเฉลี่ย จากนั้นนักเรียนแต่ละคนสุ่มเลือกกระดาษ 10 แผ่นบันทึกอายุและส่งกลับไปที่กระเป๋า (S) เขาคำนวณค่าเฉลี่ยและส่งกระเป๋าไปให้นักเรียนคนถัดไป ในที่สุดเรามีตัวอย่าง 100 คนจากนักเรียน 10 คนแต่ละคนประเมินค่าเฉลี่ยประชากรซึ่งเราสามารถอธิบายผ่านฮิสโตแกรมและสถิติเชิงพรรณนา

จากนั้นเราจะทำการสาธิตซ้ำในครั้งนี้โดยใช้ชุด 100 "ความคิดเห็น" ที่ทำซ้ำคำถามใช่ / ไม่ใช่จากโพลล่าสุดเช่นหากการเลือกตั้ง (อังกฤษทั่วไป) ถูกเรียกในวันพรุ่งนี้คุณจะพิจารณาลงคะแนนให้พรรคชาติอังกฤษหรือไม่ นักเรียนพวกเขาตัวอย่าง 10 ความคิดเห็นเหล่านี้

ในตอนท้ายเราได้แสดงให้เห็นถึงรูปแบบการสุ่มตัวอย่างทฤษฎีขีด จำกัด กลาง ฯลฯ พร้อมทั้งข้อมูลต่อเนื่องและไบนารี


10

ปัญหา Monty Hall อย่างแน่นอน http://en.wikipedia.org/wiki/Monty_Hall_problem


1
+1 ปัญหานั้นทำให้สมองของฉันบิดเมื่อฉันอ่านและคิดเกี่ยวกับมันครั้งแรก - และวิธีการแก้ปัญหานั้นค่อนข้างง่าย แต่สอนความน่าจะเป็นมาก
Sharpie

1
ฉันพบว่าปัญหาของมอนตี้ฮอลล์เป็นอะไรก็ได้นอกจากคำอธิบายความน่าจะเป็นของคนธรรมดา ฉันเข้าใจมัน แต่ฉันยังคงมีปัญหาในการพันหัวของฉันรอบ ๆ ปล่อยให้อยู่คนเดียวเข้าใจมันดีพอที่จะอธิบายให้คนที่ไม่ใช่สถิติและให้พวกเขาเรียนรู้บางอย่างจากมัน ... อย่างไรก็ตามคุณไม่ได้ระบุว่าปัญหา เป็นแนวคิดที่ยากของคุณหรือคำอธิบายของคนธรรมดาของคุณ -1 จนกว่าคุณจะทำ
naught101

2
วิธีง่าย ๆ ในการอธิบายปัญหา Monty Hall คือการจินตนาการปัญหาเดียวกัน แต่มี 1,000 ประตู - 999 คนมีแพะอยู่ข้างหลังและมีเพียงหนึ่งในนั้นเท่านั้นที่มีรถอยู่ข้างหลัง สมมติว่าคุณเลือกประตูและโฮสต์เกมโชว์เปิดอีก 998 ประตูและถามคุณว่าคุณต้องการเปลี่ยนการตัดสินใจของคุณเป็นประตูหนึ่งที่เขาไม่ได้เปิดหรือไม่ เมื่อรู้ว่าเขาไม่สามารถเปิดประตูด้วยรถที่อยู่ข้างหลังคุณจะต้องสลับไปที่ประตูอื่น (หรือมั่นใจอย่างมั่นใจว่าคุณถูกต้องในการเลือกครั้งแรกของคุณ)
Berk U.

10

1) การสาธิตที่ดีเกี่ยวกับวิธีการกำหนดแบบ "สุ่ม" เพื่อกำหนดความน่าจะเป็นของเหตุการณ์บางอย่าง:

โอกาสที่เส้นสุ่มที่ลากผ่านวงกลมจะยาวกว่ารัศมีคืออะไร

คำถามทั้งหมดขึ้นอยู่กับว่าคุณวาดเส้นของคุณอย่างไร ความเป็นไปได้ที่คุณสามารถอธิบายได้ในทางที่เป็นจริงสำหรับวงกลมที่วาดบนพื้นอาจรวมถึง:

วาดจุดสุ่มสองจุดภายในวงกลมและวาดเส้นผ่านจุดเหล่านั้น (ดูว่าแมลงวัน / ก้อนหินสองลูกตกลงไปที่ใด)

เลือกจุดคงที่ในเส้นรอบวงจากนั้นสุ่มหนึ่งจุดในวงกลมและเข้าร่วม (ด้วยเหตุนี้การวางแท่งไม้ข้ามวงกลมที่มุมตัวแปรผ่านจุดที่กำหนดและการสุ่มหนึ่งจุดที่หินตกลงมา)

วาดเส้นผ่านศูนย์กลาง สุ่มเลือกจุดตามแนวนั้นและตั้งฉากผ่านนั้น (ม้วนไม้ไปตามแนวเส้นตรงเพื่อวางข้ามวงกลม)

มันค่อนข้างง่ายที่จะแสดงให้คนที่สามารถทำรูปทรงเรขาคณิตบางอย่าง (แต่ไม่จำเป็นต้องมีสถิติ) คำตอบสำหรับคำถามอาจแตกต่างกันมาก (จากประมาณ 2/3 ถึงประมาณ 0.866 หรือประมาณนั้น)

(1210)

3) อธิบายว่าทำไมการวินิจฉัยทางการแพทย์อาจดูเหมือนว่ามีข้อบกพร่องจริงๆ ทดสอบ foo โรคที่ถูกต้อง 99.9% ในการระบุผู้ที่มีมัน แต่. 1% false-positive วินิจฉัยผู้ที่ไม่ได้จริง ๆ มันอาจดูเหมือนจะผิดจริง ๆ บ่อย ๆ เมื่อความชุกของโรคต่ำจริง ๆ ( เช่น 1 ใน 1,000) แต่ผู้ป่วยจำนวนมากได้รับการทดสอบแล้ว

นี่คือสิ่งที่อธิบายได้ดีที่สุดด้วยจำนวนจริง - จินตนาการว่ามีผู้ทดสอบ 1 ล้านคนดังนั้น 1,000 คนมีโรค 999 คนถูกระบุอย่างถูกต้อง แต่ 0.1% ของ 999,000 คนคือ 999 คนที่บอกว่าพวกเขามี แต่ไม่มี ดังนั้นครึ่งหนึ่งที่ได้รับการบอกกล่าวว่าพวกเขาไม่ได้ทำจริงแม้จะมีระดับความแม่นยำสูง (99.9%) และผลบวกปลอมในระดับต่ำ (0.1%) การทดสอบครั้งที่สอง (แตกต่างกันในอุดมคติ) จะแยกกลุ่มเหล่านี้ออก

[อนึ่งฉันเลือกตัวเลขเพราะพวกมันใช้งานได้ง่ายแน่นอนว่าพวกเขาไม่ต้องเพิ่มมากถึง 100% เนื่องจากความแม่นยำ / อัตราบวกผิดพลาดเป็นปัจจัยอิสระในการทดสอบ]


2
ฉันคิดว่าตัวอย่างแรกของคุณหมายถึงบุคคลที่ผิดธรรมดาของเบอร์ทรันด์ ภาพประกอบที่ดีมากของวิธีต่างๆในการกำหนดพื้นที่ที่น่าจะเป็น!
chl

9

ข้อบกพร่องของหนังสือเฉลี่ยของ Sam Savage เต็มไปด้วยคำอธิบายของคนธรรมดาที่ดีเกี่ยวกับแนวคิดทางสถิติ โดยเฉพาะเขามีคำอธิบายที่ดีเกี่ยวกับความไม่เท่าเทียมของเจนเซ่น หากกราฟของผลตอบแทนจากการลงทุนของคุณนูนออกมานั่นคือ "ยิ้มให้คุณ" การสุ่มนั้นเป็นที่โปรดปราน: ผลตอบแทนเฉลี่ยของคุณมากกว่าผลตอบแทนโดยเฉลี่ย



6

Behar et al มีการรวบรวม 25 analogies สำหรับการสอนสถิติ นี่คือสองตัวอย่าง:

2.9 โมเดลทุกทฤษฎี: ไม่มีทรงกลมที่สมบูรณ์แบบในจักรวาลปรากฏว่ารูปทรงเรขาคณิตที่พบบ่อยที่สุดในจักรวาลคือทรงกลม แต่มีกี่ทรงกลมที่สมบูรณ์แบบทางคณิตศาสตร์ในจักรวาล? คำตอบคือไม่มี ไม่ว่าโลกหรือดวงอาทิตย์หรือลูกบิลเลียดก็เป็นทรงกลมที่สมบูรณ์แบบ ดังนั้นถ้าไม่มีทรงกลมที่แท้จริงสูตรใดที่ดีในการตรวจสอบพื้นที่หรือปริมาตรของทรงกลม ดังนั้นมันจึงเป็นแบบจำลองทางสถิติโดยทั่วไปและโดยเฉพาะกับการแจกแจงแบบปกติ แม้ว่าหนึ่งในตัวอย่างธรรมดาที่สุดคือการกระจายความสูงหากเรามีความสูงของผู้ใหญ่ทุกคนในโลก แต่ฮิสโตแกรมที่ผลิตไม่สอดคล้องกับเส้นโค้งแบบเกาส์แม้ว่าจะเป็นข้อมูลตามเพศก็ตาม การแข่งขันหรือลักษณะอื่น ๆ

2.25 ส่วนที่เหลือไม่ควรมีข้อมูล:ถุงขยะยังคงเป็นสิ่งที่เหลืออยู่หลังจากลบข้อมูลทั้งหมดออกจากข้อมูล เนื่องจากพวกเขาไม่ควรมีข้อมูลเราจึงถือว่าพวกเขาเป็น“ ถังขยะ” มีความจำเป็นเพื่อให้แน่ใจว่าเราจะไม่ทิ้งขยะที่มีค่า (ข้อมูล) และสามารถนำไปใช้เพื่ออธิบายพฤติกรรมของตัวแปรตาม

ตัวอย่างอื่น ๆ ได้แก่

  • "ผลของขนาดตัวอย่างต่อการเปรียบเทียบการรักษา: การขยายขอบเขตของกล้องส่องทางไกล"
  • "ขนาดตัวอย่างเมื่อเทียบกับขนาดของประชากร: ช้อนสำหรับชิมซุป"

อ้างอิง

  • Behar, R. , Grima, P. , & Marco-Almagro, L. (2012) ยี่สิบห้าอนาล็อกเพื่ออธิบายแนวคิดทางสถิติ นักสถิติชาวอเมริกัน (เพิ่งได้รับการยอมรับ)

3

คำถามสนุก

มีคนรู้ว่าฉันทำงานในชีวสถิติและพวกเขาถามฉัน (โดยทั่วไป) "สถิติไม่ใช่แค่การโกหกใช่มั้ย"

(ซึ่งนำการอ้างอิงของ Mark Twain กลับมาเกี่ยวกับ Lies, Damn Lies และสถิติ)

ฉันพยายามอธิบายว่าสถิติช่วยให้เราสามารถพูดได้อย่างแม่นยำ 100 เปอร์เซ็นต์จากการตั้งสมมติฐานและให้ข้อมูลว่าความน่าจะเป็นของสิ่งนั้นเป็นเช่นนั้น

เธอไม่ประทับใจ


1
"ช่วยให้เราสามารถพูดได้อย่างแม่นยำ 100% ว่าการขาดความแม่นยำของเราใหญ่แค่ไหน"
naught101

หากไม่ใช่การพิสูจน์โดยทันทีคำตอบของ @ Jeromy แสดงให้เห็นว่าทำไมความคิด "ความแม่นยำ 100%" ควรถูกยกเลิก
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.