แนวคิดทางสถิติที่ยากที่สุดที่จะเข้าใจคืออะไร?


32

นี่เป็นคำถามที่คล้ายกับคำถามที่นี่แต่แตกต่างกันมากพอที่ฉันคิดว่าคุ้มค่าที่จะถาม

ฉันคิดว่าฉันจะเป็นผู้ริเริ่มสิ่งที่ฉันคิดว่าหนึ่งในสิ่งที่ยากที่สุดที่จะเข้าใจคือ

เหมืองแร่คือความแตกต่างระหว่างความน่าจะเป็นและความถี่ หนึ่งอยู่ที่ระดับของ "ความรู้เกี่ยวกับความเป็นจริง" (ความน่าจะเป็น) ในขณะที่อีกอันอยู่ที่ระดับ "ความเป็นจริงของตัวเอง" (ความถี่) สิ่งนี้ทำให้ฉันสับสนบ่อยครั้งถ้าฉันคิดมากเกินไป

Edwin Jaynes Coined คำที่เรียกว่า "การคิดผิดพลาดการคิด" เพื่ออธิบายสิ่งเหล่านี้ได้รับการผสมขึ้น

ความคิดใด ๆ เกี่ยวกับแนวคิดที่ยากอื่น ๆ ที่จะเข้าใจ?


(ฉันไม่รู้พอที่จะใส่คำตอบนี้ดังนั้นจึงเป็นการเพิ่มความคิดเห็น) ฉันคิดเสมอว่าเป็นเรื่องแปลกที่ PI จะเพิ่มขึ้นในสมการทางสถิติ ฉันหมายถึง - PI ทำอะไรกับสถิติ :)
Reinstate Monica - ลา SE

2
ฉันเห็นด้วย (ใน surprisal ของฉัน) - ฉันคิดว่าปรากฏขึ้นในการวิเคราะห์ทางคณิตศาสตร์จำนวนมาก เพียงทราบว่าคุณสามารถเขียนπโดยด้วยคำสั่งลาเท็กซ์ขณะที่\ piอยู่ภายในเครื่องหมาย $ ผมใช้หน้าวิกิพีเดียที่จะได้รับไวยากรณ์en.wikibooks.org/wiki/LaTeX/Mathematics เคล็ดลับก็คือ "คลิกขวา" ในสมการที่คุณเห็นในเว็บไซต์นี้และเลือก "แสดงแหล่งที่มา" เพื่อรับคำสั่งที่ใช้ ππ\ ปี่
ความน่าจะเป็นทางการที่

@ วิกิถ้าคุณยอมรับว่าเพิ่มขึ้นเมื่อคุณวัดความยาวของเส้นตรงที่ยาวไปจนถึงความยาวของวงกลมฉันไม่เห็นว่าทำไมมันถึงไม่ปรากฏในขณะที่วัดความน่าจะเป็นที่จะล้มลง ในส่วนของการวัดความน่าจะเป็นที่จะตกลงไปในวงกลม π
robin girard

@Wiki เมื่อใดก็ตามที่คุณมี funcions ตรีโกณมิติ (ไซน์โคไซน์แทนเจนต์ ฯลฯ ) คุณมีความเสี่ยงปรากฏขึ้น และจำไว้ว่าเมื่อใดก็ตามที่คุณได้รับฟังก์ชั่นคุณจะพบแทนเจนต์ได้ อะไรคือสิ่งที่น่าแปลกใจคือπไม่ปรากฏมากขึ้นมักจะ ππ
Carlos Accioly

@Carlos ฉันสงสัยว่าความชุกของนั้นส่วนใหญ่เกิดจากการใช้2 metric ซึ่งนำไปสู่ ​​n-spheres ในหลอดเลือดดำเดียวกันฉันคาดหวังว่ามันคือeซึ่งความชุกเกิดจากการวิเคราะห์ 2π2อี
sesqu

คำตอบ:


31

ด้วยเหตุผลบางอย่างผู้คนมีปัญหาในการเข้าใจว่าค่า p คืออะไร


3
@ shabbychef: คนส่วนใหญ่เข้าใจในวิธีที่แย่ที่สุดที่เป็นไปได้นั่นคือความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาด Type I
suncoolsu

2
ฉันคิดว่าส่วนใหญ่เกี่ยวข้องกับวิธีการอธิบายค่า p ในชั้นเรียน (เช่น: เพียงแค่ให้คำจำกัดความอย่างรวดเร็วและโดยไม่ระบุค่า p-not ที่ไม่ได้)
nico

ฉันคิดว่านี่เป็นเรื่องเกี่ยวกับวิธีการนำเสนอ สำหรับฉันมันเป็น "add-on" สำหรับการทดสอบสมมติฐานแบบดั้งเดิม - ดังนั้นจึงดูเหมือนว่ามันเป็นอีกวิธีหนึ่งในการทำแบบทดสอบสมมติฐาน อีกปัญหาคือมันมักจะสอนด้วยความเคารพต่อการแจกแจงปกติที่ทุกอย่าง "ใช้งานได้ดี" (เช่น p-value เป็นตัวชี้วัดในการทดสอบค่าเฉลี่ยปกติ) การหาค่า p-value ไม่ใช่เรื่องง่ายเนื่องจากไม่มีหลักการเฉพาะในการนำแนวทางทั่วไป (เช่นไม่มีข้อตกลงทั่วไปเกี่ยวกับวิธีที่ค่า p ควรแตกต่างกับขนาดตัวอย่าง & การเปรียบเทียบหลายรายการ)
ความน่าจะเป็นเชิง

@shabbychef +1 แม้ว่านักเรียนมักจะมีปัญหากับค่า p (ประมาณเพราะแนวคิดในการทดสอบเป็นบิตที่ลึกซึ้งยิ่งขึ้นกว่ากระบวนการตัดสินใจไบนารีและเป็นสาเหตุให้ "inverting ฟังก์ชั่น" ไม่ใช่เรื่องง่ายที่จะเข้าใจ) เมื่อคุณพูดว่า "ด้วยเหตุผลบางอย่าง" คุณหมายถึงมันไม่ชัดเจนสำหรับคุณว่าทำไมผู้คนถึงมีปัญหา? PS: ถ้าฉันทำได้ฉันจะพยายามสร้างสถิติในเว็บไซต์นี้เกี่ยวกับความสัมพันธ์ระหว่าง "เป็นคำตอบที่ดีที่สุด" และ "พูดถึง p-value" :) ฉันยังได้ถามตัวเองถ้าแนวคิดทางสถิติที่ยากที่สุดที่จะเข้าใจสามารถมี upvote มากที่สุด (ถ้ามันเป็นเรื่องยากที่จะเข้าใจ ... :))
โรบินกิราร์ด

1
@ eduardo - ใช่ p-value เพียงพอขนาดเล็กเพียงพอที่จะตั้งข้อสงสัยเกี่ยวกับสมมติฐานว่าง: แต่มันจะคำนวณในการแยกอย่างสมบูรณ์เพื่อเป็นทางเลือก ด้วยการใช้ค่า p เพียงอย่างเดียวคุณจะไม่สามารถ "ปฏิเสธ" อย่างเป็นทางการเพราะไม่มีการระบุตัวเลือกอื่น หากคุณปฏิเสธH 0อย่างเป็นทางการคุณจะต้องปฏิเสธการคำนวณซึ่งขึ้นอยู่กับสมมติฐานของH 0ว่าเป็นจริงซึ่งหมายความว่าคุณต้องปฏิเสธการคำนวณค่า p ที่ได้มาภายใต้สมมติฐานนี้ (มันยุ่งกับหัวของคุณ แต่เป็นวิธีเดียวที่จะให้เหตุผลอย่างสม่ำเสมอ ) H0H0H0
ความน่าจะเป็นทาง

23

คล้ายกับคำตอบของ shabbychef มันเป็นเรื่องยากที่จะเข้าใจความหมายของช่วงความมั่นใจในสถิติบ่อยครั้ง ฉันคิดว่าอุปสรรคที่ใหญ่ที่สุดคือช่วงความมั่นใจไม่ตอบคำถามที่เราอยากตอบ เราอยากรู้ว่า "อะไรคือโอกาสที่มูลค่าที่แท้จริงอยู่ภายในช่วงเวลานี้โดยเฉพาะ" แต่เราสามารถตอบได้ว่า "โอกาสที่ช่วงเวลาที่เลือกแบบสุ่มที่สร้างขึ้นด้วยวิธีนี้มีพารามิเตอร์ที่แท้จริงคืออะไร" เห็นได้ชัดว่ามีความพึงพอใจน้อยกว่า


1
ยิ่งฉันคิดถึงช่วงเวลาของความมั่นใจมากเท่าไรฉันก็ยิ่งยากที่จะคิดว่าพวกเขาสามารถตอบคำถามในระดับแนวความคิดที่ไม่สามารถตอบได้ด้วยการถามว่า "โอกาสที่คุณค่าที่แท้จริงจะอยู่ภายในช่วงเวลา ความรู้" ถ้าฉันถามว่า "โอกาส (เงื่อนไขของข้อมูลของฉัน) คืออะไรรายได้เฉลี่ยในปี 2553 อยู่ระหว่าง 10,000 ถึง 50,000? ฉันไม่คิดว่าทฤษฎีของช่วงความมั่นใจสามารถให้คำตอบสำหรับคำถามนี้
ความน่าจะเป็นทาง

21

"องศาอิสระ" ความหมายคืออะไร? แล้ว df ที่ไม่ใช่จำนวนเต็มล่ะ?


13

ความน่าจะเป็นแบบมีเงื่อนไขอาจนำไปสู่ข้อผิดพลาดส่วนใหญ่ในประสบการณ์ประจำวัน แน่นอนว่าจะมีแนวความคิดที่ยากขึ้นมากมาย แต่คนมักจะไม่ต้องกังวลเกี่ยวกับพวกเขา - สิ่งนี้พวกเขาไม่สามารถหลีกหนีจาก & เป็นแหล่งที่มาของความเข้าใจผิดที่อาละวาด


+1; คุณสามารถเพิ่มตัวอย่างหนึ่งหรือสองรายการโปรดหรือปัจจุบัน
เดนิส

1
สำหรับผู้เริ่ม: P (คุณมีโรค | ทดสอบเป็นบวก)! = P (ทดสอบเป็นบวก | คุณมีโรค)
xmjx

9

ฉันคิดว่านักวิทยาศาสตร์น้อยมากเข้าใจจุดพื้นฐานนี้: มันเป็นไปได้เท่านั้นที่จะตีความผลลัพธ์ของการวิเคราะห์ทางสถิติที่มูลค่าถ้าทุกขั้นตอนมีการวางแผนล่วงหน้า โดยเฉพาะ:

  • ต้องเลือกขนาดตัวอย่างล่วงหน้า ไม่สามารถทำการวิเคราะห์ข้อมูลได้เมื่อมีการเพิ่มหัวเรื่องเพิ่มขึ้นหยุดเมื่อผลลัพธ์ดูดี
  • วิธีการใด ๆ ที่ใช้ในการทำให้ข้อมูลเป็นมาตรฐานหรือไม่รวมค่าผิดปกติจะต้องได้รับการพิจารณาล่วงหน้า ไม่สามารถวิเคราะห์ชุดย่อยของข้อมูลต่าง ๆ จนกว่าคุณจะพบผลลัพธ์ที่คุณต้องการ
  • และในที่สุดแน่นอนต้องใช้วิธีการทางสถิติล่วงหน้า ไม่สามารถวิเคราะห์ข้อมูลด้วยวิธีพารามิเตอร์และไม่ใช่พารามิเตอร์และเลือกผลลัพธ์ที่คุณต้องการ

วิธีการสำรวจจะเป็นประโยชน์ในการสำรวจสำรวจ แต่คุณจะไม่สามารถหมุนและเรียกใช้การทดสอบทางสถิติทั่วไปและตีความผลลัพธ์ด้วยวิธีปกติ


5
ฉันคิดว่า John Tukey อาจไม่เห็นด้วยen.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial

3
ฉันไม่เห็นด้วยที่นี่บางส่วน ฉันคิดว่าข้อแม้ที่คนพลาดคือการดำเนินการปรับสภาพที่เหมาะสมนั้นง่ายต่อการเพิกเฉยต่อปัญหาประเภทนี้ แต่ละการดำเนินการเหล่านี้เปลี่ยนเงื่อนไขของการอนุมานและด้วยเหตุนี้พวกเขาเปลี่ยนเงื่อนไขของการบังคับใช้มัน (และดังนั้นจึงเป็นเรื่องทั่วไป) สิ่งเหล่านี้ใช้ได้เฉพาะกับ "การวิเคราะห์เชิงยืนยัน" ซึ่งมีการสร้างแบบจำลองและคำถามที่ชัดเจน ในขั้นตอนการสำรวจไม่ใช่มองหาเพื่อตอบคำถามที่ชัดเจน - มองหาวิธีสร้างแบบจำลองและตั้งสมมติฐานสำหรับข้อมูล
ความน่าจะเป็นทางการที่

ฉันแก้ไขคำตอบของฉันเล็กน้อยเพื่อให้คำนึงถึงความคิดเห็นของ Dikran และความน่าจะเป็นที่เป็นไปได้ ขอบคุณ
Harvey Motulsky

1
สำหรับฉัน "การยกเว้นค่าผิดปกติ" นั้นไม่ผิดอย่างชัดเจนเท่าที่คำตอบของคุณหมายถึง ตัวอย่างเช่นคุณอาจสนใจในความสัมพันธ์ในช่วงของการตอบสนองเท่านั้นและการยกเว้นค่าผิดปกติช่วยการวิเคราะห์ประเภทนี้ได้จริง ตัวอย่างเช่นหากคุณต้องการสร้างแบบจำลองรายได้ "ชนชั้นกลาง" การไม่รวมค่าผิดปกติขั้นสูงและยากจนเป็นความคิดที่ดี มันเป็นเพียงค่าผิดปกติภายในกรอบการอนุมานของคุณ (เช่นการสังเกตชนชั้นกลาง "แปลก") ที่ความคิดเห็นของคุณถูกนำไปใช้
ความน่าจะเป็นทาง

2
ในที่สุดปัญหาที่แท้จริงของปัญหาที่เกิดขึ้นในคำตอบเริ่มต้นก็คือพวกเขา (อย่างน้อยบางส่วน) ค่า p ทำให้เป็นโมฆะ หากคุณสนใจที่จะวัดผลกระทบที่สังเกตได้เราควรจะสามารถดำเนินการใด ๆ ข้างต้นได้โดยไม่ต้องรับโทษ
russellpierce

9

ลิ้นอย่างแน่นหนา: สำหรับผู้ใช้บ่อยแนวคิดของความเป็นไปได้ของเบย์ สำหรับ Bayesians แนวคิดของความน่าจะเป็นประจำ ; o)

ทั้งสองมีข้อดี แต่ก็เป็นเรื่องยากมากที่จะเข้าใจว่าทำไมกรอบหนึ่งจึงน่าสนใจ / มีประโยชน์ / ถูกต้องถ้าคุณเข้าใจในอีกกรอบหนึ่ง การตรวจสอบข้ามเป็นวิธีแก้ที่ดีเพราะการถามคำถามและการฟังคำตอบเป็นวิธีที่ดีในการเรียนรู้


2
ฉันกฎฉันใช้เพื่อจำ: ใช้ความน่าจะเป็นในการทำนายความถี่ เมื่อสังเกตความถี่แล้วให้ใช้เพื่อประเมินความน่าจะเป็นที่คุณได้รับมอบหมาย สิ่งที่น่าสับสนคือความน่าจะเป็นที่คุณกำหนดมักจะมีค่าเท่ากับความถี่ที่คุณสังเกตเห็น สิ่งหนึ่งที่ฉันพบว่าแปลก ๆ อยู่บ่อย ๆว่าทำไมผู้ใช้บ่อยถึงใช้ความน่าจะเป็นของคำ มันจะไม่ทำให้แนวคิดของพวกเขาเข้าใจง่ายขึ้นหรือไม่หากใช้วลี "ความถี่ของเหตุการณ์" แทน "ความน่าจะเป็นของเหตุการณ์"
ความน่าจะเป็นทางการที่

ที่น่าสนใจคือการตรวจสอบความถูกต้องไขว้สามารถถูกมองว่าเป็นการประมาณค่ามอนติคาร์โลกับฟังก์ชันการสูญเสียในทฤษฎีการตัดสินใจ คุณมีอินทิกรัลพี(x)L(xn,x)dxΣผม=1ผม=nL(x[n-ผม],xผม)xnx[n-ผม]xผม

8

จากประสบการณ์ส่วนตัวของฉันแนวคิดของความน่าจะเป็นยังทำให้เกิดความปั่นป่วนมากโดยเฉพาะอย่างยิ่งสำหรับผู้ที่ไม่ใช่นักสถิติ อย่างที่วิกิพีเดียบอกว่ามันมักจะสับสนกับแนวคิดของความน่าจะเป็นซึ่งไม่ถูกต้องอย่างแน่นอน



6

การแจกแจงที่แตกต่างกันนั้นหมายถึงอะไรจริง ๆ นอกเหนือจากการใช้


3
นี่คือคำถามที่ฉันพบว่าทำให้เสียสมาธิมากที่สุดหลังจากสถิติ 101 ฉันจะพบกับการแจกแจงจำนวนมากโดยไม่มีแรงจูงใจสำหรับพวกเขานอกเหนือจาก "คุณสมบัติ" ที่เกี่ยวข้องกับหัวข้อที่อยู่ในมือ มันใช้เวลานานอย่างไม่อาจยอมรับได้ในการค้นหาว่ามีตัวแทนอะไร
sesqu

1
"ความคิด" เอนโทรปีสูงสุดคือวิธีหนึ่งที่ช่วยให้เข้าใจว่าการกระจายคือสถานะของความรู้ (หรือคำอธิบายของความไม่แน่นอนเกี่ยวกับบางสิ่ง) นี่เป็นคำจำกัดความเดียวที่ทำให้ฉันเข้าใจได้ในทุกสถานการณ์
ความน่าจะเป็นทาง

Ben Bolker ให้ภาพรวมที่ดีของสิ่งนี้ในส่วน 'สัตว์ร้ายแห่งการกระจาย' ของแบบจำลองเชิงนิเวศน์และข้อมูลใน R
David LeBauer

5

ฉันคิดว่าคำถามสามารถตีความได้สองวิธีซึ่งจะให้คำตอบที่แตกต่างกันมาก:

1) สำหรับคนที่เรียนสถิติโดยเฉพาะอย่างยิ่งในระดับค่อนข้างสูงแนวคิดที่ยากที่สุดที่จะเข้าใจคืออะไร?

2) แนวคิดทางสถิติใดที่คนส่วนใหญ่เข้าใจผิด?

สำหรับ 1) ฉันไม่รู้คำตอบเลย มีบางอย่างจากทฤษฎีการวัดใช่ไหม บูรณาการบางประเภท? ฉันไม่รู้

สำหรับ 2) ค่า p, มือลง


ทฤษฎีการวัดไม่ได้เป็นสาขาของสถิติหรือยาก การรวมบางประเภทนั้นยาก แต่อีกครั้งนั่นไม่ใช่สถิติ
pyon

5

ช่วงความเชื่อมั่นในประเพณีที่ไม่ใช่เบย์นั้นเป็นเรื่องยาก


5

ฉันคิดว่าคนคิดถึงเรือในทุกสิ่งที่สวยมากเป็นครั้งแรก ฉันคิดว่าสิ่งที่นักเรียนส่วนใหญ่ไม่เข้าใจคือพวกเขามักจะประมาณค่าพารามิเตอร์ตามตัวอย่าง พวกเขาไม่ทราบความแตกต่างระหว่างสถิติตัวอย่างและพารามิเตอร์ประชากร หากคุณเอาชนะความคิดเหล่านี้ในหัวของพวกเขาสิ่งอื่น ๆ ควรทำตามได้ง่ายขึ้นเล็กน้อย ฉันแน่ใจว่านักเรียนส่วนใหญ่ไม่เข้าใจประเด็นสำคัญของ CLT เช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.