คำศัพท์ทางสถิติที่สับสนที่สุด


47

เรานักสถิติใช้หลายคำในวิธีที่แตกต่างจากวิธีที่ทุกคนใช้ สิ่งนี้ทำให้เกิดปัญหามากมายเมื่อเราสอนหรืออธิบายสิ่งที่เรากำลังทำ ฉันจะเริ่มรายการ (และตอนนี้ฉันจะเพิ่มคำจำกัดความต่อความคิดเห็น):

  • กำลังคือความสามารถในการปฏิเสธสมมติฐานที่ผิดพลาดได้อย่างถูกต้อง โดยปกติจะหมายถึงการพูดว่า "มีอะไรเกิดขึ้น" อย่างถูกต้อง
  • อคติ - สถิติจะลำเอียงหากระบบแตกต่างจากพารามิเตอร์ประชากรที่เกี่ยวข้อง
  • นัยสำคัญ - ผลลัพธ์มีนัยสำคัญทางสถิติในบางเปอร์เซ็นต์ (มักจะ 5%) ในสถานการณ์ต่อไปนี้: หากประชากรที่กลุ่มตัวอย่างมาจากผลกระทบที่แท้จริงของ 0 สถิติอย่างน้อยที่สุดเท่าที่ได้มาจากตัวอย่างเท่านั้นที่จะเกิดขึ้น 5% ของเวลา
  • การโต้ตอบ - ตัวแปรอิสระสองตัวจะโต้ตอบกันหากความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระหนึ่งตัวนั้นแตกต่างกันในระดับต่าง ๆ ของตัวแปรอิสระ

แต่จะต้องมีอื่น ๆ อีกมากมาย!


5
ฉันอยากจะแนะนำให้ผู้คนเพิ่มบริบทมากขึ้นในคำตอบของพวกเขาเช่นกัน ตัวอย่างอาจเป็นคำเดียวกันที่ใช้แตกต่างกันไปในแต่ละสาขา (เอฟเฟกต์คงที่Gelman, 2005 ) หรือคำที่มีความหมายต่างกันในบริบทที่แตกต่างกัน (นัยสำคัญกับนัยสำคัญทางสถิติBushway และคณะ, 2006 )
Andy W

5
มันจะดีถ้าผู้ตอบสามารถอธิบายในหนึ่งหรือสองประโยคความหมายของคำว่า "ทางเทคนิค" จริง ๆ หรือสิ่งที่อาจทำให้มันถูกมองว่ามีความหมายแตกต่างกัน
chl

ฉันจะตอบคำถามของคุณตามความคิดเห็นของคุณในภายหลังใน ;-)
ocram

1
... และ "สหสัมพันธ์"!
Stéphane Laurent

1
สำหรับ "ตัวอย่าง" เห็นความคิดเห็นเพื่อstats.stackexchange.com/questions/20945/...
whuber

คำตอบ:


21

"สำคัญ" เป็นสิ่งที่ใหญ่ที่สุดที่ฉันพบเพราะมีทั้งความหมายการใช้ภาษาอังกฤษทั่วไปและความหมายนั้นจะครอบตัดในการอภิปรายผลการวิจัย ฉันยังพบว่าตัวเองกำลังผสมอยู่ใน "สำคัญ" เพื่อให้ความสำคัญในประโยคเดียวกันกับที่ฉันได้พูดคุยเกี่ยวกับผลลัพธ์ทางสถิติ

วิธีนั้นก็คือความบ้าคลั่ง


ใช่ แต่ไม่มีคำใดที่ดีไปกว่าสำหรับ "ฉันค่อนข้างแน่ใจว่ามันสำคัญ แต่ฉันยังไม่ได้ทำการทดสอบใด ๆ กับมันและจะไม่ทำเพราะมันชัดเจน / ไม่สามารถทำได้ / อะไรก็ตาม"
naught101

17

ฉันอยากจะแนะนำให้เพิ่ม Linear ลงในรายการ

ฉันถามคำถาม เกี่ยวกับ math.SE เกี่ยวกับสิ่งที่ฉันเป็นวิศวกรคิดว่าเป็น ขั้นต่ำเชิงเส้นเฉลี่ยหมายถึงการประมาณข้อผิดพลาดของตัวแปรสุ่ม ให้ค่าของตัวแปรสุ่ม (หมายถึงการประมาณ เป็นโดยและเพื่อลด ) และให้คำตอบบางส่วน หนึ่งในความคิดเห็นเกี่ยวกับคำถามที่กล่าวว่าX Y Y = X + E [ ( Y - X - ) 2 ]YXYY^=aX+babE[(YaXb)2]

"ฉันค่อนข้างอึดอัดกับภาษาของคุณเนื่องจากฉันกลัวว่าวิธีการใช้คำว่า" เชิงเส้น "นี้อาจป้อนเข้าสู่ความเข้าใจผิดที่เป็นที่นิยมว่าเหตุผลที่การถดถอยเชิงเส้นในการถดถอยเชิงเส้นที่เรียกว่าการถดถอยเชิงเส้นนั้นเป็นสิ่งที่เหมาะสม จากนั้นพบว่ามันทำให้เกิดความสับสนเมื่อนักสถิติยืนยันว่ามีใครกำลังถดถอยเชิงเส้นเมื่อใครเหมาะกับพาราโบลาหรือคลื่นไซน์ ฯลฯ "

ดังนั้นสิ่งที่ไม่ถดถอยเชิงเส้นหมายถึงสถิติ?


5
คำถามที่เกี่ยวข้องกับเว็บไซต์ที่เกี่ยวข้องกับคำตอบนี้, เส้นเชิงเส้นสำหรับการถดถอยเชิงเส้นคืออะไร?
Andy W

1
@AndyW คุณจะบอกว่า Linear อยู่ในรายการที่ Peter Flom เริ่มต้นหรือไม่?
Dilip Sarwate

1
ใช่ฉันเห็นด้วยมันเหมาะกับการเรียกเก็บเงินสำหรับรายการนี้ (+1)
Andy W

4
มันเหมาะกับรายการ แต่ด้วยเหตุผลที่ผิดปกติ: ความหมายของคำว่า "เส้นตรง" นั้นได้รับการยอมรับอย่างดีและมีการใช้อย่างต่อเนื่องในหลาย ๆ สาขาที่มุ่งเน้นทางคณิตศาสตร์ ความสับสนที่อาจเกิดขึ้นนั้นเป็นส่วนหนึ่งของสูตรเป็นเส้นตรง
whuber

คุณยกตัวอย่างว่าคุณพอดีพาราโบลาและยังเรียกมันว่าโมเดลเชิงเส้นได้หรือไม่?
oneloop

14

ความน่าจะเป็น

สำหรับฉันดูเหมือนว่าปัญหาส่วนใหญ่ที่เกี่ยวข้องกับการทดสอบสมมติฐานการตีความและช่วงความเชื่อมั่นนั้นเกิดจากการใช้คำจำกัดความของเบย์ในการ "ความน่าจะเป็น" เมื่อขั้นตอนนั้นขึ้นอยู่กับผู้ที่ใช้บ่อย ตัวอย่างเช่นค่า p เป็นค่าความน่าจะเป็นสมมติฐานว่างจะเป็นจริงเมื่อ AFAICS ไม่มีความน่าจะเป็นที่สามารถเชื่อมโยงกับความจริงของสมมติฐานเฉพาะในการตั้งค่าที่ใช้บ่อย


4
ดูเหมือนว่าจะมีการพิจารณาแบบเดียวกันสำหรับผู้ที่เคยพูดว่าพารามิเตอร์ (จริง) มีโอกาส 95% ที่โกหกระหว่าง xx และ xx เมื่อพูดถึง / ตีความช่วงความเชื่อมั่น
chl

1
ใช่อย่างแน่นอน!
Dikran Marsupial

1
+1 ฉันจะประโยคสุดท้ายของคุณแตกต่างกันเล็กน้อยอย่างไรก็ตาม ภายในการตั้งค่าที่บ่อยที่สุดความน่าจะเป็นที่สมมติฐานว่างเป็นจริงคือ 1 หรือ 0 แต่คุณไม่รู้ว่าอันไหน (การพูดอย่างเคร่งครัดนี่ไม่ถูกต้องนักเพราะ 'ความน่าจะเป็น' เป็นความถี่สัมพัทธ์ในระยะยาวและ 'ความถี่ในระยะยาว' ใช้ไม่ได้จริง ๆ อย่างไรก็ตามเมื่อใช้ถ้อยคำด้วยวิธีนี้ผู้คนสามารถเข้าใจสิ่งที่พูด / เราเข้าใจอย่างไร สถานการณ์ที่เราอยู่ตัวอย่างเช่นผู้คนตระหนักว่าคุณไม่สามารถใช้ค่าสมมุติฐาน p-value เนื่องจากความน่าจะเป็นที่สมมติฐานว่างเป็นจริง)
gung - Reinstate Monica

2
"เพราะ 'ความน่าจะเป็น' เป็นความถี่สัมพัทธ์ในระยะยาว" ผู้น่าจะเป็น probabilists จำนวนมากจะโต้แย้งอย่างรุนแรง
Dilip Sarwate

14

"ความมั่นใจ"

มันยากมากที่จะห้ามปรามนักสถิติที่ไม่ใช่ช่วงความมั่นใจของพวกเขาไม่ใช่ (โดยตรง) คำสั่งเกี่ยวกับความน่าเชื่อถือของค่าพารามิเตอร์ที่แตกต่างกัน

เพื่อให้เกิดความมั่นใจในความหมายทางเทคนิคของคำนั้นเราจำเป็นต้องจินตนาการชุดการทดลองซ้ำ ๆ กันแต่ละชุดคำนวณช่วงเวลาด้วยวิธีที่กำหนดไว้ล่วงหน้า เพื่อให้เป็นช่วงความมั่นใจ 95% 95% ของการใช้สูตรเหล่านี้จะดักจับพารามิเตอร์ที่น่าสนใจ

ab

(มีสถานการณ์ที่แน่นอนเมื่อทั้งสองแนวคิดเห็นพ้องกันไม่ว่าจะโดยประมาณหรือว่า แต่โดยทั่วไปแล้วพวกเขาทำไม่ได้และข้อตกลงเชิงตัวเลขไม่ได้ช่วยขจัดปัญหาการใช้คำศัพท์ทางเทคนิคในทางที่ผิด)


10

"Likelihood" - มันมีความหมายเหมือนกันกับ "ความน่าจะเป็น" ในการพูดทุกวัน แต่ในสถิติมันมีความหมายพิเศษ: มันเป็นฟังก์ชั่นของพารามิเตอร์ของแบบจำลองทางสถิติที่มีค่าความน่าจะเป็นของผลการสังเกต เท่ากับค่าพารามิเตอร์


8

ความผิดพลาด

ในสถิติข้อผิดพลาดคือการเบี่ยงเบนของค่าข้อมูลจริงจากการทำนายของตัวแบบ

ในชีวิตจริงข้อผิดพลาดคือการสะกดคำผิดหรือความผิดอื่น ๆ


การสะกดผิดไม่ใช่แค่ส่วนเบี่ยงเบนจากมูลค่าที่แท้จริงของสื่อการสื่อสารใช่หรือไม่ ฉันไม่เห็นจริง ๆ ว่าคำนี้เป็นคำที่แตกต่างกันเพียง แต่เป็นคำที่ใช้ในบริบทที่แตกต่างกัน (แต่ไม่ขัดแย้ง) ฉันพบว่ามันยากที่จะเชื่อว่ามันจะเป็นเรื่องที่สร้างความสับสนให้กับคนที่เพิ่งรู้จัก
naught101

2
เหตุผลหนึ่งที่ทำให้ค่าแตกต่างจากการทำนายก็คือผู้ทดลองได้ทำผิดพลาด นั่นเป็นเหมือนการสะกดผิด แต่ทำไมน้ำหนักของคุณถึงแตกต่างจากน้ำหนักเฉลี่ยของคนทุกเพศและอายุ? ทำไมรายได้ของคุณแตกต่างจากรายได้เฉลี่ย ในสถิติการเบี่ยงเบนจากค่าเฉลี่ยนี้เป็น "ข้อผิดพลาด" แต่ไม่ใช่ความผิดพลาดเพียงแค่การเปลี่ยนแปลง
Harvey Motulsky

จริง แต่ก็ขึ้นอยู่กับว่าคุณจะมองอย่างไรฉันคิดว่า ถ้าคุณดูการสะกดคำของตัวอย่างของโรงเรียนประถมคุณจะได้รับความผันแปรที่เกิดจากมนุษย์ใช่ แต่ไม่ใช่หรือเกิดจากผู้ทดลอง คุณสามารถมองสิ่งเดียวกันมากกว่าการเขียนเป็นภาษาอังกฤษในแต่ละวัย ฉันคิดว่าคุณจะพบว่าภาษาอังกฤษในช่วงต้นมีจำนวนมากสูงแปรปรวน :)
naught101

@HarveyMotulsky: เคมีวิเคราะห์ใช้ข้อผิดพลาดทั้งสองวิธี เราพูดถึงข้อผิดพลาดอย่างเป็นระบบข้อผิดพลาดแบบสุ่มและข้อผิดพลาดรวม ตำราเรียน: "ข้อผิดพลาดทั้งหมดสามารถหลีกเลี่ยงได้"
cbeleites รองรับโมนิก้า

8

"อนุมาน"

βb

อีกส่วนที่สำคัญเกี่ยวกับการอนุมานคือทฤษฎีบทขีด จำกัด กลาง เมื่อคุณตระหนักว่าคุณกำลังสุ่มตัวอย่างจากประชากร - แม้ว่าการสุ่มตัวอย่างเป็นคุณลักษณะที่ซับซ้อนอีกอย่างหนึ่งที่คล้ายกับการอนุมาน - คุณเข้าใจว่าแม้ว่าค่าเฉลี่ยตัวอย่างจะเก็บค่าหนึ่งค่านั้นค่านั้นไม่จำเป็นต้องเหมือนกับค่าเฉลี่ยในประชากร .

บางทีฉันอาจเข้าใจคำถามของคุณค่อนข้างหลวม แต่เมื่อมีคนเข้าใจข้อสรุปหรือความแตกต่างระหว่างกลุ่มตัวอย่างกับกลุ่มประชากรสถิติทั้งหมดจะเปิดให้พวกเขา


7

สำหรับเรา (หรืออย่างน้อยฉัน) "การสุ่ม" ของ "ตัวอย่าง" แสดงให้เห็นว่ามันเป็นตัวแทนของ "ประชากร"

สำหรับคนอื่นบางครั้ง "การสุ่ม" ก็หมายความว่าบุคคล / สิ่งนั้นผิดปกติ


1
ฉันไม่ได้พบกับความสับสนในเรื่อง "ความสุ่ม" แต่ถ้าคุณมีก็ชัดเจนว่ามันมีอยู่
Peter Flom - Reinstate Monica

3
แม่นยำยิ่งขึ้นว่ามันมีอยู่
โทมัสเลวี

1
การใช้งานหลังของ "สุ่ม" ดูเหมือนว่าเพิ่งจะเกิดขึ้นเร็ว ๆ นี้สำหรับฉัน ฉันคิดว่ามันน่ารำคาญนิดหน่อยด้วยเหตุผลนั้น (ทำให้สถิติยากขึ้นสำหรับคนที่จะเข้าใจ) มันน่ารำคาญมากขึ้นเมื่อฉันได้ยินว่าตัวเองใช้มันในแง่นั้น ..
naught101

5

ฉันคิดว่าควรแยกความแตกต่างระหว่างคำที่สร้างความสับสนให้กับสาธารณะและคำที่ทำให้นักสถิติสับสน คำแนะนำข้างต้นส่วนใหญ่เป็นคำที่เข้าใจกันดีโดยนักสถิติและ (อาจ) เข้าใจผิดโดยสาธารณะ ฉันต้องการเพิ่มคำศัพท์ที่นักสถิติเข้าใจ:

  • Bayesian: แต่เดิมเรียกว่าสิ่งที่เป็นที่รู้จักกันในขณะนี้ Bayes ส่วนตัว (aka epistemic, De-Finetti) ทุกวันนี้คำศัพท์จะถูกใช้เมื่อใดก็ตามที่กฎของเบย์ปรากฏขึ้นไม่ค่อยมีในบริบทของความเชื่อส่วนตัวซึ่งถือเป็นการตัดสินใจเชิงทฤษฎี
  • Empirical Bayes: แต่เดิมอ้างถึงเซ็ตอัพประจำที่ไม่มีพารามิเตอร์มาก่อน วันนี้โดยทั่วไปจะหมายถึงพารามิเตอร์ของพารามิเตอร์ (วัตถุประสงค์) ก่อนมีการประเมินและไม่เป็นที่รู้จักก่อน นั่นคือสิ่งที่ครั้งหนึ่งเคยเป็นที่รู้จักกันดีว่าโอกาสสูงสุดในการพิมพ์ครั้งที่สอง
  • ไม่ใช่พารามิเตอร์: บางครั้งหมายถึง "รุ่นฟรี" บางครั้งเพื่อ "แจกฟรี" ได้กลายเป็นจริง uninformative ในวัน "แบบจำลองพารามิเตอร์" อาจรวมถึงพารามิเตอร์นับล้าน
  • ข้อผิดพลาด Type III: บางครั้งอ้างถึงข้อผิดพลาดของสัญญาณ บางครั้งอ้างถึงการสะกดผิดของโมเดล

เมื่อฉันถามฉันตั้งใจ "ข้อตกลงที่ทำให้สับสนกับประชาชนทั่วไป" แต่ข้อตกลงที่สร้างความสับสนให้กับนักสถิติก็เป็นสิ่งที่ควรค่าแก่การลงรายการ
Peter Flom - Reinstate Monica

นี่อาจจะแยกเป็นคำตอบแยกต่างหาก
naught101

4

นิเวศวิทยาที่ใช้กันทั่วไปหมายถึงระบบชีวภาพ แต่ยังเป็นความเข้าใจผิดทางสถิติ จาก Wikipedia:

การเข้าใจผิดทางนิเวศวิทยา (หรือการอนุมานเชิงนิเวศวิทยาเชิงอนุมาน) เป็นข้อผิดพลาดในการตีความข้อมูลทางสถิติในการศึกษาทางนิเวศวิทยาโดยการอนุมานเกี่ยวกับธรรมชาติของแต่ละบุคคลนั้นขึ้นอยู่กับสถิติรวมที่รวบรวมสำหรับกลุ่มที่บุคคลเหล่านั้นเป็นเจ้าของ การเข้าใจผิดนี้ถือว่าสมาชิกแต่ละคนของกลุ่มมีลักษณะเฉลี่ยของกลุ่มโดยรวม


3

"แบบสำรวจ" เป็นคณิตศาสตร์ประเภทหนึ่ง ("การสุ่มตัวอย่างแบบสำรวจ") หรือกระดาษ ("แบบสอบถาม") หรือไม่

ฉันยังไม่ได้ทำการสำรวจเกี่ยวกับเรื่องนี้ แต่ฉันสงสัยว่าประชาชนส่วนใหญ่เห็นว่าเป็น "การสำรวจ" เพื่อเป็นแบบหลัง ฉันสงสัยเพิ่มเติมว่าพวกเขาไม่ได้คิดถึงอดีต


2
ไม่ได้ทำการสำรวจโดยนักสำรวจ ;)
zbicyclist

3

"การโหลด", "สัมประสิทธิ์" และ "น้ำหนัก"; เมื่อพูดถึงการวิเคราะห์องค์ประกอบหลัก

ฉันมักจะพบว่าผู้คนค่อนข้างใช้โฆษณาเมื่อใช้พวกเขาใช้แทนกันได้โดยไม่ได้กำหนดสิ่งที่พวกเขาหมายถึงอย่างชัดเจนและฉันเจอเอกสารที่อ้างถึง "การโหลดเวกเตอร์" และบางครั้งก็หมายถึงพีซีด้วยตัวเอง เกี่ยวข้องกับพีซีเฉพาะ

อาจเป็นความจริงที่ว่าการอ้างอิงที่ดีของ Jollifee เกี่ยวกับส่วนประกอบหลักในตอนท้ายของส่วน 1.1 "ผู้เขียนบางคนแยกแยะความแตกต่างระหว่างคำว่า 'การบรรทุก' และ 'สัมประสิทธิ์' ขึ้นอยู่กับข้อ จำกัด ของการทำให้เป็นมาตรฐาน เพิ่งทำให้คนคิดว่าพวกเขามีการส่งผ่านฟรีเพื่อผสมและจับคู่คำศัพท์กับความชอบของพวกเขา ....


1

แบบจำลองการเติม ยังไม่แน่ใจจริงๆว่าสิ่งนี้หมายถึงอะไร ฉันคิดว่ามันหมายถึงโมเดลที่ไม่มีเงื่อนไขการโต้ตอบ แต่ฉันจะเจอบทความที่พวกเขาใช้มันเพื่ออ้างถึงสิ่งอื่นเช่นตัวแบบอิสระ


0

หนึ่งในคำศัพท์ที่ฉันพบว่าสับสนที่สุดคือ "เมทริกซ์ความสับสน" แน่นอนคำที่ใช้เองทำให้เกิดความสับสนไม่ใช่แนวคิด

ฉันพยายามติดตามประวัติของคำศัพท์และก็น่าสนใจเช่นกัน เมทริกซ์ความสับสนนั้นถูกคิดค้นขึ้นที่ 1904 โดย ( http://en.wikipedia.org/wiki/Karl_Pearson ) เขาใช้คำว่าhttp://en.wikipedia.org/wiki/Contingency_table มันปรากฏตัวที่คาร์ลเพียร์สัน FRS (2447) การมีส่วนร่วมทางคณิตศาสตร์กับทฤษฎีวิวัฒนาการ (PDF) Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

ในช่วงสงครามโลกครั้งที่ 2 ชั่วโมงต่อวัน: //en.wikipedia.org/wiki/Detection_theoryได้รับการพัฒนาขึ้นเพื่อตรวจสอบความสัมพันธ์ระหว่างสิ่งกระตุ้นและการตอบสนอง มีการใช้เมทริกซ์ความสับสนที่นั่น

เนื่องจากทฤษฎีการตรวจจับคำถูกใช้จิตวิทยา จากนั้นถึงระยะการเรียนรู้ของเครื่อง

ดูเหมือนว่าแม้ว่าแนวคิดจะถูกสร้างขึ้นในสถิติ แต่การยื่นฟ้องนั้นเกี่ยวข้องกับการเรียนรู้ของเครื่อง แต่มันก็มาถึงการเรียนรู้ของเครื่องหลังจากอ้อมในช่วงระยะเวลา 100 ปี

สำหรับการอ้างอิงบางส่วนเกี่ยวกับการใช้คำว่า: อะไรคือต้นกำเนิดของความสับสนของคำศัพท์?


-4

"สถิติ"

สำหรับคนทั่วไปแทนที่จะเป็น "ตอนนี้ฉันกำลังจะโกหกคุณและพูดในแบบที่คุณไม่เข้าใจ"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.