คำทั่วไปที่มีความหมายทางสถิติโดยเฉพาะ


12

ฉันไม่ใช่นักสถิติ แต่งานวิจัยของฉันเกี่ยวข้องกับสถิติ (การวิเคราะห์ข้อมูลการอ่านวรรณกรรม ฯลฯ ) ฉันได้รับการเตือนอีกครั้งจากความคิดเห็นเกี่ยวกับหนึ่งในคำถามของฉันที่โพสต์ที่นี่ว่ามีคำทั่วไปที่มีความหมายเฉพาะหรือความหมายเฉพาะสำหรับผู้ที่ฝึกฝนอย่างดีในด้านสถิติ

การมีรายการคำศัพท์ดังกล่าวและอาจเป็นวลีพร้อมความคิดเห็น


1
เสียงเหมือนผู้สมัครสำหรับชุมชนวิกิพีเดีย
Glen_b -Reinstate Monica

@Glen_b มันอาจกลายเป็นสิ่งที่มีขนาดใหญ่เป็นพิเศษเนื่องจากว่าแค่คำใด ๆ ในสถิติหรือคณิตศาสตร์จะมีคุณสมบัติ มีวิธีใดที่จะ จำกัด ขอบเขตของคำถามนี้อย่างมีความหมายหรือไม่
whuber

3
@ โฮเบอร์ใช่มีอันตรายที่มันกว้างเกินไป จะมีบางอย่างเช่น "ซึ่งสร้างความสับสน" พอเพียงเพื่อ จำกัด ขอบเขตหรือไม่
Glen_b -Reinstate Monica

ฉันคิดว่านักสถิติที่มีความสามารถนั้นมีความสามารถในการใช้ภาษาแม่ของตัวเองได้เป็นอย่างดีและจะต้องตระหนักดีว่าเมื่อใดที่พวกเขาใช้ศัพท์แสงซึ่งจำเป็นต้องอธิบายอย่างถูกต้องกับผู้ชมทั่วไป
Robert Jones

@Glen_b ฉันไม่แน่ใจ นี่เป็นสิ่งที่กว้างมากฉันแทบจะไม่สามารถเริ่มรายการคำที่ควรได้รับ: ความถูกต้องความลำเอียงการสอบเทียบการเลือกปฏิบัติอย่างต่อเนื่องการกระจายความเสี่ยงการเอาชีวิตรอดเอฟเฟ็กต์แบบจำลองการตอบสนอง bootstrap การปรับ , การประมาณค่า, ตัวแปร, บัญญัติ, ความสัมพันธ์, ทำนาย, การอนุมาน, การเซ็นเซอร์, ความเสี่ยง, ความสอดคล้อง, โลจิสติก, ขีด จำกัด , การรายงานข่าว, การทำให้สับสน, ความบังเอิญ, ความบังเอิญ, การลู่เข้าหากัน, การบรรจบกัน , อธิบาย [การเปลี่ยนแปลง], ปัจจัย, ความล้มเหลว, การเติมเต็ม, พอดี, ฟังก์ชั่น, ...
whuber

คำตอบ:


12

" สำคัญ " - นี่คือการใช้ภาษาทั่วไปของคำว่าหมายถึงบางสิ่งเช่น 'สำคัญ' หรือ 'มีความหมาย' ความหมายทางสถิติใกล้เคียงอย่างไม่เป็นทางการกับ "สามารถมองเห็นได้จากการเปลี่ยนแปลงแบบสุ่มเกี่ยวกับโมฆะ"; ไม่ได้หมายความว่าความแตกต่างนั้นใหญ่พอที่จะสำคัญ

นี่คือตัวอย่างบางส่วนที่ความแตกต่างนี้อาจเป็นสาเหตุของความสับสน: 1 2

" พารามิเตอร์ " - มักจะเกิดขึ้นโดยเฉพาะในการทดลองทางวิทยาศาสตร์ - คำว่า 'พารามิเตอร์' ถูกใช้ในลักษณะที่นักสถิติจะใช้คำว่า 'ตัวแปร' วิกิพีเดียกล่าวไว้ดังนี้:

พารามิเตอร์สถิติคือพารามิเตอร์ที่ทำดัชนีตระกูลของการแจกแจงความน่าจะเป็น มันสามารถถือได้ว่าเป็นลักษณะตัวเลขของประชากรหรือรูปแบบ

ตัวอย่างที่สิ่งนี้อาจมีปัญหา: 1 - สันนิษฐานว่าโพสต์ที่นำไปสู่คำถามนี้ (ฉันเห็นอีกไม่นานมานี้ แต่ไม่สามารถหาได้ในขณะนี้)


11

"ผิดพลาด" - ในสถิติมักหมายถึงการเบี่ยงเบนใด ๆ ระหว่างค่าที่สังเกตและคาดการณ์ ในชีวิตจริงมันหมายถึงความผิดพลาด


11

ฉันพบกระดาษอ้างอิงจากปี 2010 ที่ดูคำถามนี้

CM Anderson ศัพท์แสงที่ซ่อนอยู่: คำศัพท์ทุกวันที่มีความหมายเฉพาะสำหรับสถิติ ICOTS8 การประชุมนานาชาติเกี่ยวกับสถิติการสอนลูบลิยานาสโลวีเนียระหว่างวันที่ 11-17 กรกฎาคม 2553

กระดาษนี้ให้บริการออนไลน์ฟรีดังนั้นฉันจึงให้เฉพาะรายการบางส่วนของข้อกำหนดที่ผู้เขียนกล่าวถึง:

 confounding, control, factor, independent, random, uniform

10

ฉันเจอปัญหาในการใช้ "การปลอมแปลง" เหมือนใน "การปลอมแปลงสมมติฐาน" ในขณะที่คนอื่นคิดว่าฉันหมายถึง "การทำข้อมูล" นอกจากนี้ " ลำเอียง " ก็แทบจะเป็นไปไม่ได้ที่จะพูดถึงโดยไม่ทำให้เกิดความสับสน


6

"ปกติ" - ในการพูดทั่วไปหมายถึงปกติตามที่คาดหวังไม่ใช่จากสามัญ ในสถิติหากมีการแจกจ่ายตัวแปรโดยปกติมันหมายถึงการแจกแจงแบบเกาส์ ฉันไม่เชื่อว่าเป็นมาตรฐานในการใช้ประโยชน์จากคำว่า "ปกติ" เพื่อแยกความแตกต่างจากความหมายคำพูดทั่วไป

"normalization / standaridization" - ในสถิติเพื่อทำให้ค่าเฉลี่ยของตัวแปรหมายถึงการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน

"ค่าเบี่ยงเบนมาตรฐานกับข้อผิดพลาดมาตรฐาน" - ค่าเบี่ยงเบนมาตรฐานมักจะคำนวณโดยใช้ประชากรทั้งหมดในขณะที่ข้อผิดพลาดมาตรฐานจะถูกคำนวณโดยใช้ตัวอย่าง


1
ฉันสงสัยจริงๆว่า "ข้อผิดพลาดมาตรฐาน" เป็น "คำทั่วไป [แบบธรรมดาไม่ใช่ทางสถิติ]" ที่มีความหมายทางสถิติพิเศษแตกต่างจากการใช้คำอื่น ๆ (วลีจริง ๆ ) เหมือนกันสำหรับ "normalization" และ "เบี่ยงเบนมาตรฐาน"
whuber

อาจไม่ใช่ "การทำให้เป็นมาตรฐาน" แต่ "ปกติ" นั้นเป็นจุดที่ดีและก็จะเป็น "มาตรฐาน" ซึ่งใช้ในการอธิบายการทดสอบที่ตั้งใจจะสร้างมาตรฐานแห่งชาติ (เช่นในด้านการศึกษาเช่นในสหรัฐอเมริกาหลังจากที่ไม่มีลูกซ้าย เบื้องหลัง) ฉันยอมรับว่า "การเบี่ยงเบนมาตรฐาน" ไม่น่าจะทำให้เกิดความสับสนแม้ว่า "การเบี่ยงเบน" ด้วยตัวเองในการพูดจาทั่วไปอาจมีแนวโน้มที่จะนำความหมายเชิงลบ (โดยเฉพาะอย่างยิ่งเป็นคำพ้องสำหรับ "เบี่ยงเบน")
Nick Stauner

นี่เป็นอีกวิธีในการแยกความแตกต่างของ SD และ SEM ส่วนเบี่ยงเบนมาตรฐานคือการเปลี่ยนแปลงหรือกระจาย ข้อผิดพลาดมาตรฐานวัดปริมาณความแม่นยำของค่าที่คำนวณ
Harvey Motulsky

@ HarveyMotulsky ฉันคิดว่าวิธีที่ดีที่สุดคือคิดถึงดาวเคราะห์น้อย (รูปร่างผิดปกติ) จุดศูนย์กลางมวลของดาวเคราะห์น้อยคืออะไร? มันคือจุดที่มีระยะทางเท่ากันจากจุดอื่นทั้งหมด นั่นคือค่าเฉลี่ย ค่าเบี่ยงเบนมาตรฐานคืออะไร? มันคือระยะ "เฉลี่ย" ของแต่ละจุดจากจุดศูนย์กลางซึ่งเป็นการวัดขนาด SEM คืออะไร มันบอกคุณว่าคุณแน่ใจเกี่ยวกับตำแหน่งของศูนย์กลางของดาวเคราะห์น้อย
กระติกน้ำ

ฉันพบว่าข้อผิดพลาดมาตรฐานคือค่าเบี่ยงเบนมาตรฐานที่คำนวณโดยใช้ "ตัวอย่าง" เล็กน้อยโชคร้าย นั่นจะเป็นสแควร์รูทของความแปรปรวนตัวอย่างสำหรับฉันในขณะที่ข้อผิดพลาดมาตรฐานคือส่วนเบี่ยงเบนมาตรฐานของสถิติทดสอบ นอกจากนี้จากข้อกำหนดข้างต้นมีเพียง "ปกติ" เท่านั้นที่ดูเหมือนกัน แต่ฉันคิดว่านั่นเป็นเรื่องปกติ ...
หมายถึงความหมาย

2

"Parametric" กับ "Non-Parametric": หมวดหมู่ของการทดสอบที่ต้องการข้อมูล "ปกติ" หรือ "ไม่ปกติ" การทดสอบแบบพาราเมตริกนั้นต้องการการทดสอบแบบไม่มีพารามิเตอร์

การทดสอบทั่วไป: T-test (จับคู่), Mann-Whitney U, ANOVA, Anderson-Darling, ฯลฯ

ข้อกำหนดอื่น ๆ ได้แก่ "สำคัญ" นี่เป็นการวัดว่าข้อมูลบ่งชี้ว่าสมมติฐานของคุณถูกต้องหรือไม่ เมื่อคุณทดสอบสมมติฐานของคุณในระดับหนึ่งโอกาส (ปกติ 95%) "p-value" น้อยกว่า 0.05 จะบ่งบอกว่าคุณจะปฏิเสธ "สมมติฐานว่าง" ของคุณ (เช่นชุดข้อมูลไม่แตกต่างกัน) และยอมรับ " สมมติฐานทางเลือก "(เช่นชุดข้อมูลแตกต่างกัน)


2

สถิติที่เบ้บ่งบอกถึงความไม่สมดุลในการแจกแจง

ในภาษาทั่วไปและแม้แต่ในวิทยาศาสตร์ก็มักใช้การเบ้ (และมากขึ้นเรื่อย ๆ ) ในการหมายถึงสิ่งที่คนทางสถิติมักจะเรียกว่าลำเอียงใน "ผลลัพธ์สำหรับค่าเฉลี่ยความสูงนั้นเบ้โดยรวมถึงผู้เล่นบาสเกตบอลจำนวนมาก"


2

ประมาณการ - ในสถิติมันเป็นผลลัพธ์ของการคำนวณ ตัวอย่างเช่นค่าเฉลี่ยตัวอย่างคือค่าประมาณของค่าเฉลี่ยประชากรและช่วงความเชื่อมั่นของค่าเฉลี่ยคือค่าประมาณช่วงเวลาของค่าเฉลี่ยประชากร สิ่งเหล่านี้เป็นผลลัพธ์ของการคำนวณที่แน่นอน "การประมาณค่า" เป็นวิธีการทั่วไปที่แม่นยำในการพยายามอนุมานเกี่ยวกับประชากรจากข้อมูลในตัวอย่าง

ในการใช้งานทั่วไปการประมาณการคำหมายถึงการคาดเดาหรือลางสังหรณ์ที่มีข้อมูลหรือผลลัพธ์ของการคำนวณโดยประมาณ


2

θXL(θ|X)=Pr(X|θ)

ตัวแทน - มีความหมายบางครั้งขัดแย้งกันทั้งในชีวิตประจำวันและวิทยาศาสตร์ อ้างถึง Kruskal & Mosteller 1979a , 1979b , 1979Cและ1980 นักสถิติส่วนใหญ่ที่ฉันรู้จักจะพิจารณาตัวแทนตัวอย่างถ้ามีการสุ่มตัวอย่างด้วยความน่าจะเป็นที่รู้จัก คนธรรมดาส่วนใหญ่ที่ฉันรู้จักจะพิจารณาว่ามันเป็นตัวแทนถ้าการกระจายเล็กน้อยนั้นคล้ายกับประชากร


2
  • ตัวอย่าง : ในขณะที่สถิตินี้หมายถึงชุดของกรณีในสาขาวิชาอื่น ๆ อีกมากมายตัวอย่างเป็นหนึ่งในตัวอย่างทางกายภาพ แน่นอนขนาดของกลุ่มตัวอย่างนั้นยังคลุมเครือโดยอ้างถึงจำนวนผู้ป่วยในตัวอย่างทางสถิติหรือขนาดทางกายภาพ (มวลปริมาตร ... ) ของตัวอย่าง

  • ความไว : สำหรับการวินิจฉัยทางการแพทย์ส่วนของกรณีที่เป็นโรคที่ได้รับการยอมรับจากการทดสอบ ในการวิเคราะห์ทางเคมี: ความชันของเส้นโค้งการปรับเทียบ (ดูด้านล่าง)

  • ความจำเพาะ : ในการวินิจฉัยทางการแพทย์ส่วนของกรณีที่ไม่ใช่โรคนี้ได้รับการยอมรับอย่างถูกต้องจากการทดสอบ ในเคมีวิเคราะห์วิธีการเฉพาะถ้าไม่มีความไวต่อความรู้สึกข้าม

  • การสอบเทียบ : จริงแล้วมีการแสดงความหมายสองรายการสำหรับสถิติในบทความ Wiki แล้ว ในเคมีและฟิสิกส์ความหมายการถดถอยแบบย้อนกลับเป็นความหมายปกติ ความสับสนเกิดขึ้นแม้ว่า:

    • ใน Chemometrics (ไปข้างหน้า) รุ่นที่สอบเทียบสัญญาณวัดขึ้นอยู่กับความเข้มข้นของ :(c) ทำนายแล้วแก้เข้มข้น :(I) การสอบเทียบผกผันรุ่น(I) ดังนั้นรูปแบบไปข้างหน้าเห็นด้วยกับสาเหตุ (ความเข้มข้นของ analyte ทำให้เกิดสัญญาณไม่ใช่วิธีรอบอื่น ๆ ) แต่แบบจำลองผกผันทิศทางที่ใช้สำหรับการคาดการณ์ (ในทางปฏิบัติมันมักจะเป็นไปได้ที่จะบอกว่าข้อผิดพลาดในหรือข้อผิดพลาดในมีขนาดใหญ่กว่าอื่น ๆ และทิศทางการสร้างแบบจำลองที่เหมาะสมคือ / ควรเลือกจากที่)c ฉัน= f ( c ) c c = f - 1 ( I ) c = f ( I ) c IIcI=f(c)cc=f1(I)c=f(I)
      cI
    • ฉันเคยเห็นความน่าจะเป็นที่คาดการณ์ไว้มากกว่าความน่าจะเป็นจริงที่เรียกว่า "แผนการสอบเทียบ" (สถิติคน) ในการวิเคราะห์ทางเคมีพล็อตการสอบเทียบที่สอดคล้องกันจะถูกทำนายความน่าจะเป็นเหนือสัญญาณที่วัดได้ (โดยปกติจะเป็นหน่วยอื่น ๆ ) พล็อตที่คาดการณ์ตัวแปรตามจริงมากกว่ามักจะถูกเรียกว่าเส้นโค้งการกู้คืน
  • ชุดการตรวจสอบ : ที่นี่ฉันต้องการดึงความสนใจไปที่การใช้คำที่สับสนซึ่งฉันคิดว่าเกิดขึ้นแล้วในเขตข้อมูลที่เกี่ยวข้องกับสถิติที่แตกต่างกันถึงแม้ว่าฉันจะเปรียบเทียบกันอีกครั้ง ในบริบทของการตรวจสอบความถูกต้อง / ซ้อนหรือการเพิ่มประสิทธิภาพเทียบกับการตรวจสอบ / การทดสอบหนึ่งบรรทัดของคำศัพท์แยกการฝึกอบรม - การตรวจสอบ - การทดสอบและใช้ชุด "การตรวจสอบ" เพื่อเพิ่มประสิทธิภาพของพารามิเตอร์
    เช่นในองค์ประกอบของการเรียนรู้ทางสถิติ, หน้า 222 ในฉบับที่ 2 :

    ... แบ่งชุดข้อมูลออกเป็นสามส่วน: ชุดฝึกอบรมชุดตรวจสอบและชุดทดสอบ ชุดฝึกอบรมถูกใช้เพื่อให้พอดีกับรุ่น ชุดการตรวจสอบความถูกต้องใช้เพื่อประเมินข้อผิดพลาดในการทำนายสำหรับการเลือกแบบจำลอง ชุดทดสอบใช้สำหรับการประเมินข้อผิดพลาดการวางนัยทั่วไปของรุ่นที่เลือกขั้นสุดท้าย

    ในทางตรงกันข้ามเช่นในการตรวจสอบการวิเคราะห์ทางเคมีที่เป็นขั้นตอนที่แสดงให้เห็นว่ารูปแบบ (ที่จริงการประเมินผลของรุ่นสุดท้ายเป็นเพียงส่วนหนึ่งของการตรวจสอบของวิธีการวิเคราะห์) ทำงานได้ดีสำหรับการประยุกต์ใช้และมาตรการประสิทธิภาพการทำงานให้ดูเช่นจอห์น เคเทย์เลอร์: การตรวจสอบวิธีการวิเคราะห์เคมีวิเคราะห์ 1983 55 (6), 600A-608A หรือแนวทางโดยสถาบันเช่น FDA นี่จะเป็น "การทดสอบ" ในบรรทัดคำศัพท์อื่นซึ่ง "การตรวจสอบความถูกต้อง" นั้นใช้สำหรับการปรับให้เหมาะสมที่สุด
    ความแตกต่างที่สำคัญคือผลลัพธ์ "การตรวจสอบการเพิ่มประสิทธิภาพ" จะต้องใช้ในการเปลี่ยนแปลง (เลือก) โมเดลในขณะที่การเปลี่ยนแปลงในวิธีการตรวจสอบความถูกต้องที่ตรวจสอบแล้ว (รวมถึงโมเดลการวิเคราะห์ข้อมูล) หมายความว่าคุณต้องทำการตรวจสอบใหม่ (เช่นพิสูจน์ว่าวิธียังใช้งานได้ตามที่ควรจะเป็น)


หากคุณต้องพูดคุยกับนักเคมีการอ้างอิงศัพท์ทางเคมีวิเคราะห์ที่ดีคือDanzer: เคมีเชิงวิเคราะห์ - ความรู้พื้นฐานเชิงทฤษฎีและเชิงมาตรวิทยา, DOI 10.1007 / b103950

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.