จำนวนตัวเลขที่สำคัญที่จะรายงาน


12

มีวิธีการทางวิทยาศาสตร์มากขึ้นในการกำหนดจำนวนตัวเลขที่สำคัญในการรายงานค่าเฉลี่ยหรือช่วงความเชื่อมั่นในสถานการณ์ที่ค่อนข้างเป็นมาตรฐาน - เช่นชั้นปีแรกที่วิทยาลัย

ฉันได้เห็นจำนวนตัวเลขที่สำคัญที่จะใส่ในตาราง , ทำไมเราไม่ใช้เลขนัยสำคัญและจำนวนตัวเลขที่สำคัญในตารางพอดีไคแต่เหล่านี้ดูเหมือนจะไม่ใส่นิ้วของพวกเขาในการแก้ปัญหา

ในชั้นเรียนของฉันฉันพยายามอธิบายให้นักเรียนของฉันทราบว่าเป็นเรื่องเสียหมึกที่จะรายงานตัวเลข 15 หลักที่สำคัญเมื่อพวกเขามีข้อผิดพลาดมาตรฐานที่กว้างเช่นนี้ในผลลัพธ์ของพวกเขา - ความรู้สึกของฉันคือว่ามันควรจะถูกปัดเศษ0.25นี้ไม่ได้แตกต่างกันเกินไปจากสิ่งที่ถูกกล่าวโดยASTM - การรายงานผลการทดสอบหมายถึง E29 ที่พวกเขาบอกว่ามันควรอยู่ระหว่างและ0.50.25σ0.05σ0.5σ

แก้ไข:

เมื่อฉันมีชุดตัวเลขxด้านล่างฉันควรใช้ตัวเลขกี่หลักในการพิมพ์ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

คำถาม: อธิบายรายละเอียดอย่างแม่นยำว่าความแม่นยำคืออะไร (เมื่อมีเวกเตอร์ของจำนวนความแม่นยำสองเท่า) สำหรับค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานในสิ่งนี้และเขียนฟังก์ชันการสอน R ที่เรียบง่ายซึ่งจะพิมพ์ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน xสะท้อนให้เห็นในเวกเตอร์


ฉันไม่เข้าใจว่าทำไม "จำนวนตัวเลขสำคัญที่จะใส่ในตาราง" ไม่ได้ตอบคำถามของคุณอย่างเต็มที่: คำถามนั้นพลาดประเด็นอะไร
whuber

ฉันชอบคำตอบของคุณสำหรับคำถาม @whuber แต่ฉันต้องการรายละเอียดเพิ่มเติมเล็กน้อย
ฌอน

1
แต่รายละเอียดเกี่ยวกับอะไร ไม่ว่าในกรณีใด ๆ ดูเหมือนว่าคำถามของคุณจะซ้ำซ้อนกับคำถามนั้นและสิ่งที่คุณต้องการคือการเห็นการปรับปรุงคำตอบ ฉันถูกไหม? BTW หากคุณกำลังมองหาคำแนะนำเกี่ยวกับการสอนฉันอยากจะชี้ให้คุณเห็นตัวอย่าง (เฉพาะ) ที่ฉันโพสต์ที่gis.stackexchange.com/questions/8650เกี่ยวกับการรายงานพิกัดทางภูมิศาสตร์ ตัวเลขกับวัตถุที่มีขนาดผู้อ่านส่วนใหญ่จะเข้าใจได้ง่ายและใช้สัญชาตญาณ วิธีการที่คล้ายกันอาจทำงานได้ดีในแอปพลิเคชันอื่น
whuber

1
@ เมื่อไรคุณก็ถูกต้องและฉันชอบตัวอย่างนั้น ฉันคิดว่าฉันกำลังมองหารายละเอียดเพิ่มเติมเกี่ยวกับความแม่นยำที่เกี่ยวข้องกับส่วนเบี่ยงเบนมาตรฐาน เช่นใน R, x <- rnorm (30); หมายถึง (x); sd (x) # ที่นี่ชัดเจน sd คือประมาณ 1 แต่ใน R ค่าเฉลี่ยจะถูกพิมพ์ตามค่าเริ่มต้นด้วยความแม่นยำ 7 หลัก sd (x) / 30 ประมาณ 0.18 ขอบคุณ
ฌอน

ในR(รวมถึงซอฟต์แวร์เกือบทั้งหมด) การพิมพ์จะถูกควบคุมโดยค่าสากล (ดูoptions(digits=...)) ไม่ใช่การพิจารณาที่แม่นยำ
whuber

คำตอบ:


9

คำแนะนำเกี่ยวกับความไม่แน่นอนในการวัด (GUM) แนะนำให้รายงานความไม่แน่นอนด้วยตัวเลขไม่เกิน 2 หลักและรายงานผลลัพธ์ด้วยจำนวนตัวเลขที่มีนัยสำคัญที่จำเป็นเพื่อให้สอดคล้องกับความไม่แน่นอน ดูหัวข้อ 7.2.2 ด้านล่าง

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

รหัสต่อไปนี้เป็นความพยายามของฉันในการนำคำแนะนำนี้ไปใช้ใน R. Noe ซึ่ง R สามารถไม่ร่วมมือกับความพยายามที่จะรักษาค่าศูนย์ต่อท้ายในเอาท์พุทแม้ว่าจะมีความสำคัญก็ตาม

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)

เพื่อความสมบูรณ์: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodecahedron

@rhombidodecahedron ไม่ควรมีความไม่แน่นอนมีเพียงหนึ่งรูปอย่างมีนัยสำคัญที่นี่? 82 ± 3 (×10²)
jfs

@jfs คำแนะนำบอกว่าจะใช้สองตัวเลขที่สำคัญในความไม่แน่นอนใช่ไหม?
rhombidodecahedron

@rhombidodecahedron คำตอบบอกว่า"ไม่เกิน 2"เกณฑ์ใน GUM ไม่ชัดเจนสำหรับฉัน ตารางที่ 3 จากarxiv.org/pdf/1301.1034.pdfแนะนำ 1 หลักสำคัญในการรายงานการวัดน้อยกว่า 7
jfs

โค้ดตัวอย่างไม่เป็นไปตามกฎ GUM ที่แนะนำ ถ้าval = 8165.666และunc = 338.9741วัดควรจะรายงานว่าval = 8.17(34)*10^3(ไม่ได้val = 8170ด้วยunc = 340ตามที่กำหนด) เพื่อให้ชัดเจนว่าตัวเลขเพียงสองหลักของความไม่แน่นอนอย่างมีนัยสำคัญ
divenex

6

หากคุณแสดงช่วงความมั่นใจเช่นเดียวกับค่าของสถิติคุณจะไม่มีปัญหากับการให้ตัวเลขที่สำคัญมากเท่าที่คุณต้องการเช่นในกรณีนี้ตัวเลขสำคัญจำนวนมากไม่ได้มีความแม่นยำปลอมเมื่อช่วงความมั่นใจให้บ่งชี้ของความแม่นยำที่เกิดขึ้นจริงมีแนวโน้ม (ช่วงเวลาที่มีความน่าเชื่อถือจะดีกว่า) จากนั้นมันก็เป็นเรื่องของการทำให้โต๊ะดูเรียบร้อยกระชับและอ่านง่ายดังนั้นโดยพื้นฐานแล้วมันไม่น่าจะเป็นกฎง่ายๆที่เหมาะกับทุกโอกาส

ความสามารถในการทำซ้ำนั้นมีความสำคัญในการศึกษาทางวิทยาศาสตร์ดังนั้นควรมีความเป็นไปได้ที่จะทำซ้ำผลลัพธ์ไปยังตัวเลขใด ๆ การปัดเศษตัวเลขสำคัญจำนวนเล็กน้อยสามารถลดความมั่นใจในการจำลองแบบของการศึกษาเนื่องจากข้อผิดพลาดอาจถูกปกปิดโดยการปัดเศษของผลลัพธ์ดังนั้นจึงมีข้อเสียคือการปัดเศษในบางสถานการณ์

อีกเหตุผลที่ไม่ควรปัดเศษมากเกินไปคือการทำให้คนอื่นไม่สามารถเรียนต่อได้โดยไม่ต้องทำซ้ำ ตัวอย่างเช่นฉันอาจตีพิมพ์บทความที่เปรียบเทียบอัลกอริทึมการเรียนรู้ของเครื่องด้วยการทดสอบ Friedman ซึ่งขึ้นอยู่กับการจัดอันดับของอัลกอริทึมที่แตกต่างกันในชุดของชุดข้อมูลมาตรฐาน หากสถิติของตัวจําแนกส่วนบุคคลในชุดข้อมูลแต่ละชุดมีตัวเลขสําคัญจํานวนมากทั้งนี้ขึ้นอยู่กับข้อผิดพลาดมาตรฐานของพวกเขาสิ่งนี้จะสร้างความสัมพันธ์ที่ชัดเจนหลายอย่างในการจัดอันดับ ซึ่งหมายความว่า (i) ผู้อ่าน / ผู้ตรวจสอบบทความจะไม่สามารถทำซ้ำการทดสอบของฟรีดแมนจากผลที่ได้รับในกระดาษและ (ii) บุคคลอื่นจะไม่สามารถประเมินอัลกอริทึมของพวกเขาบนชุดข้อมูลมาตรฐานและใช้ฟรีดแมน ทดสอบเพื่อใส่ลงในบริบทของผลลัพธ์จากการศึกษาของฉัน


4

การตัดสินใจใด ๆ ไม่ว่าจะโดยทางตรงหรือทางใจจะขึ้นอยู่กับสิ่งที่คุณวัดอย่างมากและความแม่นยำในการวัดของคุณ หลังเป็นเพียงส่วนหนึ่งของการเปลี่ยนแปลงที่สังเกตและไม่ใช่เรื่องง่ายที่จะแยกแยะหรือค้นหาหลักฐานที่มีอยู่ ดังนั้นฉันสงสัยอย่างยิ่งว่าไม่มีวัตถุประสงค์การตัดสินใจที่สามารถนำไปใช้ได้ในระดับสากล คุณต้องใช้สมองและตัดสินใจอย่างดีที่สุดในแต่ละสถานการณ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.