จำนวนตัวเลขสำคัญที่จะใส่ในตาราง?

มีกฎที่ก่อตั้งมาอย่างดีสำหรับจำนวนตัวเลขที่สำคัญในการเผยแพร่หรือไม่?

นี่คือตัวอย่าง / คำถามที่เฉพาะเจาะจง:

มีวิธีใดที่จะเชื่อมโยงจำนวนตัวเลขที่มีนัยสำคัญกับค่าสัมประสิทธิ์การแปรปรวนหรือไม่? ตัวอย่างเช่นหากค่าประมาณ 12.3 และค่า CV เท่ากับ 50% นั่นหมายความว่าข้อมูลที่แสดงด้วย '.3' เข้าใกล้ศูนย์หรือไม่
หากช่วงความมั่นใจมีช่วงของขนาดของคำสั่งพวกเขาควรจะยังคงมีตัวเลขที่มีนัยสำคัญเท่ากันเช่น:

12.3 (1.2, 123.4) กับ 12 (1.2, 120)
จำนวนตัวเลขที่มีนัยสำคัญในการประมาณการข้อผิดพลาดควรเท่ากันหรือน้อยกว่าจำนวนตัวเลขนัยสำคัญในค่าเฉลี่ยหรือไม่?

tables

หากคุณทำได้อย่าใช้ตาราง :) กราฟิกคือ IMO อ่านได้ง่ายกว่าตาราง (มักจะเป็นข้อยกเว้นที่ชัดเจนหากคุณไม่มีตัวเลขจำนวนมาก) วารสารและผู้ตรวจสอบของพวกเขาไม่เห็นด้วยเสมอไปน่าเสียดาย ....

— JMS

@ JMS จุดที่ดี แต่ตารางมีประโยชน์สำหรับการสรุปลักษณะรายละเอียดของหน่วยทางสถิติ (จัดจำแนกตามปัจจัยที่น่าสนใจเช่นการวินิจฉัยทางคลินิกหรืออะไรก็ตาม) พร้อมตัวแปรประเภทต่าง ๆ (ต่อเนื่องชื่อและลำดับ) และผลลัพธ์อื่น ๆ ที่ได้รับ จากการสร้างแบบจำลองทางสถิติต่อ se (เมทริกซ์ความสับสน, coef ถดถอย ฯลฯ ) ที่จะไม่พอดีกับตัวเลข (หรือไม่เสมอไปถ้าคุณคิดว่าวิธีของ Gelman สำหรับการแสดง reg. coef. เป็น dotcharts เราต้องการทั้งคู่ คำถามคือเมื่อไหร่ที่เราต้องการรูปจริงแทนที่จะเป็นตาราง IMO

— chl

@chi Fair ฉันพูดเกือบตลอดเวลา :) สิ่งต่างๆเช่นตาราง n-way ขนาดใหญ่นั้นเป็นไปไม่ได้ที่จะทำซ้ำอย่างสมบูรณ์แบบกราฟิก ขึ้นอยู่กับฟอรัมที่ฉันพูด ตารางมีประโยชน์ในการทำให้เสร็จสมบูรณ์แน่นอน แต่ผู้อ่านของคุณดูดซับข้อมูลเพิ่มเติมทั้งหมดนั้นจริงหรือ หากมีพารามิเตอร์มากเกินไปที่จะใส่ลงในกราฟฉันก็ขอยืนยันว่าตารางมักจะอ่านยาก อย่างไรก็ตามฉันคิดว่าผลลัพธ์ที่สมบูรณ์ควรจะสามารถเข้าถึงได้ (ออนไลน์ภาคผนวกและอื่น ๆ ) หากไม่มีสิ่งอื่นนอกจากการทำซ้ำ ในกรณีนี้ฉันต้องการข้อมูล & รหัสด้วย! Wandered OT ขออภัย ..

— JMS

นอกจากนี้ฉันคิดว่าสัมประสิทธิ์การถดถอยและความสับสน (ความสัมพันธ์ความแปรปรวนร่วม, ... ) เมทริกซ์มักจะเหมาะกับการแสดงผลกราฟิก dotplots หรือคล้ายกันสำหรับอดีตและ heatmaps หรือกราฟสำหรับหลัง

— JMS

@ JMS ฉันเห็นด้วยกับจุดของคุณ แต่ในกรณีนี้มีขีด จำกัด ของรูปกรณีอื่น ๆ ที่มีการคิดค่าใช้จ่าย นอกจากนี้ในกรณีนี้หากผู้อ่านเหลียวมองตารางและมุ่งเน้นไปที่ตัวเลขที่แสดงพวกเขาจะไม่เสียเวลาในการพยายามหาจุดของรูปที่ลึกลับ แต่ฉันสนับสนุนการทำซ้ำอย่างเต็มที่และในขณะที่ฉันอยู่ที่นี่ฉันสามารถ (ถ้าฉันไปถึงมัน) เพิ่มการสร้างภาพข้อมูลของตารางลงในโค้ดที่แนบมา

— David LeBauer

คำตอบ:

ฉันสงสัยว่ามีกฎสากลดังนั้นฉันจะไม่ทำอะไรเลย ฉันสามารถแบ่งปันความคิดเหล่านี้และเหตุผลที่อยู่เบื้องหลัง:

เมื่อบทสรุปสะท้อนข้อมูลเอง - สูงสุด, นาที, สถิติการสั่งซื้อและอื่น ๆ - ใช้ตัวเลขนัยสำคัญที่ใช้ในการบันทึกข้อมูลจำนวนเท่ากัน สิ่งนี้ให้การแสดงที่สอดคล้องกันตลอดทั้งเอกสารที่เกี่ยวข้องกับความแม่นยำของข้อมูล
เมื่อสรุปมีความแม่นยำสูงกว่าข้อมูลให้เขียนค่าในแบบที่สะท้อนถึงความแม่นยำที่เพิ่มขึ้นนั้น ตัวอย่างเช่นค่าเฉลี่ยของค่ามีคูณความแม่นยำของค่าแต่ละค่า: ประมาณรวมหนึ่งตัวเลขที่สำคัญเป็นพิเศษสำหรับสองสำหรับเป็นต้น (นี่คือการปัดเศษในระดับ log-10 ชัด) $n$ $\sqrt{n}$ $3 \le n \le 30$ $30 \lt n \le 300$

- โปรดทราบว่า CV ไม่ได้ให้ข้อมูลที่เป็นประโยชน์ในเรื่องนี้

- สามารถประมาณการได้บางครั้งด้วยความแม่นยำสูง พวกเขาไม่จำเป็นต้องถูกปัดเศษเพื่อให้ตรงกับสิ่งอื่น ตัวอย่างเช่นค่าเฉลี่ยของ 1,000,000 จำนวนเต็มอาจเป็น 10.977 โดยมีข้อผิดพลาดมาตรฐานที่ 0.00301 การตัดสินใจของฉันในการเขียนค่าเฉลี่ยไปยังตำแหน่งทศนิยมสามตำแหน่ง (และมะเดื่อ 4-5 sig) ขึ้นอยู่กับลำดับความสำคัญของ SE ซึ่งบ่งชี้ว่าตัวเลขสุดท้ายมีความน่าเชื่อถือบางส่วน การตัดสินใจที่จะเขียน SE ถึงสามมะเดื่อซิกม่า (ทศนิยมห้าตำแหน่ง) นั้นเป็นเรื่องที่สุ่มมากกว่า: มะเดื่อซิกสองตัวจะทำงาน; หนึ่งอาจจะไม่; สี่มะเดื่อซิกก็จะทำงานและสอดคล้องกับ 4-5 มะเดื่อซิกในค่าเฉลี่ย; มากกว่าสี่มะเดื่อซิกจะ overkill (เราสามารถประมาณข้อผิดพลาดมาตรฐานของ SE ในแง่ของช่วงเวลาที่สี่ของข้อมูลและใช้เพื่อกำหนดจำนวนการปัดเศษที่เหมาะสม แต่พวกเราส่วนใหญ่ไม่ได้ไปที่ปัญหาดังกล่าว ... )
ส่งสัญญาณให้ผู้อ่านเมื่อคุณกำลังทำปัดเศษมาก โปรดใช้ความระมัดระวังโดยเฉพาะอย่างยิ่งเมื่อรายงานถกทดสอบทางสถิติตัวเอง เหตุผลก็คือผู้คนอาจใช้งานของคุณเพื่อตรวจสอบการคำนวณของพวกเขาเอง บางครั้งแม้แต่ความแตกต่างเล็กน้อยสามารถเปิดเผยข้อผิดพลาด คุณไม่ต้องการที่จะทำให้เกิดปัญหาเพราะคุณปัดเศษ 123 ถึง 120 และคนอื่นตรวจสอบงานรับ 123 และสงสัยว่าหนึ่งในคุณได้ผิดพลาด
ให้สอดคล้อง คุณอาจสูญเสียผู้อ่านบางส่วนหากคุณแสดงรายการค่าเป็น 123 ในจุดเดียวแล้วอ้างอิงเป็น 120
อย่าไร้สาระ (ฉันสงสัยว่าไม่มีความสามารถโดยอัตโนมัติเมื่อฉันพบรายงานที่ให้ผลลัพธ์ทางสถิติถึง 15 sig fig เมื่อข้อมูลมีเพียงสอง fig sig fig เป็นต้น)

— whuber
แหล่งที่มา

+1 ที่ยิ่งใหญ่ของฉันเพราะมันเป็นคำแนะนำที่ดีมากมาย ในหลอดเลือดดำเดียวกันฉันชอบที่จะแสดงให้นักเรียนเห็นว่ามันไม่มีประโยชน์จริงๆที่จะสรุปข้อมูลที่รวบรวมจากการสำรวจ (หรือโหวต) เป็น% โดยมีทศนิยมมากมายโดยไม่พิจารณาขนาดตัวอย่าง (ซึ่งส่งผลต่อข้อผิดพลาดมาตรฐาน)

— chl

ฉันแนะนำ 12 (1.2, 123.4) งด. 3 เนื่องจากมันเกือบจะไร้ความหมาย แต่หลายคนเมื่อพวกเขาเห็น (1.2, 120) จะสมมติว่า '0' สุดท้ายใน 120 มีความสำคัญ

— AVB
แหล่งที่มา

ทำไมคุณถึงแนะนำให้เว้นทศนิยมสำหรับสถิติที่น่าสนใจถ้าคุณตกลงที่จะแสดงมันใน CIs (เช่นถ้ามันไม่มีความหมายสำหรับ 12 ทำไมมันจึงสมเหตุสมผลสำหรับ 123.4)

— chl

@chl: มันไม่สมเหตุสมผล แต่การละเว้นมันอาจทำให้เข้าใจผิด ถ้าฉันใส่ 123.4 คนอย่างคุณจะเห็นตัวเลขพิเศษและไม่สนใจพวกมันไม่ทำอันตราย ถ้าฉันใส่ใน 120 ผู้อ่านหลายคนจะคิดว่านี่ถูกต้องถึง 3 หลัก - ไม่ดี

— AVB

ยังไม่ชัดเจนว่าทำไมคุณจึงแนะนำ 123.4 แทนที่จะเป็น 123 (เพราะเหตุใดละเว้น. 3 แต่ไม่เป็นเช่นนั้น. 4 ในตัวอย่าง?)

— David LeBauer