เป็นตัวแทนของข้อมูลการทดลอง


9

ฉันมีข้อโต้แย้งกับที่ปรึกษาของฉันเกี่ยวกับการสร้างภาพข้อมูล เขาอ้างว่าเมื่อแสดงผลการทดลองค่าควรพล็อตด้วย " เครื่องหมาย " เท่านั้นตามที่แสดงในภาพร้อง ในขณะที่เส้นโค้งควรแสดง " แบบจำลอง " เท่านั้น

Markers.png

ในทางกลับกันฉันเชื่อว่าเส้นโค้งไม่จำเป็นในหลายกรณีเพื่อความสะดวกในการอ่านตามที่แสดงในภาพที่สองร้อง:

Lines.png

ฉันผิดหรืออาจารย์ของฉัน หากภายหลังเป็นกรณีฉันจะไปรอบ ๆ เพื่ออธิบายสิ่งนี้กับเขาได้อย่างไร


5
คะแนนเป็นข้อมูล เส้นโค้งที่คุณพอดีกับจุดไม่ใช่ข้อมูล ดังนั้นหากเจตนาของคุณคือการแสดงข้อมูล ....

3
อย่างที่เจฟฟ์พูด จะยิ่งชัดเจนมากขึ้น: เส้นโค้งที่คุณพล็อตที่มีรูปแบบเพราะคุณสันนิษฐานรูปร่างโดยเฉพาะอย่างยิ่งเมื่อวาดพวกเขาและคุณมีเหตุผลบางอย่างสำหรับรูปร่างนี้ เหตุผลนี้ขึ้นอยู่กับรุ่นเฉพาะ
gerrit

1
ฉันส่งคำขอย้ายข้อมูลแล้ว สิ่งนี้อยู่ใน crossvalidated ไม่ใช่ที่นี่

2
ฉันคิดว่ามันอาจจะมีในหัวข้อเกี่ยวกับ CrossValidated แต่เป็นที่แน่นอนยังอยู่ในหัวข้อที่นี่ การโยกย้ายควรได้รับการพิจารณาว่าเป็นเรื่องนอกหัวข้อที่นี่ (มีคำถามที่น่าจะเป็นหัวข้อสองไซต์ก็ไม่เป็นไร) เป็นคำถามจริงที่มีคำตอบที่ถูกต้องแน่นอนว่ามันเกี่ยวข้องกับนักวิชาการหลายคน

2
แผนภูมิที่สองของคุณน่าสงสัย หากคุณเข้าร่วมจุดขึ้นกับเส้นตรงคุณ (อาจ) มีการโต้แย้งเพื่อความชัดเจนของภาพ แต่เมื่อใช้เส้นโค้งคุณจะอ้างว่าจุดสูงสุดของเส้นสีน้ำเงินอยู่ที่ 740 °และเส้นสีม่วงต่ำสุดคือ 840 °แม้ว่าคุณจะไม่มีข้อมูลการทดลองที่อุณหภูมิเหล่านั้นก็ตาม แนะนำนาที / สูงสุดนอกข้อมูลที่วัดได้คือธงสีแดง
Darren Cook

คำตอบ:


10

ฉันชอบกฎของหัวแม่มือนี้:

หากคุณต้องการเส้นเพื่อนำทางดวงตา (เช่นแสดงแนวโน้มที่ไม่มีเส้นจะมองไม่เห็นอย่างชัดเจน) คุณไม่ควรใส่เส้น

มนุษย์ดีมากในการจดจำรูปแบบ (เราค่อนข้างจะมองเห็นแนวโน้มที่ไม่มีอยู่จริงนอกจากคิดถึงแนวโน้มที่มีอยู่แล้ว) หากเราไม่สามารถรับเทรนด์ที่ไม่มีเส้นได้เราค่อนข้างมั่นใจได้ว่าจะไม่มีเทรนด์ใดที่สามารถแสดงได้อย่างชัดเจนในชุดข้อมูล

เมื่อพูดถึงกราฟที่สองสิ่งเดียวที่บ่งบอกถึงความไม่แน่นอนของคะแนนการวัดของคุณคือสี่เหลี่ยมสีแดงสองอันของ C: O 1.2 ที่ 700 ° C การแพร่กระจายของทั้งสองหมายความว่าฉันจะไม่ยอมรับเช่น

  • มีแนวโน้มสำหรับ C: O 1.2
  • มีความแตกต่างระหว่าง 2.0 และ 3.6
  • และเพื่อให้แน่ใจว่าแบบจำลองโค้งกำลังดึงข้อมูลมากเกินไป

ไม่มีเหตุผลที่ดีมากให้ อย่างไรก็ตามนั่นจะเป็นรูปแบบอีกครั้ง


แก้ไข: ตอบความคิดเห็นของ Ivan:

ฉันเป็นนักเคมีและฉันบอกว่าไม่มีการวัดที่ไม่มีข้อผิดพลาด - สิ่งที่ยอมรับได้จะขึ้นอยู่กับการทดลองและเครื่องมือ

คำตอบนี้ไม่ได้ต่อต้านการแสดงข้อผิดพลาดการทดลอง แต่ทั้งหมดสำหรับการแสดงและนำมาพิจารณา

แนวคิดเบื้องหลังการใช้เหตุผลของฉันคือกราฟแสดงการวัดซ้ำหนึ่งครั้งดังนั้นเมื่อการอภิปรายคือความซับซ้อนของแบบจำลองที่เหมาะสม (เช่นเส้นแนวนอน, เส้นตรง, กำลังสอง, ... ) สิ่งนี้ทำให้เรามีความคิดในการวัด ความผิดพลาด ในกรณีของคุณนี่หมายความว่าคุณจะไม่สามารถใส่กำลังสองที่มีความหมาย (spline) แม้ว่าคุณจะมีแบบจำลองที่ยาก (เช่นสมการทางอุณหพลศาสตร์หรือการเคลื่อนไหว) แนะนำว่ามันควรเป็นกำลังสอง - คุณมีข้อมูลไม่เพียงพอ .

เพื่อแสดงสิ่งนี้:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

นี่คือเส้นตรงที่พอดีกับช่วงความมั่นใจ 95% สำหรับอัตราส่วน C: O แต่ละตัว:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

โมเดลเชิงเส้น

โปรดทราบว่าสำหรับอัตราส่วน C: O ที่สูงกว่าช่วงความเชื่อมั่นต่ำกว่า 0 ซึ่งหมายความว่าสมมติฐานโดยนัยของตัวแบบเชิงเส้นนั้นผิด อย่างไรก็ตามคุณสามารถสรุปได้ว่าโมเดลเชิงเส้นสำหรับเนื้อหา C: O ที่สูงกว่านั้นมีความเหมาะสมแล้ว

ดังนั้นการก้าวถอยหลังและการปรับค่าคงที่เท่านั้น (เช่นไม่มีการพึ่งพา T):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

ไม่มีการพึ่งพา T

ส่วนประกอบคือการไม่พึ่งพาโมเดล C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

ไม่ต้องพึ่งพา C: O

ยังคงช่วงความเชื่อมั่นจะครอบคลุมเส้นแนวนอนหรือแม้แต่น้อยไปหาน้อย

คุณสามารถลองต่อไปเช่นอนุญาตให้มีค่าออฟเซ็ตต่างกันสำหรับอัตราส่วน C: O สามตัว แต่ใช้ความลาดชันเท่ากัน

อย่างไรก็ตามการวัดเพิ่มเติมอีกเล็กน้อยจะช่วยปรับปรุงสถานการณ์ได้อย่างมากโปรดสังเกตว่าช่วงความเชื่อมั่นที่แคบลงสำหรับ C: O = 1: 1 คือที่ซึ่งคุณมีการวัด 4 รายการแทนที่จะเป็น 3 เพียงอย่างเดียว

สรุป: หากคุณเปรียบเทียบคะแนนของฉันซึ่งข้อสรุปที่ฉันไม่แน่ใจพวกเขากำลังอ่านวิธีมากเกินไปในบางจุดที่มี!


คุณทำคะแนนได้ดีมาก อย่างไรก็ตามในงานวิศวกรรมข้อผิดพลาดในการทดลอง (ความไม่แน่นอน) เป็นเรื่องธรรมดามากและสันนิษฐานว่าข้อผิดพลาดสัมพัทธ์ 3 ~ 5% เป็นที่ยอมรับ ฉันยังต้องแสดงผลลัพธ์ MAX, MIN และ AVG ดังนั้นในกรณีของฉันเครื่องหมายคือแขนขาและเส้นคือค่าเฉลี่ย
อีวานพี

ตัวอย่างที่ดีมากและเป็นประโยชน์อย่างยิ่ง (คุณทำให้ฉันสนใจ R) แน่นอนว่าสิ่งที่ถูกต้องคือการได้รับคะแนนข้อมูลมากขึ้น
Ivan P.

12

ในฐานะที่เป็น JeffE กล่าวว่าจุดที่มีข้อมูล โดยทั่วไปจะเป็นการดีหากหลีกเลี่ยงการเพิ่มส่วนโค้งให้มากที่สุด เหตุผลหนึ่งในการเพิ่มเส้นโค้งคือทำให้กราฟดูดีขึ้นโดยทำให้จุดและแนวโน้มระหว่างจุดอ่านง่ายขึ้น โดยเฉพาะอย่างยิ่งถ้าคุณมีจุดข้อมูลน้อย

อย่างไรก็ตามมีวิธีอื่นในการแสดงข้อมูลแบบเบาบางซึ่งอาจดีกว่าตัวกระจายแบบกระจาย ความเป็นไปได้อย่างหนึ่งคือแผนภูมิแท่งที่มีแท่งต่าง ๆ มองเห็นได้ชัดเจนกว่าจุดเดียวของคุณ รหัสสี (คล้ายกับที่คุณมีอยู่ในรูปภาพของคุณ) จะช่วยให้เห็นแนวโน้มในชุดข้อมูลแต่ละชุด (หรือชุดข้อมูลสามารถแบ่งและนำเสนอถัดจากแต่ละชุดในแผนภูมิแท่งขนาดเล็กกว่า)

สุดท้ายถ้าคุณต้องการเพิ่มบรรทัดระหว่างสัญลักษณ์ของคุณจริงๆมีสองกรณี:

  1. หากคุณคาดว่ารูปแบบบางอย่างจะถูกต้องสำหรับข้อมูลของคุณ (เชิงเส้น, ฮาร์มอนิก, อะไรก็ตาม) คุณควรใส่ข้อมูลของคุณลงบนแบบจำลองอธิบายแบบจำลองในข้อความและแสดงความคิดเห็นเกี่ยวกับข้อตกลงระหว่างข้อมูลและแบบจำลอง

  2. หากคุณไม่มีรูปแบบที่เหมาะสมสำหรับข้อมูลคุณไม่ควรรวมสมมติฐานเพิ่มเติมในกราฟของคุณ โดยเฉพาะอย่างยิ่งนี่หมายความว่าคุณไม่ควรรวมเส้นประเภทใด ๆ ระหว่างจุดของคุณยกเว้นเส้นที่แคบ ดี“เส้นโค้งพอดี” interpolationsว่า Excel (และซอฟต์แวร์อื่น ๆ ) สามารถวาดก็เป็นความเท็จ ไม่มีเหตุผลที่ถูกต้องสำหรับข้อมูลของคุณที่จะทำตามแบบจำลองทางคณิตศาสตร์นั้นดังนั้นคุณควรติดกับส่วนของเส้นตรง

    ยิ่งไปกว่านั้นในกรณีนี้คุณสามารถเพิ่มข้อความปฏิเสธความรับผิดชอบบางอย่างในคำบรรยายใต้ภาพเช่น "เส้นเป็นเพียงคำแนะนำสำหรับดวงตา"


2
นี่คือคำแนะนำที่ยอดเยี่ยมลบความคิดเห็นเกี่ยวกับบาร์ที่เหมาะสมกว่า สำหรับการอภิปรายที่คล้ายกันที่เกี่ยวข้องกับการที่เห็นว่ากราฟิกทางเลือกที่จะ“จับบาร์” แปลง ลองนึกภาพพล็อตที่แสดงโดย OP เป็นแผนภูมิแท่งแบบกลุ่มมันจะยากอย่างยิ่งที่จะเห็นแนวโน้มในช่วงอุณหภูมิ วิธีที่จะทำให้คะแนนที่มองเห็นได้ง่ายขึ้นคือการกระวนกระวายใจพวกเขาไปตามแนวแกน x และงานของคลีฟแลนด์จะแนะนำว่าเราควรจะชอบจุดที่บาร์อยู่ดี
Andy W

@ Andy W, คุณหมายถึงอะไรโดย "กระวนกระวายใจพวกเขาไปตามแกน x"?
อีวานพี

1
@IvanP. ฉันหมายถึงแทนที่จะทำให้จุดที่จับจ้องอยู่กับค่านั้นใน abscissa เพื่อย้ายไปทางขวาหรือซ้ายเล็กน้อยเพื่อให้คะแนนไม่ครอบคลุมซึ่งกันและกัน ควรชัดเจนจากส่วนที่เหลือของกราฟที่พวกเขาอ้างถึงค่าที่แน่นอนสำหรับกลุ่มในแกน x และกระวนกระวายใจเล็กน้อยจะไม่มีผลกระทบต่อการมองเห็นแนวโน้มระหว่างค่า
Andy W

6

1- อาจารย์ของคุณกำลังทำให้ประเด็นถูกต้อง

2-plot ของคุณไม่เพิ่มความสามารถในการอ่านได้อย่างแน่นอน

3- จากความเข้าใจของฉันนี่ไม่ใช่ฟอรัมที่เหมาะสมที่จะถามคำถามแบบนี้จริง ๆ และคุณควรถามคำถามนี้โดยผ่านการตรวจสอบความถูกต้อง


ฉันสนใจที่จะทราบว่าปัญหาในการอ่านคืออะไรและข้อเสนอแนะสำหรับการปรับปรุงใด ๆ ยินดีต้อนรับอย่างมาก
Ivan P.

1

บางครั้งการเข้าร่วมคะแนนทำให้รู้สึกโดยเฉพาะอย่างยิ่งถ้าพวกเขามีความหนาแน่นมาก

แล้วมันก็สมเหตุสมผลที่จะแก้ไข (เช่นมีเส้นโค้ง ) อย่างไรก็ตามถ้ามันเป็นอะไรที่สูงกว่า spline ของการสั่งซื้อหนึ่ง (ซึ่งเห็นได้ชัดว่ามันเป็นเพียงการเข้าร่วมจุด) คุณจะต้องพูดถึงมัน

อย่างไรก็ตามสำหรับกรณีของคะแนนไม่กี่หรือโหลคะแนนมันไม่ใช่กรณี เพียงแค่ปล่อยให้คะแนนตามที่พวกเขามีกับเครื่องหมาย หากคุณต้องการให้พอดีกับเส้น (หรือเส้นโค้งอื่น) มันเป็นรูปแบบ คุณสามารถเพิ่มได้ แต่ชัดเจน - เช่น "บรรทัดแสดงถึงการถดถอยเชิงเส้น"


0

ฉันคิดว่ามีหลายกรณีที่ไม่มีใครเสนอแบบจำลองที่ชัดเจน แต่ต้องการไกด์นำเที่ยว กฎของฉันคือการหลีกเลี่ยงเส้นโค้งเช่นโรคระบาดและยึดติดกับเส้นตรงเป็นเส้นตรงระหว่างจุดต่อเนื่องของอนุกรม

สำหรับข้อสมมติฐานนี้ชัดเจนยิ่งขึ้นสำหรับผู้อ่าน นอกจากนี้ความแหลมคมยังช่วยให้ผู้อ่านหลีกเลี่ยงแนวโน้มที่ไม่ได้รับการสนับสนุนจากข้อมูล หากทั้งหมดนี่จะเน้นเฉพาะเสียงและค่าผิดปกติเท่านั้น

สิ่งที่ฉันระวังคือคร่าวๆ (ใช้อย่างไม่เข้มงวดไม่ชัดเจน) ของ splines, quadratics, regression เป็นต้นบ่อยครั้งสิ่งนี้ทำให้ดูเหมือนว่ามีแนวโน้มที่ไม่มี ตัวอย่างที่ดีของการละเมิดคือเส้นโค้งที่วาดโดย @Ivan ด้วย 3 ดาต้าพอยน์ฉันไม่คิดว่า maxima หรือ minima ใด ๆ ในโมเดลพื้นฐานนั้นชัดเจน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.