สร้างกราฟตัวอย่างขนาดเล็ก


13

ฉันมีชุดข้อมูลขนาดเล็กจำนวน 14 ครั้งเพื่อให้งานเสร็จสมบูรณ์ อย่างไรก็ตามฉันมีปัญหาในการหากราฟที่เหมาะสมเพื่อใช้ในการทำกราฟข้อมูล หากตัวอย่างมีขนาดใหญ่กว่าฉันจะใช้พล็อตกล่องหรือฮิสโตแกรม แต่ไม่แน่ใจว่าควรใช้ในกรณีนี้เมื่อกลุ่มตัวอย่างมีขนาดเล็กหรือไม่

อัปเดต: เวลาคือ 5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.9,4.9,4.9,4.9,4.2


4
ไม่มีอะไรเต้นที่แสดงข้อมูลจริงที่คุณสนใจเป็นตัวอย่างที่เป็นรูปธรรมเพื่อกระตุ้นให้ผู้คนโพสต์โซลูชั่นที่แตกต่างกัน ล่วงหน้าฉันขอแนะนำจุดหรือ stripplots และแปลง quantile พร้อมกล่องที่ซ้อนทับ
Nick Cox

คำตอบ:


16

ฉันคิดว่าหลักการสำคัญที่นี่คือคุณสามารถและควรแสดงค่าของแต่ละบุคคลทั้งหมด แม้ว่ารายละเอียดจะไม่น่าสนใจหรือมีประโยชน์ แต่ก็ไม่มีเหตุผลที่จะไม่แสดงหรือบังคับให้ผู้อ่านถอดรหัส (พูด) ฮิสโตแกรมที่แท่งกราฟอาจแทนค่าเพียงหนึ่งหรือสองค่า

ฉันขอเสนอคอมโพสิตขนาดเล็กที่นี่ ด้านบนซ้ายคือพล็อตจุดหรือสตริป (อย่างน้อยยี่สิบชื่ออื่นถูกนำมาใช้สำหรับความคิดเดียวกัน) ที่แสดงในแนวนอนและด้านบนขวาของความคิดเดียวกันที่นำเสนอในแนวตั้ง อินสแตนซ์ของค่าเดียวกันถูกจับคู่โดยการซ้อน

ที่ด้านล่างเป็นพล็อตกล่องแบบควอนไทล์ในความหมายของ Parzen ซึ่งระดับสเกลโดยนัยคือความน่าจะเป็นที่สะสม (ตำแหน่งการวางแผนในศัพท์แสงทั่วไป) และกล่องมัธยฐานและควอไทล์แบบดั้งเดิมสามารถวาดได้ครึ่ง (ในหลักการ) ค่านั้นอยู่ในกล่องเช่นเคยโฆษณาเสมอและครึ่งหนึ่งของค่าภายนอก เส้นแนวนอนพิเศษที่นี่หมายถึงค่าเฉลี่ย บางคนเพิ่มหมายถึงการแปลงกล่องเป็นจุดพิเศษหรือสัญลักษณ์เครื่องหมาย; ฉันพบว่าสามารถขัดแย้งกับการแสดงข้อมูลด้วยตนเองและฉันชอบบรรทัดเพิ่มเติม หากบรรทัดสำหรับค่ามัธยฐานและบรรทัดสำหรับค่าเฉลี่ยนั้นดูเหมือนกันคุณจะต้องคิดว่าจะทำอย่างไร ค่าเฉลี่ยและค่ามัธยฐานมักจะแตกต่างกันอย่างเห็นได้ชัด

มันเป็นมาตรฐานที่ทำให้หน่วยการวัดชัดเจนบนกราฟ แต่ฉันไม่เห็นว่ามันคืออะไร

ป้อนคำอธิบายรูปภาพที่นี่

(ฉันตั้งใจผลักจุดพิเศษที่นี่ซึ่งเป็นกราฟที่อาจมีขนาดเล็กมาก แต่ยังให้ข้อมูลในทางปฏิบัติฉันจะไม่ทำให้พวกเขาค่อนข้างเล็กขนาดนี้)

แก้ไข:

การอ้างอิงไขว้ที่เพิ่มลงในแปลงกล่องแบบควอนไทล์ในวงกว้างในความหมายของ Parzen (มีการอ้างอิงเพิ่มเติมในวินาทีด้านล่าง; การใช้งานอื่น ๆ ของ

ฉันจะวัดความแตกต่างระหว่างข้อมูลที่ไม่ใช่พารามิเตอร์ด้วยศูนย์จำนวนมากได้อย่างไร

วิธีใช้ boxplots เพื่อค้นหาจุดที่ค่ามีแนวโน้มที่จะมาจากสภาพที่แตกต่างกันมากขึ้น?

วิธีการเห็นภาพตัวอย่างการทดสอบ t สองอย่างเป็นอิสระ?

ฉันจะได้รับการทดสอบใดที่ทำได้ดีกว่าโดยใช้การทดสอบ Mann-Whitney U

Shera, DM 1991. การใช้พล็อตควอไทล์เพื่อปรับปรุงการนำเสนอข้อมูล วิทยาศาสตร์คอมพิวเตอร์และสถิติ 23: 50-53

Militký, J. และ M. Meloun 2536. กราฟิคช่วยในการวิเคราะห์ข้อมูลเชิงสำรวจแบบ univariate Analytica Chimica Acta 277: 215-221

Meloun, M. และ J. Militký 2537. คอมพิวเตอร์ช่วยในการวิเคราะห์ข้อมูลเคมีบำบัด I. การวิเคราะห์เชิงสำรวจของข้อมูลที่ไม่เปลี่ยนแปลง เอกสารทางเคมี 48: 151-157

แก้ไข 2:

ประเด็นหลักของเธรดเหล่านี้ไม่เพียง แต่จะตอบคำถามในทันที แต่เพื่อสัมผัสกับคำถามที่คล้ายกันซึ่งอาจทำให้คนอื่นสนใจ

การออกแบบกราฟอื่น ๆ ในคำตอบอื่น ๆ ที่นี่แสดงตัวบ่งชี้ที่มีป้ายกำกับ agnostically 1 ... 14 ในกรณีที่ไม่มีรายละเอียดอื่น ๆ หากว่ามีการใช้ตัวระบุเหล่านี้และตัวระบุอื่น ๆ ในการตีความการออกแบบที่เรียบง่ายเพื่อแสดงให้พวกเขาเป็นแผนภูมิจุด (คลีฟแลนด์) ต่อไปนี้เป็นความเป็นไปได้สองอย่างที่เรียงตามตัวระบุ (ซ้าย) ตามตัวอักษรและเรียงลำดับค่า (ขวา) มีที่ว่างมากมายสำหรับป้ายกำกับที่ยาวขึ้นหากจำเป็น

ข้อดีของการออกแบบนี้เหนือแผนภูมิแท่งคือการตอบสนองหรือแกนผลลัพธ์อาจเริ่มต้นที่ค่าไม่เป็นศูนย์หากดูเหมือนว่าจะเป็นทางเลือกที่ดีกว่า

การหมุนแผนภูมิเพื่อให้แกนตอบสนองเป็นแนวตั้งอาจจินตนาการได้ง่ายเช่นกัน

ป้อนคำอธิบายรูปภาพที่นี่


(+1) บางครั้งฉันเห็นพล็อตจุดหรือสตริปโดยเฉพาะอย่างยิ่งหากวางแนวตั้งโดยมีจุด "เรียงซ้อน" ที่จัดตำแหน่งจากศูนย์กลางแทนที่จะจัดวางชิดซ้าย (กล่าวคือถ้ามีสามคะแนนซ้อนกัน จุดที่ยังไม่ได้บรรจุ) มันให้เส้นสมมาตรที่น่าพึงใจ แต่ฉันไม่แน่ใจว่ามันมีประโยชน์อย่างไร บางทีมันอาจทำให้ใส่กล่องได้ง่ายขึ้น สิ่งนี้มีชื่อแยกกันคุณรู้หรือไม่? และมีคำแนะนำใด ๆ เพื่อหลีกเลี่ยง / นำมาใช้หรือไม่
Silverfish

1
นอกจากนี้ยังมีโอกาสใดบ้างที่คุณจะให้การอ้างอิงสำหรับ Parzen หรือไม่? ฉันชอบแปลงเหล่านี้มาตลอด แต่ไม่เคยอ่านข้อมูลอ้างอิงที่ถูกต้องสำหรับพวกเขา
Silverfish

@Silverfish รูปแบบกึ่งกลาง (กึ่งกลาง) เป็นที่นิยมอย่างแน่นอนและมักจะกล่าวถึง ปัญหาเล็ก ๆ ดูเหมือนจะต้องการความสมมาตรตามที่คุณพูดถึงเมื่อเทียบกับการออกแบบให้มีลักษณะคล้ายกับฮิสโตแกรมซึ่งฉันมักชอบเล็กน้อย แต่มันเป็นเรื่องของรสนิยมและสถานการณ์ ฉันได้เพิ่มการอ้างอิงโยงและในทางกลับกันก็ยินดีต้อนรับผู้อื่น
Nick Cox

3

@Nick Cox ได้ให้ตัวอย่างที่ดีไปแล้วสองตัวเลือกอื่น ๆ ที่ฉันใช้บ่อยคือพล็อตกล่องที่มีคะแนนซ้อนทับหรือกระวนกระวายใจเล็กน้อย

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

ด้วยรหัส R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

แก้ไข: คุณสามารถใช้พล็อตไวโอลินได้หากต้องการ

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

ป้อนคำอธิบายรูปภาพที่นี่


1
ขอบคุณมากสำหรับคำตอบ ฉันลังเลที่จะใช้กล่องแปลงในการวิเคราะห์ของฉันเดิมเนื่องจากขนาดของตัวอย่าง แต่หลังจากดูหนังสือแบบข้อความต่าง ๆ ดูเหมือนว่าขนาดตัวอย่างของฉันก็เพียงพอแล้ว
Eamonn

1

คำถามของคุณทำให้ฉันนึกถึงเทคนิคที่อธิบายในโพสต์บล็อกนี้ มันเกี่ยวกับการสร้างภาพข้อมูลของเหตุการณ์ที่ไม่ต่อเนื่อง

เคล็ดลับหลักคือการพล็อต the time before an eventthe time after an event x

ข้อมูลของคุณมองเห็น [1]

นี่อาจเป็นเพราะบังเอิญ แต่ไปที่พื้นที่ตรงกลางด้านบนไม่มีข้อมูล ดังนั้นจึงมีโครงสร้างบางอย่างที่มองเห็นได้


รวดเร็วและสกปรกRรหัส

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

OP กล่าว 14 ครั้งแยกกัน ฉันอ่านว่านัยว่านี่ไม่ใช่ซีรีย์ หากเป็นซีรีส์ความคิดของคุณจะเกี่ยวข้องกันอย่างแน่นอน
Nick Cox

คุณอาจจะถูกต้อง อย่างไรก็ตามแม้ว่าจะไม่ใช่ซีรีย์กราฟจะแสดงการขึ้นต่อกันระหว่างเวลา เห็นได้ชัดว่าป้ายแกนนั้นผิด
Harald Thomson

2
มีเพียง OP เท่านั้นที่สามารถอธิบายได้อย่างชัดเจนว่าข้อมูลคืออะไร แต่ฉันไม่คิดว่ากราฟนี้จะชนะด้วยวิธีใดวิธีหนึ่ง หากข้อมูลแยกจากกันกราฟจะไม่มีความหมายเว้นแต่ว่ามีความหมายตามลำดับที่ให้ค่า
Nick Cox

fyi textรับอาร์กิวเมนต์ของเวกเตอร์ - text(x, y, 1:12)ควรใช้งานได้
MichaelChirico

1

ความคิดอื่นเนื่องจากคุณใช้เวลา

พล็อตสนามแข่ง - บาร์โค้ดที่มีพิกัดเชิงขั้ว - ให้เอฟเฟกต์แบบเดียวกันกับนาฬิกาจับเวลา:

ลู่วิ่ง

ในอุดมคติแล้วฉลากการสังเกตการณ์จะถูกวางทับบนแถบหรืออย่างน้อยอยู่ที่ปลายอีกด้าน ตอนนี้ผู้ดูมีความเครียดเป็นพิเศษในการติดตามว่าการสังเกตใดที่ (ขึ้น / ลง) เมื่อทำการเปรียบเทียบใด ๆ


2
ฉันต้องถือว่าสิ่งนี้เป็นเรื่องผิดปกติจริง ๆ แล้วเทคนิคเทคนิคกราฟ ดวงตามองไม่เห็นความยาวของส่วนโค้ง แต่เป็นบริเวณที่ต้องถอดรหัสเช่นนี้ แต่สมองต้องเข้าแทรกแซงและขีดเส้นใต้ว่ามีเพียงมุมการหมุนเท่านั้นที่ให้ข้อมูล มันยากที่จะเห็นว่าค่าใดมีค่าน้อยกว่าเท่ากับหรือมากกว่าอีกค่าหนึ่งซึ่งอยู่ในรูปแบบกราฟที่ยอมรับได้ทันที
Nick Cox

ข้อดีอย่างเดียวที่ฉันเห็นสำหรับการออกแบบนี้ยกเว้นว่าการให้เกรดเป็นการออกแบบที่ผิดปกตินั่นคือตัวระบุ # 1 ถึง # 14 นั้นจะอยู่ในการออกแบบนี้ทันที ฉันหยิบประเด็นนี้ขึ้นมาเพื่อแก้ไขคำตอบของฉันเอง
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.