แสดงค่าข้อมูลบนแผนภูมิแท่งแบบเรียงซ้อนใน ggplot2


113

ฉันต้องการแสดงค่าข้อมูลบนแผนภูมิแท่งแบบเรียงซ้อนใน ggplot2 นี่คือรหัสที่ฉันพยายาม

Year      <- c(rep(c("2006-07", "2007-08", "2008-09", "2009-10"), each = 4))
Category  <- c(rep(c("A", "B", "C", "D"), times = 4))
Frequency <- c(168, 259, 226, 340, 216, 431, 319, 368, 423, 645, 234, 685, 166, 467, 274, 251)
Data      <- data.frame(Year, Category, Frequency)
library(ggplot2)
p <- qplot(Year, Frequency, data = Data, geom = "bar", fill = Category,     theme_set(theme_bw()))
p + geom_text(aes(label = Frequency), size = 3, hjust = 0.5, vjust = 3, position =     "stack") 

ใส่คำอธิบายภาพที่นี่

ฉันต้องการแสดงค่าข้อมูลเหล่านี้ตรงกลางของแต่ละส่วน ความช่วยเหลือใด ๆ ในเรื่องนี้จะได้รับการชื่นชมอย่างมาก ขอบคุณ


คำถามที่เกี่ยวข้อง: stackoverflow.com/questions/18994631/…
Tyler Rinker

ไม่ใช่สถานที่สำหรับการอภิปราย แต่ฉันสงสัยว่าเป็นไปได้ไหมที่จะมีการกำหนดเรื่องนี้มากเกินไปโดยเฉพาะกับผู้ชมทั่วไป นี่เป็นตัวอย่างที่ดี - ตัวเลขแสดงถึงเปอร์เซ็นต์ที่จำได้ซึ่งจะขจัดความจำเป็นในการใช้มาตราส่วนที่ผู้อ่านที่มีความรู้เชิงตัวเลขน้อยกว่าอาจพบว่าสามารถเข้าถึงได้น้อยลง?
geotheory

คำตอบ:


194

จากggplot 2.2.0ป้ายชื่อสามารถจะซ้อนกันโดยใช้ในposition = position_stack(vjust = 0.5)geom_text

ggplot(Data, aes(x = Year, y = Frequency, fill = Category, label = Frequency)) +
  geom_bar(stat = "identity") +
  geom_text(size = 3, position = position_stack(vjust = 0.5))

ใส่คำอธิบายภาพที่นี่

โปรดทราบว่า " position_stack()และposition_fill()ตอนนี้สแต็กค่าในลำดับย้อนกลับของการจัดกลุ่มซึ่งทำให้ลำดับสแต็กเริ่มต้นตรงกับคำอธิบายแผนภูมิ"


คำตอบใช้ได้สำหรับเวอร์ชันเก่าของ ggplot :

นี่คือแนวทางหนึ่งซึ่งคำนวณจุดกึ่งกลางของแท่ง

library(ggplot2)
library(plyr)

# calculate midpoints of bars (simplified using comment by @DWin)
Data <- ddply(Data, .(Year), 
   transform, pos = cumsum(Frequency) - (0.5 * Frequency)
)

# library(dplyr) ## If using dplyr... 
# Data <- group_by(Data,Year) %>%
#    mutate(pos = cumsum(Frequency) - (0.5 * Frequency))

# plot bars and add text
p <- ggplot(Data, aes(x = Year, y = Frequency)) +
     geom_bar(aes(fill = Category), stat="identity") +
     geom_text(aes(label = Frequency, y = pos), size = 3)

แผนภูมิผลลัพธ์


ขอบคุณสำหรับคำตอบนี้ ฉันใช้มันเพื่อทำสิ่งที่คล้ายกันโดยใช้data.tableแทนplyrดังนั้นสิ่งนี้:Data.dt[,list(Category, Frequency, pos=cumsum(Frequency)-0.5*Frequency), by=Year]
atomicules

มีการเพิ่มความถี่รวมด้วยหรือไม่?
Pablo Olmos de Aguilera C.

26

ดังที่ Hadley กล่าวไว้มีวิธีที่มีประสิทธิภาพมากกว่าในการสื่อสารข้อความของคุณมากกว่าป้ายกำกับในแผนภูมิแท่งแบบเรียงซ้อน ในความเป็นจริงแผนภูมิแบบเรียงซ้อนไม่มีประสิทธิภาพมากนักเนื่องจากแท่ง (แต่ละหมวดหมู่) ไม่ใช้แกนร่วมกันดังนั้นการเปรียบเทียบจึงทำได้ยาก

การใช้กราฟสองกราฟในกรณีเหล่านี้มักจะดีกว่าเสมอโดยใช้แกนร่วมกัน ในตัวอย่างของคุณฉันสมมติว่าคุณต้องการแสดงผลรวมโดยรวมจากนั้นสัดส่วนแต่ละหมวดหมู่มีส่วนในปีหนึ่ง ๆ

library(grid)
library(gridExtra)
library(plyr)

# create a new column with proportions
prop <- function(x) x/sum(x)
Data <- ddply(Data,"Year",transform,Share=prop(Frequency))

# create the component graphics
totals <- ggplot(Data,aes(Year,Frequency)) + geom_bar(fill="darkseagreen",stat="identity") + 
  xlab("") + labs(title = "Frequency totals in given Year")
proportion <- ggplot(Data, aes(x=Year,y=Share, group=Category, colour=Category)) 
+ geom_line() + scale_y_continuous(label=percent_format())+ theme(legend.position = "bottom") + 
  labs(title = "Proportion of total Frequency accounted by each Category in given Year")

# bring them together
grid.arrange(totals,proportion)

ซึ่งจะทำให้คุณมีหน้าจอ 2 แผงดังนี้:

กราฟิกแผง 2 แผงในแนวตั้ง

หากคุณต้องการเพิ่มค่าความถี่ตารางเป็นรูปแบบที่ดีที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.