สาขาของสถิติคืออะไร?


30

ในคณิตศาสตร์มีสาขาต่าง ๆ เช่นพีชคณิตการวิเคราะห์โทโพโลยีและอื่น ๆ ในการเรียนรู้ของเครื่องจักรนั้นจะมีการควบคุมดูแลการเรียนรู้แบบไม่สนับสนุนและการเสริมแรง ภายในแต่ละสาขามีสาขาย่อยที่ดีกว่าซึ่งจะแบ่งวิธีการเพิ่มเติม

ฉันมีปัญหาในการวาดภาพขนานกับสถิติ อะไรคือสาขาหลักของสถิติ (และสาขาย่อย) พาร์ติชันที่สมบูรณ์แบบอาจเป็นไปไม่ได้ แต่มีอะไรดีไปกว่าแผนที่เปล่าขนาดใหญ่

ตัวอย่างภาพ: ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่


6
ที่จะนำเสนออีกหนึ่งเหตุผลที่ว่าทำไมคำถามนี้ตอบไม่ได้ (และทำไมบางทีสมมติฐานที่ถูกใส่ผิด) ก็เข้าใจว่าวัตถุประสงค์ของฮาร์ดวิทยาศาสตร์ทฤษฎี (เช่นคณิตศาสตร์) คือการพูดคุยมากกว่าที่จะชำนาญ ดังนั้นถ้าเรามองเห็นวิถีของการไต่สวนที่ประสบความสำเร็จในสนามเราจะไม่เห็นว่ามันแตกแขนงออกเป็นกิ่งก้านสาขาที่เล็กกว่าและละเอียดกว่า แต่เลนส์จะขยายแนวคิดและความคิดเชิงนามธรรมให้กว้างขึ้น
AdamO

@ คำตอบของ Rob Hyndman ยังคงดูเหมือนว่าฉันจะปัง ฉันสงสัยอย่างมากเกี่ยวกับการจำแนกประเภทใด ๆ ที่นี่ นอกจากนี้ยังเป็นสถานที่ที่ดีเช่นเดียวกับการตั้งค่าสถานะว่ารายการหัวข้อที่เกิดขึ้นกับใครบางคนที่อยู่ห่างไกลจากการจำแนกตามต้นไม้ และถึงแม้ว่าการเป็นตัวแทนของ dendrograms หรือ hairball จะน่าสนใจเล็กน้อยพวกเขาใช้งานจริงหรือความสนใจทำอะไรเกินกว่าแสดงให้เห็นถึงลักษณะที่หลากหลายของสนาม?
Nick Cox

คำตอบ:


52

ฉันพบว่าระบบการจำแนกประเภทเหล่านี้ไม่มีประโยชน์และขัดแย้งอย่างยิ่ง ตัวอย่างเช่น:

  • โครงข่ายประสาทเทียมเป็นรูปแบบหนึ่งของการเรียนรู้แบบมีผู้สอน
  • แคลคูลัสใช้ในเรขาคณิตเชิงอนุพันธ์
  • ทฤษฎีความน่าจะเป็นทางการเป็นส่วนหนึ่งของทฤษฎีเซต

และอื่น ๆ ไม่มี "สาขา" ที่ชัดเจนของคณิตศาสตร์และไม่ควรมีสถิติ


11
"โครงข่ายประสาทเทียมเป็นรูปแบบหนึ่งของการเรียนรู้แบบมีผู้สอน" ไม่เป็นความจริงเลยใช่ไหม? ฉันหมายความว่าใคร ๆ ก็สามารถใช้ (และใช้งาน) NNs ในการเรียนรู้แบบมีผู้เรียน, การเรียนแบบไม่มีผู้ดูแลและแม้แต่การเสริมแรงการเรียนรู้! แนวคิดของโครงข่ายประสาทอย่างน้อยก็เป็นเพียงฟังก์ชั่นไม่เชิงเส้นขนาดใหญ่ที่อาจได้รับการปรับให้เหมาะสมด้วยวิธีการเพิ่มประสิทธิภาพที่หลากหลายในหมู่พวกเขา SL, UL และ RL) แต่บางทีคำศัพท์อาจถูกนำมาใช้ในแบบที่คุณใช้อยู่ซึ่งในกรณีนี้ .. ใคร ๆ ก็พูดถูก
BlueRine S

7
แน่นอนว่าไม่มีความจริง แต่นั่นไม่ได้มีประโยชน์จริงๆ มีแบบจำลองที่ตอบสนองความต้องการของ OP หรือไม่?
Jay Schyler Raadt

3
ร็อบพูดถูก ต้นไม้การตัดสินใจใช้ในการถดถอยและ AdaBoost เป็นวิธีการจัดหมวดหมู่ แต่แผนที่ไม่แสดงสิ่งนี้
Zen

4
ฉันยอมรับว่าฉันไม่เข้าใจมุมมองนี้ ตำราสถิติจะต้องมีการจัดลำดับของบทของมันในทางใดทางหนึ่งและหน้าเนื้อหาของมันสะท้อนให้เห็นถึงองค์กรที่ เนื้อหาของหน้าเว็บบ่งบอกถึงโครงสร้างอย่างน้อยบางส่วนข้อมูลเกี่ยวกับวิธีแนวคิดของฟิลด์ที่มีการจัดและมันไม่ได้ในทางที่ จำกัด มากขึ้นกว่าการสร้างภาพจะช่วยให้ หากไม่มีใครมีปัญหากับการมีอยู่ของหน้าเนื้อหาของตำราเรียนแม้ว่าพวกเขาจะไม่ได้จับความซับซ้อนของสนามผมก็ไม่เห็นว่าทำไมคนหนึ่งถึงคัดค้านการสร้างภาพข้อมูลเช่นเดียวกับ OP ที่หวังไว้
mkt - Reinstate Monica

4
หนังสือเรียนไม่ได้มีโครงสร้างแบบเป็นลำดับชั้น ต่อมาในหนังสือการเชื่อมโยงระหว่างบทแรก ๆ มักจะได้รับการพัฒนาแสดงให้เห็นว่าหัวข้อที่แนะนำแยกต่างหากก่อนหน้านี้มีการเชื่อมโยงจริง เพื่อยกตัวอย่างหนังสือเรียนของฉันเกี่ยวกับการพยากรณ์ที่เราแนะนำตัวแบบการถดถอยแบบไดนามิกในบทต่อมาการเชื่อมโยงแบบจำลองการถดถอยและแบบจำลอง ARIMA ที่นำมาใช้ก่อนหน้านี้
Rob Hyndman

29

นี่เป็นข้อแตกต่างเล็กน้อยในคำตอบของ Rob Hyndman มันเริ่มจากการแสดงความคิดเห็นและจากนั้นก็ซับซ้อนเกินไปสำหรับมัน หากนี่ไม่ไกลจากการตอบคำถามหลักฉันขอโทษและจะลบมัน


ชีววิทยาได้รับการอธิบายถึงความสัมพันธ์แบบลำดับชั้นมานานก่อนที่doodle แรกของดาร์วิน (ดูความคิดเห็นของ Nick Cox สำหรับลิงก์) ความสัมพันธ์เชิงวิวัฒนาการส่วนใหญ่ยังคงแสดงอยู่ด้วยต้นไม้ที่สวยงามสะอาดและแตกแขนง 'ต้นไม้วิวัฒนาการ':

ป้อนคำอธิบายรูปภาพที่นี่ อย่างไรก็ตามในที่สุดเราก็รู้ว่าชีววิทยานั้นยุ่งเหยิงกว่านี้ บางครั้งมีการแลกเปลี่ยนทางพันธุกรรม (ผ่านการผสมกันและกระบวนการอื่น ๆ ) ระหว่างสายพันธุ์ที่แตกต่างกันและยีนที่มีอยู่ในส่วนหนึ่งของต้นไม้ 'กระโดด' ไปยังส่วนต่าง ๆ ของต้นไม้ การถ่ายโอนยีนแนวนอนย้ายยีนไปรอบ ๆ ในลักษณะที่ทำให้ภาพต้นไม้ที่เรียบง่ายอยู่ด้านบนไม่ถูกต้อง อย่างไรก็ตามเราไม่ได้ละทิ้งต้นไม้ แต่เพียงสร้างการปรับเปลี่ยนการสร้างภาพข้อมูลประเภทนี้:

เช่นเดียวกับตัวเลขก่อนหน้า แต่มีการถ่ายโอนยีนข้ามสาขา

นี่เป็นการยากที่จะติดตาม แต่มันสื่อถึงภาพแห่งความเป็นจริงที่แม่นยำยิ่งขึ้น

ตัวอย่างอื่น:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามเราไม่เคยแนะนำตัวเลขที่ซับซ้อนเหล่านี้เพื่อเริ่มต้นเพราะยากที่จะเข้าใจโดยไม่เข้าใจแนวคิดพื้นฐาน แต่เราสอนแนวคิดพื้นฐานด้วยรูปที่เรียบง่ายจากนั้นนำเสนอพวกเขาด้วยรูปที่ซับซ้อนมากขึ้นและมีความซับซ้อนที่ใหม่กว่าในเรื่องราว

'แผนที่' ของสถิติใด ๆ ก็จะมีทั้งความไม่ถูกต้องและเป็นเครื่องมือการสอนที่มีค่า การมองเห็นภาพของแบบฟอร์ม OP ชี้ให้เห็นว่ามีประโยชน์มากสำหรับนักเรียนและไม่ควรละเลยเพียงเพราะพวกเขาล้มเหลวในการจับความเป็นจริงโดยรวม เราสามารถเพิ่มความซับซ้อนให้กับรูปภาพได้มากขึ้นเมื่อพวกเขามีกรอบพื้นฐานในสถานที่


4
FWIW ต้นไม้ที่แสดงถึงความสัมพันธ์ระหว่างสิ่งมีชีวิตที่มีมายาวนานดาร์วิน ฉันจะเพิ่มการอ้างอิงในภายหลัง
Nick Cox

2
jhupbooks.press.jhu.edu/title/trees-lifeเป็นนักวิชาการที่น่าสนใจ
Nick Cox

3
ข้อแตกต่างไม่มากไปกว่าข้อโต้แย้งที่สนับสนุน: การโทรเข้ามาถามความถูกต้องของต้นไม้ อย่างน้อยด้วย phylogeny เราใช้ข้อมูลเพื่อสร้างโครงสร้างดังกล่าวไม่ว่าจะเป็นบันทึกซากดึกดำบรรพ์การแสดงออกของยีนอะไรก็ตาม หากไม่มีข้อมูลเราขอให้ผู้ที่มีอำนาจเลือกบล็อกและลูกศรที่แพร่กระจายข้อมูลที่ผิดไปอย่าง
จริงจัง

2
@AdamO ฉันไม่ได้คาดหวังว่าจะมี 'แผนที่' สถิติสากลเดียว มันสมเหตุสมผลอย่างสมบูรณ์แบบสำหรับคนสองคนที่ใช้โครงสร้างที่แตกต่างกันและชุดลิงก์ที่แตกต่างกัน แต่เราคาดว่าโครงสร้างที่กว้างนั้นจะมีความแข็งแกร่งพอสมควร (ความแตกต่างในระดับต่ำยังเกิดขึ้นระหว่างต้นไม้สายวิวัฒนาการที่สร้างจากชุดข้อมูลเดียวกัน การยืดอุปมาอุปมัยจนเกินไป) ฉันจะบอกว่ามีความเชี่ยวชาญ (แยกความคิดของผู้มีอำนาจในขณะนี้) มีอยู่ในหลาย ๆ คนที่ได้เขียนตำราสถิติทั่วไปหรือแม้กระทั่งสอนสถิติทั่วไป
mkt - Reinstate Monica

2
ฉันชอบไดอะแกรมที่นี่มากพอที่จะถอนรากถอนโคนนี้ แต่มันไม่ได้ตอบคำถาม
Nick Cox

24

คุณสามารถดูคำหลัก / แท็กของเว็บไซต์ที่ตรวจสอบข้ามได้


สาขาเป็นเครือข่าย

วิธีการหนึ่งในการทำเช่นนี้คือการพล็อตมันเป็นเครือข่ายโดยยึดตามความสัมพันธ์ระหว่างคำหลัก

เมื่อคุณใช้ sql-script นี้เพื่อรับข้อมูลของไซต์จาก (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

จากนั้นคุณจะได้รับรายการคำหลักสำหรับคำถามทั้งหมดที่มีคะแนนตั้งแต่ 2 คะแนนขึ้นไป

คุณสามารถสำรวจรายการนั้นโดยการพล็อตเรื่องดังนี้:

ความสัมพันธ์ระหว่างแท็ก

อัปเดต: เหมือนกันกับสี (ขึ้นอยู่กับ eigenvectors ของเมทริกซ์ความสัมพันธ์) และไม่มีแท็กศึกษาด้วยตนเอง

ความสัมพันธ์ระหว่างแท็ก

คุณสามารถทำความสะอาดกราฟนี้ได้อีกเล็กน้อย (เช่นลบแท็กที่ไม่เกี่ยวข้องกับแนวคิดเชิงสถิติเช่นแท็กซอฟต์แวร์ในกราฟด้านบนสิ่งนี้ทำไว้แล้วสำหรับแท็ก 'r') และปรับปรุงการแสดงภาพ แต่ฉันเดา ภาพด้านบนแสดงจุดเริ่มต้นที่ดีอยู่แล้ว

R-รหัส:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

กิ่งก้านลำดับชั้น

ฉันเชื่อว่ากราฟเครือข่ายเหล่านี้เกี่ยวข้องกับการวิพากษ์วิจารณ์บางส่วนเกี่ยวกับโครงสร้างลำดับชั้นที่แยกย่อยอย่างหมดจด ถ้าคุณชอบฉันเดาว่าคุณสามารถทำการจัดกลุ่มแบบลำดับชั้นเพื่อบังคับให้เป็นโครงสร้างแบบลำดับชั้น

ด้านล่างเป็นตัวอย่างของโมเดลลำดับชั้นดังกล่าว ยังคงต้องค้นหาชื่อกลุ่มที่เหมาะสมสำหรับกลุ่มต่างๆ (แต่ฉันไม่คิดว่าการจัดกลุ่มแบบลำดับชั้นนี้เป็นทิศทางที่ดีดังนั้นฉันจึงเปิดทิ้งไว้)

การทำคลัสเตอร์แบบลำดับชั้น

การวัดระยะทางสำหรับการจัดกลุ่มได้รับการค้นพบโดยการทดลองและข้อผิดพลาด (ทำการปรับจนกระทั่งคลัสเตอร์ดูดี

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

เขียนโดยStackExchangeStrike


2
บางทีฉันอาจจะทำให้งานดูเรียบร้อยขึ้น มันอาจจะดีถ้ามีกราฟที่ชัดเจนที่แมปหัวข้อในเว็บไซต์นี้
Sextus Empiricus

1
นี่เป็นวิธีที่ยอดเยี่ยม! ทำได้ดีมาก
Andrew Brēza

จากกราฟสีของคุณพื้นที่สำคัญทั้งสามคือความน่าจะเป็นการถดถอยและการเรียนรู้ของเครื่อง
แมตต์เอฟ

@MattF กราฟนั้นเป็นปัญหาเล็กน้อยและสอดคล้องกับความถี่ในการใช้งานมากกว่า ฉันพยายามปรับเมทริกซ์ด้วยความถี่ (เช่นเปลี่ยนจากเมทริกซ์ความแปรปรวนร่วมเป็นเมทริกซ์สหสัมพันธ์) แต่มันก็ไม่ได้เปลี่ยนแปลงมากนัก กราฟ 2D ไม่ได้แสดงโครงสร้างที่ดีมากและแบบจำลองทางกายภาพซึ่งถือว่าเส้นทางเป็นสตริงวางโหนดในรูปทรงหกเหลี่ยม / สามเหลี่ยม (ซึ่งมีประสิทธิภาพมากที่สุด)
Sextus Empiricus

1
ฉันจะบอกว่าใน stackoverflow มันเป็นห้าประเภทหลัก: ความน่าจะเป็นการถดถอยการเรียนรู้ของเครื่อง แต่ยังทดสอบสมมติฐานและอนุกรมเวลา
Sextus Empiricus

9

วิธีง่ายๆในการตอบคำถามของคุณคือค้นหาตารางการจำแนกประเภททั่วไป ยกตัวอย่างเช่นสิ่งพิมพ์บางเรื่องของคณิตศาสตร์ถูกใช้โดย2010ในการจำแนกเอกสาร สิ่งเหล่านี้มีความเกี่ยวข้องเพราะเป็นวิธีที่ผู้เขียนจำนวนมากจำแนกเอกสารของตนเอง ป้อนคำอธิบายรูปภาพที่นี่

มีตัวอย่างมากมายของการจำแนกประเภทที่คล้ายกันเช่นการจำแนกประเภทของ arxivหรือUDKของกระทรวงศึกษาธิการของรัสเซีย(Universal decimal classtataion ) ซึ่งใช้กันอย่างแพร่หลายสำหรับสิ่งพิมพ์และการวิจัยทั้งหมด

ป้อนคำอธิบายรูปภาพที่นี่

อีกตัวอย่างคือJEL Claasification Systemของ American Economic Association กระดาษของ Rob Hyndman "การคาดคะเนอนุกรมเวลาอัตโนมัติ: แพ็คเกจพยากรณ์สำหรับ R. " มันจัดเป็น C53, C22, C52 ตาม JEL Hyndman มีจุดแม้ว่าในการวิจารณ์การจำแนกต้นไม้ วิธีที่ดีกว่าสามารถติดแท็กได้เช่นคำสำคัญในบทความของเขาคือ: "แบบจำลอง ARIMA, การพยากรณ์อัตโนมัติ, การทำให้เรียบแบบเอ็กซ์โปเนนเชียล, การทำนายช่วงเวลา, แบบจำลองพื้นที่ของรัฐ, อนุกรมเวลา, R. " อาจมีคนแย้งว่าสิ่งเหล่านี้เป็นวิธีที่ดีกว่าในการจัดหมวดหมู่ของเอกสารเนื่องจากเอกสารเหล่านี้ไม่ใช่แบบลำดับชั้นและสามารถสร้างหลายลำดับชั้นได้

@whuber ได้ชี้ให้เห็นว่าความก้าวหน้าล่าสุดบางอย่างเช่นการเรียนรู้ของเครื่องจะไม่อยู่ภายใต้สถิติในการจำแนกประเภทปัจจุบัน ตัวอย่างเช่นลองดูบทความ " การเรียนรู้ลึก: บทนำสำหรับนักคณิตศาสตร์ประยุกต์ " โดย Catherine F. Higham, Desmond J. Higham พวกเขาจำแนกกระดาษภายใต้ MSC ข้างต้นเป็น 97R40, 68T01, 65K10, 62M45 สิ่งเหล่านี้อยู่ภายใต้วิทยาศาสตร์คอมพิวเตอร์การศึกษาคณิตศาสตร์และการวิเคราะห์เชิงตัวเลขเพิ่มเติมจากสถิติ


3
ฉันคิดว่ามันจะแม่นยำมากขึ้นถ้าจะบอกว่านี่เป็นวิธีที่ผู้เขียนจำนวนมากถูกขอให้จัดประเภทเอกสารของพวกเขา ฉันรู้ว่าฉันไม่เคยพอใจอย่างมากเมื่อถูกขอให้จ้างงานในประเภทดังกล่าวให้กับงานของฉัน
Alexis

6
นี่เป็นพื้นฐานที่ดีในการระบุสาขาของสถิติทางคณิตศาสตร์ การรู้ที่ช่วยให้เราสามารถระบุสิ่งที่ถูกทิ้งไว้ซึ่งรวมถึงส่วนต่าง ๆ ของการเรียนรู้ของเครื่อง แน่นอนมันอาจยุติธรรมในการจำแนกลักษณะทางคณิตศาสตร์เรื่องการจำแนกประเภทของปี 2010 ที่อธิบาย "สถิติ ณ ปี 1950" และจากนั้นโยนทุกอย่างที่เกิดขึ้นในภายหลังเช่นภูมิศาสตร์, จีโนม, จีโนม, bootstrapping และอื่น ๆ หมวดหมู่อาจจะ)
whuber

4

วิธีหนึ่งในการแก้ไขปัญหานี้คือดูที่เครือข่ายการอ้างอิงและการอ้างอิงร่วมในวารสารสถิติเช่นวารสารสถิติ, Biometrika, JASA และ JRSS-B สิ่งนี้ทำได้โดย:

Ji, P. , & Jin, J. (2016) เครือข่ายการศึกษาและการอ้างอิงสำหรับนักสถิติ พงศาวดารของสถิติประยุกต์, 10 (4), 1779-1812

พวกเขาระบุชุมชนของนักสถิติและใช้ความเข้าใจโดเมนของพวกเขาในการติดป้ายชุมชนเป็น

  • การวิเคราะห์ข้อมูลมิติสูง (HDDA-Coau-A)
  • การเรียนรู้ของเครื่องจักรเชิงทฤษฎี
  • การลดขนาด
  • Johns Hopkins
  • ดยุค
  • Stanford
  • การถดถอยเชิงปริมาณ
  • การออกแบบการทดลอง
  • วัตถุประสงค์ Bayes
  • ชีวสถิติ
  • การวิเคราะห์ข้อมูลมิติสูง (HDDA-Coau-B)
  • การทดสอบหลายรายการขนาดใหญ่
  • การเลือกตัวแปร
  • สถิติเชิงพื้นที่และกึ่งพารามิเตอร์ / ไม่ใช่พารามิเตอร์

กระดาษนี้มีการอภิปรายอย่างละเอียดของชุมชนพร้อมกับการสลายตัวของชุมชนที่ใหญ่กว่าไปสู่ชุมชนย่อยเพิ่มเติม

สิ่งนี้อาจไม่สามารถตอบคำถามได้ทั้งหมดเนื่องจากมันเกี่ยวข้องกับสาขาการวิจัยเชิงสถิติมากกว่าทุกสาขารวมถึงสาขาที่ไม่ได้ใช้งานอีกต่อไป หวังว่ามันจะเป็นประโยชน์ แน่นอนว่ายังมีข้อแม้อื่น ๆ (เช่นพิจารณาเฉพาะสี่วารสารเหล่านี้) ซึ่งจะกล่าวถึงต่อไปในเอกสาร


2
ฉันกำลังคิดที่จะทำสิ่งนี้กับเว็บไซต์นี้ กำหนด "ผู้ร่วมประพันธ์" เป็นคนที่ตอบ / ตอบคำถามเดียวกัน
Sextus Empiricus

@ Martijn Weterings ใช่คำตอบของคุณดูเหมือนจะเป็นไปในทิศทางที่คล้ายกันมากกับวิธีการนี้!
user257566

2

ฉันเห็นคำตอบที่น่าอัศจรรย์มากมายและฉันไม่รู้ว่าจะได้รับการจัดหมวดหมู่ตนเองที่ต่ำต้อยอย่างไร แต่ฉันไม่ทราบว่าหนังสือเล่มใดที่ประกอบไปด้วยสถิติทั้งหมดเพื่อแสดงบทสรุปและฉันคิดว่าอย่างที่ @ mkt แสดงความคิดเห็นอย่างล้นเหลือการจำแนกประเภทของเขตการศึกษาจะมีประโยชน์ ดังนั้นนี่คือภาพของฉัน:

  • สถิติเชิงพรรณนา
    • อนุมานง่าย
      • การทดสอบสมมติฐานอย่างง่าย
    • การพล็อต / การสร้างภาพข้อมูล
  • การออกแบบการสุ่มตัวอย่าง
    • การออกแบบการทดลอง
    • การออกแบบการสำรวจ
  • สถิติหลายตัวแปร (ไม่มีการจัดการ)
    • การจัดกลุ่ม
    • การวิเคราะห์องค์ประกอบ
    • แบบจำลองตัวแปรแฝง
  • โมเดลเชิงเส้น (ซึ่งมีหลายตัวแปรเช่นกัน)
    • กำลังสองน้อยที่สุดธรรมดา
    • โมเดลเชิงเส้นทั่วไป
      • แบบจำลอง logit
    • โมเดลเชิงเส้นอื่น ๆ
      • โมเดล Cox
      • การถดถอยเชิงปริมาณ
    • การอนุมานหลายตัวแปร
      • การทดสอบสมมติฐานหลายรายการ
      • การทดสอบสมมติฐานที่ปรับ
    • แบบจำลองสำหรับข้อมูลที่มีโครงสร้าง
      • แบบผสมลักษณะพิเศษ
      • โมเดลพิเศษ
      • รุ่นของอนุกรมเวลา
    • ส่วนขยายที่ไม่ใช่เชิงเส้น
      • โมเดลเสริมทั่วไป
  • สถิติแบบเบย์ (จริง ๆ แล้วมีวิธีแบบเบย์สำหรับหลายสิ่งที่ฉันได้ระบุไว้)
  • การถดถอยแบบไม่อิงพารามิเตอร์และการจำแนกประเภท
    • วิธีการเรียนรู้ของเครื่องหลายอย่างเหมาะสมที่นี่

แน่นอนว่ามันเป็นเรื่องง่ายเกินไปมันมีความหมายเพียงเพื่อให้ได้ความคิดตรงไปยังคนที่เพิ่งรู้สนามพวกเราแต่ละคนที่นี่รู้แน่นอนว่ามีวิธีการมากมายในหมวดหมู่ที่นี่และคนอื่น ๆ ที่ฉันไม่ได้ทำ รายการเพราะพวกเขามีชื่อเสียงน้อยกว่าหรือเพราะฉันลืม หวังว่าคุณจะชอบมัน.


1

วิธีหนึ่งในการจัดระเบียบข้อมูลนี้คือการหาหนังสือที่ดีและดูสารบัญ นี่คือความขัดแย้งเพราะคุณถามเกี่ยวกับสถิติโดยเฉพาะในขณะที่ข้อความระดับบัณฑิตศึกษาเบื้องต้นส่วนใหญ่ในหัวข้อนั้นใช้สำหรับสถิติและทฤษฎีความน่าจะเป็นร่วมกัน หนังสือที่ฉันอ่านเกี่ยวกับการถดถอยตอนนี้มี TOC ต่อไปนี้:

  • การอนุมานบ่อย
  • การอนุมานแบบเบย์
  • การทดสอบสมมติฐานและการเลือกตัวแปร
  • โมเดลเชิงเส้น
  • แบบจำลองการถดถอยทั่วไป
  • ตัวแบบข้อมูลไบนารี

  • แบบจำลองการถดถอยทั่วไป

  • ขั้นตอนเบื้องต้นสำหรับการถดถอยแบบไม่มีพารามิเตอร์ [สารตั้งต้นเพื่อ ... ]
  • วิธี Spline และเคอร์เนล
  • การถดถอยแบบไม่อิงพารามิเตอร์พร้อมตัวทำนายหลายตัว

(ส่วนที่เหลือสนับสนุนคณิตศาสตร์และทฤษฎีความน่าจะเป็น)

  • ความแตกต่างของการแสดงออกของเมทริกซ์
  • ผลลัพธ์ของเมทริกซ์
  • พีชคณิตเชิงเส้นบางส่วน
  • การแจกแจงความน่าจะเป็นและฟังก์ชั่นการสร้าง
  • ฟังก์ชั่นของตัวแปรสุ่มปกติ
  • ผลลัพธ์บางส่วนจากสถิติคลาสสิก
  • ทฤษฎีตัวอย่างขนาดใหญ่ขั้นพื้นฐาน

2
บางคนอาจคิดว่าหนังสือเล่มนี้ถ่ายทอดส่วนหนึ่งของสาขาหนึ่งของวินัย แม้ว่าจะอ้างว่าเป็นการสำรวจสารานุกรมของสถิติทั้งหมด แต่หัวบทของมันอาจจะถือว่าเป็นสาขาใหญ่ของสาขา!
whuber

3
@whuber เห็นด้วย ฉันระมัดระวังที่จะพูดถึงหนังสือเล่มนี้ว่ากำลังถดถอยและฉันไม่ได้พิจารณาหนังสือเล่มใด ๆ ในหัวข้อ "สถิติ" ว่าเพียงพอหรืออยู่ในระดับที่เหมาะสมสำหรับนักสถิติเพื่อพิจารณาหัวข้อที่จัดว่าเพียงพอ ตัวอย่างที่เฉพาะเจาะจงนี้มาจากข้อความของ Wakefield และเป็นการรักษาทั่วไปที่น่าทึ่ง (การทดสอบแบบ T-test ที่มีการประมาณค่าความแปรปรวนไม่เท่ากันถูกกล่าวถึงในบริบทของการถดถอยเชิงเส้นด้วยไบนารีโควาเรียต์
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.