คำถามติดแท็ก terminology

การใช้และความหมายของคำศัพท์ / แนวคิดทางเทคนิคที่เฉพาะเจาะจงในสถิติ

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
“ ตัวแปรดัมมี่” กับ“ ตัวแปรตัวบ่งชี้” สำหรับข้อมูลเล็กน้อย / หมวดหมู่
"ตัวแปร Dummy" และ "ตัวแปรตัวบ่งชี้"เป็นคำที่ใช้บ่อยในการติดป้ายกำกับเพื่ออธิบายความเป็นสมาชิกในหมวดหมู่ที่มีการเข้ารหัส 0/1; โดยปกติ 0: ไม่ใช่สมาชิกของหมวดหมู่ 1: สมาชิกของหมวดหมู่ เมื่อวันที่ 11/26/2014 การค้นหาอย่างรวดเร็วบน scholar.google.com (พร้อมเครื่องหมายคำพูด) จะแสดง "ตัวแปรจำลอง" ในบทความประมาณ 318,000 รายการและใช้ "ตัวแปรตัวบ่งชี้" ในบทความประมาณ 112,000 รายการ คำว่า "ตัวแปรดัมมี่" มีความหมายในคณิตศาสตร์ที่ไม่ใช่เชิงสถิติของ " ตัวแปรที่ผูกมัด " ซึ่งมีแนวโน้มที่จะเอื้อต่อการใช้ "ตัวแปรจำลอง" ในบทความที่จัดทำดัชนีมากขึ้น คำถามที่เชื่อมโยงตามหัวข้อของฉัน: คำเหล่านี้มีความหมายเหมือนกันเสมอหรือไม่ (ภายในสถิติ) คำใดคำหนึ่งเหล่านี้เคยใช้กับการเข้ารหัสเด็ดขาดในรูปแบบอื่น ๆ (เช่นเอฟเฟ็กต์โค้ด , การเข้ารหัสเฮลเมอร์ ฯลฯ ) หรือไม่? เหตุผลทางสถิติหรือทางวินัยมีอะไรที่จะชอบหนึ่งคำมากกว่าที่อื่น?

1
อรรถาภิธานสำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่อง
มีอรรถาภิธานอ้างอิงใด ๆ สำหรับสถิติและเงื่อนไขการเรียนรู้ของเครื่องหรือไม่? ฉันรู้ว่าบทความ Wikipedia มักจะมีคำพ้องความหมายเหมือนกัน แต่ฉันต้องการอรรถาภิธานที่สามารถผ่านได้อย่างง่ายดาย (เทียบกับสารานุกรมฉบับเต็ม) เพื่อให้แน่ใจว่าฉันรู้ศัพท์แสงทั้งหมด

1
ความแตกต่างระหว่างการทดสอบการสุ่มและการทดสอบการเปลี่ยนแปลง
ในวรรณคดีคำว่า Randomization and Permutation นั้นใช้แทนกันได้ ด้วยผู้เขียนหลายคนระบุว่าการทดสอบ "การเปลี่ยนแปลง (การสุ่ม) หรือ" ในทางกลับกัน อย่างดีที่สุดฉันเชื่อว่าความแตกต่างนั้นบอบบางและอยู่ในสมมติฐานของพวกเขาเกี่ยวกับข้อมูลและข้อสรุปที่อาจเกิดขึ้นซึ่งสามารถวาดได้ ฉันแค่ต้องตรวจสอบว่าความเข้าใจของฉันนั้นถูกต้องหรือว่ามีความแตกต่างที่ลึกซึ้งกว่าที่ฉันขาดหายไป การทดสอบการเปลี่ยนรูปสันนิษฐานว่าข้อมูลถูกสุ่มตัวอย่างจากการแจกแจงประชากรพื้นฐาน (แบบจำลองประชากร) ซึ่งหมายความว่าข้อสรุปที่ได้จากการทดสอบการเปลี่ยนรูปมักใช้กับข้อมูลอื่นจากประชากร [3] การทดสอบการสุ่ม (แบบจำลองการสุ่ม) "อนุญาตให้เราทิ้งสมมติฐานที่ไม่น่าเชื่อของการวิจัยทางจิตวิทยาทั่วไป --- การสุ่มตัวอย่างจากการแจกแจงที่ระบุ" [2] อย่างไรก็ตามนั่นหมายความว่าข้อสรุปที่ดึงมาใช้ได้เฉพาะกับตัวอย่างที่ใช้ในการทดสอบ [3] แน่นอนแม้ว่าความแตกต่างเป็นเพียงในแง่ของความหมายของประชากร หากเรากำหนดประชากรให้เป็น 'ผู้ป่วยทุกรายที่มีอาการป่วยและมีความเหมาะสมสำหรับการรักษา' การทดสอบการเปลี่ยนรูปนั้นมีผลต่อประชากร แต่เนื่องจากเราได้ จำกัด ประชากรให้เหมาะกับการรักษาจึงเป็นการทดสอบแบบสุ่ม การอ้างอิง: [1] การทดสอบการเปลี่ยนรูปของฟิลิปที่ดี: คู่มือปฏิบัติเพื่อทดสอบวิธีการทดสอบสมมติฐานอีกครั้ง [2] Eugene Edgington และ Patric Onghena การทดสอบการสุ่ม [3] Michael Ernst, วิธีการเรียงสับเปลี่ยน: พื้นฐานสำหรับการอนุมานที่แน่นอน

5
ความแตกต่างระหว่างคำว่า 'การกระจายแบบร่วม' และ 'การกระจายแบบหลายตัวแปร' หรือไม่?
ฉันกำลังเขียนเกี่ยวกับการใช้ 'การแจกแจงความน่าจะเป็นร่วม' สำหรับผู้ชมที่มีแนวโน้มที่จะเข้าใจ 'การกระจายหลายตัวแปร' ดังนั้นฉันจึงพิจารณาใช้ในภายหลัง อย่างไรก็ตามฉันไม่ต้องการคลายความหมายขณะทำสิ่งนี้ Wikipediaดูเหมือนจะบ่งบอกว่าสิ่งเหล่านี้เป็นคำพ้องความหมาย ที่พวกเขา? ถ้าไม่ทำไมล่ะ

3
จำนวนเลเยอร์ขั้นต่ำในเครือข่ายประสาทลึก
เราจะเริ่มจำแนกประเภทเครือข่ายประสาทหลายชั้นเป็นเครือข่ายประสาทลึกหรือในอีกทางหนึ่ง 'จำนวนชั้นต่ำสุดในเครือข่ายประสาทลึกคืออะไร'

2
ข้อผิดพลาด Bayes คืออะไรในการเรียนรู้ของเครื่อง?
http://www.deeplearningbook.org/contents/ml.htmlหน้า 116 อธิบายข้อผิดพลาดของ Bayes ดังต่อไปนี้ โมเดลอุดมคติคือ oracle ที่รู้การกระจายความน่าจะเป็นจริงที่สร้างข้อมูล แม้รูปแบบดังกล่าวจะยังคงเกิดข้อผิดพลาดในปัญหามากมายเนื่องจากอาจมีสัญญาณรบกวนในการกระจาย ในกรณีของการเรียนรู้ภายใต้การดูแลการทำแผนที่จาก x ถึง y อาจจะสุ่มโดยเนื้อแท้หรือ y อาจเป็นฟังก์ชันที่กำหนดขึ้นซึ่งเกี่ยวข้องกับตัวแปรอื่นนอกเหนือจากที่รวมอยู่ใน x ข้อผิดพลาดที่เกิดขึ้นจากการพยากรณ์ทำนายจากการแจกแจงจริง p (x, y) เรียกว่าข้อผิดพลาด Bayes คำถาม โปรดอธิบายข้อผิดพลาด Bayes อย่างสังหรณ์ใจ? แตกต่างจากข้อผิดพลาดลดลงไม่ได้อย่างไร ฉันจะพูดว่า error error = Bias + Variance + Bayes ได้ไหม? ความหมายของ "y อาจเป็นแบบสุ่มโดยเนื้อแท้" คืออะไร?

2
Wolfram Mathworld ทำผิดที่อธิบายการแจกแจงความน่าจะเป็นแบบแยกโดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?
โดยปกติการแจกแจงความน่าจะเป็นเหนือตัวแปรที่ไม่ต่อเนื่องนั้นถูกอธิบายโดยใช้ฟังก์ชันความน่าจะเป็นมวล (PMF): เมื่อทำงานกับตัวแปรสุ่มต่อเนื่องเราจะอธิบายการแจกแจงความน่าจะเป็นโดยใช้ฟังก์ชันความหนาแน่นของความน่าจะเป็น (PDF) แทนที่จะเป็นฟังก์ชันมวลความน่าจะเป็น - การเรียนรู้อย่างลึกซึ้งโดย Goodfellow, Bengio และ Courville อย่างไรก็ตามWolfram Mathworldใช้ PDF เพื่ออธิบายการแจกแจงความน่าจะเป็นผ่านตัวแปรที่ไม่ต่อเนื่อง: นี่เป็นความผิดพลาดหรือไม่? หรือมันไม่สำคัญอะไร

1
ชื่อของค่าเฉลี่ยของค่าที่มากที่สุดและน้อยที่สุดในชุดข้อมูลที่กำหนดคืออะไร?
คุณเรียกค่าเฉลี่ยเชิงสถิติที่คำนวณจากสุดขั้วบนและล่างในชุดข้อมูลใด ๆ ตัวอย่างเช่นหากคุณมีชุด: { -2, 0 , 8, 9, 1, 50, -2, 6} สุดขีดบนของชุดนี้อยู่และรุนแรงที่ต่ำกว่า50 -2ดังนั้นค่าเฉลี่ยของความสุดขั้วจะเป็น(-2 + 50 / 2) = 48/2 = 24 มีคำสำหรับค่าเฉลี่ยทางสถิติแบบนี้หรือไม่?

6
Nitpicking เกี่ยวกับการใช้งาน / passive ของ“ correlated”
ฉันลังเลที่จะถามคำถามนี้ที่สถิติ StackExchange หรือในภาษาศาสตร์ / ภาษาอังกฤษ แต่ฉันคิดว่าอาจมีผู้ใช้ภาษามากกว่าที่นี่มากกว่าผู้ใช้สถิติที่เข้าใจในฟอรัมอื่น;) ฉันมักจะอ่านรายงานที่พูดถึงความสัมพันธ์เป็นคำกริยาในเสียงที่ใช้งานอยู่เช่นเดียวกับใน "เราก็มีความสัมพันธ์ A กับ B และพบว่า ... " สำหรับฉันคำกริยานี้มีความหมายเฉพาะในเสียงเฉื่อยเฉยเช่นเมื่อพูดเช่น "เราพบว่า A และ B มีความสัมพันธ์อย่างมีนัยสำคัญ" ฉันอาจจะผิดที่สิ่งนี้ถือเป็นเสียงที่ใช้งานได้จริงกับการโต้ตอบทางไวยากรณ์ แต่สิ่งที่ฉันอธิบายคือความแตกต่างระหว่างการทำอะไรบางอย่างกับ A และ B เช่นที่พวกเขาแต่ละคนจบลงเปลี่ยนไปเมื่อเทียบกับการคำนวณตัวแปรที่สาม แน่นอนหนึ่งสามารถลดความสัมพันธ์อย่างแข็งขันสองตัวแปร แต่ดูเหมือนว่าฉัน "สัมพันธ์" พวกเขาแทนที่จะอ้างถึงสิ่งที่ใช้งานอยู่เพียงแค่ใช้เป็นชวเลขเพื่อตรวจสอบว่ามีความสัมพันธ์ที่สำคัญอยู่! ฉันผิดหรือเปล่า? มันมีเหตุผลอย่างอื่นหรือไม่ที่จะบอกว่าคุณ [มีความสัมพันธ์อย่างแข็งขันกับ A กับ B]?

3
คำจำกัดความของตระกูลของการแจกแจง?
ตระกูลการแจกแจงมีคำจำกัดความทางสถิติที่แตกต่างจากในสาขาอื่นหรือไม่? โดยทั่วไปแล้วตระกูลของเส้นโค้งคือชุดของเส้นโค้งซึ่งแต่ละชุดจะได้รับจากฟังก์ชั่นหรือ parametrization ซึ่งพารามิเตอร์หนึ่งตัวหรือมากกว่านั้นแตกต่างกันไป ครอบครัวดังกล่าวจะใช้สำหรับตัวอย่างเช่นในการอธิบายลักษณะของชิ้นส่วนอิเล็กทรอนิกส์ สำหรับสถิติตระกูลตามแหล่งเดียวคือผลลัพธ์ของการเปลี่ยนแปลงพารามิเตอร์รูปร่าง แล้วเราจะเข้าใจได้อย่างไรว่าการแจกแจงแกมม่านั้นมีพารามิเตอร์รูปร่างและขนาดและมีเพียงการกระจายแกมม่าทั่วไปเท่านั้นที่มีอยู่นอกจากนี้พารามิเตอร์ตำแหน่ง? สิ่งนี้ทำให้ครอบครัวเป็นผลมาจากการเปลี่ยนพารามิเตอร์ตำแหน่งที่ตั้งหรือไม่ ตามที่ @whuber ความหมายของครอบครัวนั้นโดยปริยาย"พารามิเตอร์" ของครอบครัวนั้นเป็นแผนที่ต่อเนื่องจากเซตย่อยของℝ nโดยมีโทโพโลยีปกติเข้าสู่พื้นที่ของการกระจายซึ่งเป็นภาพครอบครัวนั้นnn^n ครอบครัวที่ใช้ภาษาง่าย ๆ คืออะไรสำหรับการแจกแจงเชิงสถิติ? คำถามเกี่ยวกับความสัมพันธ์ระหว่างคุณสมบัติทางสถิติของการแจกแจงจากตระกูลเดียวกันได้สร้างความขัดแย้งอย่างมากสำหรับคำถามที่แตกต่างดังนั้นมันจึงคุ้มค่าที่จะสำรวจความหมาย ว่านี่ไม่ใช่คำถามง่าย ๆ ที่เกิดจากการใช้ในวลีexponential familyซึ่งไม่มีส่วนเกี่ยวข้องกับตระกูลของ curves แต่เกี่ยวข้องกับการเปลี่ยนรูปแบบ PDF ของการแจกแจงโดยการเปลี่ยนพารามิเตอร์ใหม่ไม่เพียง แต่พารามิเตอร์ แต่ยังทดแทนหน้าที่ของตัวแปรสุ่มอิสระ

3
“ เครื่องจักร” ใน“ สนับสนุนเครื่องเวกเตอร์” และ“ เครื่อง จำกัด Boltzmann” หมายความว่าอะไร
ทำไมพวกเขาถึงเรียกว่า "เครื่องจักร" มีที่มาของคำว่า "เครื่องจักร" ที่ใช้ในบริบทนี้หรือไม่? (เช่นชื่อ "การเขียนโปรแกรมเชิงเส้น" อาจสร้างความสับสน แต่เรารู้ว่าทำไมเรียกว่า "การเขียนโปรแกรม")

4
คำศัพท์“ -iles” สำหรับครึ่งบนเปอร์เซ็นต์
ด้านบน 25% เป็นควอไทล์ชั้นนำ 10% แรกสุดคือช่วงชั้นสูงสุด 1% แรกคือเปอร์เซ็นต์ไทล์อันดับสูงสุด มีค่าเทียบเท่า 0.5% อันดับต้น ๆ เช่น 1-in-200 หรือไม่


1
"ทฤษฎีบทการวิเคราะห์ปัจจัยพื้นฐาน" นำไปใช้กับ PCA อย่างไรหรือมีการกำหนดโหลด PCA อย่างไร
ขณะนี้ฉันกำลังผ่านชุดภาพนิ่งที่ฉันมีสำหรับ "การวิเคราะห์ปัจจัย" (PCA เท่าที่ฉันจะบอกได้) "ทฤษฎีบทพื้นฐานของการวิเคราะห์ปัจจัย" ซึ่งอ้างว่าเมทริกซ์สหสัมพันธ์ของข้อมูลที่เข้าสู่การวิเคราะห์ ( ) สามารถกู้คืนได้โดยใช้เมทริกซ์ของปัจจัยการโหลด ( ):RR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top อย่างไรก็ตามเรื่องนี้ทำให้ฉันสับสน ใน PCA เมทริกซ์ของ "factor loadings" นั้นได้รับจากเมทริกซ์ของ eigenvector ของความแปรปรวนร่วม / เมทริกซ์สหสัมพันธ์ของข้อมูล (เนื่องจากเราสมมติว่าข้อมูลนั้นได้มาตรฐานพวกมันเหมือนกัน) โดยแต่ละ eigenvector จะถูกปรับ ความยาวหนึ่ง เมทริกซ์นี้เป็นมุมฉากจึงซึ่งเป็นโดยทั่วไปไม่เท่ากับ\ BF RA A⊤= ฉันAA⊤=ผม\bf AA^\top = IRR\bf R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.