คำถามติดแท็ก definition

แท็กนี้ระบุคำถามเกี่ยวกับคำจำกัดความของคำศัพท์ทางสถิติ ใช้แท็กทั่วไป [คำศัพท์] สำหรับคำถามเกี่ยวกับการพูดจาเชิงสถิติที่ไม่เฉพาะเจาะจงเกี่ยวกับคำจำกัดความ

3
การกระจายคืออะไร
ฉันรู้ความน่าจะเป็นและสถิติน้อยมากและฉันต้องการเรียนรู้ ฉันเห็นคำว่า "การกระจาย" ที่ใช้ทั่วสถานที่ในบริบทที่แตกต่างกัน ตัวอย่างเช่นตัวแปรสุ่มไม่ต่อเนื่องมี "การแจกแจงความน่าจะเป็น" ฉันรู้ว่านี่คืออะไร ตัวแปรสุ่มต่อเนื่องมีฟังก์ชั่นความหนาแน่นของความน่าจะเป็นแล้วสำหรับx∈Rx∈Rx\in\mathbb{R}ที่หนึ่งจากเพื่อของฟังก์ชั่นความหนาแน่นของความน่าจะเป็นฟังก์ชั่นการแจกแจงสะสมประเมินx−∞−∞-\inftyxxxxxx และชัดเจนเพียง "ฟังก์ชันการแจกแจง" นั้นมีความหมายเหมือนกันกับ "ฟังก์ชันการแจกแจงสะสม" อย่างน้อยเมื่อพูดถึงตัวแปรสุ่มแบบต่อเนื่อง (คำถาม: พวกมันมีความหมายเหมือนกันเสมอหรือไม่) แล้วมีการแจกแจงที่โด่งดังมากมาย กระจายการกระจาย ฯลฯ แต่อะไรคือการกระจาย ? มันเป็นฟังก์ชั่นการแจกแจงสะสมของตัวแปรสุ่มหรือไม่? หรือฟังก์ชันความหนาแน่นของความน่าจะเป็นของตัวแปรสุ่มΓΓ\Gammaχ2χ2\chi^2ΓΓ\GammaΓΓ\GammaΓΓ\Gamma แต่จากนั้นการแจกแจงความถี่ของชุดข้อมูล จำกัด จะปรากฏเป็นฮิสโตแกรม เรื่องสั้นสั้น: ในความน่าจะเป็นและสถิติความหมายของคำว่า "การกระจาย" คืออะไร? ฉันรู้คำจำกัดความของการแจกแจงในวิชาคณิตศาสตร์ (องค์ประกอบของการเว้นวรรคคู่ของการรวบรวมฟังก์ชั่นการทดสอบที่มีโทโพโลยีขีด จำกัด แบบอุปนัย) แต่ไม่ใช่ความน่าจะเป็นและสถิติ

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
ความแตกต่างระหว่างคำว่า 'การกระจายแบบร่วม' และ 'การกระจายแบบหลายตัวแปร' หรือไม่?
ฉันกำลังเขียนเกี่ยวกับการใช้ 'การแจกแจงความน่าจะเป็นร่วม' สำหรับผู้ชมที่มีแนวโน้มที่จะเข้าใจ 'การกระจายหลายตัวแปร' ดังนั้นฉันจึงพิจารณาใช้ในภายหลัง อย่างไรก็ตามฉันไม่ต้องการคลายความหมายขณะทำสิ่งนี้ Wikipediaดูเหมือนจะบ่งบอกว่าสิ่งเหล่านี้เป็นคำพ้องความหมาย ที่พวกเขา? ถ้าไม่ทำไมล่ะ

1
คำจำกัดความที่แม่นยำของ“ Heywood Case” คืออะไร?
ฉันใช้คำว่า "Heywood Case" ค่อนข้างไม่เป็นทางการเพื่ออ้างถึงสถานการณ์ที่ออนไลน์ 'การตอบสนองที่ จำกัด ' การประเมินความแปรปรวนซ้ำแล้วซ้ำเล่าได้กลายเป็นค่าลบเนื่องจากปัญหาความแม่นยำเชิงตัวเลข (ฉันใช้ตัวแปรของวิธีของ Welford เพื่อเพิ่มข้อมูลและลบข้อมูลเก่า) ฉันรู้สึกว่ามันใช้กับสถานการณ์ใด ๆ ที่การประมาณค่าความแปรปรวนกลายเป็นลบทั้งเนื่องจากข้อผิดพลาดเชิงตัวเลขหรือข้อผิดพลาดในการสร้างแบบจำลอง สับสนโดยการใช้คำของฉัน การค้นหา google ไม่ได้ผลมากนักนอกเหนือจากที่ใช้ในการวิเคราะห์ปัจจัยและดูเหมือนจะอ้างถึงผลที่ตามมาของการประเมินความแปรปรวนเชิงลบ คำจำกัดความที่แม่นยำคืออะไร แล้วเฮย์วู้ดดั้งเดิมคือใคร?

2
ตัวอย่างของสถิติที่ไม่เป็นอิสระจากการกระจายตัวของตัวอย่าง?
นี่คือคำจำกัดความของสถิติในวิกิพีเดีย ทฤษฎีทางสถิติกำหนดสถิติว่าเป็นฟังก์ชันของตัวอย่างที่ฟังก์ชันนั้นมีความเป็นอิสระจากการแจกตัวอย่าง นั่นคือฟังก์ชั่นสามารถระบุไว้ก่อนที่จะตระหนักถึงข้อมูล คำว่าสถิติใช้สำหรับทั้งฟังก์ชันและค่าของฟังก์ชันในตัวอย่างที่กำหนด ฉันคิดว่าฉันเข้าใจคำจำกัดความส่วนใหญ่นี้อย่างไรก็ตามส่วน - ที่ฟังก์ชันมีความเป็นอิสระจากการแจกแจงตัวอย่างฉันไม่สามารถแยกแยะได้ ความเข้าใจเกี่ยวกับสถิติของฉันจนถึงตอนนี้ ตัวอย่างคือชุดของความเข้าใจของจำนวนการบางอย่างอิสระกระจายเหมือนกัน (IID) ตัวแปรสุ่มที่มีการแจกแจงแบบ F (10 ความเข้าใจของการโยนลูกเต๋ายุติธรรมด้าน 20, 100 ความเข้าใจ 5 ม้วนลูกเต๋ายุติธรรม 6 ด้านที่ สุ่ม 100 คนจากประชากร) ฟังก์ชั่นที่มีโดเมนเป็นชุดนั้นและมีช่วงที่เป็นตัวเลขจริง (หรือบางทีมันอาจจะสามารถผลิตสิ่งอื่น ๆ เช่นเวกเตอร์หรือวัตถุทางคณิตศาสตร์อื่น ๆ ... ) จะได้รับการพิจารณาสถิติ เมื่อฉันคิดถึงตัวอย่างค่าเฉลี่ยมัธยฐานความแปรปรวนทั้งหมดจะสมเหตุสมผลในบริบทนี้ มันเป็นฟังก์ชั่นในชุดของการรับรู้ (การวัดความดันโลหิตจากตัวอย่างแบบสุ่ม) ฉันยังสามารถดูวิธีการรูปแบบการถดถอยเชิงเส้นอาจจะถือว่าเป็นสถิติที่yi=α+β⋅xiyi=α+β⋅xiy_{i} = \alpha + \beta \cdot x_{i} - นี้ไม่ได้เป็นเพียงฟังก์ชั่นในชุดของความเข้าใจหรือไม่? ที่ฉันสับสน สมมติว่าความเข้าใจของฉันจากด้านบนถูกต้องฉันไม่สามารถเข้าใจได้ว่าฟังก์ชันใดที่อาจไม่เป็นอิสระจากการแจกแจงตัวอย่าง ฉันพยายามนึกตัวอย่างเพื่อให้เข้าใจ แต่ก็ไม่มีโชค ความเข้าใจใด ๆ …

1
"ทฤษฎีบทการวิเคราะห์ปัจจัยพื้นฐาน" นำไปใช้กับ PCA อย่างไรหรือมีการกำหนดโหลด PCA อย่างไร
ขณะนี้ฉันกำลังผ่านชุดภาพนิ่งที่ฉันมีสำหรับ "การวิเคราะห์ปัจจัย" (PCA เท่าที่ฉันจะบอกได้) "ทฤษฎีบทพื้นฐานของการวิเคราะห์ปัจจัย" ซึ่งอ้างว่าเมทริกซ์สหสัมพันธ์ของข้อมูลที่เข้าสู่การวิเคราะห์ ( ) สามารถกู้คืนได้โดยใช้เมทริกซ์ของปัจจัยการโหลด ( ):RR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top อย่างไรก็ตามเรื่องนี้ทำให้ฉันสับสน ใน PCA เมทริกซ์ของ "factor loadings" นั้นได้รับจากเมทริกซ์ของ eigenvector ของความแปรปรวนร่วม / เมทริกซ์สหสัมพันธ์ของข้อมูล (เนื่องจากเราสมมติว่าข้อมูลนั้นได้มาตรฐานพวกมันเหมือนกัน) โดยแต่ละ eigenvector จะถูกปรับ ความยาวหนึ่ง เมทริกซ์นี้เป็นมุมฉากจึงซึ่งเป็นโดยทั่วไปไม่เท่ากับ\ BF RA A⊤= ฉันAA⊤=ผม\bf AA^\top = IRR\bf R

1
Confounder - คำจำกัดความ
ตามที่เอ็มแคทซ์ในหนังสือของเขาวิเคราะห์หลายตัวแปร (มาตรา 1.2, หน้า 6), " ปัจจัยรบกวนมีความเกี่ยวข้องกับปัจจัยเสี่ยงที่เกี่ยวข้องและเหตุผลเพื่อผล. " ทำไมต้องปัจจัยรบกวนจะเหตุผลที่เกี่ยวข้องกับผล? มันจะเพียงพอหรือไม่ที่ผู้สับสนจะเชื่อมโยงกับผลลัพธ์?

2
คุณปฏิเสธสมมติฐานว่างเมื่อหรือหรือไม่
นี่เป็นเพียงคำจำกัดความหรือการประชุมอย่างชัดเจนและแทบไม่มีความสำคัญในทางปฏิบัติ หากถูกตั้งค่าเป็นค่าดั้งเดิมที่ 0.05 จะมีค่าเป็น0.0500000000000 ... ถือว่ามีนัยสำคัญทางสถิติหรือไม่? กฎในการกำหนดนัยสำคัญทางสถิติมักถือว่าเป็นหรือไม่αα\alphapppp&lt;αp&lt;αp < \alphap≤αp≤αp \leq \alpha

6
อะไรคือความแตกต่างระหว่างประสิทธิผลและประสิทธิผลในการพิจารณาประโยชน์ของการบำบัดด้วย 'A' โดยมีเงื่อนไข 'B'
บริบทของคำถามนี้อยู่ในกรอบของสุขภาพคือดูที่การรักษาหนึ่งหรือหลายวิธีในการรักษาสภาพ ปรากฏว่าแม้นักวิจัยที่น่านับถือก็ยังสับสนในเรื่องประสิทธิภาพและประสิทธิผลของการใช้คำศัพท์ เราจะนึกถึงประสิทธิภาพและประสิทธิผลในวิธีที่ช่วยขจัดความสับสนได้อย่างไร การออกแบบการศึกษาแบบใดที่เหมาะสมที่สุดในการพิจารณาผลลัพธ์ทั้งสองประเภท มีวารสารสิ่งพิมพ์หนังสือหรือพจนานุกรมทางเว็บใด ๆ ที่อาจช่วยฉันได้หรือไม่

2
ตัวดำเนินการ (x) หมายถึงอะไร
ฉันได้เห็นตัวการทุกหนทุกแห่งในการทบทวนวรรณกรรมที่ฉันทำกับ Causality (ดูตัวอย่างเช่นรายการวิกิพีเดียนี้ ) อย่างไรก็ตามฉันไม่สามารถหาคำจำกัดความที่เป็นทางการและทั่วไปของโอเปอเรเตอร์นี้ได้do ( x )do(x)do(x) ใครสามารถชี้ให้ฉันอ้างอิงที่ดีเกี่ยวกับเรื่องนี้? ฉันสนใจคำจำกัดความทั่วไปมากกว่าการตีความในการทดสอบเฉพาะ

2
Thompson Sampling ในเงื่อนไขของคนธรรมดาคืออะไร
ฉันไม่สามารถเข้าใจThompson Samplingและวิธีการทำงาน ฉันอ่านเกี่ยวกับ Multi Arm Bandit และหลังจากอ่านอัลกอริทึมผูกมัดความเชื่อมั่นบนข้อความจำนวนมากชี้ให้เห็นว่า Thompson Sampling ทำงานได้ดีกว่า UCB Thompson Sampling ในแง่ของคนธรรมดาหรือง่ายๆคืออะไร? อย่าลังเลที่จะให้บทความอ้างอิงเพื่อความเข้าใจเพิ่มเติม

2
“ การแปรเปลี่ยนแบบไม่แปรเปลี่ยน” หมายถึงอะไรในบริบทของเครือข่ายประสาทเทียมที่ทำการรับรู้ภาพ
ฉันได้เห็นคำว่า "การเปลี่ยนแปลงค่าคงที่" ในเวอร์ชันของภารกิจการรับรู้หลักของ MNIST มันหมายความว่าอะไร?

3
ความหมายและขอบเขตของแบบจำลองการถดถอย
คำถามง่ายๆที่น่าอาย - แต่ดูเหมือนว่ายังไม่ได้ถามคำถามเกี่ยวกับ Cross Validated มาก่อน: คำจำกัดความของตัวแบบการถดถอยคืออะไร? นอกจากนี้ยังมีคำถามสนับสนุน อะไรคือสิ่งที่ไม่ได้ตัวแบบการถดถอยหรือไม่? สำหรับเรื่องหลังนั้นฉันสนใจตัวอย่างที่ยุ่งยากซึ่งคำตอบไม่ชัดเจนในทันทีเช่น ARIMA หรือ GARCH

2
ระเบียบและการทำให้เป็นมาตรฐานคืออะไร
ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=&gt; พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method =&gt; ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้) ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้: คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ? เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง? ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.