คำถามติดแท็ก degrees-of-freedom

คำว่า "องศาอิสระ" ใช้เพื่ออธิบายจำนวนค่าในการคำนวณขั้นสุดท้ายของสถิติที่มีอิสระที่จะแตกต่างกันไป ใช้สำหรับ "องศาอิสระที่มีประสิทธิผล" ด้วย

11
จะเข้าใจองศาอิสระได้อย่างไร?
จากWikipediaมีการตีความสามระดับของอิสรภาพในสถิติ: ในสถิติจำนวนองศาความเป็นอิสระคือจำนวนของค่าในการคำนวณขั้นสุดท้ายของสถิติที่สามารถเปลี่ยนแปลงได้ฟรี การประมาณค่าพารามิเตอร์ทางสถิติอาจขึ้นอยู่กับจำนวนข้อมูลหรือข้อมูลที่แตกต่างกัน จำนวนชิ้นส่วนข้อมูลอิสระที่เข้าสู่การประมาณค่าพารามิเตอร์เรียกว่า degree of freedom (df) โดยทั่วไปแล้วองศาอิสระของการประมาณค่าพารามิเตอร์จะเท่ากับจำนวนคะแนนอิสระที่เข้าไปในการประมาณลบด้วยจำนวนพารามิเตอร์ที่ใช้เป็นขั้นตอนกลางในการประมาณค่าพารามิเตอร์ของตัวเอง (ซึ่งในความแปรปรวนตัวอย่าง) หนึ่งเนื่องจากค่าเฉลี่ยตัวอย่างเป็นเพียงขั้นตอนกลางเท่านั้น) ศาสตร์องศาอิสระคือมิติของโดเมนของเวกเตอร์สุ่มหรือหลักจำนวนขององค์ประกอบ 'ฟรี': วิธีหลายส่วนประกอบจะต้องมีการรู้จักมาก่อนเวกเตอร์จะถูกกำหนดอย่างเต็มที่ คำที่เป็นตัวหนาคือสิ่งที่ฉันไม่ค่อยเข้าใจ ถ้าเป็นไปได้สูตรทางคณิตศาสตร์บางอย่างจะช่วยอธิบายแนวคิด การตีความทั้งสามนี้เห็นด้วยกันหรือไม่

2
องศาอิสระในการทดสอบ Hosmer-Lemeshow
สถิติการทดสอบสำหรับการทดสอบHosmer-Lemeshow (HLT) สำหรับความดีของพอดี (GOF) ของแบบจำลองการถดถอยโลจิสติกถูกกำหนดดังนี้: ตัวอย่างจะถูกแบ่งออกเป็น deciles, D_1, D_2, \ dots, D_ {d} , ต่อหนึ่ง decile คำนวณปริมาณต่อไปนี้:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , คือจำนวนที่สังเกตได้ของจำนวนคดีที่เป็นบวกใน decile DdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)คือจำนวนที่สังเกตได้จากจำนวนลบในช่วงDdDdD_d ; E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_iคือจำนวนคดีโดยประมาณที่เป็นบวกในช่วงDdDdD_d ; E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)คือจำนวนผู้ติดลบโดยประมาณในช่วงDdDdD_d ; …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
การประมาณ Satterthwaite vs. Kenward-Roger สำหรับองศาอิสระในโมเดลผสม
lmerTestแพคเกจให้anova()ฟังก์ชั่นหลากหลายรูปแบบเชิงเส้นที่มีตัวเลือกประมาณ Satterthwaite ของ (เริ่มต้น) หรือ Kenward-Roger ขององศาอิสระ (DF) ความแตกต่างระหว่างสองแนวทางนี้คืออะไร? เลือกได้เมื่อใด

2
ควรเปรียบเทียบแบบจำลองเอฟเฟกต์ผสมและหรือตรวจสอบความถูกต้องอย่างไร
รุ่นเอฟเฟกต์ผสม (เชิงเส้น) เป็นอย่างไรเมื่อเปรียบเทียบกับแบบอื่น ฉันรู้ว่าสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นได้ แต่วิธีนี้ไม่ได้ผลหากแบบจำลองหนึ่งไม่ใช่ 'ส่วนย่อย' ของแบบจำลองอื่นที่ถูกต้องหรือไม่ การประมาณของตัวแบบ df นั้นตรงไปตรงมาเสมอหรือไม่? จำนวนผลกระทบคงที่ + จำนวนองค์ประกอบความแปรปรวนโดยประมาณ? เราเพิกเฉยต่อการประมาณผลกระทบแบบสุ่มหรือไม่? สิ่งที่เกี่ยวกับการตรวจสอบ? ความคิดแรกของฉันคือการตรวจสอบข้าม แต่การพับแบบสุ่มอาจไม่ทำงานเนื่องจากโครงสร้างของข้อมูล วิธีการของ 'ปล่อยให้หนึ่งวิชา / กลุ่มออก' เหมาะสมหรือไม่? สิ่งที่เกี่ยวกับการออกจากการสังเกตหนึ่ง Mallows Cp สามารถตีความได้ว่าเป็นการประมาณการข้อผิดพลาดในการทำนายแบบจำลอง การเลือกแบบจำลองผ่าน AIC พยายามลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุด (ดังนั้น Cp และ AIC ควรเลือกแบบจำลองเดียวกันหากข้อผิดพลาดคือ Gaussian ฉันเชื่อ) นี่หมายความว่า AIC หรือ Cp สามารถใช้เพื่อเลือกโมเดลเอฟเฟกต์เชิงเส้น 'ที่ดีที่สุด' จากการรวบรวมโมเดลที่ไม่ซ้อนกันบางส่วนในแง่ของการคาดการณ์ข้อผิดพลาดหรือไม่? (หากพวกเขาสอดคล้องกับข้อมูลเดียวกัน) BIC ยังคงมีแนวโน้มที่จะเลือกรูปแบบ 'ของจริง' ในบรรดาผู้สมัครหรือไม่? ฉันยังอยู่ภายใต้ความประทับใจว่าเมื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมผ่าน AIC …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
การกระจายตัวของความแตกต่างของการแจกแจงสองค่าคืออะไร
... และทำไม ? สมมติว่า , X 2เป็นตัวแปรสุ่มอิสระที่มีค่าเฉลี่ยμ 1 , μ 2และความแปรปรวนσ 2 1 , σ 2 2ตามลำดับ หนังสือสถิติพื้นฐานของฉันบอกฉันว่าการกระจายตัวของX 1 - X 2มีคุณสมบัติดังต่อไปนี้:X1X1X_1X2X2X_2μ1,μ2μ1,μ2\mu_1,\mu_2σ21,σ22σ12,σ22\sigma^2_1,\sigma^2_2X1−X2X1−X2X_1-X_2 E(X1−X2)=μ1−μ2E(X1−X2)=μ1−μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 สมมุติว่า , X 2 คือการแจกแจงแบบ t กับn 1 - 1 , n 2 - 2ดีกรีอิสระ การกระจายตัวของX 1 - X 2คืออะไร?X1X1X_1X2X2X_2n1−1n1−1n_1-1n2−2n2−2n_2-2X1−X2X1−X2X_1-X_2 คำถามนี้ได้รับการแก้ไข:คำถามเดิมคือ"อะไรคือองศาอิสระของความแตกต่างของการแจกแจงแบบสองจุด?" . mpiktas ได้ชี้ให้เห็นแล้วว่าสิ่งนี้ไม่สมเหตุสมผลเนื่องจากไม่ได้ถูกแจกแจงแบบ t …

4
“ ระดับอิสรภาพ” หมายถึงอะไรในเครือข่ายประสาทเทียม
ในหนังสือของบิชอป "การจำแนกรูปแบบและการเรียนรู้ของเครื่อง" ในหนังสือของบิชอปมันอธิบายถึงเทคนิคสำหรับการทำให้เป็นมาตรฐานในบริบทของเครือข่ายประสาท อย่างไรก็ตามฉันไม่เข้าใจย่อหน้าที่อธิบายว่าในระหว่างกระบวนการฝึกอบรมจำนวนองศาอิสระเพิ่มขึ้นพร้อมกับความซับซ้อนของแบบจำลอง คำพูดที่เกี่ยวข้องมีดังต่อไปนี้: ทางเลือกในการทำให้เป็นมาตรฐานในฐานะวิธีการควบคุมความซับซ้อนที่มีประสิทธิภาพของเครือข่ายคือขั้นตอนการหยุดก่อน การฝึกอบรมรูปแบบเครือข่ายที่ไม่เชิงเส้นนั้นสอดคล้องกับการลดฟังก์ชั่นข้อผิดพลาดซ้ำ ๆ ที่กำหนดตามส่วนของชุดข้อมูลการฝึกอบรม สำหรับอัลกอริธึมการปรับให้เหมาะสมจำนวนมากที่ใช้สำหรับการฝึกอบรมเครือข่ายเช่นการไล่ระดับสีแบบคอนจูเกตข้อผิดพลาดเป็นฟังก์ชันที่ไม่เพิ่มขึ้นของดัชนีการวนซ้ำ อย่างไรก็ตามข้อผิดพลาดที่วัดได้ด้วยความเคารพต่อข้อมูลอิสระโดยทั่วไปเรียกว่าชุดการตรวจสอบความถูกต้องมักจะแสดงการลดลงในตอนแรกตามด้วยการเพิ่มขึ้นเมื่อเครือข่ายเริ่มทำงานมากเกินไป การฝึกอบรมสามารถหยุดได้ที่จุดที่มีข้อผิดพลาดน้อยที่สุดในส่วนของชุดข้อมูลการตรวจสอบความถูกต้องตามที่ระบุในรูปที่ 5.12 เพื่อให้เครือข่ายมีประสิทธิภาพการทำงานที่ดีพฤติกรรมของเครือข่ายในกรณีนี้บางครั้งมีการอธิบายเชิงคุณภาพในแง่ของจำนวนองศาความมีประสิทธิภาพในเครือข่ายซึ่งจำนวนนี้เริ่มจากเล็กและเติบโตในระหว่างกระบวนการฝึกอบรมซึ่งสอดคล้องกับการเพิ่มขึ้นอย่างต่อเนื่องในประสิทธิภาพ ความซับซ้อนของรูปแบบ นอกจากนี้ยังกล่าวว่าจำนวนพารามิเตอร์เพิ่มขึ้นในระหว่างการฝึกอบรม ฉันสันนิษฐานว่าโดย "พารามิเตอร์" มันหมายถึงจำนวนน้ำหนักที่ควบคุมโดยหน่วยที่ซ่อนอยู่ของเครือข่าย บางทีฉันผิดเพราะน้ำหนักถูกป้องกันเพื่อเพิ่มขนาดโดยกระบวนการ normalization แต่พวกเขาไม่เปลี่ยนจำนวน มันอาจหมายถึงกระบวนการค้นหาหน่วยที่ซ่อนอยู่จำนวนมากหรือไม่? เสรีภาพในเครือข่ายประสาทคืออะไร พารามิเตอร์ใดเพิ่มขึ้นในระหว่างการฝึก?

2
นิยามลูกบาศก์ธรรมชาติสำหรับการถดถอย
ฉันกำลังเรียนรู้เกี่ยวกับเส้นโค้งจากหนังสือ "องค์ประกอบของการทำเหมืองข้อมูลการเรียนรู้เชิงสถิติการอนุมานและการทำนาย" โดย Hastie et al ฉันพบในหน้า 145 ว่าเส้นโค้งลูกบาศก์ธรรมชาติเป็นเส้นตรงเหนือขอบนอต มีKKKนอตξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_Kในเส้นโค้งและได้รับสิ่งต่อไปนี้เกี่ยวกับเส้นโค้งเช่นนี้ในหนังสือ คำถามที่ 1:เสรีภาพเพิ่มขึ้น 4 องศาอย่างไร ฉันไม่ได้รับส่วนนี้ คำถามที่ 2 : ในคำจำกัดความของเมื่อk = Kแล้วd K ( X ) = 0dk(X)dk(X)d_k(X)k=Kk=Kk=K . ผู้เขียนพยายามทำอะไรในสูตรนี้ สิ่งนี้ช่วยให้แน่ใจได้อย่างไรว่าเส้นโค้งนั้นเป็นเส้นตรงมากกว่านอตขอบdK(X)=00dK(X)=00d_K(X) = \frac 0 0

2
คำอธิบายสำหรับองศาอิสระที่ไม่ใช่จำนวนเต็มในการทดสอบ t กับผลต่างที่ไม่เท่ากัน
ขั้นตอนการทดสอบ SPSS รายงานการวิเคราะห์ 2 เมื่อเปรียบเทียบวิธีอิสระ 2 วิธีการวิเคราะห์หนึ่งที่มีความแปรปรวนเท่ากันและหนึ่งที่มีผลต่างไม่เท่ากัน องศาอิสระ (df) เมื่อถือว่าผลต่างเท่ากันนั้นถือเป็นค่าจำนวนเต็มเสมอ (และเท่ากับ n-2) df เมื่อความแปรปรวนที่เท่ากันจะไม่ถือว่าไม่ใช่จำนวนเต็ม (เช่น 11.467) และไม่มีที่ไหนใกล้ n-2 ฉันกำลังหาคำอธิบายเกี่ยวกับตรรกะและวิธีการที่ใช้ในการคำนวณ df ที่ไม่ใช่จำนวนเต็มเหล่านี้

2
รายงานองศาอิสระสำหรับ Welch t-test
เวลช์ t-test การแปรปรวนไม่เท่ากัน (หรือเรียกว่าเวลช์-Satterthwaite หรือเวลช์-Aspin) โดยทั่วไปมีองศาที่ไม่ใช่จำนวนเต็มของเสรีภาพ องศาความอิสระเหล่านี้จะถูกอ้างเมื่อรายงานผลการทดสอบได้อย่างไร? "มันเป็นเรื่องธรรมดาที่จะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดก่อนที่จะปรึกษาตารางมาตรฐาน t" ตามแหล่งต่าง ๆ * - ซึ่งสมเหตุสมผลตามทิศทางของการปัดเศษนี้เป็นแบบอนุรักษ์นิยม ** ซอฟต์แวร์ทางสถิติที่เก่ากว่าจะทำเช่นนี้เช่นกัน 6 ) และบางเครื่องคิดเลขออนไลน์ยังคงทำ หากมีการใช้ขั้นตอนนี้การรายงานระดับความอิสระที่โค้งมนจะเหมาะสม (แม้ว่าการใช้ซอฟต์แวร์ที่ดีกว่านั้นอาจเหมาะสมกว่า!) แต่แพ็คเกจที่ทันสมัยส่วนใหญ่ใช้ประโยชน์จากส่วนที่เป็นเศษส่วนดังนั้นในกรณีนี้ดูเหมือนว่าควรจะอ้างถึงส่วนที่เป็นเศษส่วน ฉันไม่เห็นว่าการอ้างถึงทศนิยมมากกว่าสองตำแหน่งนั้นเหมาะสมหรือไม่เนื่องจากการมีอิสระในระดับหนึ่งพันครั้งจะส่งผลกระทบเพียงเล็กน้อยต่อค่าp เมื่อมองไปรอบ ๆ Google scholar ฉันสามารถดูเอกสารที่อ้างถึง df เป็นจำนวนเต็มทศนิยมหนึ่งตำแหน่งหรือทศนิยมสองตำแหน่ง มีแนวทางใดบ้างเกี่ยวกับความแม่นยำในการใช้งาน? นอกจากนี้หากซอฟต์แวร์ใช้ส่วนที่เป็นเศษส่วนแบบเต็มควร df ที่ยกมาจะถูกปัดเศษลงตามจำนวนตัวเลขที่ต้องการ (เช่นถึง 1 dp หรือ→ 7เป็นจำนวนทั้งหมด) ตามความเหมาะสมกับการคำนวณแบบอนุรักษ์นิยม หรือตามที่ฉันคิดว่าเหมาะสมกว่าฉันปัดเศษตามอัตภาพ ( ใกล้ที่สุด ) ดังนั้น7.5845 ... → 7.6ถึง 1 dp …

1
AIC ของการถดถอยของสันเขา: องศาอิสระเทียบกับจำนวนพารามิเตอร์
ฉันต้องการคำนวณ AICc ของตัวแบบการถดถอยแนวสัน ปัญหาคือจำนวนพารามิเตอร์ สำหรับการถดถอยเชิงเส้นคนส่วนใหญ่แนะนำว่าจำนวนของพารามิเตอร์เท่ากับจำนวนของค่าสัมประสิทธิ์โดยประมาณพร้อมซิกม่า (ความแปรปรวนของข้อผิดพลาด) เมื่อพูดถึงการถดถอยของสันเขาฉันได้อ่านว่าร่องรอยของเมทริกซ์ของหมวก - ระดับความเป็นอิสระ (df) - นั้นถูกใช้เป็นจำนวนพารามิเตอร์ในสูตร AIC (เช่นที่นี่หรือที่นี่ ) ถูกต้องหรือไม่ ฉันสามารถใช้ df เพื่อคำนวณ AICc ได้หรือไม่ ฉันสามารถเพิ่ม +1 ลงในบัญชี df เพื่อดูความแปรปรวนข้อผิดพลาดได้หรือไม่

1
หลายระดับของการถดถอยเชิงเส้นแบบอิสระ
องศาอิสระในการถดถอยหลายครั้งเท่ากับโดยที่kคือจำนวนของตัวแปรยังไม่มีข้อความ- k - 1N−k−1N-k-1kkk ไม่ได้แก่ ตัวแปรการตอบสนอง (เช่นY )? ตัวอย่างเช่นในโมเดลY = B 0 + B 1 X 1 + B 2 X 2แล้วk = 3 (เช่น 1 df แต่ละรายการสำหรับY , X 1 , & X 2 ) หรือไม่kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2

1
สัญชาตญาณความเป็นอิสระของลาซโซ
Zou และคณะ "ใน" องศาอิสระ "ของเชือก" (2007) แสดงให้เห็นว่าจำนวนของค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์เป็นค่าประมาณที่เป็นกลางและสม่ำเสมอสำหรับองศาอิสระของเชือก ดูเหมือนว่าฉันจะต่อต้านได้ง่าย สมมติว่าเรามีรูปแบบการถดถอย (โดยที่ตัวแปรมีค่าเฉลี่ยเป็นศูนย์) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. สมมติว่า OLS ไม่ จำกัด ประเมินของเป็นβ O L S = 0.5 มันอาจตรงกับประมาณการ LASSO ที่ประมาณβสำหรับความรุนแรงที่ต่ำมากββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta สมมติต่อไปว่าประมาณการเชือกสำหรับความเข้มโทษโดยเฉพาะอย่างยิ่งเป็นβ L S S O , λ * = 0.4 ตัวอย่างเช่นλ ∗อาจเป็น "ดีที่สุด" λสำหรับชุดข้อมูลที่อยู่ในมือโดยใช้การตรวจสอบข้าม λ∗λ∗\lambda^*β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda หากฉันเข้าใจอย่างถูกต้องทั้งสองกรณีระดับความเป็นอิสระเท่ากับ 1 เนื่องจากทั้งสองครั้งมีค่าสัมประสิทธิ์การถดถอยที่ไม่ใช่ศูนย์ คำถาม: มาได้อย่างไรองศาอิสระในทั้งสองกรณีจะเหมือนกันแม้ว่าβ L S S …

3
ทดสอบสัมประสิทธิ์การถดถอยโลจิสติกโดยใช้
เรื่องย่อ:มีทฤษฎีทางสถิติใดบ้างที่สนับสนุนการใช้การแจกแจงแบบ (มีองศาอิสระตามส่วนเบี่ยงเบนส่วนที่เหลือ) สำหรับการทดสอบสัมประสิทธิ์การถดถอยโลจิสติกมากกว่าการแจกแจงแบบปกติมาตรฐานหรือไม่?ttt บางเวลาที่ผ่านมาฉันค้นพบว่าเมื่อปรับโมเดลการถดถอยโลจิสติกใน SAS PROC GLIMMIX ภายใต้การตั้งค่าเริ่มต้นสัมประสิทธิ์การถดถอยโลจิสติกจะถูกทดสอบโดยใช้การแจกแจงแบบแทนการแจกแจงแบบปกติมาตรฐาน 1นั่นคือ GLIMMIX รายงานคอลัมน์ที่มีอัตราส่วนβ 1 / √ttt11^1 (ซึ่งผมจะเรียกZในส่วนที่เหลือของคำถามนี้) แต่ยังมีรายงานว่า "องศาความเป็นอิสระ" คอลัมน์เช่นเดียวกับP-value ขึ้นอยู่กับสมมติฐานทีจัดจำหน่ายสำหรับZกับองศาอิสระ ขึ้นอยู่กับการเบี่ยงเบนที่เหลือ - นั่นคือองศาอิสระ = จำนวนการสังเกตทั้งหมดลบด้วยจำนวนพารามิเตอร์ ที่ด้านล่างของคำถามนี้ฉันให้รหัสและผลลัพธ์ใน R และ SAS สำหรับการสาธิตและการเปรียบเทียบ 2β^1/var(β^1)−−−−−−√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}zzzppptttzzz22^2 สิ่งนี้ทำให้ฉันสับสนเนื่องจากฉันคิดว่าสำหรับโมเดลเชิงเส้นแบบทั่วไปเช่นการถดถอยโลจิสติกไม่มีทฤษฎีทางสถิติที่จะสนับสนุนการใช้ -distribution ในกรณีนี้ แต่ฉันคิดว่าสิ่งที่เรารู้เกี่ยวกับกรณีนี้คือttt คือ "ปกติ" กระจายโดยปกติ;zzz การประมาณนี้อาจไม่ดีสำหรับตัวอย่างขนาดเล็ก อย่างไรก็ตามมันไม่สามารถสันนิษฐานได้ว่ามีการแจกแจงแบบtเราสามารถสมมติในกรณีของการถดถอยปกติzzzttt zzzttttttttt zzzttt ttt โดยทั่วไปมีการสนับสนุนจริง ๆ สำหรับสิ่งที่ GLIMMIX กำลังทำที่นี่นอกเหนือจากสัญชาตญาณที่อาจสมเหตุสมผลโดยทั่วไปหรือไม่ รหัส R: summary(glm(y …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.