คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

4
Shao ใช้ผลการตรวจสอบไขว้แบบลาก่อนออกเมื่อใด
ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้? การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM? การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA? การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )? เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่ เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression …

3
วิเคราะห์แปลง ACF และ PACF
ฉันต้องการดูว่าฉันอยู่ในเส้นทางที่ถูกต้องในการวิเคราะห์แปลง ACF และ PACF ของฉันหรือไม่: พื้นหลัง: (Reff: Philip Hans Franses, 1998) ในฐานะที่เป็นทั้ง ACF และ PACF แสดงค่าที่สำคัญฉันคิดว่ารูปแบบ ARMA จะตอบสนองความต้องการของฉัน ACF สามารถใช้ในการประเมิน MA-part, เช่น q-value, PACF สามารถใช้ในการประมาณ AR-part, เช่น p-value ในการประเมินรูปแบบการสั่งซื้อฉันดูที่ a.) ว่าค่า ACF นั้นออกมาตายเพียงพอหรือไม่ b.) ไม่ว่า ACF จะส่งสัญญาณการทำงานเกินกำหนดและ c.) หรือไม่ว่า ACF และ PACF แสดงยอดที่สำคัญและตีความได้อย่างง่ายดาย ACF และ PACF อาจแนะนำไม่เพียงรุ่นเดียว แต่หลายรุ่นที่ฉันต้องเลือกหลังจากพิจารณาเครื่องมือวินิจฉัยอื่น ๆ โดยที่ในใจฉันจะไปข้างหน้าและบอกว่าแบบจำลองที่ชัดเจนที่สุดน่าจะเป็น …

1
การเลือกรูปแบบที่มีการถดถอยโลจิสติก Firth
ในชุดข้อมูลขนาดเล็ก ( ) ที่ฉันทำงานกับหลายตัวแปรให้ฉันที่สมบูรณ์แบบการทำนาย / แยก ฉันจึงใช้การถดถอยโลจิสติก Firthเพื่อจัดการกับปัญหาn∼100n∼100n\sim100 หากฉันเลือกแบบจำลองที่ดีที่สุดโดยAICหรือBICฉันควรรวมคำว่าโทษ Firth ไว้ในความน่าจะเป็นเมื่อคำนวณเกณฑ์ข้อมูลเหล่านี้หรือไม่

2
การตรวจสอบความถูกต้องไขว้ (ข้อผิดพลาดทั่วไป) หลังจากการเลือกรูปแบบ
หมายเหตุ: เคสคือ n >> p ฉันกำลังอ่านองค์ประกอบของการเรียนรู้ทางสถิติและมีหลายสิ่งที่กล่าวถึงวิธี "ถูกต้อง" ในการตรวจสอบข้าม (เช่นหน้า 60, หน้า 245) โดยเฉพาะคำถามของฉันคือวิธีการประเมินรุ่นสุดท้าย (ไม่มีชุดทดสอบแยก) โดยใช้ k-fold CV หรือ bootstrapping เมื่อมีการค้นหารูปแบบ? ดูเหมือนว่าในกรณีส่วนใหญ่ (อัลกอริทึม ML ที่ไม่มีการเลือกคุณสมบัติแบบฝัง) จะมี ขั้นตอนการเลือกคุณสมบัติ ขั้นตอนการเลือกพารามิเตอร์ meta (เช่นพารามิเตอร์ต้นทุนใน SVM) คำถามของฉัน: ฉันได้เห็นแล้วว่าขั้นตอนการเลือกคุณสมบัติสามารถทำได้เมื่อการเลือกคุณสมบัติเสร็จสิ้นในชุดฝึกอบรมทั้งหมด จากนั้นใช้ k-fold CV อัลกอริทึมการเลือกคุณลักษณะจะใช้ในแต่ละเท่า (รับคุณลักษณะที่แตกต่างกันซึ่งอาจเลือกได้ในแต่ละครั้ง) และข้อผิดพลาดเฉลี่ย จากนั้นคุณจะใช้คุณสมบัติที่เลือกโดยใช้ข้อมูลทั้งหมด (ที่ถูกตั้งค่าไว้) เพื่อฝึกโหมดสุดท้าย แต่ใช้ข้อผิดพลาดจากการตรวจสอบความถูกต้องของข้อมูลเพื่อประเมินประสิทธิภาพในอนาคตของโมเดล ถูกต้องหรือไม่ เมื่อคุณใช้การตรวจสอบความถูกต้องไขว้กันเพื่อเลือกพารามิเตอร์โมเดลแล้วจะประเมินประสิทธิภาพของโมเดลได้อย่างไร? มันเป็นกระบวนการที่เหมือนกันกับ # 1 ข้างต้นหรือคุณควรใช้ CV CV …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

6
เมื่อใดที่จะวางเทอมจากตัวแบบการถดถอย
ใครสามารถให้คำแนะนำถ้าต่อไปนี้ทำให้รู้สึก: ฉันกำลังจัดการกับตัวแบบเชิงเส้นธรรมดาที่มีตัวทำนาย 4 ตัว ฉันอยู่ในใจทั้งสองว่าจะทิ้งคำที่สำคัญน้อยที่สุดหรือไม่ มันคือมากกว่า 0.05 เล็กน้อย ฉันโต้เถียงในความโปรดปรานของการปล่อยมันไปตามบรรทัดเหล่านี้: คูณการประมาณของคำนี้โดย (ตัวอย่าง) ช่วง interquartile ของข้อมูลตัวอย่างสำหรับตัวแปรนี้ให้ความหมายบางอย่างกับผลทางคลินิกที่ทำให้คำนี้มีรูปแบบโดยรวม . เนื่องจากตัวเลขนี้ต่ำมากโดยประมาณเท่ากับค่าทั่วไปภายในช่วงเวลาที่ตัวแปรสามารถใช้เมื่อทำการวัดในการตั้งค่าทางคลินิกฉันจึงเห็นว่ามันไม่ได้มีนัยสำคัญทางคลินิกและอาจถูกทิ้งเพื่อให้แบบจำลองที่น่าเชื่อถือยิ่งขึ้น แม้ว่าการดร็อปจะเป็นการลดการปรับpppเล็กน้อยR2R2R^2

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
การทำให้เป็นมาตรฐานจะมีประโยชน์หรือไม่ถ้าเราสนใจเฉพาะการสร้างแบบจำลองไม่ใช่ในการคาดการณ์?
การทำให้เป็นมาตรฐานจะมีประโยชน์ถ้าเราสนใจเพียงการประมาณ (และการตีความ) พารามิเตอร์โมเดลไม่ใช่การพยากรณ์หรือการทำนาย? ฉันเห็นว่าการทำให้เป็นปกติ / การตรวจสอบข้ามมีประโยชน์มากเพียงใดหากเป้าหมายของคุณคือการคาดการณ์ที่ดีเกี่ยวกับข้อมูลใหม่ แต่ถ้าคุณทำเศรษฐศาสตร์แบบดั้งเดิมและสิ่งที่คุณสนใจก็คือการประมาณ ? การตรวจสอบข้ามจะมีประโยชน์ในบริบทนั้นได้หรือไม่ ความยากลำบากทางแนวคิดที่ฉันต่อสู้คือเราสามารถคำนวณจากข้อมูลการทดสอบ แต่เราไม่สามารถคำนวณเพราะจริง\ betaเป็นไปตามคำนิยามที่ไม่เคยสังเกต (รับตามข้อสันนิษฐานที่ว่าแม้จะมีจริง\ betaนั่นคือเรารู้ว่าครอบครัวของแบบจำลองที่สร้างข้อมูล)ββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta สมมติว่าสูญเสียของคุณคือL(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert\ คุณเผชิญกับการแลกเปลี่ยนอคติแปรปรวนใช่ไหม? ดังนั้นในทางทฤษฎีคุณน่าจะใช้การปรับให้เป็นมาตรฐานได้ดีกว่า แต่คุณจะเลือกพารามิเตอร์การทำให้เป็นมาตรฐานได้อย่างไร? ฉันยินดีที่จะเห็นตัวอย่างเชิงตัวเลขอย่างง่ายของตัวแบบการถดถอยเชิงเส้นพร้อมค่าสัมประสิทธิ์β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)ซึ่งฟังก์ชันการสูญเสียของนักวิจัยคือ∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVertหรือแม้เพียงแค่(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 2 ในทางปฏิบัติเราสามารถใช้การตรวจสอบข้ามเพื่อปรับปรุงการสูญเสียที่คาดหวังในตัวอย่างเหล่านั้นได้อย่างไร แก้ไข : DJohnson ชี้ให้ฉันเห็นhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfซึ่งเกี่ยวข้องกับคำถามนี้ ผู้เขียนเขียนว่า เทคนิคการเรียนรู้ของเครื่อง ... เป็นวิธีที่มีระเบียบวินัยในการทำนาย Y^Y^\hat{Y}ซึ่ง …

2
วิธีการเลือกโครงสร้างแบบสุ่มและแบบคงที่ในโมเดลเชิงเส้นผสม
พิจารณาข้อมูลต่อไปนี้จากการออกแบบสองทางภายในวิชา: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 ฉันต้องการวิเคราะห์สิ่งนี้โดยใช้แบบจำลองเชิงเส้นผสม …

7
มาตรการของความซับซ้อนของแบบจำลอง
เราจะเปรียบเทียบความซับซ้อนของทั้งสองรุ่นด้วยจำนวนพารามิเตอร์เท่ากันได้อย่างไร แก้ไข 09/19 : เพื่อชี้แจงความซับซ้อนของแบบจำลองเป็นการวัดความยากในการเรียนรู้จากข้อมูลที่ จำกัด เมื่อทั้งสองรุ่นเหมาะสมกับข้อมูลที่มีอยู่อย่างเท่าเทียมกันโมเดลที่มีความซับซ้อนต่ำกว่าจะทำให้เกิดข้อผิดพลาดน้อยลงสำหรับข้อมูลในอนาคต เมื่อมีการใช้การประมาณค่านี้อาจไม่จริงเสมอไปทางเทคนิค แต่ก็ไม่เป็นไรถ้ามันมีแนวโน้มที่จะเป็นจริงในทางปฏิบัติ การประมาณค่าต่าง ๆ ให้มาตรการความซับซ้อนที่แตกต่างกัน

1
ความขัดแย้งในการเลือกรูปแบบ (AIC, BIC, เพื่ออธิบายหรือทำนาย)
หลังจากอ่าน Galit Shmueli "เพื่ออธิบายหรือทำนาย" (2010) ฉันรู้สึกสับสนกับความขัดแย้งที่เห็นได้ชัด มีสามสถานที่ AIC- เมื่อเทียบกับ BIC ตามทางเลือกรูปแบบ (ในตอนท้ายของหน้า 300 - จุดเริ่มต้นของ P 301..) ใส่เพียง AIC ควรจะใช้สำหรับการเลือกรูปแบบที่มีไว้สำหรับการคาดการณ์ในขณะที่ BIC ควรจะใช้สำหรับการเลือกรูปแบบการหาคำอธิบาย นอกจากนี้ (ไม่ใช่ในกระดาษด้านบน) เรารู้ว่าภายใต้เงื่อนไขบางอย่าง BIC เลือกรูปแบบที่แท้จริงในชุดของแบบจำลองที่มีตัวเลือก; รูปแบบที่แท้จริงคือสิ่งที่เราแสวงหาในการสร้างแบบจำลองที่อธิบาย (ตอนท้ายของหน้า 293) Simple arithmetics: AIC จะเลือกแบบจำลองที่มีขนาดใหญ่กว่า BIC สำหรับตัวอย่างที่มีขนาด 8 หรือใหญ่กว่า (ที่น่าพอใจln(n)>2ln(n)>2\text{ln}(n)>2เนื่องจากการปรับความซับซ้อนแตกต่างกันใน AIC กับ BIC) "true"รูปแบบ (เช่นรุ่นที่มี regressors ที่ถูกต้องและรูปแบบการทำงานที่ถูกต้อง แต่ค่าสัมประสิทธิ์ประมาณไม่สมบูรณ์) อาจจะไม่เป็นแบบที่ดีที่สุดในการทำนาย (หน้า 307.) …

4
การกำหนดฟังก์ชันการกระชับส่วนโค้งที่เหมาะสมที่สุดจากฟังก์ชันเชิงเส้น, เลขชี้กำลังและฟังก์ชันลอการิทึม
บริบท: จากคำถามเกี่ยวกับ Mathematics Stack Exchange (ฉันสามารถสร้างโปรแกรม)มีใครบางคนมีชุดของจุดและต้องการให้พอดีกับเส้นโค้งกับมันเส้นเชิงเส้นชี้แจงหรือลอการิทึม วิธีปกติคือการเริ่มต้นด้วยการเลือกหนึ่งในวิธีเหล่านี้ (ซึ่งระบุรุ่น) แล้วทำการคำนวณทางสถิติx - yx-Yx-y แต่สิ่งที่เป็นที่ต้องการจริงๆคือการหาเส้นโค้ง 'ที่ดีที่สุด' จากเส้นตรง, เลขชี้กำลังหรือลอการิทึม เห็นได้ชัดว่าใครจะลองทั้งสามและเลือกเส้นโค้งที่พอดีที่สุดของทั้งสามตามค่าสัมประสิทธิ์สหสัมพันธ์ที่ดีที่สุด แต่อย่างใดฉันรู้สึกว่านี่ไม่ใช่เพียว วิธีที่ได้รับการยอมรับโดยทั่วไปคือการเลือกแบบจำลองของคุณก่อนหนึ่งในสามนั้น (หรือฟังก์ชันการเชื่อมโยงอื่น ๆ ) จากนั้นข้อมูลจะคำนวณค่าสัมประสิทธิ์ และโพสต์พฤตินัยการเลือกที่ดีที่สุดของทั้งหมดคือการเก็บเชอร์รี่ แต่สำหรับฉันไม่ว่าคุณจะกำหนดฟังก์ชั่นหรือค่าสัมประสิทธิ์จากข้อมูลที่ยังคงเป็นสิ่งเดียวกันขั้นตอนของคุณคือการค้นพบสิ่งที่ดีที่สุด ... (สมมติว่าฟังก์ชันใดคือ คำถาม: เหมาะสมหรือไม่ที่จะเลือกแบบจำลองการกระชับที่ดีที่สุดจากแบบจำลองเชิงเส้นเอ็กซ์โพเนนเชียลและลอการิทึมตามการเปรียบเทียบสถิติแบบเต็ม? ถ้าเป็นเช่นนั้นวิธีที่เหมาะสมที่สุดในการทำเช่นนี้คืออะไร? หากการถดถอยช่วยค้นหาพารามิเตอร์ (สัมประสิทธิ์) ในฟังก์ชั่นเหตุใดจึงไม่มีพารามิเตอร์ที่แยกออกมาเพื่อเลือกว่าตระกูลใดในสามตระกูลที่ดีที่สุดมาจากไหน

3
ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล
ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

1
BIC ลองค้นหานางแบบตัวจริงหรือไม่?
คำถามนี้เป็นการติดตามหรือพยายามที่จะกำจัดความสับสนที่เป็นไปได้เกี่ยวกับหัวข้อที่ฉันและคนอื่น ๆ อีกหลายคนพบว่ายากเล็กน้อยเกี่ยวกับความแตกต่างระหว่าง AIC และ BIC ในคำตอบที่ดีมากโดย @Dave Kellen ในหัวข้อนี้ ( /stats//a/767/30589 ) เราอ่าน: คำถามของคุณหมายความว่า AIC และ BIC พยายามตอบคำถามเดียวกันซึ่งไม่เป็นความจริง AIC พยายามเลือกแบบจำลองที่อธิบายความเป็นจริงในมิติที่สูงที่ไม่รู้จักอย่างเพียงพอ ซึ่งหมายความว่าความเป็นจริงไม่เคยอยู่ในชุดของแบบจำลองผู้สมัครที่กำลังพิจารณา ในทางตรงกันข้าม BIC พยายามหาโมเดล TRUE ท่ามกลางกลุ่มผู้สมัคร ฉันคิดว่ามันค่อนข้างแปลกที่สมมติฐานว่าความเป็นจริงนั้นถูกยกตัวอย่างในแบบจำลองที่นักวิจัยสร้างขึ้นไปพร้อม นี่เป็นปัญหาที่แท้จริงสำหรับ BIC ในความคิดเห็นด้านล่างโดย @ gui11aume เราอ่าน: (-1) คำอธิบายที่ดี แต่ฉันต้องการท้าทายการยืนยัน @Dave Kellen คุณช่วยอ้างอิงถึงความคิดที่ว่าโมเดล TRUE นั้นอยู่ในกลุ่ม BIC ได้หรือไม่? ฉันต้องการตรวจสอบเรื่องนี้เนื่องจากในหนังสือเล่มนี้ผู้เขียนให้หลักฐานที่น่าเชื่อถือว่านี่ไม่ใช่กรณี - gui11aume 27 พฤษภาคม '12 …

3
การสร้างแบบจำลองและการเลือกโดยใช้ Hosmer และคณะ 2013. การประยุกต์ใช้การถดถอยโลจิสติกใน R
นี่เป็นโพสต์แรกของฉันใน StackExchange แต่ฉันได้ใช้มันเป็นทรัพยากรมาระยะหนึ่งแล้วฉันจะพยายามอย่างดีที่สุดที่จะใช้รูปแบบที่เหมาะสมและทำการแก้ไขที่เหมาะสม นอกจากนี้ยังเป็นคำถามที่มีหลายส่วน ฉันไม่แน่ใจว่าฉันควรแยกคำถามออกเป็นหลายกระทู้หรือกระทู้เดียว เนื่องจากคำถามมาจากส่วนหนึ่งในข้อความเดียวกันฉันคิดว่ามันจะเกี่ยวข้องกับการโพสต์เป็นคำถามเดียว ฉันกำลังค้นคว้าการใช้ถิ่นที่อยู่ของสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่เพื่อทำวิทยานิพนธ์ปริญญาโท เป้าหมายของโครงการนี้คือเพื่อให้ผู้จัดการป่าไม้ (ซึ่งน่าจะไม่ใช่นักสถิติ) ที่มีกรอบการปฏิบัติเพื่อประเมินคุณภาพของที่อยู่อาศัยในดินแดนที่พวกเขาจัดการเกี่ยวกับสายพันธุ์นี้ สัตว์ตัวนี้ค่อนข้างเข้าใจยากผู้เชี่ยวชาญด้านที่อยู่อาศัยและมักจะอยู่ในพื้นที่ห่างไกล มีการศึกษาค่อนข้างน้อยเกี่ยวกับการกระจายของสายพันธุ์โดยเฉพาะฤดูกาล สัตว์หลายตัวติดตั้งปลอกคอ GPS เป็นระยะเวลาหนึ่งปี หนึ่งร้อยสถานที่ (50 ฤดูร้อนและ 50 ฤดูหนาว) ได้รับการสุ่มเลือกจากข้อมูลปลอกคอ GPS ของสัตว์แต่ละตัว นอกจากนี้ 50 คะแนนถูกสร้างแบบสุ่มภายในบ้านของสัตว์แต่ละตัวเพื่อทำหน้าที่เป็นตำแหน่ง "ว่าง" หรือ "หลอก" สำหรับที่ตั้งแต่ละแห่งตัวแปรที่อยู่อาศัยหลายแห่งถูกสุ่มตัวอย่างในฟิลด์ (ขนาดเส้นผ่าศูนย์กลางต้นไม้, แนวนอน, เศษไม้หยาบ ฯลฯ ) และตัวอย่างจำนวนมากถูกสุ่มตัวอย่างจากระยะไกลผ่าน GIS (ระดับความสูง, ระยะห่างจากถนน, ความทนทาน ฯลฯ ) ตัวแปรส่วนใหญ่จะต่อเนื่องยกเว้นตัวแปรเด็ดขาด 1 อันที่มี 7 ระดับ เป้าหมายของฉันคือใช้การสร้างแบบจำลองการถดถอยเพื่อสร้างฟังก์ชั่นการเลือกทรัพยากร (RSF) เพื่อสร้างแบบจำลองความน่าจะเป็นสัมพัทธ์ของการใช้หน่วยทรัพยากร …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.