คำถามติดแท็ก residuals

ค่าคงที่ของโมเดลคือค่าจริงลบด้วยค่าที่ทำนาย แบบจำลองทางสถิติหลายอย่างตั้งสมมติฐานเกี่ยวกับข้อผิดพลาดซึ่งประเมินโดยค่าตกค้าง

2
การประเมินแบบจำลองการถดถอยโลจิสติก
คำถามนี้เกิดขึ้นจากความสับสนที่แท้จริงของฉันเกี่ยวกับวิธีการตัดสินใจว่าแบบจำลองโลจิสติกส์นั้นดีพอหรือไม่ ฉันมีรูปแบบที่ใช้สถานะของคู่แต่ละโครงการสองปีหลังจากที่พวกเขาจะกลายเป็นตัวแปรตาม ผลลัพธ์สำเร็จ (1) หรือไม่ (0) ฉันมีตัวแปรอิสระที่วัดได้ในเวลาที่ทำการก่อตัวของคู่ เป้าหมายของฉันคือการทดสอบว่าตัวแปรที่ฉันตั้งสมมติฐานจะมีอิทธิพลต่อความสำเร็จของคู่นั้นมีผลต่อความสำเร็จนั้นหรือไม่ควบคุมอิทธิพลที่อาจเกิดขึ้นอื่น ๆ ในโมเดลตัวแปรที่น่าสนใจมีความสำคัญ รุ่นได้ประมาณโดยใช้ฟังก์ชั่นในglm() Rเพื่อประเมินคุณภาพของรูปแบบที่ฉันได้ทำสิ่งที่ไม่กี่: glm()ช่วยให้คุณresidual devianceที่AICและBICตามค่าเริ่มต้น นอกจากนี้ฉันได้คำนวณอัตราความผิดพลาดของแบบจำลองและพล็อตสิ่งที่เหลือค้างแล้ว แบบจำลองที่สมบูรณ์มีความเบี่ยงเบนที่เหลืออยู่น้อยกว่า AIC และ BIC กว่าแบบจำลองอื่น ๆ ที่ฉันได้ประเมินไว้ (และซ้อนอยู่ในแบบจำลองที่สมบูรณ์) ซึ่งทำให้ฉันคิดว่าแบบจำลองนี้ "ดีกว่า" กว่าคนอื่น ๆ อัตราความผิดพลาดของโมเดลค่อนข้างต่ำ IMHO (เช่นเดียวกับGelman and Hill, 2007, pp.99 ): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)ที่ประมาณ 20% จนถึงตอนนี้ดีมาก แต่เมื่อฉันพล็อตสิ่งที่เหลือค้าง (อีกครั้งตามคำแนะนำของ Gelman และ …

2
ตระกูล GLM แสดงถึงการกระจายตัวของตัวแปรตอบสนองหรือส่วนที่เหลือ?
ฉันได้คุยกับสมาชิกแล็บหลายคนเกี่ยวกับอันนี้และเราได้ไปหลายแหล่ง แต่ก็ยังไม่มีคำตอบ: เมื่อเราบอกว่า GLM มีตระกูลปัวซองเรากำลังพูดถึงการกระจายตัวของเศษซากหรือตัวแปรการตอบสนองหรือไม่? จุดของการต่อสู้ อ่านหนังสือนี้บทความมันกล่าวว่าสมมติฐานของ GLM ที่มีความเป็นอิสระทางสถิติของการสังเกตเปคที่ถูกต้องของการเชื่อมโยงและความแปรปรวนของฟังก์ชั่น (ซึ่งทำให้ฉันคิดเกี่ยวกับสิ่งตกค้างที่ไม่ตัวแปรตอบสนอง) ขนาดที่ถูกต้องของการวัดตัวแปรการตอบสนอง และขาดอิทธิพลเกินควรจากจุดเดียว คำถามนี้มีสองคำตอบโดยมีสองคะแนนแต่ละข้อที่ปรากฏครั้งแรกพูดถึงเศษซากและคำตอบที่สองเกี่ยวกับตัวแปรการตอบสนองคืออะไร? ในบล็อกนี้เมื่อพูดถึงสมมติฐานพวกเขาระบุว่า " การกระจายตัวของสารตกค้างอาจเป็นอย่างอื่นเช่นทวินาม " ในตอนต้นของบทนี้พวกเขากล่าวว่าโครงสร้างของข้อผิดพลาดจะต้องเป็นปัวซอง แต่ส่วนที่เหลือจะมีค่าบวกและลบแน่นอนว่าปัวซองจะเป็นอย่างไร คำถามนี้ซึ่งมักถูกอ้างถึงในคำถามเช่นคำถามนี้เพื่อให้ซ้ำกันไม่มีคำตอบที่ยอมรับได้ คำถามนี้คำตอบพูดคุยเกี่ยวกับการตอบสนองและไม่เหลือ ในรายละเอียดหลักสูตรนี้จากมหาวิทยาลัยเพนซิลวาเนียพวกเขาพูดคุยเกี่ยวกับตัวแปรตอบสนองในสมมติฐานไม่ใช่ส่วนที่เหลือ

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

3
autocorrelation ที่เหลือเมื่อเทียบกับตัวแปรที่ล้าหลัง
เมื่อการสร้างแบบจำลองอนุกรมเวลาหนึ่งมีความเป็นไปได้ที่จะ (1) แบบจำลองโครงสร้างความสัมพันธ์ของข้อผิดพลาดเช่นกระบวนการ AR (1) กระบวนการ (2) รวมถึงตัวแปรขึ้นอยู่กับ lagged เป็นตัวแปรอธิบาย (ทางด้านขวามือ) ฉันเข้าใจว่าบางครั้งพวกเขาก็มีเหตุผลมากมายที่ต้องไปเพื่อ (2) อย่างไรก็ตามวิธีการมีเหตุผลอะไรที่จะทำอย่างใดอย่างหนึ่ง (1) หรือ (2) หรือทั้งสองอย่าง?

2
การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่
ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
สมมติฐานการกระจายตัวแบบตกค้าง
ทำไมจึงจำเป็นต้องวางสมมุติฐานการกระจายในข้อผิดพลาดเช่น yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) ) ทำไมไม่เขียน yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , ที่ว่าในกรณีใดϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} Y ฉันเคยเห็นมันเน้นว่าข้อสันนิษฐานของการกระจายสินค้าถูกวางไว้บนข้อผิดพลาดไม่ใช่ข้อมูล แต่ไม่มีคำอธิบาย ฉันไม่เข้าใจความแตกต่างระหว่างสูตรทั้งสองนี้จริงๆ บางแห่งที่ฉันเห็นสมมติฐานการกระจายถูกวางไว้บนข้อมูล (Bayesian lit. ดูเหมือนว่าส่วนใหญ่) แต่เวลาส่วนใหญ่ข้อสันนิษฐานที่วางอยู่บนข้อผิดพลาด เมื่อสร้างแบบจำลองทำไม / ควรเลือกที่จะเริ่มต้นด้วยสมมติฐานหนึ่งหรืออื่น ๆ ?

2
เหตุใดบางคนทดสอบสมมติฐานตัวแบบถดถอยเหมือนกับข้อมูลดิบของพวกเขาและคนอื่น ๆ ทดสอบพวกเขาในส่วนที่เหลือ
ฉันเป็นนักศึกษาปริญญาเอกสาขาจิตวิทยาเชิงทดลองและฉันพยายามอย่างหนักเพื่อพัฒนาทักษะและความรู้เกี่ยวกับวิธีการวิเคราะห์ข้อมูลของฉัน จนกระทั่งปีที่ 5 ของฉันในด้านจิตวิทยาฉันคิดว่ารูปแบบการถดถอย (เช่น ANOVA) ถือว่าเป็นสิ่งต่อไปนี้: ความปกติของข้อมูล ความแปรปรวนเป็นเนื้อเดียวกันสำหรับข้อมูลและอื่น ๆ หลักสูตรระดับปริญญาตรีของฉันทำให้ฉันเชื่อว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อมูล อย่างไรก็ตามในปีที่ 5 ผู้สอนของฉันบางคนขีดเส้นใต้ข้อเท็จจริงที่ว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อผิดพลาด (ประมาณโดยค่าตกค้าง) และไม่ใช่ข้อมูลดิบ เมื่อเร็ว ๆ นี้ฉันกำลังพูดถึงคำถามสมมติฐานกับเพื่อนร่วมงานของฉันบางคนที่ยอมรับว่าพวกเขาค้นพบความสำคัญของการตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือเฉพาะในปีสุดท้ายของมหาวิทยาลัย ถ้าฉันเข้าใจดีโมเดลที่เหมือนการถดถอยจะทำให้ข้อสันนิษฐานผิดพลาด ดังนั้นจึงเหมาะสมที่จะตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือ ถ้าใช่ทำไมบางคนตรวจสอบสมมติฐานเกี่ยวกับข้อมูลดิบ? เป็นเพราะขั้นตอนการตรวจสอบดังกล่าวประมาณว่าเราจะได้อะไรจากการตรวจสอบสิ่งที่เหลืออยู่? ฉันจะขัดจังหวะด้วยความสงสัยเกี่ยวกับปัญหานี้กับบางคนที่มีความรู้ที่แม่นยำกว่าเพื่อนร่วมงานของฉันและฉันฉันขอขอบคุณล่วงหน้าสำหรับคำตอบของคุณ

2
การกระจายตัวของสารตกค้างที่คาดหวังในตัวแบบเชิงเส้นทั่วไปคืออะไร
ฉันกำลังแสดงโมเดลเชิงเส้นทั่วไปที่ฉันต้องระบุครอบครัวที่แตกต่างจากครอบครัวปกติ การกระจายของสารตกค้างที่คาดหวังคืออะไร? ตัวอย่างเช่นส่วนที่เหลือควรกระจายตามปกติ?

2
การวิเคราะห์ส่วนที่เหลือถดถอยโลจิสติก
คำถามนี้เป็นคำถามทั่วไปและยาวเหยียด แต่โปรดอดทนกับฉัน ในแอปพลิเคชันของฉันฉันมีชุดข้อมูลจำนวนมากแต่ละชุดประกอบด้วย ~ 20,000 ดาต้าพอยน์พร้อมด้วยคุณลักษณะ ~ 50 และตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว ฉันพยายามที่จะสร้างแบบจำลองชุดข้อมูลโดยใช้การถดถอยโลจิสติกปกติ (R package glmnet ) ในการวิเคราะห์ของฉันฉันได้สร้างแปลงที่เหลือดังนี้ สำหรับแต่ละคุณลักษณะฉันเรียงลำดับดาต้าพอยน์ตามค่าของฟีเจอร์นั้นแบ่งดาต้าพอยน์ออกเป็น 100 ถังแล้วคำนวณค่าเอาต์พุตเฉลี่ยและค่าการทำนายโดยเฉลี่ยภายในที่เก็บข้อมูลแต่ละชุด ฉันพล็อตความแตกต่างเหล่านี้ นี่คือตัวอย่างพล็อตที่เหลือ: ในพล็อตข้างต้นสถานที่มีช่วง [0,1] (มีความเข้มข้นมากที่ 1) อย่างที่คุณเห็นเมื่อค่าคุณลักษณะต่ำโมเดลจะมีอคติต่อการประเมินความเป็นไปได้ของ 1-output ตัวอย่างเช่นในที่ฝากข้อมูลด้านซ้ายสุดโมเดลจะประมาณค่าความน่าจะเป็นประมาณ 9% ด้วยข้อมูลนี้ฉันต้องการแก้ไขข้อกำหนดคุณลักษณะในลักษณะที่ตรงไปตรงมาเพื่อแก้ไขความลำเอียงนี้อย่างคร่าวๆ การเปลี่ยนแปลงเช่นการแทนที่ x→x−−√x→xx \rightarrow \sqrt{x} หรือ x→fa(x)={ax if x&lt;a elsex→fa(x)={a if x&lt;a x elsex \rightarrow f_a(x) = \cases{a & if $x<a$ \cr …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: &gt; soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: &gt; fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

1
เหตุใดการวินิจฉัยจึงขึ้นอยู่กับส่วนที่เหลือ
ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ) มันมีเหตุผลที่จะตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?

2
Heteroskedasticity และภาวะปกติ
ฉันมีการถดถอยเชิงเส้นที่ค่อนข้างดีฉันเดา (สำหรับโครงการมหาวิทยาลัยดังนั้นฉันจึงไม่จำเป็นต้องแม่นยำอย่างแท้จริง) ประเด็นคือถ้าฉันพล็อตส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้มี (ตามครูของฉัน) มีคำใบ้ของ heteroskedasticity แต่ถ้าฉันพล็อต QQ-Plot ของส่วนที่เหลือก็เป็นที่ชัดเจนว่าพวกมันกระจายตามปกติ ยิ่งกว่านั้นการทดสอบชาปิโร่เกี่ยวกับส่วนที่เหลือมีค่าเท่ากับดังนั้นฉันคิดว่าไม่ต้องสงสัยเลยว่าโดยปกติการกระจายตัวของสิ่งที่เหลืออยู่พีพีp0.80.80.8 คำถาม:จะมีค่า heteroskedasticity ในการทำนายค่าได้อย่างไรถ้ามีการแจกแจงเศษตกค้างตามปกติ?

2
จะทราบได้อย่างไรว่ามีเศษที่เกี่ยวข้องโดยอัตโนมัติจากกราฟิกหรือไม่
เมื่อคุณทำการถดถอยแบบ OLS และพล็อตค่าส่วนที่เหลือที่เกิดขึ้นคุณจะบอกได้อย่างไรว่าส่วนที่เหลือมีความสัมพันธ์โดยอัตโนมัติ ฉันรู้ว่ามีการทดสอบสำหรับเรื่องนี้ (Durbin, Breusch-Godfrey) แต่ฉันก็สงสัยว่าถ้าคุณสามารถดูพล็อตที่จะวัดว่าการหาค่าอัตโนมัตรอาจเป็นปัญหา (เพราะสำหรับ heteroskedasticity

2
การติดตั้งการถดถอยเชิงเส้นหลายเส้นใน R: เศษเหลือที่เกี่ยวข้องโดยอัตโนมัติ
ฉันพยายามประเมินการถดถอยเชิงเส้นแบบหลายค่าใน R ด้วยสมการดังนี้ regr &lt;- lm(rate ~ constant + askings + questions + 0) askings askings &lt;- ts(...)และคำถามที่มีข้อมูลอนุกรมเวลารายไตรมาสสร้างด้วย ปัญหาตอนนี้คือฉันได้รับส่วนที่เหลือโดยอัตโนมัติ ฉันรู้ว่าเป็นไปได้ที่จะปรับให้พอดีกับการถดถอยโดยใช้ฟังก์ชัน gls แต่ฉันไม่รู้วิธีระบุโครงสร้างข้อผิดพลาด AR หรือ ARMA ที่ถูกต้องซึ่งฉันต้องนำไปใช้ในฟังก์ชัน gls ฉันจะลองประเมินอีกครั้งในตอนนี้ด้วย gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) แต่น่าเสียดายที่ฉันไม่ใช่ผู้เชี่ยวชาญ R หรือผู้เชี่ยวชาญทางสถิติโดยทั่วไปในการระบุ p และ q ฉันจะพอใจถ้ามีคนให้คำแนะนำที่เป็นประโยชน์กับฉัน ขอบคุณล่วงหน้า! โจ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.