สถิติและข้อมูลขนาดใหญ่ residuals

2

คำถามนี้เกิดขึ้นจากความสับสนที่แท้จริงของฉันเกี่ยวกับวิธีการตัดสินใจว่าแบบจำลองโลจิสติกส์นั้นดีพอหรือไม่ ฉันมีรูปแบบที่ใช้สถานะของคู่แต่ละโครงการสองปีหลังจากที่พวกเขาจะกลายเป็นตัวแปรตาม ผลลัพธ์สำเร็จ (1) หรือไม่ (0) ฉันมีตัวแปรอิสระที่วัดได้ในเวลาที่ทำการก่อตัวของคู่ เป้าหมายของฉันคือการทดสอบว่าตัวแปรที่ฉันตั้งสมมติฐานจะมีอิทธิพลต่อความสำเร็จของคู่นั้นมีผลต่อความสำเร็จนั้นหรือไม่ควบคุมอิทธิพลที่อาจเกิดขึ้นอื่น ๆ ในโมเดลตัวแปรที่น่าสนใจมีความสำคัญ รุ่นได้ประมาณโดยใช้ฟังก์ชั่นในglm() Rเพื่อประเมินคุณภาพของรูปแบบที่ฉันได้ทำสิ่งที่ไม่กี่: glm()ช่วยให้คุณresidual devianceที่AICและBICตามค่าเริ่มต้น นอกจากนี้ฉันได้คำนวณอัตราความผิดพลาดของแบบจำลองและพล็อตสิ่งที่เหลือค้างแล้ว แบบจำลองที่สมบูรณ์มีความเบี่ยงเบนที่เหลืออยู่น้อยกว่า AIC และ BIC กว่าแบบจำลองอื่น ๆ ที่ฉันได้ประเมินไว้ (และซ้อนอยู่ในแบบจำลองที่สมบูรณ์) ซึ่งทำให้ฉันคิดว่าแบบจำลองนี้ "ดีกว่า" กว่าคนอื่น ๆ อัตราความผิดพลาดของโมเดลค่อนข้างต่ำ IMHO (เช่นเดียวกับGelman and Hill, 2007, pp.99 ): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)ที่ประมาณ 20% จนถึงตอนนี้ดีมาก แต่เมื่อฉันพล็อตสิ่งที่เหลือค้าง (อีกครั้งตามคำแนะนำของ Gelman และ …

13 r logistic goodness-of-fit residuals

2

ตระกูล GLM แสดงถึงการกระจายตัวของตัวแปรตอบสนองหรือส่วนที่เหลือ?

ฉันได้คุยกับสมาชิกแล็บหลายคนเกี่ยวกับอันนี้และเราได้ไปหลายแหล่ง แต่ก็ยังไม่มีคำตอบ: เมื่อเราบอกว่า GLM มีตระกูลปัวซองเรากำลังพูดถึงการกระจายตัวของเศษซากหรือตัวแปรการตอบสนองหรือไม่? จุดของการต่อสู้ อ่านหนังสือนี้บทความมันกล่าวว่าสมมติฐานของ GLM ที่มีความเป็นอิสระทางสถิติของการสังเกตเปคที่ถูกต้องของการเชื่อมโยงและความแปรปรวนของฟังก์ชั่น (ซึ่งทำให้ฉันคิดเกี่ยวกับสิ่งตกค้างที่ไม่ตัวแปรตอบสนอง) ขนาดที่ถูกต้องของการวัดตัวแปรการตอบสนอง และขาดอิทธิพลเกินควรจากจุดเดียว คำถามนี้มีสองคำตอบโดยมีสองคะแนนแต่ละข้อที่ปรากฏครั้งแรกพูดถึงเศษซากและคำตอบที่สองเกี่ยวกับตัวแปรการตอบสนองคืออะไร? ในบล็อกนี้เมื่อพูดถึงสมมติฐานพวกเขาระบุว่า " การกระจายตัวของสารตกค้างอาจเป็นอย่างอื่นเช่นทวินาม " ในตอนต้นของบทนี้พวกเขากล่าวว่าโครงสร้างของข้อผิดพลาดจะต้องเป็นปัวซอง แต่ส่วนที่เหลือจะมีค่าบวกและลบแน่นอนว่าปัวซองจะเป็นอย่างไร คำถามนี้ซึ่งมักถูกอ้างถึงในคำถามเช่นคำถามนี้เพื่อให้ซ้ำกันไม่มีคำตอบที่ยอมรับได้ คำถามนี้คำตอบพูดคุยเกี่ยวกับการตอบสนองและไม่เหลือ ในรายละเอียดหลักสูตรนี้จากมหาวิทยาลัยเพนซิลวาเนียพวกเขาพูดคุยเกี่ยวกับตัวแปรตอบสนองในสมมติฐานไม่ใช่ส่วนที่เหลือ

13 generalized-linear-model residuals assumptions

1

แพคเกจ GBM กับ Caret ใช้ GBM

ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

autocorrelation ที่เหลือเมื่อเทียบกับตัวแปรที่ล้าหลัง

เมื่อการสร้างแบบจำลองอนุกรมเวลาหนึ่งมีความเป็นไปได้ที่จะ (1) แบบจำลองโครงสร้างความสัมพันธ์ของข้อผิดพลาดเช่นกระบวนการ AR (1) กระบวนการ (2) รวมถึงตัวแปรขึ้นอยู่กับ lagged เป็นตัวแปรอธิบาย (ทางด้านขวามือ) ฉันเข้าใจว่าบางครั้งพวกเขาก็มีเหตุผลมากมายที่ต้องไปเพื่อ (2) อย่างไรก็ตามวิธีการมีเหตุผลอะไรที่จะทำอย่างใดอย่างหนึ่ง (1) หรือ (2) หรือทั้งสองอย่าง?

13 time-series autocorrelation residuals lags

2

การกระจายแบบปกติ X และ Y มีแนวโน้มที่จะส่งผลให้เกิดการตกค้างแบบกระจายตามปกติหรือไม่

ที่นี่การตีความที่ผิดของสมมติฐานของภาวะปกติในการถดถอยเชิงเส้นถูกกล่าวถึง (ที่ 'ปกติ' หมายถึง X และ / หรือ Y มากกว่าที่เหลือ) และโปสเตอร์ถามว่ามันเป็นไปได้ที่จะมีการกระจาย X และ Y ไม่ปกติ และยังคงมีการกระจายสารตกค้างตามปกติ คำถามของฉันคือ: โดยทั่วไปมีการกระจาย X และ Y มีแนวโน้มที่จะส่งผลให้ส่วนที่เหลือกระจายตามปกติ? มีการโพสต์ที่เกี่ยวข้องมากมาย แต่ฉันไม่เชื่อว่ามีใครถามคำถามนี้โดยเฉพาะ ฉันรู้ว่านี่อาจเป็นจุดที่น่าสนใจหากมีเพียงการถดถอยเพียงครั้งเดียวที่ต้องทำ แต่ก็น้อยลงหากมีการทดสอบหลายครั้ง สมมติว่าฉันมีตัวแปร 100 X ซึ่งทั้งหมดมีความเบ้เหมือนกันและฉันต้องการทดสอบพวกเขาทั้งหมด ถ้าฉันเปลี่ยนพวกมันทั้งหมดเป็นการกระจายตัวแบบปกติมันจะเป็นไปได้ไหมที่ฉันจะมีตัวแปร X น้อยกว่าที่ต้องการการตรวจสอบอีกครั้ง (โดยไม่มีการแปลงที่ต่างกัน / ไม่มีการเปลี่ยนแปลง) เนื่องจากเศษซากที่ไม่กระจายตามปกติ

12 regression normal-distribution data-transformation residuals assumptions

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

สมมติฐานการกระจายตัวแบบตกค้าง

ทำไมจึงจำเป็นต้องวางสมมุติฐานการกระจายในข้อผิดพลาดเช่น yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) ) ทำไมไม่เขียน yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}กับyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , ที่ว่าในกรณีใดϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} Y ฉันเคยเห็นมันเน้นว่าข้อสันนิษฐานของการกระจายสินค้าถูกวางไว้บนข้อผิดพลาดไม่ใช่ข้อมูล แต่ไม่มีคำอธิบาย ฉันไม่เข้าใจความแตกต่างระหว่างสูตรทั้งสองนี้จริงๆ บางแห่งที่ฉันเห็นสมมติฐานการกระจายถูกวางไว้บนข้อมูล (Bayesian lit. ดูเหมือนว่าส่วนใหญ่) แต่เวลาส่วนใหญ่ข้อสันนิษฐานที่วางอยู่บนข้อผิดพลาด เมื่อสร้างแบบจำลองทำไม / ควรเลือกที่จะเริ่มต้นด้วยสมมติฐานหนึ่งหรืออื่น ๆ ?

12 regression normal-distribution residuals assumptions notation

2

เหตุใดบางคนทดสอบสมมติฐานตัวแบบถดถอยเหมือนกับข้อมูลดิบของพวกเขาและคนอื่น ๆ ทดสอบพวกเขาในส่วนที่เหลือ

ฉันเป็นนักศึกษาปริญญาเอกสาขาจิตวิทยาเชิงทดลองและฉันพยายามอย่างหนักเพื่อพัฒนาทักษะและความรู้เกี่ยวกับวิธีการวิเคราะห์ข้อมูลของฉัน จนกระทั่งปีที่ 5 ของฉันในด้านจิตวิทยาฉันคิดว่ารูปแบบการถดถอย (เช่น ANOVA) ถือว่าเป็นสิ่งต่อไปนี้: ความปกติของข้อมูล ความแปรปรวนเป็นเนื้อเดียวกันสำหรับข้อมูลและอื่น ๆ หลักสูตรระดับปริญญาตรีของฉันทำให้ฉันเชื่อว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อมูล อย่างไรก็ตามในปีที่ 5 ผู้สอนของฉันบางคนขีดเส้นใต้ข้อเท็จจริงที่ว่าข้อสันนิษฐานนั้นเกี่ยวกับข้อผิดพลาด (ประมาณโดยค่าตกค้าง) และไม่ใช่ข้อมูลดิบ เมื่อเร็ว ๆ นี้ฉันกำลังพูดถึงคำถามสมมติฐานกับเพื่อนร่วมงานของฉันบางคนที่ยอมรับว่าพวกเขาค้นพบความสำคัญของการตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือเฉพาะในปีสุดท้ายของมหาวิทยาลัย ถ้าฉันเข้าใจดีโมเดลที่เหมือนการถดถอยจะทำให้ข้อสันนิษฐานผิดพลาด ดังนั้นจึงเหมาะสมที่จะตรวจสอบสมมติฐานเกี่ยวกับส่วนที่เหลือ ถ้าใช่ทำไมบางคนตรวจสอบสมมติฐานเกี่ยวกับข้อมูลดิบ? เป็นเพราะขั้นตอนการตรวจสอบดังกล่าวประมาณว่าเราจะได้อะไรจากการตรวจสอบสิ่งที่เหลืออยู่? ฉันจะขัดจังหวะด้วยความสงสัยเกี่ยวกับปัญหานี้กับบางคนที่มีความรู้ที่แม่นยำกว่าเพื่อนร่วมงานของฉันและฉันฉันขอขอบคุณล่วงหน้าสำหรับคำตอบของคุณ

12 regression dataset residuals assumptions

2

การกระจายตัวของสารตกค้างที่คาดหวังในตัวแบบเชิงเส้นทั่วไปคืออะไร

ฉันกำลังแสดงโมเดลเชิงเส้นทั่วไปที่ฉันต้องระบุครอบครัวที่แตกต่างจากครอบครัวปกติ การกระจายของสารตกค้างที่คาดหวังคืออะไร? ตัวอย่างเช่นส่วนที่เหลือควรกระจายตามปกติ?

12 generalized-linear-model residuals normality-assumption

2

การวิเคราะห์ส่วนที่เหลือถดถอยโลจิสติก

คำถามนี้เป็นคำถามทั่วไปและยาวเหยียด แต่โปรดอดทนกับฉัน ในแอปพลิเคชันของฉันฉันมีชุดข้อมูลจำนวนมากแต่ละชุดประกอบด้วย ~ 20,000 ดาต้าพอยน์พร้อมด้วยคุณลักษณะ ~ 50 และตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว ฉันพยายามที่จะสร้างแบบจำลองชุดข้อมูลโดยใช้การถดถอยโลจิสติกปกติ (R package glmnet ) ในการวิเคราะห์ของฉันฉันได้สร้างแปลงที่เหลือดังนี้ สำหรับแต่ละคุณลักษณะฉันเรียงลำดับดาต้าพอยน์ตามค่าของฟีเจอร์นั้นแบ่งดาต้าพอยน์ออกเป็น 100 ถังแล้วคำนวณค่าเอาต์พุตเฉลี่ยและค่าการทำนายโดยเฉลี่ยภายในที่เก็บข้อมูลแต่ละชุด ฉันพล็อตความแตกต่างเหล่านี้ นี่คือตัวอย่างพล็อตที่เหลือ: ในพล็อตข้างต้นสถานที่มีช่วง [0,1] (มีความเข้มข้นมากที่ 1) อย่างที่คุณเห็นเมื่อค่าคุณลักษณะต่ำโมเดลจะมีอคติต่อการประเมินความเป็นไปได้ของ 1-output ตัวอย่างเช่นในที่ฝากข้อมูลด้านซ้ายสุดโมเดลจะประมาณค่าความน่าจะเป็นประมาณ 9% ด้วยข้อมูลนี้ฉันต้องการแก้ไขข้อกำหนดคุณลักษณะในลักษณะที่ตรงไปตรงมาเพื่อแก้ไขความลำเอียงนี้อย่างคร่าวๆ การเปลี่ยนแปลงเช่นการแทนที่ x→x−−√x→xx \rightarrow \sqrt{x} หรือ x→fa(x)={ax if x<a elsex→fa(x)={a if x<a x elsex \rightarrow f_a(x) = \cases{a & if $x<a$ \cr …

12 logistic residuals

1

การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric

ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

เหตุใดการวินิจฉัยจึงขึ้นอยู่กับส่วนที่เหลือ

ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ) มันมีเหตุผลที่จะตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?

12 regression residuals diagnostic

2

Heteroskedasticity และภาวะปกติ

ฉันมีการถดถอยเชิงเส้นที่ค่อนข้างดีฉันเดา (สำหรับโครงการมหาวิทยาลัยดังนั้นฉันจึงไม่จำเป็นต้องแม่นยำอย่างแท้จริง) ประเด็นคือถ้าฉันพล็อตส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้มี (ตามครูของฉัน) มีคำใบ้ของ heteroskedasticity แต่ถ้าฉันพล็อต QQ-Plot ของส่วนที่เหลือก็เป็นที่ชัดเจนว่าพวกมันกระจายตามปกติ ยิ่งกว่านั้นการทดสอบชาปิโร่เกี่ยวกับส่วนที่เหลือมีค่าเท่ากับดังนั้นฉันคิดว่าไม่ต้องสงสัยเลยว่าโดยปกติการกระจายตัวของสิ่งที่เหลืออยู่พีพีp0.80.80.8 คำถาม:จะมีค่า heteroskedasticity ในการทำนายค่าได้อย่างไรถ้ามีการแจกแจงเศษตกค้างตามปกติ?

12 regression normal-distribution residuals heteroscedasticity

2

จะทราบได้อย่างไรว่ามีเศษที่เกี่ยวข้องโดยอัตโนมัติจากกราฟิกหรือไม่

เมื่อคุณทำการถดถอยแบบ OLS และพล็อตค่าส่วนที่เหลือที่เกิดขึ้นคุณจะบอกได้อย่างไรว่าส่วนที่เหลือมีความสัมพันธ์โดยอัตโนมัติ ฉันรู้ว่ามีการทดสอบสำหรับเรื่องนี้ (Durbin, Breusch-Godfrey) แต่ฉันก็สงสัยว่าถ้าคุณสามารถดูพล็อตที่จะวัดว่าการหาค่าอัตโนมัตรอาจเป็นปัญหา (เพราะสำหรับ heteroskedasticity

12 regression autocorrelation residuals

2

การติดตั้งการถดถอยเชิงเส้นหลายเส้นใน R: เศษเหลือที่เกี่ยวข้องโดยอัตโนมัติ

ฉันพยายามประเมินการถดถอยเชิงเส้นแบบหลายค่าใน R ด้วยสมการดังนี้ regr <- lm(rate ~ constant + askings + questions + 0) askings askings <- ts(...)และคำถามที่มีข้อมูลอนุกรมเวลารายไตรมาสสร้างด้วย ปัญหาตอนนี้คือฉันได้รับส่วนที่เหลือโดยอัตโนมัติ ฉันรู้ว่าเป็นไปได้ที่จะปรับให้พอดีกับการถดถอยโดยใช้ฟังก์ชัน gls แต่ฉันไม่รู้วิธีระบุโครงสร้างข้อผิดพลาด AR หรือ ARMA ที่ถูกต้องซึ่งฉันต้องนำไปใช้ในฟังก์ชัน gls ฉันจะลองประเมินอีกครั้งในตอนนี้ด้วย gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) แต่น่าเสียดายที่ฉันไม่ใช่ผู้เชี่ยวชาญ R หรือผู้เชี่ยวชาญทางสถิติโดยทั่วไปในการระบุ p และ q ฉันจะพอใจถ้ามีคนให้คำแนะนำที่เป็นประโยชน์กับฉัน ขอบคุณล่วงหน้า! โจ

11 r time-series multiple-regression autocorrelation residuals

คำถามติดแท็ก residuals