คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
การจำลองข้อมูลให้พอดีกับรูปแบบสื่อกลาง
ฉันสนใจที่จะค้นหาขั้นตอนเพื่อจำลองข้อมูลที่สอดคล้องกับรูปแบบการไกล่เกลี่ยที่ระบุ ตามการเชิงเส้นกรอบโครงสร้างโมเดลสมการทั่วไปสำหรับการทดสอบแบบจำลองการไกล่เกลี่ยที่ระบุไว้เป็นครั้งแรกโดยBarron และเคนนี (1986)และอธิบายอื่น ๆ เช่นจัดด์ Yzerbyt และมุลเลอร์ (2013) , รุ่นไกล่เกลี่ยสำหรับผลคนกลาง\ newcommand {\ med} {\ rm med} \ medและตัวทำนายXและอยู่ภายใต้สมการการถดถอยสามแบบต่อไปนี้: \ start {align} Y & = b_ {11} + b_ {12} X + e_1 \ tag {1} \\ \ med & = b_ {21} + b_ {22} X + e_2 \ …

1
ใช้การวิเคราะห์องค์ประกอบหลักเทียบกับการวิเคราะห์การโต้ตอบ
ฉันกำลังวิเคราะห์ชุดข้อมูลที่เกี่ยวข้องกับชุมชน intertidal ข้อมูลเป็นเปอร์เซ็นต์การครอบคลุม (ของสาหร่ายทะเล, เพรียง, หอยแมลงภู่, ฯลฯ ) ในรูปสี่เหลี่ยม ฉันเคยคิดเกี่ยวกับการวิเคราะห์การติดต่อ (CA) ในแง่ของจำนวนสปีชีส์และการวิเคราะห์องค์ประกอบหลัก (PCA) เป็นสิ่งที่มีประโยชน์มากขึ้นสำหรับแนวโน้มเชิงเส้นสิ่งแวดล้อม (ไม่ใช่สปีชีส์) ฉันไม่ได้มีโชคใด ๆ ที่คิดว่า PCA หรือ CA จะเหมาะกว่าสำหรับเปอร์เซ็นต์การครอบคลุม (ไม่พบเอกสารใด ๆ ) และฉันไม่แน่ใจด้วยซ้ำว่าสิ่งที่ต่อยอดสูงสุดถึง 100% จะกระจายออกไปได้อย่างไร ? ฉันคุ้นเคยกับแนวทางคร่าวๆว่าหากความยาวของแกนการวิเคราะห์การโต้ตอบจดหมายที่ถูก detrended แรก (DCA) มากกว่า 2 คุณจะสามารถสันนิษฐานได้ว่าควรใช้ CA อย่างปลอดภัย ความยาวของแกน DCA 1 คือ 2.17 ซึ่งฉันไม่พบว่ามีประโยชน์

2
การคำนวณช่วงเวลาการทำนาย
ผมได้ข้อมูลต่อไปนี้ตั้งอยู่ที่นี่ ฉันพยายามคำนวณช่วงความมั่นใจ 95% ของความบริสุทธิ์เฉลี่ยเมื่อเปอร์เซ็นต์ไฮโดรคาร์บอนเท่ากับ 1.0 ใน R ฉันป้อนสิ่งต่อไปนี้ > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 อย่างไรก็ตามฉันจะได้ผลลัพธ์นี้ด้วยตนเองได้อย่างไร ฉันพยายามใช้สมการต่อไปนี้ sn E W=s2( 1 +1ยังไม่มีข้อความ+(xn E W-x¯)2∑ (xผม-x¯)2)----------------------√snอีW=s2(1+1ยังไม่มีข้อความ+(xnอีW-x¯)2Σ(xผม-x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} และฉันป้อนสิ่งต่อไปนี้ในอาร์ > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), …

3
การทดสอบทางสถิติเพื่อดูว่าความสัมพันธ์เป็นแบบเชิงเส้นหรือไม่เชิงเส้น
ฉันมีชุดข้อมูลตัวอย่างดังนี้: Volume <- seq(1,20,0.1) var1 <- 100 x2 <- 1000000 x3 <- 30 x4 = sqrt(x2/pi) H = x3 - Volume r = (x4*H)/(H + Volume) Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r)) Power <- jitter(Power, factor = 1, amount = 0.1) plot(Volume,Power) จากรูปสามารถบอกได้ว่าระหว่างความสัมพันธ์ 'ปริมาตร' และ 'พลัง' บางช่วงนั้นเป็นเส้นตรงจากนั้นเมื่อ 'ปริมาณ' ค่อนข้างน้อยความสัมพันธ์จะกลายเป็นไม่เป็นเชิงเส้น …

1
R / caret: ชุดรถไฟและชุดทดสอบเทียบกับการตรวจสอบข้าม
นี่อาจเป็นคำถามที่งี่เง่า แต่เมื่อสร้างแบบจำลองที่มีเครื่องหมายรูปหมวกและใช้บางอย่างเช่นLOOCVหรือ (ยิ่งไปกว่านั้น) LGOCVสิ่งที่เป็นประโยชน์ของการแยกข้อมูลออกเป็นชุดรถไฟและชุดทดสอบถ้านี่คือขั้นตอนการตรวจสอบความถูกต้อง ทำอย่างไร ผมอ่านบางส่วนของคำถามที่เกี่ยวข้องและพวกเขาชี้ให้เห็นว่าบางส่วนของวิธีการตรวจสอบข้าม (เช่นสิ่งที่อธิบายนี่ที่เว็บไซต์ของลูกศร ) เป็นเพื่อวัตถุประสงค์ในการเลือกคุณลักษณะ แต่ในกรณีของฉันฉันกำลังใช้randomForest( method = "rf") และkernlab( method = svmRadial) ซึ่งไม่ได้อยู่ในกลุ่มที่พยายามล้างคำทำนาย ดังนั้นคำถามของฉันคือถ้าฉันใช้สิ่งที่ชอบcross_val <- trainControl(method = "LGOCV", p = 0.8)ไม่เหมือนกับการฝึกอบรมที่ 80% ของข้อมูลของฉันทดสอบแบบจำลองผลลัพธ์ในส่วนที่เหลืออีก 20% และทำสิ่งนั้นซ้ำไปซ้ำมาเพื่อให้ได้แนวคิดว่า รูปแบบการทำงานหรือไม่ ถ้าเป็นเช่นนั้นมีความจำเป็นที่จะต้องแยกข้อมูลของฉันออกเป็นชุดรถไฟ / ชุดทดสอบหรือไม่? PS ฉันถามบางส่วนในขณะที่ฉันกำลังทำแบบจำลองเกี่ยวกับต้นแบบ DOE ที่สร้างขึ้นเชิงประจักษ์ (คิดว่าสินค้าหนักที่เราปรับแต่งอินพุตและจากนั้นใช้วิธีการทดสอบเพื่อวัดคุณลักษณะต่างๆเกี่ยวกับต้นแบบ) ดังนั้นฉันไม่ได้มีชุดข้อมูลขนาดใหญ่ที่มีระดับตัวทำนายที่ทับซ้อนกันจำนวนมากเพื่อเป็นแบบจำลอง - เรามักเรียกใช้การทดลองหนึ่งครั้งในแต่ละจุดที่น่าสนใจของ DOE เนื่องจากการสร้างข้อมูลมีราคาแพงในกรณีนี้ ดังนั้นฉันต้องการใช้ข้อมูลทั้งหมดที่ฉันสามารถทำได้สำหรับโมเดลที่ถูกต้อง แต่ต้องการตรวจสอบที่นี่ว่าฉันไม่ได้พลาดอะไรบางอย่างที่ชัดเจนและสร้างโมเดลที่ไม่ดีโดยไม่แยกสิ่งต่าง ๆ ออกมา แก้ไข:เพื่อตอบสนองต่อคำถามของ @ …

2
วิธีจัดการกับคะแนนย่อยในการวิเคราะห์เมตาได้ดีที่สุด
ฉันกำลังทำการวิเคราะห์เมตาดาต้าของขนาดผลกระทบdใน R โดยใช้แพ็คเกจ metafor dแสดงถึงความแตกต่างของคะแนนความจำระหว่างผู้ป่วยและสุขภาพ อย่างไรก็ตามการศึกษาบางชิ้นรายงานเฉพาะคะแนนย่อยของการวัดความสนใจd (เช่นคะแนนหน่วยความจำที่แตกต่างกันหรือคะแนนจากการทดสอบหน่วยความจำสามบล็อกแยกกัน) โปรดดูชุดข้อมูลจำลองต่อไปนี้พร้อมdแสดงขนาดผลกระทบของการศึกษารวมถึงส่วนเบี่ยงเบนมาตรฐาน SD: d <- round(rnorm(5,5,1),2) sd <- round(rnorm(5,1,0.1),2) study <- c(1,2,3,3,3) subscore <- c(1,1,1,2,3) my_data <- as.data.frame(cbind(study, subscore, d, sd)) library(metafor) m1 <- rma(d,sd, data=my_data) summary(m1) ฉันต้องการถามความคิดเห็นของคุณสำหรับวิธีที่ดีที่สุดในการจัดการคะแนนย่อยเหล่านี้ - เช่น: เลือกคะแนนย่อยหนึ่งคะแนนจากการศึกษาแต่ละครั้งที่รายงานคะแนนมากกว่าหนึ่งคะแนน รวมคะแนนย่อยทั้งหมด (ซึ่งจะเป็นการละเมิดสมมติฐานความเป็นอิสระของโมเดล rfx เนื่องจากคะแนนย่อยของการศึกษาหนึ่งมาจากตัวอย่างเดียวกัน) สำหรับการศึกษาแต่ละครั้งที่รายงานคะแนนย่อย: คำนวณคะแนนเฉลี่ยและค่าเบี่ยงเบนมาตรฐานโดยรวมและรวมถึง "ขนาดเอฟเฟ็กต์การรวม" ในการวิเคราะห์ meta ของ rfx รวมคะแนนย่อยทั้งหมดและเพิ่มตัวแปรดัมมี่ที่ระบุว่าได้รับคะแนนใดจากการศึกษา

1
กฎการใช้การจำลองแบบ Monte Carlo ของค่า p สำหรับการทดสอบไคสแควร์
ฉันต้องการเข้าใจการใช้การจำลอง Monte Carlo ในchisq.test()ฟังก์ชันใน R ฉันมีตัวแปรเชิงคุณภาพซึ่งมี 128 ระดับ / คลาส ขนาดตัวอย่างของฉันคือ 26 (ฉันไม่สามารถสุ่มตัวอย่าง "บุคคล" เพิ่มเติมได้) เห็นได้ชัดว่าฉันจะมีบางระดับที่มี 0 "บุคคล" แต่ความจริงก็คือฉันมีชั้นเรียนจำนวนน้อยมากจากจำนวน 127 ที่เป็นไปได้ ตามที่ฉันได้ยินมาว่าการใช้การทดสอบแบบไคสแควร์เราควรมีอย่างน้อย 5 คนในแต่ละระดับ (ฉันไม่เข้าใจเหตุผลอย่างสมบูรณ์) ฉันคิดว่าฉันต้องใช้simulate.p.valueตัวเลือกในการใช้การจำลอง Monte Carlo เพื่อประเมินการกระจายตัว และคำนวณค่า p หากไม่มีการจำลองมอนติคาร์โล R จะให้ค่า p กับ< 1e-16ฉัน ด้วยการจำลอง Monte Carlo มันทำให้ฉัน p-value 4e-5ที่ ฉันพยายามคำนวณ p-value ด้วยเวกเตอร์ 26 อันและ 101 ศูนย์และด้วยการจำลอง …

1
การแก้ไขฟูริเยร์ / ตรีโกณมิติ
พื้นหลัง ในกระดาษจาก Epstein (1991): ในการรับค่า climatological รายวันจากค่าเฉลี่ยรายเดือนสูตรและอัลกอริทึมสำหรับการคำนวณการแก้ไขฟูริเยร์สำหรับค่าระยะและแม้กระทั่งระยะจะได้รับ ในกระดาษเป้าหมายคือการได้รับค่ารายวันจากวิธีการรายเดือนโดยการแก้ไข กล่าวโดยสรุปคือสันนิษฐานว่าค่ารายวันที่ไม่รู้จักสามารถถูกแสดงด้วยผลรวมของส่วนประกอบฮาร์มอนิก: ในกระดาษ (เวลา) แสดงเป็นเดือนy(t)=a0+∑j[ajcos(2πjt/12)+bjsin(2πjt/12)]y(t)=a0+∑j[ajcos⁡(2πjt/12)+bjsin⁡(2πjt/12)] y(t) = a_{0} + \sum_{j}\left[a_{j}\,\cos(2\pi jt/12)+b_{j}\,\sin(2\pi jt/12)\right] ttt หลังจากเบี่ยงเบนไปบางส่วนก็แสดงให้เห็นว่าสามารถคำนวณเงื่อนไขได้โดย: โดยที่แทนค่าเฉลี่ยรายเดือนและเดือนa0ajbja6b6=∑TYT/12=[(πj/12)/sin(πj/12)]×∑T[YTcos(2πjT/12)/6] j=1,…,5=[(πj/12)/sin(πj/12)]×∑T[YTsin(2πjT/12)/6] j=1,…,5=[(πj/12)/sin(πj/12)]×∑T[YTcos(πT)/12]=0a0=∑TYT/12aj=[(πj/12)/sin⁡(πj/12)]×∑T[YTcos⁡(2πjT/12)/6] j=1,…,5bj=[(πj/12)/sin⁡(πj/12)]×∑T[YTsin⁡(2πjT/12)/6] j=1,…,5a6=[(πj/12)/sin⁡(πj/12)]×∑T[YTcos⁡(πT)/12]b6=0 \begin{align} a_{0} &= \sum_{T}Y_{T}/12 \\ a_{j} &= \left[ (\pi j/12)/\sin(\pi j/12)\right] \times \sum_{T}\left[Y_{T}\,\cos(2\pi jT/12)/6 \right]~~~~~~~j=1,\ldots, 5 \\ b_{j} &= \left[ (\pi j/12)/\sin(\pi j/12)\right] \times …

1
การทำนายด้วย randomForest (R) เมื่ออินพุตบางตัวมีค่าขาดหายไป (NA)
ฉันมีrandomForestรูปแบบการจำแนกที่ดีซึ่งฉันต้องการใช้ในแอปพลิเคชันที่ทำนายคลาสของเคสใหม่ กรณีใหม่มีค่าที่ขาดหายไปอย่างหลีกเลี่ยงไม่ได้ การทำนายจะไม่ทำงานเช่นนี้สำหรับ NAs ฉันจะทำสิ่งนี้ได้อย่างไร data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> ฉันพยายามmissForestแล้ว ฉันรวมข้อมูลดั้งเดิมและเคสใหม่แล้วเขย่าด้วยmissForestและรับค่าที่เป็นนัยสำหรับ NAs ในเคสใหม่ของฉัน การคำนวณที่หนักเกินไป data.imp <- missForest(data.with.na) แต่ต้องมีวิธีการใช้ rf-model เพื่อทำนายกรณีใหม่ที่มีค่าหายไปใช่ไหม?

2
ข้อผิดพลาดมาตรฐานของความลาดชันในการถดถอยเชิงเส้นแบบชิ้นเดียวพร้อมกับเบรกพอยต์ที่รู้จัก
สถานการณ์ ฉันมีชุดข้อมูลที่มีขึ้นหนึ่งและเป็นหนึ่งในตัวแปรอิสระxฉันต้องการที่จะพอดีกับค่อย่างต่อเนื่องถดถอยเชิงเส้นกับที่รู้จักกัน / จุดพักคงเกิดขึ้นใน{k}) เบรกพอยต์เป็นที่รู้จักโดยไม่มีความแน่นอนดังนั้นฉันไม่ต้องการที่จะประเมินพวกมัน จากนั้นฉันก็พอดีกับการถดถอย (OLS) ของรูปแบบ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ beta_ {2} \ operatorname {max} (x_ {i} -a_ { 1}, 0) + \ beta_ {3} \ operatorname {max} (x_ {i} -a_ {2}, 0) + \ ldots + \ …

2
ช่วยฉันให้พอดีกับการถดถอยหลายครั้งแบบไม่เป็นเชิงเส้นที่ท้าทายความพยายามก่อนหน้านี้ทั้งหมด
แก้ไข: ตั้งแต่การทำโพสต์นี้ผมได้ตามมาด้วยการโพสต์เพิ่มเติมที่นี่ บทสรุปของข้อความด้านล่าง: ฉันกำลังทำงานกับแบบจำลองและได้ลองถดถอยเชิงเส้นการแปลงบ็อกซ์คอคส์และ GAM แต่ยังไม่คืบหน้ามากนัก ใช้ตอนRนี้ฉันกำลังทำงานกับแบบจำลองเพื่อทำนายความสำเร็จของผู้เล่นเบสบอลลีกในระดับเมเจอร์ลีก (MLB) ตัวแปรน่ารังเกียจอาชีพชนะเหนือทดแทน (oWAR) เป็นพร็อกซี่สำหรับความสำเร็จในระดับเอ็มและเป็นวัดที่เป็นผลรวมของผลงานที่น่ารังเกียจสำหรับการเล่นผู้เล่นที่มีส่วนเกี่ยวข้องในช่วงอาชีพของเขาทุกคน (รายละเอียดที่นี่ - http : //www.fangraphs.com/library/misc/war/) ตัวแปรอิสระคือคะแนนความไม่พอใจเล็กน้อยในลีกที่มีคะแนน z สำหรับสถิติที่คิดว่าเป็นตัวทำนายที่สำคัญของความสำเร็จในระดับเมเจอร์ลีกรวมถึงอายุ (ผู้เล่นที่ประสบความสำเร็จมากกว่าในวัยเยาว์มีแนวโน้มที่จะเป็นกลุ่มเป้าหมายที่ดีกว่า) ], อัตราการเดิน [BBrate] และการผลิตที่ปรับปรุงแล้ว (การวัดทั่วโลกของการผลิตที่น่ารังเกียจ) นอกจากนี้เนื่องจากมีลีกย่อยหลายระดับฉันจึงได้รวมตัวแปรจำลองสำหรับระดับการเล่นของลีกย่อย (Double A, High A, Low A, Rookie และ Short Season กับ Triple A [ระดับสูงสุดก่อนลีกใหญ่]] เป็นตัวแปรอ้างอิง]) หมายเหตุ: ฉันได้ปรับขนาด WAR ใหม่ให้เป็นตัวแปรที่เปลี่ยนจาก 0 เป็น 1 ตัวแปร scatterplot …

3
วิธีการตีความคำศัพท์ในสูตร lm ใน R?
ใน R ถ้าฉันเรียกใช้lm()ฟังก์ชันด้วยวิธีต่อไปนี้: lm.1 = lm(response ~ var1 + var2 + var1 * var2) summary(lm.1) นี้ทำให้ผมรูปแบบเชิงเส้นของตัวแปรตอบสนองด้วยvar1, var2และการมีปฏิสัมพันธ์ระหว่างพวกเขา อย่างไรก็ตามเราจะตีความคำศัพท์การโต้ตอบได้อย่างไร? เอกสารบอกว่านี่คือ "cross" ระหว่างvar1และvar2แต่ไม่ได้ให้คำอธิบายว่า "cross" คืออะไร มันจะมีประโยชน์สำหรับฉันที่จะรู้ว่าตัวเลขที่แน่นอน R คือการคำนวณเพื่อรวมการทำงานร่วมกันระหว่างตัวแปรทั้งสอง
9 r  regression 

1
ความหมายของ p-value ของตัวแปรตัวแบบการถดถอยโลจิสติก
ดังนั้นฉันจึงทำงานกับแบบจำลองการถดถอยโลจิสติกในอาร์แม้ว่าฉันจะยังใหม่กับสถิติฉันรู้สึกว่าฉันมีความเข้าใจเล็กน้อยเกี่ยวกับแบบจำลองการถดถอยในตอนนี้ แต่ยังมีบางสิ่งที่รบกวนฉัน: เมื่อมองไปที่รูปภาพที่เชื่อมโยงคุณจะเห็นสรุป R พิมพ์สำหรับรุ่นตัวอย่างที่ฉันสร้างขึ้น รูปแบบการพยายามที่จะคาดการณ์ว่าอีเมลในชุดข้อมูลที่จะได้รับการ refound หรือไม่ (ตัวแปรไบนารีisRefound) และชุดข้อมูลที่มีสองตัวแปรที่เกี่ยวข้องอย่างใกล้ชิดกับisRefoundคือnext24และnext7days- เหล่านี้เป็นยังไบนารีและบอกได้ว่า mail จะได้รับการคลิกในครั้งต่อไป 24 ชั่วโมง / 7 วันถัดจากจุดปัจจุบันในบันทึก ค่า p สูงควรระบุว่าผลกระทบที่ตัวแปรนี้มีต่อการทำนายแบบจำลองนั้นค่อนข้างสุ่มใช่ไหม? จากนี้ฉันไม่เข้าใจว่าทำไมความแม่นยำของแบบจำลองการคาดการณ์จึงลดลงต่ำกว่า 10% เมื่อตัวแปรสองตัวนี้ไม่ได้อยู่ในสูตรการคำนวณ หากตัวแปรเหล่านี้แสดงความสำคัญต่ำทำไมการลบออกจากแบบจำลองมีผลกระทบอย่างมาก ขอแสดงความนับถือและขอขอบคุณล่วงหน้า Rickyfox แก้ไข: ครั้งแรกที่ฉันลบเฉพาะ next24 ซึ่งควรให้ผลกระทบต่ำเพราะ coef มันค่อนข้างเล็ก ตามที่คาดไว้มีการเปลี่ยนแปลงเล็กน้อย - ไม่ต้องอัปโหลดรูปภาพสำหรับสิ่งนั้น การลบรุ่นถัดไป 7 วันมีผลกระทบอย่างมากต่อโมเดล: AIC 200k ขึ้นไปความแม่นยำลดลงถึง 16% และเรียกคืนได้ถึง 73%

2
พยากรณ์ ARIMA กับฤดูกาลและแนวโน้มผลลัพธ์แปลก
ขณะที่ฉันกำลังก้าวสู่การพยากรณ์ด้วยโมเดล ARIMA ฉันพยายามเข้าใจว่าฉันสามารถปรับปรุงการคาดการณ์ตามแบบของ ARIMA ให้สอดคล้องกับฤดูกาลและดริฟท์ได้อย่างไร ข้อมูลของฉันเป็นอนุกรมเวลาต่อไปนี้ (มากกว่า 3 ปีที่มีแนวโน้มที่ชัดเจนขึ้นและฤดูกาลที่มองเห็นได้ซึ่งดูเหมือนว่าจะไม่สนับสนุนโดยระบบอัตโนมัติที่ความล่าช้า 12, 24, 36 ??) > bal2sum3years.ts Jan Feb Mar Apr May Jun Jul Aug 2010 2540346 2139440 2218652 2176167 2287778 1861061 2000102 2560729 2011 3119573 2704986 2594432 2362869 2509506 2434504 2680088 2689888 2012 3619060 3204588 2800260 2973428 2737696 2744716 3043868 2867416 …

1
จะระบุเมทริกซ์คอนทราสต์ (เป็น R) สำหรับความแตกต่างระหว่างระดับหนึ่งกับค่าเฉลี่ยของระดับอื่น ๆ ได้อย่างไร?
ฉันมีรูปแบบการถดถอยที่มีลักษณะเช่นนี้: Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y = \beta_0+\beta_1X_1 + \beta_2X_2 + \beta_3X_3 +\beta_{12}X_1X_2+\beta_{13}X_1X_3+\beta_{123}X_1X_2X_3 ... หรือในสัญกรณ์ R: y ~ x1 + x2 + x3 + x1:x2 + x1:x3 + x1:x2:x3 สมมติว่า X1X1X_1 และ X2X2X_2 เป็นตัวแปรเด็ดขาดและ X3X3X_3เป็นตัวเลข ภาวะแทรกซ้อนก็คือX1X1X_1 มีสามระดับ X1 ก,X1 b,X1 คX1a,X1b,X1cX_{1a}, X_{1b}, X_{1c} และแทนที่จะเป็นความแตกต่างมาตรฐานฉันต้องทดสอบ: ไม่ว่าจะเป็นการสกัดกั้นระดับ X1aX1aX_{1a} แตกต่างจากการสกัดกั้นโดยเฉลี่ยสำหรับระดับ X1bX1bX_{1b} และ X1cX1cX_{1c}. ไม่ว่าจะเป็นการตอบสนองของ X2X2X_2 แตกต่างกันอย่างมีนัยสำคัญระหว่างระดับ X1aX1aX_{1a} …
9 r  contrasts 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.