คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
รับค่า p สำหรับ“ multinom” ใน R (แพ็คเกจ nnet)
ฉันจะรับค่า p โดยใช้multinomฟังก์ชันของnnetแพ็คเกจได้Rอย่างไร ฉันมีชุดข้อมูลซึ่งประกอบด้วย“ คะแนนพยาธิวิทยา” (ขาด, อ่อน, รุนแรง) เป็นตัวแปรผลลัพธ์และสองผลหลัก: อายุ (สองปัจจัย: ยี่สิบ / สามสิบวัน) และกลุ่มการรักษา (สี่ปัจจัย: การติดเชื้อโดยไม่ต้อง ATB; ATB1; ที่ติดเชื้อ + ATB2; ที่ติดเชื้อ + ATB3) ก่อนอื่นฉันพยายามจัดรูปแบบการถดถอยตามลำดับซึ่งดูเหมือนจะเหมาะสมกว่าเนื่องจากลักษณะของตัวแปรตาม (ลำดับ) ของฉัน อย่างไรก็ตามข้อสันนิษฐานของอัตราต่อรองถูกละเมิดอย่างรุนแรง (กราฟิก) ซึ่งทำให้ฉันใช้โมเดล multinomial แทนโดยใช้nnetแพ็คเกจ ก่อนอื่นฉันเลือกระดับผลลัพธ์ที่ฉันต้องใช้เป็นหมวดหมู่พื้นฐาน: Data$Path <- relevel(Data$Path, ref = "Absent") จากนั้นฉันต้องตั้งค่าหมวดหมู่พื้นฐานสำหรับตัวแปรอิสระ: Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, …

3
การตีความแบบจำลอง ARIMA
ฉันมีคำถามเกี่ยวกับแบบจำลอง ARIMA สมมติว่าฉันมีอนุกรมเวลาที่ฉันต้องการคาดการณ์และแบบจำลองดูเหมือนจะเป็นวิธีที่ดีในการทำแบบฝึกหัดการพยากรณ์ ตอนนี้รั้ง 's หมายความว่าชุดของฉันในวันนี้เป็นผลมาจากเหตุการณ์ที่เกิดขึ้นก่อน มันสมเหตุสมผลแล้ว แต่การตีความข้อผิดพลาดคืออะไร? สิ่งที่เหลือก่อนหน้าของฉัน (ฉันจะคำนวณได้อย่างไร) มีอิทธิพลต่อมูลค่าของซีรี่ส์ของฉันในวันนี้ ส่วนที่เหลือล้าหลังจะคำนวณได้อย่างไรในการถดถอยนี้เนื่องจากเป็นผลิตภัณฑ์ / ส่วนที่เหลือของการถดถอย ARIMA ( 2 , 2 ) Δ Y t = α 1 Δ Y t - 1 + α 2 Δ Y t - 2 + ν t + θ 1 ν t - 1 + …

1
การวิเคราะห์การไกล่เกลี่ยหลายใน R
ฉันสงสัยว่าถ้าใครรู้วิธีเรียกใช้โมเดลการไกล่เกลี่ยหลาย ๆ แบบในอาร์ฉันรู้ว่าแพ็คเกจการไกล่เกลี่ยอนุญาตให้ใช้แบบจำลองการไกล่เกลี่ยหลายแบบได้ง่าย แต่ฉันต้องการเรียกใช้โมเดลหนึ่งที่ประเมินโมเดลการไกล่เกลี่ยหลายแบบพร้อมกัน ฉันสมมติว่าฉันสามารถทำได้ในกรอบ SEM (การวิเคราะห์เส้นทาง) แต่ก็สงสัยว่าใครใหม่ของแพคเกจที่คำนวณสถิติทั่วไปของการวิเคราะห์การไกล่เกลี่ยสำหรับผู้ไกล่เกลี่ยหลายคน (ผลทางอ้อมสัดส่วนของผลรวมผ่านการไกล่เกลี่ย ฯลฯ ) และสามารถใช้ประโยชน์จากความร่วมมือ ฉันรู้ว่านี่เป็นช็อตยาว แต่คิดว่าฉันควรถามก่อนลงทุนเวลาพัฒนาตั้งแต่เริ่มต้น อัปเดต: (11/11/2013) ตั้งแต่ถามคำถามนี้เมื่อสองสามปีที่แล้วฉันได้เรียนรู้การใช้ลาวาแพ็คเกจ R ที่ยอดเยี่ยมเพื่อทำหน้าที่เป็นสื่อกลางหลายอย่าง นี่คือตัวอย่างรหัส: model <- ' # outcome model outcomeVar ~ c*xVar + b1*medVar1 + b2*medVar2 # mediator models medVar1 ~ a1*xVar medVar2 ~ a2*xVar # indirect effects (IDE) medVar1IDE := a1*b1 medVar2IDE …

3
อะไรคือความแตกต่างระหว่าง lm () และ rlm ()
ฉันเพิ่งพบ "การติดตั้งอุปกรณ์ที่มีประสิทธิภาพเชิงเส้นรุ่น" rlm() ฟังก์ชั่นในMASSห้องสมุด ฉันต้องการทราบความแตกต่างระหว่างฟังก์ชันนี้กับฟังก์ชันถดถอยเชิงเส้นมาตรฐาน, lm(). ใครช่วยอธิบายสั้น ๆ ให้ฉันได้บ้าง
19 r  regression 

4
จำนวนตัวแปรอิสระสูงสุดที่สามารถป้อนลงในสมการการถดถอยหลายตัว
จำนวนตัวแปรอิสระที่ จำกัด ไว้ที่หนึ่งอาจป้อนในสมการถดถอยหลายคืออะไร? ฉันมีตัวทำนาย 10 ตัวที่ฉันต้องการตรวจสอบในแง่ของการมีส่วนร่วมของพวกเขากับตัวแปรผลลัพธ์ ฉันควรใช้การแก้ไข bonferroni เพื่อปรับสำหรับการวิเคราะห์หลายครั้งหรือไม่

1
ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง
ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม คำถามของฉันคือ เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่? ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

2
คุณ“ ควบคุม” สำหรับปัจจัย / ตัวแปรอย่างไร
เพื่อความเข้าใจของฉัน "การควบคุม" สามารถมีความหมายสองอย่างในสถิติ กลุ่มควบคุม: ในการทดสอบจะไม่มีการรักษาให้กับสมาชิกของกลุ่มควบคุม ตัวอย่าง: ยาหลอกเทียบกับยา: คุณให้ยาแก่กลุ่มหนึ่งและไม่ให้อีกกลุ่มหนึ่ง (กลุ่มควบคุม) ซึ่งเรียกอีกอย่างว่า "การทดลองที่ควบคุม" การควบคุมตัวแปร: เทคนิคการแยกเอฟเฟกต์ของตัวแปรอิสระเฉพาะ ชื่ออื่นที่ให้กับเทคนิคนี้คือ "การบัญชีสำหรับ", "การถือค่าคงที่", "การควบคุมสำหรับ", ตัวแปรบางตัว ตัวอย่างเช่น: ในการศึกษาดูฟุตบอล (เหมือนหรือไม่ชอบ) คุณอาจต้องการใช้เอฟเฟกต์ของเพศเมื่อเราคิดว่าเพศเป็นสาเหตุของความลำเอียงนั่นคือผู้ชายอาจชอบมากกว่าผู้หญิง ดังนั้นคำถามของฉันมีไว้สำหรับจุด (2) สองคำถาม: คุณ "ควบคุม" / "บัญชีสำหรับ" ตัวแปรโดยทั่วไปได้อย่างไร ใช้เทคนิคอะไร (ในแง่ของการถดถอยกรอบ ANOVA) ในตัวอย่างด้านบนการเลือกชายและหญิงจะเป็นการควบคุมแบบสุ่มหรือไม่? นั่นคือ "การสุ่ม" เป็นหนึ่งในเทคนิคในการควบคุมเอฟเฟกต์อื่น ๆ หรือไม่?

6
การถดถอยเบต้าของข้อมูลสัดส่วนรวมถึง 1 และ 0
ฉันพยายามสร้างแบบจำลองที่ฉันมีตัวแปรตอบกลับซึ่งเป็นสัดส่วนระหว่าง 0 และ 1 ซึ่งรวมถึง 0 และ 1 ไม่กี่ แต่ยังมีค่าอีกมาก ฉันกำลังคิดเกี่ยวกับการพยายามถดถอยเบต้า แพ็คเกจที่ฉันพบสำหรับ R (betareg) อนุญาตเฉพาะค่าระหว่าง 0 ถึง 1 แต่ไม่รวม 0 หรือ 1 ตัวพวกเขา ฉันได้อ่านที่อื่นแล้วว่าตามหลักการแล้วการกระจายเบต้าควรจะสามารถจัดการค่า 0 หรือ 1 ได้ แต่ฉันไม่รู้วิธีจัดการกับสิ่งนี้ใน RI ได้เห็นบางคนเพิ่ม 0.001 ลงในศูนย์และรับ 0.001 จากอันที่จริง แต่ฉันไม่ แน่ใจว่านี่เป็นความคิดที่ดีหรือไม่? อีกทางหนึ่งฉันสามารถ logit แปลงตัวแปรการตอบสนองและใช้การถดถอยเชิงเส้น ในกรณีนี้ฉันมีปัญหาเดียวกันกับ 0 และ 1 ซึ่งไม่สามารถแปลงการบันทึกได้

2
ทำไมการถดถอยถึงความแปรปรวน?
ฉันกำลังอ่านบันทึกนี้ บนหน้า 2 มันระบุ: "ความแปรปรวนของข้อมูลอธิบายได้อย่างไรโดยตัวแบบการถดถอยที่กำหนด" "การตีความการถดถอยเป็นเรื่องเกี่ยวกับค่าเฉลี่ยของสัมประสิทธิ์; การอนุมานเป็นเรื่องของความแปรปรวน" ฉันได้อ่านเกี่ยวกับคำแถลงดังกล่าวหลายครั้งแล้วทำไมเราถึงสนใจ "ความแปรปรวนของข้อมูลอธิบายโดยตัวแบบการถดถอยที่ให้มาเท่าไหร่" ... โดยเฉพาะอย่างยิ่งทำไม "ความแปรปรวน"?

3
ฟอเรสต์แบบสุ่มสำหรับการถดถอยนั้นเป็น "การถดถอย" ที่แท้จริงหรือไม่?
สุ่มป่าใช้สำหรับการถดถอย อย่างไรก็ตามจากสิ่งที่ฉันเข้าใจพวกเขากำหนดค่าเป้าหมายเฉลี่ยในแต่ละใบ เนื่องจากมีใบที่ จำกัด ในแต่ละต้นเท่านั้นจึงมีค่าเฉพาะที่เป้าหมายสามารถบรรลุได้จากโมเดลการถดถอยของเรา ดังนั้นมันไม่ใช่แค่การถดถอยแบบ 'ไม่ต่อเนื่อง' (เช่นฟังก์ชันขั้นตอน) และไม่เหมือนกับการถดถอยเชิงเส้นซึ่งเป็น 'ต่อเนื่อง'? ฉันเข้าใจสิ่งนี้ถูกต้องหรือไม่ ถ้าใช่ข้อได้เปรียบของป่าสุ่มในการถดถอยคืออะไร

2
LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?
วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

2
มันเหมาะสมหรือไม่ที่จะใช้ Logistic regression กับผลลัพธ์ไบนารีและตัวทำนาย
ฉันมีตัวแปรผลลัพธ์ไบนารี {0,1} และตัวแปรตัวทำนาย {0,1} ความคิดของฉันคือว่ามันไม่สมเหตุสมผลที่จะทำเรื่องโลจิสติกส์ยกเว้นว่าฉันรวมตัวแปรอื่น ๆ และคำนวณอัตราต่อรอง ด้วยตัวทำนายไบนารีหนึ่งจะไม่คำนวณอัตราส่วนความน่าจะเป็นที่พอเพียงเทียบกับอัตราต่อรองหรือไม่

6
การถดถอยเชิงเส้นหรือการถดถอยโลจิสติกอันดับเพื่อทำนายการจัดอันดับไวน์ (จาก 0 และ 10)
ฉันมีข้อมูลไวน์จากที่นี่ซึ่งประกอบด้วยตัวแปรอิสระ 11 ตัวเลขที่มีการจัดอันดับที่สัมพันธ์กับแต่ละรายการที่มีค่าระหว่าง 0 ถึง 10 ทำให้ชุดข้อมูลที่ยอดเยี่ยมในการใช้แบบจำลองการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรและที่เกี่ยวข้อง อันดับ อย่างไรก็ตามการถดถอยเชิงเส้นจะเหมาะสมหรือดีกว่าที่จะใช้การถดถอยโลจิสติกแบบหลายชื่อ / สั่ง การถดถอยแบบลอจิสติกดูเหมือนจะดีกว่าในหมวดหมู่ที่เฉพาะเจาะจงนั่นคือไม่ใช่ตัวแปรที่ขึ้นอยู่กับแบบต่อเนื่อง แต่ (1) มี 11 หมวดหมู่ (มากไปหน่อย?) และ (2) เมื่อตรวจสอบมีข้อมูลเพียง 6-7 ประเภทเท่านั้น 5-4 หมวดหมู่ไม่มีตัวอย่างในชุดข้อมูล ในทางกลับกันการถดถอยเชิงเส้นควรประเมินเชิงเส้นตรงระหว่างระดับ 0-10 ซึ่งดูใกล้เคียงกับสิ่งที่ฉันกำลังพยายามหา แต่ตัวแปรที่ขึ้นต่อกันไม่ได้ต่อเนื่องในชุดข้อมูล วิธีใดดีกว่ากัน หมายเหตุ: ฉันกำลังใช้ R สำหรับการวิเคราะห์ แก้ไขโดยพูดถึงประเด็นที่กล่าวถึงในคำตอบ: ไม่มีเป้าหมายทางธุรกิจเนื่องจากเป็นหลักสูตรของมหาวิทยาลัย ภารกิจคือการวิเคราะห์ชุดข้อมูลที่เลือกได้ตามที่ฉันเห็นว่าเหมาะสม การแจกแจงเรตติ้งนั้นดูปกติ (ฮิสโตแกรม / qq-plot) ค่าจริงในชุดข้อมูลอยู่ระหว่าง 3-8 (แม้ว่าทางเทคนิคจะมีค่า 0-10)

6
คำอธิบายที่ใช้งานง่ายของคำในความแปรปรวนของตัวประมาณกำลังสองน้อยที่สุด
ถ้าอยู่ในอันดับเต็มค่าผกผันของมีอยู่และเราจะได้ค่าประมาณกำลังสองน้อยที่สุด: และXXXXTXXTXX^TXˆβ=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(ˆβ)=σ2(XTX)−1Var(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} เราจะอธิบายอย่างสังหรณ์ใจได้อย่างไรในสูตรผลต่าง เทคนิคของการได้มานั้นชัดเจนสำหรับฉัน(XTX)−1(XTX)−1(X^TX)^{-1}

2
มีข้อสมมติฐานเกี่ยวกับการถดถอยโลจิสติกหรือไม่
มีข้อสันนิษฐานเกี่ยวกับตัวแปรตอบสนองของการถดถอยโลจิสติก ตัวอย่างเช่นสมมติว่าเรามีจุดข้อมูลจุด ดูเหมือนว่าการตอบสนองY ฉันมาจากการกระจาย Bernoulli กับหน้าฉัน = logit ( β 0 + β 1 x ฉัน ) ดังนั้นเราจึงควรมี1,000กระจาย Bernoulli กับพารามิเตอร์ที่แตกต่างกันP100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp ดังนั้นพวกเขาจึงเป็น "อิสระ" แต่ไม่ได้ "เหมือนกัน" ฉันถูกไหม? PS ฉันเรียนรู้การถดถอยแบบลอจิสติกจากวรรณกรรม "การเรียนรู้ของเครื่อง" ซึ่งเราทำหน้าที่ของวัตถุประสงค์ให้เหมาะสมและตรวจสอบว่ามันดีในการทดสอบข้อมูลโดยไม่พูดถึงสมมติฐานมากเกินไปหรือไม่ คำถามของฉันเริ่มต้นด้วยโพสต์นี้ทำความเข้าใจกับฟังก์ชั่นการเชื่อมโยงในโมเดลเชิงเส้นทั่วไปที่ฉันพยายามเรียนรู้เพิ่มเติมเกี่ยวกับสมมติฐานทางสถิติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.