คำถามติดแท็ก log-linear

5
การทำความเข้าใจความถดถอย - บทบาทของตัวแบบ
แบบจำลองการถดถอยสามารถใช้งานได้อย่างไรหากคุณไม่ทราบว่าฟังก์ชั่นที่คุณพยายามรับพารามิเตอร์นั้นเป็นอย่างไร ฉันเห็นงานวิจัยชิ้นหนึ่งที่กล่าวว่าแม่ที่เลี้ยงลูกด้วยนมแม่มีโอกาสน้อยที่จะเป็นโรคเบาหวานในภายหลัง การวิจัยครั้งนี้มาจากการสำรวจมารดา 1,000 คนและควบคุมปัจจัยอื่น ๆ และใช้แบบจำลองเชิงเส้น ตอนนี้นี่หมายความว่าพวกเขาคำนึงถึงปัจจัยทั้งหมดที่กำหนดความน่าจะเป็นของโรคเบาหวานในฟังก์ชั่นที่ดี (แทนได้อย่างน่าสันนิษฐาน) ที่แปลอย่างประณีตในรูปแบบเชิงเส้นที่มีท่อนซุงและไม่ว่าเต้านมผู้หญิง ฉันขาดอะไรบางอย่างฉันแน่ใจแต่ว่าพวกเขารู้รูปแบบได้อย่างไร

3
การถดถอยเชิงเส้นของล็อกเทียบกับการถดถอยโลจิสติก
ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน

3
วิธีที่เหมาะสมในการจัดการกับตารางฉุกเฉิน 3 ระดับ
ฉันมีตารางฉุกเฉินสามระดับโดยมีข้อมูลการนับสปีชีส์หลายชนิดพืชโฮสต์ที่พวกเขาถูกรวบรวมและการสะสมนั้นเกิดขึ้นในวันที่ฝนตกหรือไม่ (อันนี้สำคัญจริงๆ!) เมื่อใช้ R ข้อมูลปลอมอาจเป็นดังนี้: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , …

4
บันทึกโมเดลเชิงเส้น
ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมเราถึงใช้โมเดลลิเนียร์ลิเนียร์ในแง่คนธรรมดา? ฉันมาจากภูมิหลังทางวิศวกรรมและนี่เป็นเรื่องยากสำหรับฉันสถิติที่เป็น ฉันจะขอบคุณสำหรับคำตอบ

1
วิธีการลงโทษสำหรับข้อมูลเด็ดขาด: การรวมระดับในปัจจัย
โมเดลที่ถูกปรับแต่งสามารถใช้เพื่อประเมินโมเดลที่มีจำนวนพารามิเตอร์เท่ากับหรือมากกว่าขนาดตัวอย่าง สถานการณ์นี้อาจเกิดขึ้นในตัวแบบบันทึกการเชิงเส้นของตารางกระจัดกระจายขนาดใหญ่ของข้อมูลเด็ดขาดหรือการนับ ในการตั้งค่าเหล่านี้มักเป็นที่ต้องการหรือเป็นประโยชน์ในการยุบตารางด้วยการรวมระดับของปัจจัยที่ระดับเหล่านั้นไม่สามารถแยกแยะในแง่ของวิธีที่พวกเขาโต้ตอบกับปัจจัยอื่น ๆ สองคำถาม: มีวิธีใช้แบบจำลองที่มีการลงโทษเช่น LASSO หรือ elastic net เพื่อทดสอบการยุบตัวของระดับภายในแต่ละปัจจัยหรือไม่? หากคำตอบสำหรับคำถามแรกคือใช่สามารถและควรตั้งค่านี้ในลักษณะที่การล่มสลายของระดับและการประมาณค่าสัมประสิทธิ์แบบเกิดขึ้นในขั้นตอนเดียว?

1
การติดตั้งโมเดลเชิงเส้นตรงแบบเฮเทอโรเซสติกสำหรับการตอบสนองแบบทวินาม
ผมมีข้อมูลจากการออกแบบการทดลองต่อไปนี้: ข้อสังเกตของฉันมีการนับจำนวนของตัวเลขของความสำเร็จ (คนK) ออกจากจำนวนของการทดลอง (ตรงN) วัดสองกลุ่มแต่ละประกอบด้วยIบุคคลจากTการรักษาที่ในแต่ละชุดปัจจัยดังกล่าวมีRการทำซ้ำ . ดังนั้นทั้งหมดที่ฉันมี 2 * I * T * R K 'และสอดคล้องN ' s ข้อมูลมาจากชีววิทยา แต่ละคนเป็นยีนที่ฉันวัดระดับการแสดงออกของสองรูปแบบทางเลือก (เนื่องจากปรากฏการณ์ที่เรียกว่าการประกบทางเลือก) ดังนั้นKคือระดับการแสดงออกของหนึ่งในรูปแบบและNคือผลรวมของระดับการแสดงออกของทั้งสองรูปแบบ ตัวเลือกระหว่างสองรูปแบบในสำเนาที่แสดงออกเพียงครั้งเดียวถือว่าเป็นการทดลองของ Bernoulli ดังนั้นKจากNสำเนาตามทวินาม แต่ละกลุ่มประกอบด้วยยีนที่แตกต่างกัน ~ 20 และยีนในแต่ละกลุ่มมีหน้าที่ทั่วไปซึ่งแตกต่างกันระหว่างสองกลุ่ม สำหรับยีนแต่ละตัวในแต่ละกลุ่มฉันมีการวัดประมาณ 30 ตัวอย่างจากแต่ละเนื้อเยื่อที่แตกต่างกัน (การรักษา) ฉันต้องการประเมินผลกระทบที่กลุ่มและการรักษามีต่อความแปรปรวนของ K / N การแสดงออกของยีนเป็นที่รู้กันว่า overdispersed ดังนั้นการใช้ทวินามลบในรหัสด้านล่าง เช่นRรหัสของข้อมูลจำลอง: library(MASS) set.seed(1) I = 20 # individuals in …

1
จำเป็นต้องมีการนับศูนย์สำหรับการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลปัวซอง / loglinear หรือไม่
หากมี 0 อยู่ในตารางฉุกเฉินและเรากำลังจัดวางแบบจำลอง Poisson / loglinear ที่ซ้อนกัน (ใช้glmฟังก์ชั่นR ) สำหรับการทดสอบอัตราส่วนความน่าจะเป็นเราจำเป็นต้องปรับข้อมูลก่อนที่จะติดตั้งแบบจำลอง glm (เช่นเพิ่ม 1/2 ลงในทั้งหมด จำนวน) เห็นได้ชัดว่าบางพารามิเตอร์ไม่สามารถประมาณได้หากไม่มีการปรับ แต่การปรับ / ขาดการปรับมีผลต่อการทดสอบ LR อย่างไร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.