คำถามติดแท็ก generalized-linear-model

ลักษณะทั่วไปของการถดถอยเชิงเส้นที่อนุญาตให้มีความสัมพันธ์แบบไม่เชิงเส้นผ่าน "ฟังก์ชันลิงก์" และสำหรับความแปรปรวนของการตอบสนองขึ้นอยู่กับค่าที่ทำนายไว้ (เพื่อไม่ให้สับสนกับ "โมเดลเชิงเส้นทั่วไป" ซึ่งขยายโมเดลเชิงเส้นปกติไปยังโครงสร้างความแปรปรวนร่วมทั่วไปและการตอบสนองหลายตัวแปร)

3
Negative-binomial GLM เทียบกับการเปลี่ยนแปลงการบันทึกสำหรับข้อมูลนับ: เพิ่มอัตราความผิดพลาด Type I
คุณบางคนอาจจะอ่านบทความนี้ดี: O'Hara RB, Kotze DJ (2010) อย่าบันทึกข้อมูลการนับการแปลง วิธีการทางนิเวศวิทยาและวิวัฒนาการ 1: 118–122 Klick ในสาขาการวิจัยของฉัน (นิเวศน์วิทยา) เรากำลังจัดการกับการทดลองที่ทำซ้ำแบบไม่ดีและ GLM ไม่ได้ใช้กันอย่างแพร่หลาย ดังนั้นฉันจึงทำการจำลองที่คล้ายกันกับ O'Hara & Kotze (2010) แต่เลียนแบบข้อมูลนิเวศน์วิทยา พลังงานจำลอง : ฉันจำลองข้อมูลจากการออกแบบแบบแฟกทอเรียลด้วยกลุ่มควบคุมหนึ่งกลุ่ม ( ) และกลุ่มการรักษา 5 กลุ่ม ( ) ความอุดมสมบูรณ์ในการรักษา 1 เหมือนกับการควบคุม ( ) ความอุดมสมบูรณ์ในการรักษา 2-5 คือครึ่งหนึ่งของความอุดมสมบูรณ์ในการควบคุม ( \ mu_ {2-5} = 0.5 \ mu_c ) สำหรับแบบจำลองฉันเปลี่ยนขนาดตัวอย่าง …

9
คำขออ้างอิง: โมเดลเชิงเส้นทั่วไป
ฉันกำลังมองหาหนังสือระดับเบื้องต้นถึงระดับกลางเกี่ยวกับโมเดลเชิงเส้นทั่วไป นอกจากทฤษฎีแล้วฉันจะต้องการให้มันรวมแอพพลิเคชั่นและตัวอย่างใน R หรือภาษาการเขียนโปรแกรมอื่น - ฉันได้ยินว่า SAS เป็นตัวเลือกยอดนิยม ฉันตั้งใจจะศึกษาด้วยตัวเองและมันจะช่วยได้ถ้ามันให้คำตอบกับแบบฝึกหัดของตัวเอง คุณสามารถสมมติว่าฉันได้เรียนหลักสูตรปียาวแบบดั้งเดิมในแคลคูลัสและทฤษฎีความน่าจะเป็น ฉันคุ้นเคยกับพื้นฐานของการวิเคราะห์การถดถอย

5
นักสถิติสันนิษฐานว่าไม่มีใครสามารถรดน้ำต้นไม้ได้หรือฉันแค่ใช้คำค้นหาที่ผิดสำหรับการถดถอยเชิงเส้นโค้ง?
เกือบทุกอย่างที่ฉันอ่านเกี่ยวกับการถดถอยเชิงเส้นและ GLM จะลดลงถึงสิ่งนี้:โดยที่เป็นฟังก์ชั่นที่ไม่เพิ่มขึ้นหรือลดลงของและเป็นพารามิเตอร์ของคุณ ประมาณการและทดสอบสมมติฐานเกี่ยวกับ มีหลายสิบของฟังก์ชั่นการเชื่อมโยงและการเปลี่ยนแปลงของการเป็นและจะทำให้ฟังก์ชันเชิงเส้นของ\)y=f(x,β)y=f(x,β)y = f(x,\beta)f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta) ตอนนี้ถ้าคุณลบข้อกำหนดที่ไม่เพิ่ม / ไม่ลดสำหรับฉันรู้เพียงสองทางเลือกสำหรับการปรับโมเดลพาราเมตริกเมทริกซ์ที่ปรับให้เหมาะสม: ฟังก์ชันตรีโกณมิติและพหุนาม ทั้งคู่สร้างการพึ่งพาอาศัยกันระหว่างแต่ละคาดการณ์และทั้งชุดของทำให้พวกเขาพอดีไม่แข็งแรงมากเว้นแต่มีเหตุผลก่อนที่จะเชื่อว่าข้อมูลของคุณถูกสร้างขึ้นจริงโดยกระบวนการวัฏจักรหรือพหุนามy Xf(x,β)f(x,β)f(x,\beta)yyyXXX นี่ไม่ใช่กรณีขอบลึกลับบางอย่าง มันคือความสัมพันธ์ที่เกิดขึ้นจริงและสามัญสำนึกระหว่างน้ำกับผลผลิต (เมื่อแปลงอยู่ลึกพอใต้น้ำผลผลิตของพืชจะเริ่มลดลง) หรือระหว่างแคลอรี่ที่บริโภคในอาหารเช้าและประสิทธิภาพในการตอบคำถามคณิตศาสตร์หรือจำนวนคนงานในโรงงาน และจำนวนของวิดเจ็ตที่พวกเขาสร้าง ... โดยสังเขปเกือบทุกกรณีในชีวิตจริงที่ใช้โมเดลเชิงเส้น แต่ด้วยข้อมูลที่ครอบคลุมช่วงกว้างพอที่คุณไปผ่านการลดขนาดลงของผลตอบแทนเป็นผลตอบแทนติดลบ ฉันพยายามค้นหาคำว่า 'เว้า', 'นูน', 'โค้ง', 'ไม่ใช่โมโนโทนิก', 'อ่างอาบน้ำ' และฉันลืมว่ามีคนอื่นอีกกี่คน คำถามที่เกี่ยวข้องน้อยและคำตอบที่ใช้ได้น้อยลง ดังนั้นในทางปฏิบัติหากคุณมีข้อมูลต่อไปนี้ (รหัส R y เป็นฟังก์ชันของตัวแปร x ต่อเนื่องและกลุ่มตัวแปรแยก): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); คุณอาจลองใช้การแปลงแบบ Box-Cox ก่อนและดูว่ามันเหมาะสมหรือไม่และคุณอาจจะพอดีกับโมเดลกำลังสองที่ไม่เชิงเส้นด้วยฟังก์ชันลอจิสติกหรือการเชื่อมโยงแบบอะซิมโทติก ดังนั้นทำไมคุณควรเลิกใช้พารามิเตอร์แบบจำลองอย่างสมบูรณ์และถอยกลับด้วยวิธีกล่องดำเหมือนเส้นโค้งเมื่อคุณพบว่าชุดข้อมูลแบบเต็มมีลักษณะเช่นนี้ ... plot(y~x,updown,col=group); คำถามของฉันคือ: ฉันควรค้นหาคำใดเพื่อค้นหาฟังก์ชันลิงก์ที่เป็นตัวแทนของคลาสของความสัมพันธ์การทำงานนี้ หรือ ฉันควรอ่านอะไรและ …

4
การใช้ offset ในรูปแบบทวินามเพื่ออธิบายจำนวนผู้ป่วยที่เพิ่มขึ้น
คำถามสองข้อที่เกี่ยวข้องจากฉัน ฉันมีกรอบข้อมูลซึ่งมีจำนวนผู้ป่วยในหนึ่งคอลัมน์ (ช่วงผู้ป่วย 10 - 17 คน) และ 0s และ 1s แสดงว่าเหตุการณ์เกิดขึ้นในวันนั้นหรือไม่ ฉันใช้รูปแบบทวินามเพื่อลดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นกับจำนวนผู้ป่วย อย่างไรก็ตามฉันต้องการที่จะปรับให้เข้ากับความจริงที่ว่าเมื่อมีผู้ป่วยมากขึ้นจะมีเหตุการณ์ที่เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้เพราะจำนวนเวลาผู้ป่วยทั้งหมดในวอร์ดนั้นสูงขึ้นในวันนั้น ดังนั้นฉันใช้รูปแบบทวินามแบบออฟเซ็ตเช่นนี้ (รหัส R): glm(Incident~Numbers, offset=Numbers, family=binomial, data=threatdata) คำถามของฉันคือ: มันโอเคที่จะมีตัวแปรที่เหมือนกันในการทำนายและใน offset หรือไม่? ฉันต้องการแยกความน่าจะเป็นของยาชูกำลังที่เพิ่มขึ้นและดูว่ามีอะไรเหลืออยู่บ้างหรือไม่ มันสมเหตุสมผลสำหรับฉัน แต่ฉันก็ค่อนข้างระมัดระวังในกรณีที่ฉันผิด มีการระบุออฟเซ็ตอย่างถูกต้องหรือไม่? ฉันรู้ว่าในรูปแบบปัวซองมันจะอ่าน offset=log(Numbers) ฉันไม่ทราบว่ามีสิ่งที่เทียบเท่าที่นี่และฉันไม่สามารถหาการชดเชยทวินามใด ๆ กับ Google (ปัญหาหลักคือการที่ฉันได้รับทวินามลบซึ่งแน่นอนว่าไม่ดี)

5
ใช้ lmer สำหรับการทำนาย
สวัสดีฉันมีสองปัญหาที่ฟังเหมือนผู้สมัครทั่วไปสำหรับรุ่นหลายระดับ / ผสมซึ่งฉันไม่เคยใช้ ง่ายขึ้นและสิ่งที่ฉันหวังว่าจะลองเป็นการแนะนำมีดังนี้: ข้อมูลดูเหมือนหลายแถวของแบบฟอร์ม x y innergroup outergroup โดยที่ x คือ covariate ที่เป็นตัวเลขซึ่งฉันต้องการถดถอย y (ตัวแปรตัวเลขอื่น), y แต่ละตัวเป็นของกลุ่มอินเนอร์กรุปและกลุ่มอินเทอร์เนชันแต่ละกลุ่มจะซ้อนกันในกลุ่มนอก (เช่นทั้งหมดในกลุ่มที่อยู่ในกลุ่มเดียวกัน) . น่าเสียดายที่ Innergroup มีหลายระดับ (หลายพันคน) และแต่ละระดับมีการสังเกตการณ์ค่อนข้างน้อยดังนั้นฉันคิดว่ารูปแบบนี้อาจเหมาะสม คำถามของฉันคือ ฉันจะเขียนสูตรหลายระดับได้อย่างไร เมื่อlmer เข้ากับโมเดลแล้วจะมีวิธีการทำนายอย่างไร ฉันมีตัวอย่างของเล่นที่เรียบง่ายขึ้น แต่ไม่พบฟังก์ชันทำนาย () คนส่วนใหญ่ดูเหมือนจะสนใจในการอนุมานมากกว่าการทำนายด้วยเทคนิคแบบนี้ ฉันมีหลายล้านแถวดังนั้นการคำนวณอาจเป็นปัญหา แต่ฉันสามารถลดได้ตามความเหมาะสม ฉันไม่ต้องการทำสิ่งที่สองในบางครั้ง แต่ฉันก็อาจเริ่มคิดเกี่ยวกับมันและเล่นกับมัน ผมมีข้อมูลที่คล้ายกันเหมือน แต่ก่อน แต่ไม่มี x, y และในขณะนี้คือตัวแปรทวินามของแบบฟอร์มNK) y ยังมีการทับซ้อนจำนวนมากแม้ในกลุ่มผู้ใช้ ส่วนใหญ่ของไม่เกิน 2 หรือ 3 (หรือน้อยกว่า) …

2
ทำไมการถดถอยเบต้าไม่สามารถจัดการกับ 0 และ 1 ในตัวแปรตอบกลับได้
การถดถอยแบบเบต้า (เช่น GLM ที่มีการแจกแจงแบบเบต้าและมักจะมีฟังก์ชั่นการเชื่อมโยงแบบ logit) มักจะแนะนำให้จัดการกับการตอบสนองหรือที่เรียกว่าตัวแปรตามค่าระหว่าง 0 และ 1 เช่นเศษส่วนอัตราส่วนหรือความน่าจะเป็น: การถดถอยสำหรับผลลัพธ์ ระหว่าง 0 และ 1 อย่างไรก็ตามมีการอ้างเสมอว่าการถดถอยเบต้าไม่สามารถใช้ได้ทันทีที่ตัวแปรตอบสนองเท่ากับ 0 หรือ 1 อย่างน้อยหนึ่งครั้ง ถ้าไม่จำเป็นต้องใช้ทั้งศูนย์ / รุ่นหนึ่งที่สูงเกินจริงเบต้าหรือทำให้การเปลี่ยนแปลงของการตอบสนองบาง ฯลฯ .: ถดถอยเบต้าของข้อมูลสัดส่วนรวมทั้งที่ 1 และ 0 คำถามของฉันคือคุณสมบัติของการกระจายเบต้าป้องกันการถดถอยเบต้าจากการจัดการกับ 0s และ 1s ที่แน่นอนและเพราะเหตุใด ฉันเดาว่ามันคือและไม่ได้อยู่ในการสนับสนุนของการกระจายเบต้า แต่สำหรับพารามิเตอร์รูปร่างทั้งหมดและทั้งศูนย์และอีกอันหนึ่งอยู่ในการสนับสนุนการแจกแจงแบบเบต้ามันเป็นเพียงพารามิเตอร์รูปร่างขนาดเล็กที่การกระจายไปที่อนันต์ที่หนึ่งหรือทั้งสองด้าน และบางทีข้อมูลตัวอย่างเป็นเช่นที่และให้เหมาะสมที่สุดทั้งคู่ก็จะเปิดออกเพื่อจะเหนือ1000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 มันหมายความว่าในบางกรณีเราสามารถใช้การถดถอยแบบเบต้าแม้ว่าจะเป็นศูนย์ / คนก็ตาม แน่นอนว่าแม้ว่า 0 และ 1 จะอยู่ในการสนับสนุนการแจกแจงเบต้าความน่าจะเป็นที่สังเกต 0 หรือ 1 เป็นศูนย์ แต่ความน่าจะเป็นที่จะสังเกตชุดของค่าที่นับได้อื่น …

3
อัลกอริทึมการเพิ่มประสิทธิภาพใดที่ใช้ในฟังก์ชัน glm ใน R
หนึ่งสามารถทำการถดถอย logit ใน R โดยใช้รหัสดังกล่าว: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 ดูเหมือนว่าอัลกอริทึมการออปติไมซ์ได้แปรสภาพ - มีข้อมูลเกี่ยวกับจำนวนขั้นตอนของอัลกอริทึมการให้คะแนนฟิชเชอร์: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max …

2
วิธีทำโมเดลเชิงเส้นทั่วไปที่มีตัวแปรตามหลายตัวใน R?
ฉันมีตัวแปรตามหกตัว (นับข้อมูล) และตัวแปรอิสระหลายตัวฉันเห็นว่าใน MMR สคริปต์จะเป็นดังนี้: my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) แต่เนื่องจากข้อมูลของฉันมีการนับฉันต้องการใช้โมเดลเชิงเส้นแบบทั่วไปและฉันลองทำสิ่งนี้: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") และปรากฏข้อความข้อผิดพลาดนี้: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …

1
คุณสมบัติของการถดถอยโลจิสติก
เรากำลังทำงานกับการถดถอยแบบโลจิสติกส์และเราได้ตระหนักว่าความน่าจะเป็นโดยประมาณโดยเฉลี่ยเท่ากับสัดส่วนของตัวอย่างในตัวอย่าง นั่นคือค่าเฉลี่ยของค่าติดตั้งเท่ากับค่าเฉลี่ยของตัวอย่าง ใครช่วยอธิบายเหตุผลให้ฉันหรือให้ข้อมูลอ้างอิงกับฉันที่ฉันสามารถหาการสาธิตนี้ได้?

2
เป็นไปได้อย่างไรที่ Poisson GLM ยอมรับหมายเลขที่ไม่ใช่จำนวนเต็ม?
ฉันตกตะลึงกับความจริงที่ว่า Poisson GLM ยอมรับตัวเลขที่ไม่ใช่จำนวนเต็ม! ดู: ข้อมูล (เนื้อหาของdata.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 สคริปต์ R: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + …

5
วิธีการระบุการกระจาย lognormal ในการโต้แย้งตระกูล glm ใน R?
คำถามง่าย ๆ : จะระบุการกระจายแบบ lognormal ในอาร์กิวเมนต์ตระกูล GLM ใน R ได้อย่างไร? ฉันไม่สามารถค้นหาวิธีการนี้สามารถทำได้ เหตุใด lognormal (หรือ exponential) จึงไม่มีตัวเลือกในการโต้แย้งครอบครัว? ที่ไหนสักแห่งใน R-Archives ฉันอ่านว่ามีการใช้ log-link สำหรับครอบครัวที่ตั้งค่าเป็น gaussian ใน GLM เพื่อระบุ lognormal อย่างไรก็ตามนี่เป็นเรื่องไร้สาระเพราะมันจะพอดีกับการถดถอยเชิงเส้นและ R เริ่มขอค่าเริ่มต้น มีใครทราบวิธีตั้งค่าการกระจาย lognormal (หรือเลขชี้กำลัง) สำหรับ GLM หรือไม่

3
จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?
ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้: ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม

2
วิธีจัดการกับข้อผิดพลาดเช่น“ ค่าสัมประสิทธิ์: 14 ไม่ได้ถูกนิยามเนื่องจากภาวะเอกฐาน” ใน R?
เมื่อทำ GLM และคุณได้รับข้อผิดพลาด "ไม่ได้ถูกกำหนดเนื่องจากภาวะเอกฐาน" ในผลลัพธ์ anova หนึ่งจะตอบโต้ข้อผิดพลาดนี้ได้อย่างไร บางคนบอกว่าเป็นเพราะ collinearity ระหว่าง covariates หรือว่าหนึ่งในระดับที่ไม่ได้อยู่ในชุดข้อมูล (ดู: การตีความ "ไม่ได้กำหนดไว้เพราะเอกภาวะ" ใน lm ) ถ้าผมอยากจะดูว่า "การรักษาโดยเฉพาะอย่างยิ่ง" คือการขับรถรูปแบบและฉันมี 4 ระดับของการรักษา: Treat 1, Treat 2, Treat 3และTreat 4ซึ่งได้รับการบันทึกไว้ในสเปรดชีตของฉันเป็น: เมื่อTreat 11 ส่วนที่เหลือเป็นศูนย์เมื่อTreat 21 ส่วนที่เหลือเป็นศูนย์ เป็นต้นฉันต้องทำอย่างไร

1
เพียร์สัน VS Deviance ตกค้างในการถดถอยโลจิสติก
ฉันรู้ว่าเพียร์สันที่เหลือมาตรฐานได้รับในความน่าจะเป็นแบบดั้งเดิม: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} และ Deviance Residuals ได้มาจากวิธีการทางสถิติที่มากขึ้น (การสนับสนุนของแต่ละจุดสู่โอกาส): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} โดยที่sisis_i = 1 ถ้าyiyiy_i = 1 และsisis_i = -1 ถ้าyiyiy_i = 0 คุณสามารถอธิบายให้ฉันอย่างสังหรณ์ใจได้อย่างไรวิธีการตีความสูตรการเบี่ยงเบนที่เหลืออยู่? ยิ่งไปกว่านั้นถ้าฉันต้องการเลือกอันไหนอันไหนที่เหมาะกว่าและทำไม? BTW การอ้างอิงบางอย่างอ้างว่าเราได้รับค่าเบี่ยงเบนเหลืออยู่จากคำว่า −12ri2−12ri2-\frac{1}{2}{r_i}^2 ที่ถูกกล่าวถึงข้างต้นririr_i

4
กลยุทธ์สำหรับการตัดสินใจรูปแบบที่เหมาะสมสำหรับการนับข้อมูล
กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.