คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
ตัวแปรเครื่องมือจัดการกับอคติการเลือกอย่างไร
ฉันสงสัยว่าตัวแปรเครื่องมือจัดการอคติการเลือกอย่างไรในการถดถอย นี่คือตัวอย่างที่ฉันกำลังพูดถึง: ในเศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่ผู้เขียนอภิปรายเกี่ยวกับการถดถอย IV ที่เกี่ยวข้องกับการรับราชการทหารและรายได้ในภายหลัง คำถามคือ "การรับราชการในกองทัพเพิ่มหรือลดรายได้ในอนาคตหรือไม่" พวกเขาสำรวจคำถามนี้ในบริบทของสงครามเวียดนาม ฉันเข้าใจว่าการรับราชการทหารไม่สามารถสุ่มมอบหมายได้และนี่เป็นปัญหาสำหรับการอนุมานเชิงสาเหตุ ในการแก้ไขปัญหานี้ผู้วิจัยใช้ร่างเกณฑ์ (เช่นใน "หมายเลขร่างของคุณเรียกว่า") เป็นเครื่องมือสำหรับการรับราชการทหารที่แท้จริง ที่ทำให้ความรู้สึก: ร่างเวียดนามสุ่มมอบหมายคนอเมริกันหนุ่มทหาร (ในทางทฤษฎี - ไม่ว่านาวิกเสิร์ฟจริงสัมผัสกับคำถามของฉัน) เงื่อนไข IV อื่น ๆ ของเราดูแข็งแกร่ง: การมีสิทธิ์เข้าร่วมร่างและการเกณฑ์ทหารที่แท้จริงนั้นมีความสัมพันธ์กันในทางบวก นี่คือคำถามของฉัน ดูเหมือนว่าคุณจะได้รับอคติในการเลือกตนเอง: บางทีเด็ก ๆ ที่ร่ำรวยขึ้นอาจออกจากการรับใช้ในเวียดนามแม้ว่าจะมีการเรียกหมายเลขร่าง (ถ้าไม่ใช่อย่างนั้นจริง ๆ ลองทำเพื่อคำถามของฉัน) หากการเลือกตนเองนี้สร้างอคติเชิงระบบภายในตัวอย่างของเราตัวแปรเครื่องมือของเราจะจัดการอคตินี้อย่างไร เราต้อง จำกัด ขอบเขตการอนุมานของเราให้แคบลงหรือไม่ "ประเภทของคนที่ไม่สามารถหลบหนีจากร่างได้" หรือ IV ก็กอบกู้บางส่วนของการอนุมานของเรา? หากใครสามารถอธิบายวิธีการทำงานนี้ฉันจะขอบคุณมาก

4
การถดถอยโลจิสติกและจุดโรคติดเชื้อ
เรามีข้อมูลที่มีผลลัพธ์เป็นเลขฐานสองและเพื่อนร่วมทุนบางคน ฉันใช้การถดถอยโลจิสติกเพื่อทำแบบจำลองข้อมูล แค่การวิเคราะห์อย่างง่ายไม่มีอะไรพิเศษ ผลลัพธ์สุดท้ายควรจะเป็นเส้นโค้งการตอบสนองต่อปริมาณที่เราแสดงให้เห็นว่าความน่าจะเป็นเปลี่ยนแปลงสำหรับ covariate ที่เฉพาะเจาะจงอย่างไร บางสิ่งเช่นนี้ เราได้รับคำวิจารณ์จากผู้ตรวจสอบภายใน (ไม่ใช่นักสถิติบริสุทธิ์) สำหรับการเลือกการถดถอยโลจิสติก การถดถอยโลจิสติกถือว่า (หรือกำหนด) ว่าจุดผันของเส้นโค้งรูปตัว S ในระดับความน่าจะเป็นอยู่ที่ความน่าจะเป็น 0.5 เขาแย้งว่าจะไม่มีเหตุผลที่จะคิดว่าจุดเปลี่ยนความเว้าเป็นจริงที่ความน่าจะเป็น 0.5 และเราควรเลือกรูปแบบการถดถอยที่แตกต่างกันซึ่งช่วยให้จุดเปลี่ยนความเว้าแตกต่างกันไปตามตำแหน่งที่เกิดขึ้นจริง ในตอนแรกฉันถูกจับโดยการโต้แย้งของเขาตั้งแต่ฉันไม่เคยคิดเกี่ยวกับประเด็นนี้ ฉันไม่มีข้อโต้แย้งใด ๆ ว่าทำไมจึงสมควรที่จะสันนิษฐานว่าจุดโรคติดเชื้ออยู่ที่ 0.5 หลังจากทำวิจัยแล้วฉันยังไม่มีคำตอบสำหรับคำถามนี้ ฉันเจอการถดถอยโลจิสติก 5 พารามิเตอร์ซึ่งจุดเปลี่ยนเป็นพารามิเตอร์เพิ่มเติม แต่ดูเหมือนว่ารูปแบบการถดถอยนี้มักจะใช้เมื่อสร้างเส้นโค้งการตอบสนองต่อปริมาณด้วยผลลัพธ์ที่ต่อเนื่อง ฉันไม่แน่ใจว่าสามารถขยายไปยังตัวแปรตอบกลับแบบไบนารี่ได้หรือไม่ ฉันเดาคำถามหลักของฉันคือทำไมหรือเมื่อไรที่สมมติว่าจุดเปลี่ยนของการถดถอยโลจิสติกอยู่ที่ 0.5 มันสำคัญหรือไม่ ฉันไม่เคยเห็นใครเหมาะกับโมเดลการถดถอยแบบโลจิสติกส์และพูดคุยอย่างชัดเจนในประเด็นของจุดโรคติดเชื้อ มีทางเลือกอื่นในการสร้างเส้นโค้งการตอบสนองปริมาณรังสีที่จุดผันน้ำไม่จำเป็นต้องอยู่ที่ 0.5 หรือไม่? เพื่อความสมบูรณ์รหัส R สำหรับสร้างภาพด้านบน: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ …

1
ผลลัพธ์การถดถอยของสันเขาแตกต่างกันในการใช้ lm.ridge และ glmnet
ฉันใช้ข้อมูลบางอย่างที่จะหาทางออกที่ดีที่สุดของตัวแปรแบบการถดถอยโดยใช้การถดถอยสันในอาร์ฉันได้ใช้lm.ridgeและglmnet(เมื่อalpha=0) lambda=0แต่ผลที่แตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อ มันสมมติว่าตัวประมาณค่าพารามิเตอร์ทั้งสองมีค่าเหมือนกัน แล้วปัญหาอะไรที่นี่? ขอแสดงความนับถืออย่างสูง

1
การกระจายตัวตัวอย่างของสัมประสิทธิ์การถดถอย
ก่อนหน้านี้ฉันได้เรียนรู้เกี่ยวกับการสุ่มตัวอย่างการแจกแจงที่ให้ผลลัพธ์ซึ่งมีไว้สำหรับตัวประมาณในแง่ของพารามิเตอร์ที่ไม่รู้จัก ตัวอย่างเช่นสำหรับการแจกแจงตัวอย่างของและในโมเดลการถดถอยเชิงเส้น β 1Yฉัน=βo+β1Xฉัน+εฉันβ^0β^0\hat\beta_0β^1β^1\hat\beta_1Yผม= βโอ+ β1Xผม+ εผมYผม=βโอ+β1Xผม+εผมY_i = \beta_o + \beta_1 X_i + \varepsilon_i β^0∼ N( β0, σ 2( 1)n+ x¯2Sx x) )β^0~ยังไม่มีข้อความ(β0, σ2(1n+x¯2Sxx)) \hat{\beta}_0 \sim \mathcal N \left(\beta_0,~\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{S_{xx}}\right)\right) และ β^1∼ N( β1, σ 2Sx x)β^1~ยังไม่มีข้อความ(β1, σ2Sxx) \hat{\beta}_1 \sim \mathcal N \left(\beta_1,~\frac{\sigma^2}{S_{xx}}\right) โดยที่Sx x= ∑ni = 1( x2ผม)−nx¯2Sxx=∑i=1n(xi2)-nx¯2S_{xx} = \sum_{i=1}^n …

2
การสร้างภาพข้อมูลที่ดีสำหรับการถดถอยของปัวซองคืออะไร
ฉันต้องการเชื่อมโยงข้อบกพร่องของรหัสเข้ากับการวัดความซับซ้อนของรหัสเช่นความใกล้ชิด แบบจำลองทั่วไปอย่างหนึ่งคือการดูสิ่งนี้เป็นกระบวนการปัวซองซึ่งระยะเวลาคือเวลาที่ใช้ในการเข้ารหัสและความหนาแน่นเป็นฟังก์ชันของความซับซ้อนของรหัส ฉันสามารถทำการถดถอยและรับค่านัยสำคัญเป็นต้น อย่างไรก็ตามมันยากสำหรับฉันที่จะเห็นภาพผลลัพธ์ (และยิ่งยากขึ้นสำหรับเพื่อนร่วมงานที่มีความโน้มเอียงทางคณิตศาสตร์ของฉัน) มีวิธีที่ดีในการดูสิ่งนี้เพื่อดูสิ่งต่าง ๆ เช่นค่าผิดปกติหรือไม่หากเป็นแนวโน้มเชิงเส้นเป็นต้น (ลิงก์ไปยังแพ็คเกจ R ได้รับการชื่นชม) ตัวอย่างเช่นฉันสามารถพล็อตได้Defects / Time ~ Complexityแต่มันค่อนข้างมีเสียงรบกวนและเนื่องจากDefectsมีการแบ่งแยกและมีขนาดเล็กมากจึงยากที่จะดูแนวโน้ม สิ่งหนึ่งที่ฉันคิดคือการที่ฉันสามารถแบ่งข้อมูลออกเป็นควอนไทล์แล้วทำการถดถอยต่อควอไทล์และวางแผนความหนาแน่นที่เกิดขึ้น - ฉันไม่แน่ใจว่ามันถูกต้องแค่ไหนโดยเฉพาะอย่างยิ่งเนื่องจากข้อมูลของฉันไม่ได้กระจายตามปกติ ผู้คนเข้าใจผิดเกี่ยวกับสิ่งที่เป็น quantile

5
จะทำอย่างไรกับตัวแปร collinear
คำเตือน: นี่คือสำหรับโครงการการบ้าน ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear: >with(diamonds, cor(data.frame(Table, Depth, Carat.Weight))) Table Depth Carat.Weight Table 1.00000000 -0.41035485 0.05237998 Depth -0.41035485 1.00000000 0.01779489 Carat.Weight 0.05237998 0.01779489 1.00000000 ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไรTa b l eD อีพีทีเอชTaขล.อีDอีพีเสื้อชั่วโมง\frac{Table}{Depth} แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง:

2
อะไรคือข้อดีของการลดขนาดของตัวทำนายสำหรับวัตถุประสงค์ของการถดถอย
แอปพลิเคชันหรือข้อดีของการลดขนาดแบบถดถอย (DRR) หรือเทคนิคการลดขนาดแบบมิติ (SDR) ภายใต้เทคนิคแบบการถดถอยแบบดั้งเดิม (ไม่มีการลดขนาดแบบมิติ) คืออะไร? ระดับเทคนิคเหล่านี้ค้นหาการแทนค่ามิติต่ำของชุดคุณลักษณะสำหรับปัญหาการถดถอย ตัวอย่างของเทคนิคดังกล่าว ได้แก่ การถดถอยแบบผกผันแบบแบ่งส่วน, วิธีการหลักของ Hessian, การประมาณค่าความแปรปรวนเฉลี่ยแบบแบ่งส่วน, การถดถอยแบบผกผันเคอร์เนลแบบเคอร์เนล, การถดถอยส่วนประกอบหลักเป็นต้น ในแง่ของ RMSE ที่ผ่านการตรวจสอบความถูกต้องแล้วหากอัลกอริทึมทำงานได้ดีขึ้นในงานการถดถอยโดยไม่ลดมิติใด ๆ แล้วการใช้มิติลดจริงสำหรับการถดถอยคืออะไร? ฉันไม่เข้าใจเทคนิคเหล่านี้ เทคนิคเหล่านี้มีโอกาสใช้เพื่อลดความซับซ้อนของพื้นที่และเวลาสำหรับการถดถอยหรือไม่? หากเป็นข้อได้เปรียบหลักทรัพยากรบางอย่างเกี่ยวกับการลดความซับซ้อนสำหรับชุดข้อมูลมิติสูงเมื่อใช้เทคนิคนี้จะมีประโยชน์ ฉันถกเถียงเรื่องนี้กับข้อเท็จจริงที่ว่าการใช้เทคนิค DRR หรือ SDR นั้นต้องใช้เวลาและพื้นที่ SDR / DRR + Regression นี้บนชุดข้อมูลที่มีความสลัวต่ำกว่าเร็วกว่าเฉพาะชุดข้อมูลที่มีความสลัวสูงหรือไม่ การตั้งค่านี้ได้รับการพิจารณาจากความสนใจเชิงนามธรรมเท่านั้นและไม่มีแอปพลิเคชันที่ใช้งานได้จริงหรือไม่? ตามความคิดด้านข้าง: บางครั้งมีข้อสันนิษฐานว่าการกระจายตัวของคุณสมบัติและการตอบสนองอยู่บนความหลากหลาย มันทำให้รู้สึกถึงการเรียนรู้หลากหลายจากตัวอย่างที่สังเกตในบริบทนี้สำหรับการแก้ปัญหาการถดถอยYXXXYYY

1
จะแก้ไขค่าสัมประสิทธิ์ในการถดถอยแบบลอจิสติกอันดับที่ไม่มีสมมติฐานอัตราต่อรองใน R ได้อย่างไร?
ฉันต้องการทำการถดถอยโลจิสติกอันดับใน R โดยไม่มีสมมติฐานอัตราต่อรองสัดส่วน ฉันรู้ว่านี้สามารถทำได้โดยตรงโดยใช้vglm()ฟังก์ชั่นในโดยการตั้งค่าRparallel=FALSE แต่ปัญหาของฉันคือวิธีแก้ไขชุดสัมประสิทธิ์เฉพาะในการตั้งค่าการถดถอยนี้ ตัวอย่างเช่นสมมติว่าตัวแปรเป็นต่อเนื่องและลำดับและสามารถใช้ค่าY = 1 , 2หรือ3 หาก regressors เป็นX 1และX 2ดังนั้นสมการการถดถอยคือYYYY= 1Y=1Y = 1222333X1X1X_{1}X2X2X_{2} l o g i t ( P( Y≤ 1 ) )l o g i t ( P( Y≤ 2 ) )= α1+ β11X1+ β12X2= α2+ β21X1+ β22X2ล.โอก.ผมเสื้อ(P(Y≤1))=α1+β11X1+β12X2ล.โอก.ผมเสื้อ(P(Y≤2))=α2+β21X1+β22X2 \begin{aligned} {\rm logit} \big( P(Y …
11 r  regression  logistic 

4
มีการทดสอบการตั้งค่าตัวแปรที่ละเว้นใน OLS หรือไม่
ฉันทราบเกี่ยวกับการทดสอบการตั้งค่าใหม่ของ Ramsey ซึ่งอาจตรวจพบการพึ่งพาแบบไม่เชิงเส้น อย่างไรก็ตามหากคุณเพิ่งโยนหนึ่งในสัมประสิทธิ์การถดถอย (เพียงแค่การอ้างอิงเชิงเส้น) คุณอาจได้รับอคติขึ้นอยู่กับความสัมพันธ์ เห็นได้ชัดว่านี่ไม่ถูกตรวจพบโดยการทดสอบการรีเซ็ต ฉันไม่พบการทดสอบสำหรับกรณีนี้ แต่คำสั่งนี้: "คุณไม่สามารถทดสอบ OVB ยกเว้นโดยรวมถึงตัวแปรที่อาจตัดทิ้ง" มันอาจเป็นข้อความที่สมเหตุสมผลใช่มั้ย

4
วิธีการแนวความคิดข้อผิดพลาดในรูปแบบการถดถอยหรือไม่?
ฉันกำลังเข้าร่วมชั้นเรียนวิเคราะห์ข้อมูลและแนวคิดที่หยั่งรากลึกของฉันบางอย่างกำลังสั่นไหว ความคิดที่ว่าข้อผิดพลาด (เอปไซลอน) รวมถึงความแปรปรวนประเภทอื่น ๆ นั้นมีผลเฉพาะกับ (ฉันคิดว่า) กับกลุ่ม (ตัวอย่างหรือประชากรทั้งหมด) ตอนนี้เรากำลังได้รับการสอนว่าหนึ่งในสมมติฐานการถดถอยคือความแปรปรวนคือ "เหมือนกันสำหรับทุกคน" นี่เป็นเรื่องที่ทำให้ฉันตกใจ ฉันคิดเสมอว่ามันเป็นความแปรปรวนใน Y ที่สอดคล้องกับค่าทั้งหมดของ X ที่คิดว่าคงที่ ฉันได้คุยกับศาสตราจารย์ผู้ซึ่งบอกฉันว่าเมื่อเราถดถอยเราคิดว่าแบบจำลองของเราเป็นจริง และฉันคิดว่านั่นเป็นส่วนที่ยุ่งยาก สำหรับฉันคำว่าข้อผิดพลาด (epsilon) หมายถึงบางสิ่งบางอย่างเช่น "องค์ประกอบใดก็ตามที่เราไม่ทราบและอาจส่งผลต่อตัวแปรผลลัพธ์ของเรารวมถึงข้อผิดพลาดในการวัด" ในวิธีการสอนในชั้นเรียนไม่มีสิ่งเช่น "สิ่งอื่น ๆ "; แบบจำลองของเราถือว่าเป็นจริงและสมบูรณ์ ซึ่งหมายความว่าการเปลี่ยนแปลงส่วนที่เหลือทั้งหมดจะต้องถูกคิดว่าเป็นผลมาจากความผิดพลาดในการวัด ฉันรู้สึกว่ามีบางอย่างผิดปกติฉันอยากจะมีความเห็นจากผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้ ... มีห้องสำหรับการตีความหรือไม่ว่าคำผิดพลาดคืออะไร

2
การถดถอยจะขึ้นอยู่กับวันของสัปดาห์
ฉันต้องการความช่วยเหลือเล็กน้อยเพื่อไปในทิศทางที่ถูกต้อง เป็นเวลานานแล้วที่ฉันได้ศึกษาสถิติและดูเหมือนว่าศัพท์แสงจะเปลี่ยนไป ลองนึกภาพว่าฉันมีชุดข้อมูลที่เกี่ยวข้องกับรถยนต์เช่น เวลาเดินทางจากเมือง A ถึงเมือง B ระยะทางจากเมือง A ถึงเมือง B ขนาดเครื่องยนต์ ขนาดรองเท้าของคนขับ ยี่ห้อและรุ่นของรถ วันของสัปดาห์ ฉันต้องการที่จะทำนายเวลาการเดินทาง ฉันคิดว่ามันมีความสัมพันธ์ที่แน่นแฟ้นระหว่างเวลาและระยะทางและอาจเป็นเรื่องที่อ่อนแอกว่าสำหรับขนาดเครื่องยนต์ (และไม่มีขนาดรองเท้า) การวิเคราะห์การถดถอยพหุคูณ / ANOVA น่าจะเป็นเครื่องมือที่ใช้ แต่ฉันจะรวมวันในสัปดาห์ได้อย่างไรเนื่องจากเพิ่งเขียนโค้ดเป็นวันอาทิตย์ = 1 วันจันทร์ = 2 ฯลฯ รู้สึกผิดอย่างมาก การใช้เครื่องมือการถดถอยของ Excel เช่นฉันจะตีความผลลัพธ์ได้อย่างไร สันนิษฐานว่าถ้า R ใกล้เคียงกับ 1 ถือว่าดี แต่บางแหล่งข้อมูลอ้างถึง r-squared ซึ่งน่าจะเป็น SD ดังนั้นค่าใกล้เคียงกับศูนย์จึงเป็นสิ่งที่ดี นอกจากนี้ยังแสดง t Stat, P-value, F และ Significance …

2
นามสกุลที่เป็นไปได้สำหรับแผนการวินิจฉัยเริ่มต้นสำหรับ lm (ใน R และโดยทั่วไป)?
ฉันเริ่มขุดลงไปในฟังก์ชั่นplot.lmฟังก์ชั่นนี้ให้หกพล็อตสำหรับ lm คือ: พล็อตของสารตกค้างต่อค่าติดตั้ง พล็อตที่ตั้งมาตราส่วนของ sqrt (| residuals |) เทียบกับค่าติดตั้ง พล็อต QQ ปกติพล็อตระยะทางของ Cook เทียบกับฉลากแถว เนื้อเรื่องของส่วนที่เหลือเทียบกับการยกระดับ เนื้อเรื่องของระยะทาง Cook เทียบกับ leverage / (1-leverage) และฉันสงสัยว่าส่วนขยายทั่วไป / ที่เป็นประโยชน์อื่น ๆ ของแปลงปัจจุบันมีอยู่สำหรับตัวแบบเชิงเส้นและพวกเขาสามารถทำได้ใน R อย่างไร (ยินดีต้อนรับลิงก์ไปยังบทความของแพ็คเกจ) ดังนั้นฟังก์ชั่น boxcox (จาก {MASS}) เป็นตัวอย่างของพล็อตการวินิจฉัยอีกประโยชน์ (และเช่นคำตอบจะดี) แต่ผมอยากรู้เพิ่มเติมเกี่ยวกับรูปแบบ / ส่วนขยายในที่มีอยู่แปลงวินิจฉัยเริ่มต้นสำหรับ LM ใน R (แม้ว่าโดยทั่วไป ข้อสังเกตอื่น ๆ ในหัวข้อยินดีเสมอ) นี่คือตัวอย่างง่ายๆของสิ่งที่ฉันหมายถึง: #Some example code …

1
ค่าที่ทำนายไว้ส่งคืนโดยฟังก์ชัน Pred () ใน R เมื่อใช้ข้อมูลต้นฉบับเป็นอินพุตคืออะไร
หลังจากรันการถดถอยของแบบฟอร์มreg <- lm(y ~ x1 + x2, data=example)บนชุดข้อมูลฉันสามารถรับค่าที่ทำนายได้โดยใช้ predict(reg, example, interval="prediction", level=0.95) ฉันสงสัยว่าค่าที่ทำนายไว้จริงหมายถึงอะไรเมื่อฉันใช้การถดถอยเพื่อทำนายชุดข้อมูลที่แท้จริง ฉันไม่ควรได้รับค่าดั้งเดิมหรือไม่?
11 r  regression 

7
มันเหมาะสมหรือไม่ที่จะศึกษาแปลงของเศษเหลือที่เกี่ยวกับตัวแปรตาม
ฉันอยากจะรู้ว่ามันเหมาะสมหรือไม่ที่จะศึกษาพล็อตเรื่องที่เกี่ยวข้องกับตัวแปรตามเมื่อฉันมีการถดถอยแบบไม่แปร ถ้ามันสมเหตุสมผลแล้วความสัมพันธ์เชิงเส้นแรงการเติบโตที่เพิ่มขึ้นระหว่างส่วนที่เหลือ (บนแกน y) และค่าประมาณของตัวแปรตาม (บนแกน x) คืออะไร?

2
การใช้งานและการตีความที่เหมาะสมของตัวแบบแกมม่าที่ไม่พองตัว
ข้อมูลประกอบ:ฉันเป็นนักชีวสถิติกำลังต่อสู้กับชุดข้อมูลของอัตราการแสดงออกของเซลล์ การศึกษาเปิดเผยโฮสต์ของเซลล์ที่รวบรวมในกลุ่มจากผู้บริจาคต่าง ๆ เพื่อเปปไทด์บางอย่าง เซลล์อาจแสดงตัวบ่งชี้ทางชีวภาพบางอย่างเพื่อตอบสนองหรือไม่ทำเช่นนั้น อัตราการตอบกลับจะถูกบันทึกไว้สำหรับผู้บริจาคแต่ละกลุ่ม อัตราการตอบสนอง (แสดงเป็นเปอร์เซ็นต์) เป็นผลลัพธ์ของดอกเบี้ยและการได้รับเปปไทด์เป็นตัวทำนาย โปรดสังเกตว่าการสังเกตนั้นมีการรวมกลุ่มกันภายในผู้บริจาค เนื่องจากฉันมีข้อมูลสรุปเท่านั้นฉันจึงยังคงรักษาอัตราการตอบกลับของผู้บริจาคให้เป็นข้อมูลต่อเนื่อง (อย่างน้อยตอนนี้) ภาวะแทรกซ้อนเกิดจากความจริงที่ว่าฉันมีเลขศูนย์ในข้อมูลของฉัน มากเกินไปที่จะเพิกเฉย ฉันกำลังพิจารณารูปแบบแกมม่าที่ไม่พองตัวเพื่อจัดการกับความจริงที่ว่าฉันได้บิดเบือนข้อมูลอย่างต่อเนื่องควบคู่กับการมีศูนย์รวมเกินศูนย์ ฉันได้พิจารณาแบบจำลอง Tobit ด้วยเช่นกัน แต่สิ่งนี้ดูด้อยกว่าเพราะถือว่าการเซ็นเซอร์ในขอบเขตที่ต่ำกว่าเมื่อเทียบกับศูนย์ของแท้ (นักเศรษฐศาสตร์อาจบอกว่า คำถาม:โดยทั่วไปแล้วการใช้แบบจำลองแกมม่าที่ไม่ต้องพองเมื่อใดจึงเหมาะสมที่จะใช้? นั่นคืออะไรคือสมมติฐาน? และคนเราตีความการอนุมานได้อย่างไร? ฉันจะขอบคุณสำหรับการเชื่อมโยงไปยังเอกสารที่กล่าวถึงเรื่องนี้ถ้าคุณมี ฉันได้พบลิงก์ใน SAS-Lซึ่ง Dale McLerran ให้รหัส NLMIXED สำหรับแบบจำลองแกมม่าที่ไม่มีการพองตัวดังนั้นมันจึงเป็นไปได้ อย่างไรก็ตามฉันจะเกลียดที่จะเรียกเก็บเงินจากคนตาบอด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.