คำถามติดแท็ก link-function

การแปลงพารามิเตอร์ที่ควบคุมการกระจายการตอบสนองที่ใช้เป็นส่วนสำคัญของแบบจำลองเชิงเส้นทั่วไปเพื่อแมปช่วงของพารามิเตอร์นั้น (ซึ่งอาจเป็น 0 ถึง 1 หรือเฉพาะค่าบวกเช่น) กับเส้นจำนวนจริง (,+).

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

4
อะไรคือความแตกต่างระหว่าง "ฟังก์ชั่นลิงค์" และ "ฟังก์ชั่นลิงก์แบบบัญญัติ" สำหรับ GLM
ความแตกต่างระหว่างคำว่า 'ฟังก์ชั่นการเชื่อมโยง' และ 'ฟังก์ชั่นการเชื่อมโยงแบบบัญญัติ' คืออะไร? นอกจากนี้ยังมีข้อดี (ทางทฤษฎี) ของการใช้อย่างใดอย่างหนึ่งมากกว่าที่อื่น ๆ ? ตัวอย่างเช่นตัวแปรการตอบสนองแบบไบนารีสามารถสร้างแบบจำลองโดยใช้ฟังก์ชั่นลิงค์จำนวนมากเช่นlogit , probitเป็นต้น แต่logitที่นี่ถือเป็นฟังก์ชันลิงก์ "canonical"

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

2
วัตถุประสงค์ของฟังก์ชั่นลิงค์ในโมเดลเชิงเส้นทั่วไป
จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน? รัฐ Wikipedia: สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง อะไรคือข้อดีของการทำเช่นนี้?

1
แบบจำลองเชิงเส้นแบบไม่เชิงเส้นกับแบบเชิงเส้นทั่วไป: คุณอ้างถึงการถดถอยแบบลอจิสติกปัวซอง ฯลฯ อย่างไร
ฉันมีคำถามเกี่ยวกับความหมายที่ฉันต้องการความคิดเห็นของนักสถิติเพื่อน เรารู้ว่าแบบจำลองต่างๆเช่นโลจิสติกปัวซอง ฯลฯ ตกอยู่ภายใต้ร่มของตัวแบบเชิงเส้นทั่วไป ตัวแบบมีฟังก์ชั่นไม่เชิงเส้นของพารามิเตอร์ซึ่งอาจถูกจำลองโดยใช้เฟรมเวิร์กโมเดลเชิงเส้นโดยใช้ฟังก์ชันลิงก์ที่เหมาะสม ฉันสงสัยว่าถ้าคุณพิจารณาสถานการณ์ (สอน?) เช่นการถดถอยโลจิสติกเป็น: แบบไม่เชิงเส้นกำหนดรูปแบบของพารามิเตอร์ โมเดลเชิงเส้นเนื่องจากลิงก์เปลี่ยนเราเป็นเฟรมเวิร์กโมเดลเชิงเส้น พร้อมกัน (1) และ (2): มัน "เริ่มต้น" เป็นโมเดลที่ไม่ใช่เชิงเส้น แต่อาจทำงานด้วยวิธีที่ทำให้เราคิดว่ามันเป็นโมเดลเชิงเส้น หวังว่าฉันจะสามารถตั้งค่าแบบสำรวจที่แท้จริง ...

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
นักสถิติสันนิษฐานว่าไม่มีใครสามารถรดน้ำต้นไม้ได้หรือฉันแค่ใช้คำค้นหาที่ผิดสำหรับการถดถอยเชิงเส้นโค้ง?
เกือบทุกอย่างที่ฉันอ่านเกี่ยวกับการถดถอยเชิงเส้นและ GLM จะลดลงถึงสิ่งนี้:โดยที่เป็นฟังก์ชั่นที่ไม่เพิ่มขึ้นหรือลดลงของและเป็นพารามิเตอร์ของคุณ ประมาณการและทดสอบสมมติฐานเกี่ยวกับ มีหลายสิบของฟังก์ชั่นการเชื่อมโยงและการเปลี่ยนแปลงของการเป็นและจะทำให้ฟังก์ชันเชิงเส้นของ\)y=f(x,β)y=f(x,β)y = f(x,\beta)f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta) ตอนนี้ถ้าคุณลบข้อกำหนดที่ไม่เพิ่ม / ไม่ลดสำหรับฉันรู้เพียงสองทางเลือกสำหรับการปรับโมเดลพาราเมตริกเมทริกซ์ที่ปรับให้เหมาะสม: ฟังก์ชันตรีโกณมิติและพหุนาม ทั้งคู่สร้างการพึ่งพาอาศัยกันระหว่างแต่ละคาดการณ์และทั้งชุดของทำให้พวกเขาพอดีไม่แข็งแรงมากเว้นแต่มีเหตุผลก่อนที่จะเชื่อว่าข้อมูลของคุณถูกสร้างขึ้นจริงโดยกระบวนการวัฏจักรหรือพหุนามy Xf(x,β)f(x,β)f(x,\beta)yyyXXX นี่ไม่ใช่กรณีขอบลึกลับบางอย่าง มันคือความสัมพันธ์ที่เกิดขึ้นจริงและสามัญสำนึกระหว่างน้ำกับผลผลิต (เมื่อแปลงอยู่ลึกพอใต้น้ำผลผลิตของพืชจะเริ่มลดลง) หรือระหว่างแคลอรี่ที่บริโภคในอาหารเช้าและประสิทธิภาพในการตอบคำถามคณิตศาสตร์หรือจำนวนคนงานในโรงงาน และจำนวนของวิดเจ็ตที่พวกเขาสร้าง ... โดยสังเขปเกือบทุกกรณีในชีวิตจริงที่ใช้โมเดลเชิงเส้น แต่ด้วยข้อมูลที่ครอบคลุมช่วงกว้างพอที่คุณไปผ่านการลดขนาดลงของผลตอบแทนเป็นผลตอบแทนติดลบ ฉันพยายามค้นหาคำว่า 'เว้า', 'นูน', 'โค้ง', 'ไม่ใช่โมโนโทนิก', 'อ่างอาบน้ำ' และฉันลืมว่ามีคนอื่นอีกกี่คน คำถามที่เกี่ยวข้องน้อยและคำตอบที่ใช้ได้น้อยลง ดังนั้นในทางปฏิบัติหากคุณมีข้อมูลต่อไปนี้ (รหัส R y เป็นฟังก์ชันของตัวแปร x ต่อเนื่องและกลุ่มตัวแปรแยก): updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53), x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23), group=factor(rep(c('A','B'),c(81,110)))); plot(y~x,updown,subset=x<500,col=group); คุณอาจลองใช้การแปลงแบบ Box-Cox ก่อนและดูว่ามันเหมาะสมหรือไม่และคุณอาจจะพอดีกับโมเดลกำลังสองที่ไม่เชิงเส้นด้วยฟังก์ชันลอจิสติกหรือการเชื่อมโยงแบบอะซิมโทติก ดังนั้นทำไมคุณควรเลิกใช้พารามิเตอร์แบบจำลองอย่างสมบูรณ์และถอยกลับด้วยวิธีกล่องดำเหมือนเส้นโค้งเมื่อคุณพบว่าชุดข้อมูลแบบเต็มมีลักษณะเช่นนี้ ... plot(y~x,updown,col=group); คำถามของฉันคือ: ฉันควรค้นหาคำใดเพื่อค้นหาฟังก์ชันลิงก์ที่เป็นตัวแทนของคลาสของความสัมพันธ์การทำงานนี้ หรือ ฉันควรอ่านอะไรและ …

3
จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?
ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้: ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม

4
ฟังก์ชัน logit ดีที่สุดสำหรับการสร้างแบบจำลองการถดถอยของข้อมูลไบนารีหรือไม่?
ฉันกำลังคิดเกี่ยวกับปัญหานี้ ฟังก์ชันโลจิสติกส์ปกติสำหรับการสร้างแบบจำลองข้อมูลไบนารีคือ: อย่างไรก็ตามเป็นฟังก์ชัน logit ซึ่งเป็นรูปโค้ง S จะดีที่สุดสำหรับการสร้างแบบจำลองข้อมูลหรือไม่ บางทีคุณอาจจะมีเหตุผลที่จะเชื่อว่าข้อมูลของคุณไม่เป็นไปตามปกติ S- รูปโค้ง แต่เป็นชนิดที่แตกต่างกันของเส้นโค้งด้วยโดเมน(0,1)log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) มีการวิจัยเกี่ยวกับเรื่องนี้หรือไม่? บางทีคุณอาจจำลองมันเป็นฟังก์ชั่น probit หรือคล้ายกัน แต่ถ้าเป็นอย่างอื่นล่ะ? สิ่งนี้นำไปสู่การประเมินผลที่ดีขึ้นหรือไม่? แค่คิดว่าฉันมีและฉันสงสัยว่ามีงานวิจัยเกี่ยวกับเรื่องนี้หรือไม่

2
GLM: การตรวจสอบตัวเลือกการกระจายและฟังก์ชันลิงก์
ฉันมีโมเดลเชิงเส้นทั่วไปที่ใช้ฟังก์ชันการแจกแจงแบบเกาส์และล็อกลิงก์ หลังจากติดตั้งแบบจำลองแล้วฉันจะตรวจสอบส่วนที่เหลือ: พล็อต QQ, ส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้, ฮิสโตแกรมของส่วนที่เหลือ (ยอมรับว่าจำเป็นต้องใช้ความระมัดระวังเนื่องจาก) ทุกอย่างดูดี สิ่งนี้ดูเหมือนจะแนะนำ (สำหรับฉัน) ว่าทางเลือกของการแจกแจงแบบเกาส์นั้นค่อนข้างสมเหตุสมผล หรืออย่างน้อยที่สุดสิ่งที่เหลืออยู่สอดคล้องกับการกระจายตัวที่ฉันใช้ในแบบจำลองของฉัน Q1 : มันจะไปไกลเกินกว่าที่จะยืนยันว่าเป็นตัวเลือกการกระจายตัวของฉันหรือไม่? ฉันเลือกฟังก์ชั่นบันทึกการเชื่อมโยงเพราะตัวแปรตอบกลับของฉันเป็นค่าบวกเสมอ แต่ฉันต้องการการยืนยันว่าเป็นทางเลือกที่ดี Q2 : มีการทดสอบใด ๆ เช่นการตรวจสอบสิ่งที่เหลืออยู่สำหรับการเลือกการแจกแจงที่สามารถรองรับฟังก์ชั่นลิงค์ของฉันได้หรือไม่? (การเลือกฟังก์ชั่นลิงค์ดูเหมือนจะเป็นเรื่องที่ไม่ชอบใจฉันเนื่องจากแนวทางเดียวที่ฉันสามารถค้นหาได้นั้นค่อนข้างคลุมเครือและมีคลื่นมือซึ่งน่าจะเป็นเหตุผลที่ดี)

1
คุณช่วยอธิบายวิธีการ IRLS ที่ใช้งานง่ายเพื่อหา MLE ของ GLM ได้หรือไม่?
พื้นหลัง: ฉันพยายามที่จะทำตามการตรวจสอบพรินซ์ตันของการประมาณค่า MLE สำหรับ GLM ฉันเข้าใจพื้นฐานของการประมาณค่า MLE นี้likelihood, scoreข้อสังเกตและคาดว่าFisher informationและFisher scoringเทคนิค และฉันรู้ว่าวิธีการที่จะแสดงให้เห็นถึงการถดถอยเชิงเส้นที่เรียบง่ายด้วยการประมาณค่า MLE คำถาม: ฉันไม่เข้าใจแม้แต่บรรทัดแรกของวิธีนี้ :( สัญชาตญาณของตัวแปรการทำงานของZผมziz_iหมายถึงอะไร: Zผม= η^ผม+ ( yผม- μ^ผม) dηผมdμผมzi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} ทำไมพวกเขาจะนำมาใช้แทนYผมyiy_iที่จะประเมินββ\beta ? และสิ่งที่พวกเขามีความสัมพันธ์กับresponse/link functionซึ่งคือการเชื่อมต่อระหว่างηη\etaและμμ\mu หากใครมีคำอธิบายง่าย ๆ หรือสามารถนำฉันไปที่ข้อความระดับพื้นฐานเพิ่มเติมเกี่ยวกับเรื่องนี้ฉันจะขอบคุณ

2
ข้อดีข้อเสียของการเชื่อมโยงเข้าสู่ระบบและการเชื่อมโยงข้อมูลประจำตัวสำหรับการถดถอยปัวซอง
ฉันกำลังดำเนินการถดถอยปัวซองกับเป้าหมายสุดท้ายของการเปรียบเทียบ (และการแตกต่างของ) ในขณะที่ถือตัวแปรรุ่นอื่น ๆ (ซึ่งเป็นไบนารีทั้งหมด ) คงที่ ฉันสงสัยว่าถ้าใครสามารถให้คำแนะนำที่เป็นประโยชน์เกี่ยวกับเวลาที่จะใช้ลิงค์บันทึกกับลิงก์ประจำตัว อะไรคือข้อดีข้อเสียของฟังก์ชั่นลิงค์สองแบบนี้ในการถดถอยแบบปัวซองโดยมีเป้าหมายในการเปรียบเทียบความแตกต่างμ^1−μ^2μ^1−μ^2\hat{\mu}_1-\hat{\mu}_2 ฉันมีเป้าหมายเดียวกันในใจสำหรับการถดถอยโลจิสติกส์ / ทวินาม (เพื่อใช้ลิงค์ logit หรือลิงค์ตัวตน) เพื่อเปรียบเทียบความแตกต่างของสัดส่วนระหว่างสองระดับปัจจัยและต้องการคำแนะนำที่คล้ายกัน ฉันได้อ่านบางส่วนของโพสต์ที่สัมผัสกับปัญหานี้ แต่ดูเหมือนจะไม่มีใครอธิบายว่าทำไมหรือเมื่อมีใครอาจเลือกลิงค์หนึ่งมากกว่าอีกลิงค์และข้อดี / ข้อเสียอาจจะ ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของ! UPDATE: ฉันยังตระหนักว่าจุดประสงค์หลักของการใช้ฟังก์ชั่นลิงก์บางอย่างคือเพื่อ จำกัด ช่วงของค่าทำนายที่เป็นไปได้ที่จะอยู่ในช่วงของการตอบสนองเฉลี่ย (เช่นสำหรับโลจิสติกส์ช่วงถูก จำกัด ให้อยู่ระหว่าง 0 ถึง 1 และล็อก ลิงก์การคาดคะเนถูก จำกัด ให้เป็นจำนวนบวก) ดังนั้นฉันเดาว่าสิ่งที่ฉันถามคือถ้าฉันใช้ลิงค์ประจำตัวเพื่อพูดการถดถอยโลจิสติก / ทวินามและผลลัพธ์ของฉันอยู่ในช่วง (0,1) มีความต้องการใช้ฟังก์ชั่นการเชื่อมโยงโลจิสติกหรือ ฉันจะทำให้การใช้ลิงก์การระบุตัวตนทำได้ง่ายขึ้นหรือไม่

2
ปัญหาในการเปรียบเทียบแบบจำลอง GLM ที่มีฟังก์ชั่นลิงก์แตกต่างกัน
ด้วยชุดโควารีและชุดการกระจายเดียวกันฉันจะเปรียบเทียบรุ่นที่มีฟังก์ชั่นลิงค์ต่างกันได้อย่างไร ฉันคิดว่าคำตอบที่ถูกต้องคือ "AIC / BIC" แต่ฉันไม่แน่ใจ 100% เป็นไปได้ไหมที่จะมีรุ่นที่ซ้อนกันหากมีลิงค์อื่นอยู่?

1
การคำนวณฟังก์ชั่นลิงก์แบบบัญญัติใน GLM
ฉันคิดว่าฟังก์ชั่น canonical linkมาจากพารามิเตอร์ธรรมชาติของตระกูล exponential พูดดูครอบครัว ดังนั้นคือฟังก์ชันลิงก์แบบบัญญัติ ใช้การกระจาย Bernoulliเป็นตัวอย่างเรามี ดังนั้นฟังก์ชันลิงก์แบบบัญญัติg(⋅)g(⋅)g(\cdot)f(y,θ,ψ)=exp{yθ−b(θ)a(ψ)−c(y,ψ)}f(y,θ,ψ)=exp⁡{yθ−b(θ)a(ψ)−c(y,ψ)} f(y,\theta,\psi)=\exp\left\{\frac{y\theta-b(\theta)}{a(\psi)}-c(y,\psi)\right\} θ=θ(μ)θ=θ(μ)\theta=\theta(\mu)P(Y=y)=μy(1−μ)1−y=exp{ylogμ1−μ+log(1−μ)}P(Y=y)=μy(1−μ)1−y=exp⁡{ylog⁡μ1−μ+log⁡(1−μ)} P(Y=y)=\mu^{y}(1-\mu)^{1-y}=\exp\left\{y\log\frac{\mu}{1-\mu}+\log{(1-\mu)}\right\} g(μ)=logμ1−μg(μ)=log⁡μ1−μg(\mu)=\log\frac{\mu}{1-\mu} แต่เมื่อฉันเห็นสไลด์นี้มันก็อ้างว่า g′(μ)=1V(μ)g′(μ)=1V(μ) g'(\mu)=\frac{1}{V(\mu)} แม้ว่ามันจะสามารถตรวจสอบได้ง่ายสำหรับการแจกแจงนี้โดยเฉพาะ (และการแจกแจงอื่น ๆ เช่นการแจกแจงปัวซอง) ฉันไม่เห็นความเท่าเทียมกันของกรณีทั่วไป ใครสามารถให้คำแนะนำได้บ้าง ขอบคุณ ~

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.