นักสถิติสันนิษฐานว่าไม่มีใครสามารถรดน้ำต้นไม้ได้หรือฉันแค่ใช้คำค้นหาที่ผิดสำหรับการถดถอยเชิงเส้นโค้ง?


18

เกือบทุกอย่างที่ฉันอ่านเกี่ยวกับการถดถอยเชิงเส้นและ GLM จะลดลงถึงสิ่งนี้:โดยที่เป็นฟังก์ชั่นที่ไม่เพิ่มขึ้นหรือลดลงของและเป็นพารามิเตอร์ของคุณ ประมาณการและทดสอบสมมติฐานเกี่ยวกับ มีหลายสิบของฟังก์ชั่นการเชื่อมโยงและการเปลี่ยนแปลงของการเป็นและจะทำให้ฟังก์ชันเชิงเส้นของ\)y=f(x,β)f(x,β)xβyxyf(x,β)

ตอนนี้ถ้าคุณลบข้อกำหนดที่ไม่เพิ่ม / ไม่ลดสำหรับฉันรู้เพียงสองทางเลือกสำหรับการปรับโมเดลพาราเมตริกเมทริกซ์ที่ปรับให้เหมาะสม: ฟังก์ชันตรีโกณมิติและพหุนาม ทั้งคู่สร้างการพึ่งพาอาศัยกันระหว่างแต่ละคาดการณ์และทั้งชุดของทำให้พวกเขาพอดีไม่แข็งแรงมากเว้นแต่มีเหตุผลก่อนที่จะเชื่อว่าข้อมูลของคุณถูกสร้างขึ้นจริงโดยกระบวนการวัฏจักรหรือพหุนามy Xf(x,β)yX

นี่ไม่ใช่กรณีขอบลึกลับบางอย่าง มันคือความสัมพันธ์ที่เกิดขึ้นจริงและสามัญสำนึกระหว่างน้ำกับผลผลิต (เมื่อแปลงอยู่ลึกพอใต้น้ำผลผลิตของพืชจะเริ่มลดลง) หรือระหว่างแคลอรี่ที่บริโภคในอาหารเช้าและประสิทธิภาพในการตอบคำถามคณิตศาสตร์หรือจำนวนคนงานในโรงงาน และจำนวนของวิดเจ็ตที่พวกเขาสร้าง ... โดยสังเขปเกือบทุกกรณีในชีวิตจริงที่ใช้โมเดลเชิงเส้น แต่ด้วยข้อมูลที่ครอบคลุมช่วงกว้างพอที่คุณไปผ่านการลดขนาดลงของผลตอบแทนเป็นผลตอบแทนติดลบ

ฉันพยายามค้นหาคำว่า 'เว้า', 'นูน', 'โค้ง', 'ไม่ใช่โมโนโทนิก', 'อ่างอาบน้ำ' และฉันลืมว่ามีคนอื่นอีกกี่คน คำถามที่เกี่ยวข้องน้อยและคำตอบที่ใช้ได้น้อยลง ดังนั้นในทางปฏิบัติหากคุณมีข้อมูลต่อไปนี้ (รหัส R y เป็นฟังก์ชันของตัวแปร x ต่อเนื่องและกลุ่มตัวแปรแยก):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

scatterplot

คุณอาจลองใช้การแปลงแบบ Box-Cox ก่อนและดูว่ามันเหมาะสมหรือไม่และคุณอาจจะพอดีกับโมเดลกำลังสองที่ไม่เชิงเส้นด้วยฟังก์ชันลอจิสติกหรือการเชื่อมโยงแบบอะซิมโทติก

ดังนั้นทำไมคุณควรเลิกใช้พารามิเตอร์แบบจำลองอย่างสมบูรณ์และถอยกลับด้วยวิธีกล่องดำเหมือนเส้นโค้งเมื่อคุณพบว่าชุดข้อมูลแบบเต็มมีลักษณะเช่นนี้ ...

plot(y~x,updown,col=group);

คำถามของฉันคือ:

  • ฉันควรค้นหาคำใดเพื่อค้นหาฟังก์ชันลิงก์ที่เป็นตัวแทนของคลาสของความสัมพันธ์การทำงานนี้

หรือ

  • ฉันควรอ่านอะไรและ / หรือค้นหาเพื่อสอนตัวเองถึงวิธีการออกแบบฟังก์ชั่นเชื่อมโยงไปยังคลาสของความสัมพันธ์ในการใช้งานระดับนี้

หรือ

  • Heck แม้แต่แท็ก StackExchange ที่เหมาะสมที่สุดสำหรับคำถามประเภทนี้!

4
ฉันไม่รู้ว่าคุณกำลังขออะไร คุณต้องการที่จะพอดีกับฟังก์ชั่นที่ไม่ใช่โมโนเทอนิกของ ... คุณมีปัญหาอะไรกับการถดถอยพหุนามหรือไซน์ถดถอยอีกครั้ง ?? นอกจากนี้ ... "ฟังก์ชั่นการเชื่อมโยง" ... คุณใช้คำนั้นต่อไป ... ฉันไม่คิดว่ามันหมายถึงสิ่งที่คุณคิดว่ามันหมายถึง x
Jake Westfall

5
(1) Rรหัสของคุณมีข้อผิดพลาดทางไวยากรณ์: groupไม่ควรยกมา (2) พล็อตมีความสวยงาม: จุดสีแดงแสดงความสัมพันธ์เชิงเส้นในขณะที่จุดสีดำสามารถปรับได้หลายวิธีรวมถึงการถดถอยเชิงเส้นแบบชิ้นเล็ก ๆ ฉันไม่ได้แนะนำสิ่งเหล่านี้เนื่องจากตัวเลือกการสร้างแบบจำลองควรได้รับการแจ้งโดยความเข้าใจในสิ่งที่สร้างข้อมูลและแรงบันดาลใจจากทฤษฎีในสาขาวิชาที่เกี่ยวข้อง อาจเป็นการเริ่มต้นที่ดีกว่าสำหรับการวิจัยของคุณ
whuber

1
@whuber ขอบคุณ! แก้ไขรหัส เกี่ยวกับแรงจูงใจทางทฤษฎี: สิ่งเหล่านี้มาจากที่ไหนในตอนแรก? ผู้ทำงานร่วมกันของนักวิทยาศาสตร์ผู้พิพากษาของฉันจะแบ่งขั้วตัวแปรตัวทำนายอย่างมีความสุขและทำการทดสอบ t กับพวกเขา ดังนั้นฉันจึงหาวิธีหยุดการสูญเสียข้อมูลโดยการค้นหาความสัมพันธ์ทางคณิตศาสตร์ที่จับการเปลี่ยนแปลงจาก "y มีความสัมพันธ์เชิงบวกกับ x" เป็น "y มีการตอบสนองเล็กน้อยต่อ x" เป็น "y มีความสัมพันธ์เชิงลบกับ x" ความล้มเหลวนั้นฉันจะต้องสรุปสิ่งที่เกิดขึ้นเช่น Michaelis และ Menten ทำเมื่อพวกเขาพบความสัมพันธ์ระหว่างเอนไซม์สารตั้งต้นและผลิตภัณฑ์
f1r3br4nd

1
เป็นจุดที่สิ่งเหล่านั้น 'หงิกงอ' เป็นที่รู้จักล่วงหน้าหรือไม่?
Glen_b -Reinstate Monica

3
+1 สำหรับชื่อที่ยั่วยุและการติดตามที่จริงเหมาะสมแล้ว
Stumpy Joe Pete

คำตอบ:


45

ข้อสังเกตในคำถามเกี่ยวกับฟังก์ชั่นลิงค์และความน่าเบื่อก็คือปลาเฮอริ่งแดง ที่อยู่ภายใต้พวกเขาดูเหมือนจะเป็นข้อสันนิษฐานโดยนัยว่าโมเดลเชิงเส้นตรง (GLM) โดยแสดงความคาดหวังของการตอบสนองเป็นฟังก์ชัน monotonic fของชุดค่าผสมเชิงเส้นX βของตัวแปรอธิบายXไม่ยืดหยุ่นพอที่จะอธิบายสำหรับ non- คำตอบเดียว ไม่เป็นเช่นนั้นYXβX


บางทีตัวอย่างที่ใช้งานได้จะส่องสว่างจุดนี้ ในการศึกษาปี 1948 (ตีพิมพ์ต้อในปี 1977และไม่เคยตรวจสอบโดยเพื่อน) เจ. โทลคีนรายงานผลการทดลองรดน้ำต้นไม้ที่กลุ่มทานตะวัน 24 กลุ่ม ( Helianthus Gondorensis ) 13 กลุ่มได้รับปริมาณน้ำควบคุมตั้งแต่เริ่มงอกจนถึงสามเดือน ของการเจริญเติบโต จำนวนรวมที่ใช้มีความหลากหลายตั้งแต่หนึ่งนิ้วถึง 25 นิ้วโดยเพิ่มขึ้นทีละสองนิ้ว

รูปที่ 1

มีการตอบสนองเชิงบวกที่ชัดเจนต่อการให้น้ำและการตอบสนองเชิงลบอย่างมากต่อการให้น้ำมากเกินไป งานก่อนหน้านี้ซึ่งมีพื้นฐานจากแบบจำลองจลน์ของการขนส่งไอออนได้ตั้งสมมติฐานว่ากลไกการแข่งขันทั้งสองอาจอธิบายถึงพฤติกรรมนี้: หนึ่งส่งผลในการตอบสนองเชิงเส้นกับน้ำจำนวนเล็กน้อย (วัดในอัตราต่อรองของการอยู่รอด) ในขณะที่ - ปัจจัยยับยั้ง - ทำหน้าที่ชี้แจง (ซึ่งเป็นผลที่ไม่ใช่เชิงเส้นอย่างยิ่ง) ด้วยน้ำปริมาณมากปัจจัยยับยั้งจะครอบงำผลบวกของน้ำและเพิ่มอัตราการตาย

ปล่อยให้เป็นอัตราการยับยั้ง (ไม่ทราบ) (ต่อปริมาณน้ำต่อหน่วย) รุ่นนี้ยืนยันว่าจำนวนYของผู้รอดชีวิตในกลุ่มขนาดn ที่ได้รับxนิ้วของน้ำควรมีการแจกแจงแบบทวินาม( n , f ( β 0 + β 1 x - β 2 exp ( κ x ) ) )โดยที่fคือ ฟังก์ชันลิงก์แปลงอัตราต่อรองกลับเป็นความน่าจะเป็น นี่คือ binomial GLM เช่นนี้แม้ว่าจะไม่เป็นเชิงเส้นอย่างชัดแจ้งในxκYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
xได้รับค่าใด ๆมันเป็นเชิงเส้นในพารามิเตอร์เบต้า0 , β 1และβ 2 "เส้นตรง" ในการตั้งค่า GLM จะต้องมีความเข้าใจในความรู้สึกที่- 1 ( E [ Y ] )คือการรวมกันเชิงเส้นของพารามิเตอร์เหล่านี้มีค่าสัมประสิทธิ์จะเป็นที่รู้จักกันสำหรับแต่ละx และพวกเขาคือ: พวกเขาเท่ากับ1 (สัมประสิทธิ์ของβ 0 ), xตัวเอง (สัมประสิทธิ์ของβ 1 ) และ- expκβ0β1β2f1(E[Y])x1β0xβ1 (ค่าสัมประสิทธิ์ของ β 2 )exp(κx)β2

รุ่นนี้ - ถึงแม้ว่ามันจะค่อนข้างแปลกใหม่และไม่สมบูรณ์เชิงเส้นในพารามิเตอร์ - สามารถพอดีกับการใช้ซอฟต์แวร์มาตรฐานโดยการเพิ่มความเป็นไปได้สำหรับพลและเลือกκที่สูงสุดนี้เป็นที่ใหญ่ที่สุด นี่คือรหัสให้ทำเริ่มต้นด้วยข้อมูล:κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

ไม่มีปัญหาทางเทคนิค การคำนวณใช้เวลาเพียง 1/30 วินาที

รูปที่ 2

เส้นโค้งสีฟ้าเป็นความคาดหวังติดตั้งของการตอบสนอง, ]E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

คำตอบของคำถามคือ:

ฉันควรค้นหาคำใดเพื่อค้นหาฟังก์ชันลิงก์ที่เป็นตัวแทนของคลาสของความสัมพันธ์การทำงานนี้

ไม่มี : นั่นไม่ใช่จุดประสงค์ของฟังก์ชั่นลิงค์

ฉันควรจะค้นหาอะไร ... เพื่อขยายฟังก์ชั่นลิงก์ที่มีอยู่ซึ่งปัจจุบันมีไว้สำหรับการตอบสนองแบบโมโนโทนิกเท่านั้น

ไม่มีสิ่งใด : สิ่งนี้มีพื้นฐานมาจากความเข้าใจผิดของวิธีการตอบสนองแบบจำลอง

เห็นได้ชัดว่าเราควรมุ่งเน้นไปที่ตัวแปรอธิบายที่จะใช้หรือสร้างเมื่อสร้างแบบจำลองการถดถอย ตามที่แนะนำในตัวอย่างนี้ให้มองหาคำแนะนำจากประสบการณ์และทฤษฎีที่ผ่านมา


คำตอบที่น่ากลัว! นี่เป็นข้อมูลจริงจากนิยายหรือไม่?
Cam.Davidson.Pilon

1
@Cam ข้อมูลไม่ได้ทำให้มันกลายเป็นจุดตัดสุดท้าย :-) (บริบทค่อนข้างเป็นภาษาที่แก้มฉันกลัว)
whuber

1
κ

5
κκχ2(1)

1
@zipzapboing ตัวอย่างที่ฉันให้ที่นี่เป็นพิเศษเพราะได้รับแจ้งจากทฤษฎีพื้นฐาน เมื่อมีข้อมูลดังกล่าวจะสามารถเป็นแนวทางที่ทรงพลังในการเลือกแบบจำลอง ในหลายกรณีแม้ว่าจะไม่มีข้อมูลดังกล่าวหรือมีเพียงหวังว่าการตอบสนองที่คาดหวังอาจแตกต่างกันอย่างน่าเบื่อหน่ายกับผู้ลงทะเบียน บางทีเหตุผลพื้นฐานที่สุดที่เราอาจชี้ไปก็คือความหวังว่าการตอบสนองจะแตกต่างกันไปกับ regressors และสำหรับช่วงของ regressors ในข้อมูลการเปลี่ยนแปลงของอนุพันธ์มีน้อย: การตอบสนองเชิงเส้นจะประมาณว่าดี
whuber

9

ดูผิดที่ต้นไม้ที่กำลังจะตายบนโต๊ะของเขา .... ดูเหมือนจะไม่

ในความคิดเห็น @whuber กล่าวว่า "ตัวเลือกการสร้างแบบจำลองควรได้รับแจ้งจากความเข้าใจในสิ่งที่สร้างข้อมูลและแรงบันดาลใจจากทฤษฎีในสาขาวิชาที่เกี่ยวข้อง" ซึ่งคุณถามว่าจะทำอย่างไร

จลศาสตร์ของ Michaelis และ Menten เป็นตัวอย่างที่มีประโยชน์มาก สมการเหล่านั้นสามารถได้มาจากการเริ่มต้นด้วยสมมติฐานบางอย่าง (เช่นสารตั้งต้นอยู่ในสมดุลกับความซับซ้อนของเอนไซม์ที่ไม่ได้ใช้) และหลักการบางอย่างที่รู้จัก (กฎของการกระทำของมวล) คณิตศาสตร์ทางคณิตศาสตร์ของเมอร์เรย์: มีคำนำเดินผ่านบทที่ 6 (ฉันจะวางเดิมพันหนังสืออื่น ๆ อีกมากมายเช่นกัน!)

โดยทั่วไปจะช่วยในการสร้าง "ละคร" ของแบบจำลองและสมมติฐาน ฉันแน่ใจว่าสาขาของคุณมีบางรุ่นที่ยอมรับกันทั่วไปและผ่านการทดสอบตามเวลา ตัวอย่างเช่นหากมีบางสิ่งชาร์จหรือคายประจุฉันจะไปหาเลขชี้กำลังเพื่อจำลองแรงดันไฟฟ้าเป็นฟังก์ชันของเวลา ในทางกลับกันถ้าฉันเห็นรูปร่างคล้ายเอ็กซ์โปเนนเชียลในพล็อตเรื่องแรงดันไฟฟ้าการคาดเดาครั้งแรกของฉันคือว่ามีบางอย่างในวงจรกำลังคลายประจุและถ้าฉันไม่รู้ว่ามันคืออะไรฉันจะพยายามหามัน ในทางทฤษฎีทฤษฎีสามารถช่วยคุณสร้างแบบจำลองและแนะนำการทดสอบใหม่

y=k(x+h)2CO2 จับจากการคายน้อยกว่า) และน้ำท่วม (แบคทีเรียที่กินราก?) อาจแนะนำรูปแบบเฉพาะสำหรับแต่ละชิ้น


8

ฉันมีการตอบสนองค่อนข้างเป็นทางการจากมุมมองของคนที่ใช้เวลาครึ่งชีวิตทางวิทยาศาสตร์ของเขาที่ม้านั่งและอีกครึ่งหนึ่งที่คอมพิวเตอร์เล่นกับสถิติ ฉันพยายามใส่ความคิดเห็น แต่มันยาวเกินไป

คุณจะเห็นว่าถ้าฉันเป็นนักวิทยาศาสตร์ที่สังเกตชนิดของผลลัพธ์ที่คุณได้รับฉันจะตื่นเต้น ความสัมพันธ์แบบโมโนโทนิต่าง ๆ น่าเบื่อและแยกแยะได้ยาก อย่างไรก็ตามประเภทของความสัมพันธ์ที่คุณแสดงให้เราเห็นนั้นมีผลกระทบมากโดยเฉพาะ มันทำให้เรามีสนามเด็กเล่นที่ยอดเยี่ยมสำหรับนักทฤษฎีในการตั้งสมมติฐานล่วงหน้าเกี่ยวกับความสัมพันธ์คือการเปลี่ยนแปลงที่สุดขั้ว มันเป็นสนามเด็กเล่นที่ยอดเยี่ยมสำหรับนักวิทยาศาสตร์ผู้พิพากษาที่จะค้นหาสิ่งที่เกิดขึ้น

ในความรู้สึกฉันควรมีกรณีที่คุณกำลังแสดงและไม่ทราบวิธีที่จะพอดีกับรูปแบบที่เรียบง่าย (แต่สามารถที่จะทำให้สมมติฐานใหม่) กว่ามีความสัมพันธ์ที่ง่ายง่ายต่อการทำแบบจำลอง แต่ยากที่จะตรวจสอบกลไก อย่างไรก็ตามฉันยังไม่พบกรณีเช่นนี้ในทางปฏิบัติของฉัน

ในที่สุดก็มีอีกหนึ่งข้อพิจารณา หากคุณกำลังมองหาการทดสอบที่แสดงให้เห็นว่าสีดำนั้นแตกต่างจากสีแดง (ในข้อมูลของคุณ) - ในฐานะที่เป็นอดีตนักวิทยาศาสตร์ผู้พิพากษาฉันพูดว่าทำไมถึงต้องรำคาญ? มันชัดเจนเพียงพอจากรูป


5

สำหรับข้อมูลอย่างนั้นฉันอาจจะพิจารณาเส้นโค้งเชิงเส้นอย่างน้อย

คุณสามารถทำได้ใน lm หรือ glm ได้ง่ายพอ

หากคุณใช้วิธีการดังกล่าวปัญหาของคุณจะเลือกจำนวนนอตและที่ตั้งปม วิธีแก้ปัญหาหนึ่งอาจพิจารณาจำนวนที่เป็นไปได้ของสถานที่ที่เป็นไปได้และใช้บางอย่างเช่นบ่วงบาศหรือวิธีอื่น ๆ ในการทำให้เป็นปกติและการเลือกเพื่อระบุชุดเล็ก คุณจะต้องคำนึงถึงผลกระทบของการเลือกดังกล่าวในการอนุมาน


แต่โดยทั่วไปแล้วการถดถอยแบบอิสระไม่ได้บอกว่า "มีฟังก์ชั่นที่ไม่รู้จักที่อธิบายรูปร่างของการตอบสนองและเราจะทดสอบสมมติฐานว่าตัวแปรอื่น ๆ เปลี่ยนเส้นโค้งนี้ขึ้น / ลงหรือเอียงได้อย่างไร"? จะเกิดอะไรขึ้นถ้าการรักษาเปลี่ยนแปลงรูปร่างของมันเอง - อย่างใดอย่างหนึ่งจะตีความคำว่าการโต้ตอบเช่นนี้ได้อย่างไร
f1r3br4nd

2
ทั่วไปเป็นทางเลือกอย่างไร? แม้แต่ในกรณีทั่วไปก็มีวิธีการที่หลากหลายซึ่งคุณสามารถทำการเปรียบเทียบความพอดีที่สมมติว่าฟังก์ชั่นที่ไม่ใช่พารามิเตอร์ที่เหมือนกันเมื่อเทียบกับวิธีที่แยกจากกัน โมเดลเสริมและโมเดลเสริมทั่วไปสามารถจัดการกับการเปรียบเทียบดังกล่าว
Glen_b -Reinstate Monica

เป็นตัวอย่างของกรณีทั่วไปมากกว่าที่คุณพูดคุย (โดยมีการอ้างอิงถึงวิธีการอื่น ๆ ที่หลากหลาย) หากคุณสามารถใช้มันได้ลองดูที่บทความนี้ J.Roca-Pardiñas et al (2006) "Bootstrap-based วิธีการทดสอบปฏิสัมพันธ์ระหว่างปัจจัยด้วยเส้นโค้งในแบบจำลองสารเติมแต่งทั่วไป: การประเมินกิจกรรมของระบบประสาทส่วนหน้า prefrontal ที่เกี่ยวข้องกับการตัดสินใจ ", สถิติการแพทย์ , 30 ก.ค. ; 25 (14): 2483-501 ในกระดาษพวกเขาใช้ bootstrapping (และ binning เพื่อลดภาระการคำนวณ) แต่มีวิธีการอื่นที่กล่าวถึงที่นั่น
Glen_b -Reinstate Monica

การอ้างอิงขั้นพื้นฐานและแบบเก่าจะเป็นอะไรที่คล้าย Hastie และ Tibshirani (1990), โมเดลเสริมแบบทั่วไป (เช่นดูหน้า 265) นอกจากนี้ยังใช้เวลาดูที่นี่โดยเฉพาะสมการที่ผ่านมาในสไลด์ 34. บริเวณใกล้เคียงมีก็ยังอธิบายถึงวิธีการเพื่อให้พอดีกับรูปแบบดังกล่าวใช้ในแพคเกจการgam R mgcv
Glen_b -Reinstate Monica

2

ฉันไม่มีเวลาอ่านข้อความทั้งหมดของคุณ แต่ดูเหมือนว่าความกังวลหลักของคุณคือรูปแบบการตอบสนองการทำงานอาจเปลี่ยนไปพร้อมกับการรักษา มีเทคนิคในการจัดการกับสิ่งนี้ แต่พวกเขาใช้ข้อมูลอย่างเข้มข้น
ตัวอย่างเฉพาะของคุณ:

G คือการเจริญเติบโต W คือน้ำ T คือการบำบัด

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

ทศวรรษที่ผ่านมาได้เห็นการวิจัยมากมายเกี่ยวกับการถดถอยแบบกึ่ง semiparametric และเนื้อวัวเหล่านี้เกี่ยวกับรูปแบบการทำงานได้รับการจัดการมากขึ้นและมากขึ้น แต่ในตอนท้ายของวันสถิติกำลังเล่นกับตัวเลขและมีประโยชน์เฉพาะเมื่อมันสร้างสัญชาตญาณเกี่ยวกับปรากฏการณ์ภายใต้การสังเกต สิ่งนี้จะต้องเข้าใจถึงวิธีการเล่นตัวเลขด้วย น้ำเสียงของคุณบ่งบอกถึงความตั้งใจที่จะโยนลูกน้อยออกไปพร้อมกับอาบน้ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.