คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
อะไรคือช่วงปกติของค่าที่เป็นไปได้สำหรับพารามิเตอร์การหดตัวในการถดถอยเชิงลงโทษ
ในเชือกหรือสันเขาถดถอยหนึ่งมีการระบุพารามิเตอร์การหดตัวโดยมักจะเรียกว่าหรือ\ค่านี้มักถูกเลือกผ่านการตรวจสอบความถูกต้องของข้อมูลโดยการตรวจสอบค่าต่าง ๆ เกี่ยวกับข้อมูลการฝึกอบรมและดูว่าค่าใดให้ผลดีที่สุดเช่นจากข้อมูลการทดสอบ ช่วงหนึ่งของค่าควรตรวจสอบคืออะไร? มันเป็น ?λλ\lambdaαα\alphaR2R2R^2( 0 , 1 )(0,1)(0,1)

2
ข้อกำหนดความคงที่ของการใช้การถดถอยกับข้อผิดพลาด ARIMA สำหรับการอนุมานคืออะไร?
ข้อกำหนดความคงที่ของการใช้การถดถอยกับข้อผิดพลาด ARIMA (การถดถอยแบบไดนามิก) สำหรับการอนุมานคืออะไร? โดยเฉพาะผมมีความไม่หยุดนิ่งตัวแปรผลอย่างต่อเนื่องที่ไม่หยุดนิ่งทำนายอย่างต่อเนื่องตัวแปรและชุดรักษาตัวแปรหุ่นx_bฉันต้องการทราบว่าการรักษานั้นมีความสัมพันธ์กับการเปลี่ยนแปลงของตัวแปรผลลัพธ์ที่มากกว่าข้อผิดพลาดสองมาตรฐานจากการเปลี่ยนแปลงศูนย์หรือไม่YYyxaxax_axขxขx_b ฉันไม่แน่ใจว่าฉันต้องการสร้างความแตกต่างให้กับซีรี่ส์เหล่านี้ก่อนดำเนินการถดถอยด้วยการทำโมเดลข้อผิดพลาด ARIMA หรือไม่ ในคำตอบของคำถามอื่นIrishStat กล่าวว่าwhile the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.จากนั้นเขาก็จะเพิ่ม เข้าไปunwarranted usage [of differencing] can create statistical/econometric nonsenseอีก SAS คู่มือการใช้งานที่แสดงให้เห็นว่ามันจะปรับรูปแบบการถดถอยพอดีกับข้อผิดพลาด ARIMA แบบไม่หยุดนิ่งโดยไม่ต้อง differencing ตราบใดที่เหลือจะไม่หยุดนิ่ง: โปรดทราบว่าข้อกำหนดของความคงที่จะมีผลกับชุดเสียง หากไม่มีตัวแปรอินพุตชุดการตอบกลับ (หลังจากแตกต่างและลบด้วยค่าเฉลี่ย) และชุดเสียงจะเหมือนกัน อย่างไรก็ตามหากมีอินพุตชุดเสียงเป็นส่วนที่เหลือหลังจากเอาเอฟเฟกต์ของอินพุตออก ไม่มีข้อกำหนดว่าชุดข้อมูลป้อนเข้าสู่โหมดนิ่ง หากอินพุตเป็นแบบไม่คงที่ชุดตอบสนองจะเป็นแบบไม่คงที่แม้ว่ากระบวนการสัญญาณรบกวนอาจหยุดนิ่ง เมื่อใช้ชุดอินพุตแบบไม่ต่อเนื่องคุณสามารถปรับตัวแปรอินพุตก่อนโดยไม่มีแบบจำลอง …

4
หนังสือที่ดีที่สุดเกี่ยวกับโมเดลเชิงเส้นทั่วไปสำหรับผู้เริ่มหัดคืออะไร
ฉันยังค่อนข้างใหม่กับโมเดลเชิงเส้นทั่วไปและฉันต่อสู้กับสัญกรณ์จำนวนมากในตำรา GLM ส่วนใหญ่ที่ฉันหยิบขึ้นมา มีหนังสือ GLM ที่ได้รับความนิยมอย่างมากที่ให้ตัวเองอ่านง่ายขึ้นหรือไม่?

3
การเพิ่มตัวแปรเพิ่มเติมลงในสัมประสิทธิ์การเปลี่ยนแปลงการถดถอยหลายตัวแปรของตัวแปรที่มีอยู่หรือไม่?
ว่าฉันมีการถดถอยหลายตัวแปร (ตัวแปรอิสระหลาย) ที่ประกอบด้วย 3 ตัวแปร ตัวแปรแต่ละตัวนั้นมีค่าสัมประสิทธิ์ที่กำหนด หากฉันตัดสินใจที่จะแนะนำตัวแปรที่ 4 และรันการถดถอยอีกครั้งสัมประสิทธิ์ของตัวแปรดั้งเดิม 3 ตัวจะเปลี่ยนไปหรือไม่ กว้างมากขึ้น: ในการถดถอยหลายตัวแปร (ตัวแปรอิสระหลายตัว) สัมประสิทธิ์ของตัวแปรที่กำหนดได้รับอิทธิพลจากสัมประสิทธิ์ของตัวแปรอื่นหรือไม่?

1
ความต้องการสำหรับการจัดศูนย์กลางและข้อมูลที่เป็นมาตรฐานในการถดถอย
พิจารณาการถดถอยเชิงเส้นด้วยการทำให้เป็นมาตรฐาน: เช่นค้นหาที่ย่อเล็กสุด| | A x - b | | 2 + λ | | x | |xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 โดยปกติคอลัมน์ของ A จะเป็นมาตรฐานที่จะมีค่าเฉลี่ยศูนย์และบรรทัดฐานของหน่วยในขณะที่ bbbอยู่ตรงกลางให้มีค่าเฉลี่ยเป็นศูนย์ ฉันต้องการตรวจสอบให้แน่ใจว่าการทำความเข้าใจเกี่ยวกับเหตุผลในการกำหนดมาตรฐานและการจัดกึ่งกลางถูกต้องหรือไม่ ด้วยการทำให้คอลัมน์และbเป็นศูนย์ทำให้เราไม่จำเป็นต้องมีคำดักจับอีกต่อไป มิฉะนั้นวัตถุประสงค์จะเป็น| | A x - x 0 1 - b | | 2 + λ | | x | | 1 . ด้วยการสร้างบรรทัดฐานของคอลัมน์ A เท่ากับ …

2
ทำไมเมทริกซ์สำหรับการฉายภาพของการฉายฉากแบบฉากฉาก?
ฉันค่อนข้างใหม่สำหรับเรื่องนี้ดังนั้นฉันหวังว่าคุณจะยกโทษให้ฉันถ้าคำถามไร้เดียงสา (บริบท: ฉันกำลังเรียนรู้เศรษฐมิติจากหนังสือ Davidson & MacKinnon เรื่อง"เศรษฐมิติเชิงทฤษฎีและวิธีการ"และพวกเขาดูเหมือนจะไม่อธิบายสิ่งนี้ฉันยังได้ดูหนังสือการเพิ่มประสิทธิภาพของ Luenbergerที่เกี่ยวข้องกับการคาดการณ์ในระดับที่สูงขึ้นอีกเล็กน้อย ไม่มีโชค) สมมติว่าผมมีฉากฉายกับมีการเชื่อมโยงการฉายเมทริกซ์P ฉันสนใจในการฉายแต่ละเวกเตอร์ในเป็นบางส่วนสเปซ n P R n A ⊂ R nPP\mathbb PPP\bf PRnRn\mathbb{R}^nA ⊂ RnA⊂RnA \subset \mathbb{R}^n คำถาม : ทำไมมันเป็นไปตามนั้นนั่นคือสมมาตร? ฉันสามารถดูตำราแบบใดสำหรับผลลัพธ์นี้T PP = PP=P\bf{P}=PTT^TPP\bf P

4
รุ่นเชิงเส้นคลาสสิก - การเลือกรูปแบบ
ฉันมีโมเดลเชิงเส้นแบบคลาสสิกโดยมี 5 regressors ที่เป็นไปได้ พวกเขาไม่เกี่ยวข้องกันและมีความสัมพันธ์ค่อนข้างต่ำกับการตอบสนอง ฉันมาถึงแบบจำลองที่มี 3 regressors มีค่าสัมประสิทธิ์นัยสำคัญสำหรับสถิติ t (p <0.05) การเพิ่มตัวแปรที่เหลืออย่างใดอย่างหนึ่งหรือทั้งสองอย่างให้ค่า p> 0.05 สำหรับสถิติ t สำหรับตัวแปรเพิ่ม สิ่งนี้ทำให้ฉันเชื่อว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด" อย่างไรก็ตามการใช้คำสั่ง anova (a, b) ใน R โดยที่ a คือโมเดลตัวแปร 3 ตัวและ b เป็นรูปแบบเต็มค่า p สำหรับสถิติ F คือ <0.05 ซึ่งบอกให้ฉันชอบแบบเต็มมากกว่าตัวแปร 3 ตัว แบบ ฉันจะกระทบยอดความขัดแย้งที่เห็นได้ชัดเหล่านี้ได้อย่างไร ขอบคุณ PS Edit: พื้นหลังเพิ่มเติมบางส่วน นี่คือการบ้านดังนั้นฉันจะไม่โพสต์รายละเอียด …

2
เปลี่ยนการวิเคราะห์จุดโดยใช้ R's nls ()
ฉันกำลังพยายามใช้การวิเคราะห์ "จุดเปลี่ยน" หรือการถดถอยหลายเฟสที่ใช้nls()ในอาร์ นี่คือบางส่วนข้อมูลปลอมผมได้ทำ สูตรที่ฉันต้องการใช้เพื่อให้พอดีกับข้อมูลคือ: y=β0+β1x+β2max(0,x−δ)y=β0+β1x+β2max(0,x−δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) สิ่งนี้ควรจะทำคือพอดีกับข้อมูลได้ถึงจุดหนึ่งที่มีการตัดบางอย่างและความลาดชัน ( β0β0\beta_0และβ1β1\beta_1 ) แล้วหลังจากที่ค่า x บางอย่าง ( δδ\delta ) เพิ่มความลาดชันโดย\β2β2\beta_2นั่นคือสิ่งที่สูงสุดทั้งหมดเป็นเรื่องเกี่ยวกับ ก่อนจุดδδ\deltaมันจะเท่ากับ 0 และβ2β2\beta_2จะถูกทำให้เป็นศูนย์ ดังนั้นนี่คือหน้าที่ของฉันในการทำสิ่งนี้: changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } และฉันพยายามทำให้พอดีกับแบบนี้ nls(y ~ changePoint(x, b0, slope1, slope2, …

2
นิยามลูกบาศก์ธรรมชาติสำหรับการถดถอย
ฉันกำลังเรียนรู้เกี่ยวกับเส้นโค้งจากหนังสือ "องค์ประกอบของการทำเหมืองข้อมูลการเรียนรู้เชิงสถิติการอนุมานและการทำนาย" โดย Hastie et al ฉันพบในหน้า 145 ว่าเส้นโค้งลูกบาศก์ธรรมชาติเป็นเส้นตรงเหนือขอบนอต มีKKKนอตξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_Kในเส้นโค้งและได้รับสิ่งต่อไปนี้เกี่ยวกับเส้นโค้งเช่นนี้ในหนังสือ คำถามที่ 1:เสรีภาพเพิ่มขึ้น 4 องศาอย่างไร ฉันไม่ได้รับส่วนนี้ คำถามที่ 2 : ในคำจำกัดความของเมื่อk = Kแล้วd K ( X ) = 0dk(X)dk(X)d_k(X)k=Kk=Kk=K . ผู้เขียนพยายามทำอะไรในสูตรนี้ สิ่งนี้ช่วยให้แน่ใจได้อย่างไรว่าเส้นโค้งนั้นเป็นเส้นตรงมากกว่านอตขอบdK(X)=00dK(X)=00d_K(X) = \frac 0 0

1
จำนวนจุดน้อยที่สุดสำหรับการถดถอยเชิงเส้น
จำนวนการสังเกตการณ์ขั้นต่ำที่ "สมเหตุสมผล" จะมองหาแนวโน้มเมื่อเวลาผ่านไปด้วยการถดถอยเชิงเส้นคืออะไร แล้วแบบจำลองกำลังสองเหมาะสมกับอะไร? ฉันทำงานกับดัชนีรวมของความไม่เท่าเทียมกันในสุขภาพ (SII, RII) และมีเพียง 4 คลื่นของการสำรวจดังนั้น 4 คะแนน (1997,2001,2004,2008) ฉันไม่ใช่นักสถิติ แต่ฉันมีความประทับใจที่น่าประทับใจ 4 คะแนนไม่เพียงพอ คุณมีคำตอบและ / หรือการอ้างอิง? ขอบคุณมาก, Françoise
16 regression 

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

3
ความแตกต่างระหว่าง statsmodel OLS และ scikit การถดถอยเชิงเส้น
ฉันมีคำถามเกี่ยวกับวิธีการที่แตกต่างกันสองวิธีจากห้องสมุดที่แตกต่างกันซึ่งดูเหมือนจะทำงานเดียวกัน ฉันกำลังพยายามสร้างแบบจำลองการถดถอยเชิงเส้น นี่คือรหัสที่ฉันใช้ห้องสมุด statsmodel กับ OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared เอกสารนี้พิมพ์GFT + Wiki / GT R-squared 0.981434611923 และอันที่สองคือ scikit Learn library วิธีการโมเดลเชิงเส้น: model = LinearRegression() model.fit(X_train, y_train) …

2
เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร

3
อะไรคือข้อดีของการถดถอยเชิงเส้นมากกว่าการถดถอยเชิงปริมาณ
ตัวแบบการถดถอยเชิงเส้นทำให้เกิดข้อสันนิษฐานว่าการถดถอยเชิงปริมาณไม่ได้และถ้าพบว่าการถดถอยเชิงเส้นเป็นไปตามสัญชาตญาณของฉัน (และประสบการณ์บางอย่างที่ จำกัด มาก) ก็คือการถดถอยแบบมัธยฐานจะให้ผลลัพธ์เกือบเหมือนการถดถอยเชิงเส้น การถดถอยเชิงเส้นมีข้อดีอย่างไร มันเป็นที่คุ้นเคยมากขึ้น แต่นอกเหนือจากนั้น?

7
เส้นโค้ง (หรือรุ่น) ชนิดใดที่ฉันควรจะพอดีกับข้อมูลเปอร์เซ็นต์ของฉัน
ฉันพยายามสร้างรูปที่แสดงความสัมพันธ์ระหว่างสำเนาไวรัสและการครอบคลุมจีโนม (GCC) นี่คือข้อมูลของฉันที่มีลักษณะ: ตอนแรกฉันเพิ่งวางแผนการถดถอยเชิงเส้น แต่หัวหน้างานของฉันบอกฉันว่ามันไม่ถูกต้องและลองใช้เส้นโค้ง sigmoidal ดังนั้นฉันจึงใช้ geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.