คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
สมมติฐานกำลังสองน้อยที่สุด
สมมติสัมพันธ์เชิงเส้นต่อไปนี้: โดยที่เป็นตัวแปรที่ขึ้นต่อกันเป็นตัวแปรอิสระเดี่ยวและเป็นคำผิดพลาดYi=β0+β1Xi+uiYi=β0+β1Xi+uiY_i = \beta_0 + \beta_1 X_i + u_iYiYiY_iXผมXiX_iยูผมuiu_i ตาม Stock &amp; Watson (Introduction to Econometrics; บทที่ 4 ) ข้อสมมติฐานกำลังสองน้อยที่สามคือช่วงเวลาที่สี่ของและนั้นไม่ใช่ศูนย์และ จำกัดinfty)XผมXiX_iยูผมuiu_i( 0 &lt; E(X4ผม) &lt; ∞ และ 0 &lt; E(ยู4ผม) &lt; ∞ )(0&lt;E(Xi4)&lt;∞ and 0&lt;E(ui4)&lt;∞)(0<E(X_i^4)<\infty \text{ and } 0<E(u_i^4)<\infty) ฉันมีสามคำถาม: ฉันไม่เข้าใจบทบาทของสมมติฐานนี้อย่างเต็มที่ OLS ลำเอียงและไม่สอดคล้องกันหรือไม่หากสมมติฐานนี้ไม่ถือหรือเราต้องการสมมติฐานนี้ในการอนุมาน การเขียนสต็อคและวัตสัน "สมมติฐานนี้จำกัดความน่าจะเป็นของการวาดภาพการสังเกตด้วยค่าขนาดใหญ่มากของหรือ " อย่างไรก็ตามสัญชาตญาณของฉันก็คือสมมติฐานนี้มาก เรามีปัญหาหรือไม่ถ้าเรามีค่าผิดปกติจำนวนมาก (เช่นช่วงเวลาที่สี่มีขนาดใหญ่) แต่ถ้าค่าเหล่านี้ยังคง …

2
คำศัพท์เชิงบวกหมายถึงความสัมพันธ์ระหว่างตัวแปรที่เป็นองค์ประกอบหรือไม่?
สมมติว่าฉันใช้การถดถอยเชิงเส้นที่มีรูปแบบy=β0+β1A+β2B+β3AB+ϵy=β0+β1A+β2B+β3AB+ϵy = \beta_0 + \beta_1A+\beta_2B+\beta_3AB +\epsilon. ถ้า β3β3\beta_3 เป็นค่าบวกนี่หมายความถึงความสัมพันธ์เชิงบวกระหว่าง AAA และ BBB? (ตรงกันข้ามความสัมพันธ์เชิงลบถ้าβ3β3\beta_3 เป็นลบหรือไม่)

2
อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่
ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43 หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77 ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่

2
การถดถอยของดิสก์ยูนิตเริ่มต้นจากตัวอย่าง "เว้นระยะสม่ำเสมอ"
ฉันต้องแก้ปัญหาการถดถอยที่ซับซ้อนบนดิสก์ยูนิต คำถามดั้งเดิมดึงดูดความคิดเห็นที่น่าสนใจ แต่ไม่มีคำตอบที่น่าเสียดาย ในขณะเดียวกันฉันได้เรียนรู้เพิ่มเติมเกี่ยวกับปัญหานี้ดังนั้นฉันจะพยายามแยกปัญหาดั้งเดิมออกเป็นปัญหาย่อยและดูว่าฉันโชคดีขึ้นในครั้งนี้หรือไม่ ฉันมีเซ็นเซอร์อุณหภูมิ 40 ตัวอยู่ในวงแหวนแคบ ๆ ภายในดิสก์ยูนิตเป็นประจำ: เซ็นเซอร์เหล่านี้รับอุณหภูมิในเวลา อย่างไรก็ตามเนื่องจากความแปรปรวนของเวลามีขนาดเล็กกว่าการแปรผันของอวกาศเรามาทำให้ปัญหาง่ายขึ้นโดยไม่สนใจความแปรปรวนของเวลาและสมมติว่าเซ็นเซอร์แต่ละตัวให้เวลาฉันโดยเฉลี่ยเท่านั้น ซึ่งหมายความว่าฉันมี 40 ตัวอย่าง (หนึ่งตัวสำหรับเซ็นเซอร์แต่ละตัว) และฉันไม่มีตัวอย่างซ้ำ ฉันต้องการสร้างพื้นผิวการถดถอยจากข้อมูลเซ็นเซอร์ การถดถอยมีสองเป้าหมาย:T= f( ρ , θ ) + ϵT=f(ρ,θ)+ϵT=f(\rho,\theta)+\epsilon ฉันต้องการที่จะประเมินค่าเฉลี่ยรัศมีอุณหภูมิT_ด้วยการถดถอยเชิงเส้นฉันได้ประมาณพื้นผิวซึ่งเป็นพื้นผิวอุณหภูมิเฉลี่ยแล้วดังนั้นฉันจึงต้องรวมพื้นผิวของฉันกับใช่ไหม? ถ้าฉันใช้พหุนามเพื่อการถดถอยขั้นตอนนี้ควรเป็นเค้กชิ้นหนึ่งTm e a n=ก.1( ρ ) + ϵTmean=g1(ρ)+ϵT_{mean}=g_1(\rho)+\epsilonθθ\theta ฉันต้องการที่จะประเมินโปรไฟล์อุณหภูมิรัศมีเช่นว่าในแต่ละตำแหน่งรัศมีPT95=ก.2( ρ ) + ϵT95=g2(ρ)+ϵT_{95}=g_2(\rho)+\epsilonP( T( ρ ) &lt;T95( ρ ) ) = .95P(T(ρ)&lt;T95(ρ))=.95P(T(\rho)<T_{95}(\rho))=.95 ด้วยสองเป้าหมายนี้ฉันควรใช้เทคนิคใดในการถดถอยของดิสก์ยูนิต แน่นอนกระบวนการแบบเกาส์มักใช้สำหรับการถดถอยเชิงพื้นที่ …

1
ผู้เรียนพื้นฐานเชิงเส้นทำงานอย่างไรในการส่งเสริม และมันทำงานอย่างไรในห้องสมุด xgboost
ฉันรู้วิธีการใช้ฟังก์ชันวัตถุประสงค์เชิงเส้นตรงและการเพิ่มประสิทธิภาพเชิงเส้นใน XGBoost คำถามที่เป็นรูปธรรมของฉันคือ: เมื่ออัลกอริธึมที่เหมาะกับส่วนที่เหลือ (หรือการไล่ระดับสีลบ) คือการใช้คุณลักษณะหนึ่งอย่างในแต่ละขั้นตอน (เช่นรุ่น univariate) หรือคุณลักษณะทั้งหมด การอ้างอิงใด ๆ กับเอกสารเกี่ยวกับการเพิ่มประสิทธิภาพเชิงเส้นใน XGBoost จะได้รับการชื่นชม แก้ไข: เพิ่มการเชิงเส้นสามารถนำมาใช้ใน XGBoost โดยการตั้งค่าพารามิเตอร์ 'บูสเตอร์' เป็น 'gblinear' ดู: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/สำหรับข้อมูลที่เป็นประโยชน์เกี่ยวกับการเพิ่มประสิทธิภาพเชิงเส้น โปรดทราบว่าฉันไม่ได้พูดเกี่ยวกับฟังก์ชั่นวัตถุประสงค์ (ซึ่งอาจเป็นเชิงเส้น) แต่เกี่ยวกับการเพิ่มพวกเขาเอง ขอบคุณ!

1
สามารถสร้างมาตรฐาน
ฉันพยายามตีความผลลัพธ์ของบทความที่พวกเขาใช้การถดถอยหลายครั้งเพื่อทำนายผลลัพธ์ต่าง ๆ อย่างไรก็ตาม 's (ค่าสัมประสิทธิ์ B มาตรฐานกำหนดเป็นโดยที่นั้นขึ้นอยู่กับ ตัวแปรและเป็นตัวทำนาย) ที่รายงานดูเหมือนจะไม่ตรงกับที่รายงาน :ββ\betaβx1=Bx1⋅S Dx1S DYβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}Yyyx1x1x_1R2R2R^2 แม้จะมีของ -0.83, -0.29, -0.16, -0.43, 0.25 และ -0.29 แต่รายงานมีค่าเพียง 0.20ββ\betaR2R2R^2 นอกจากนี้ผู้ทำนายทั้งสาม: น้ำหนักค่าดัชนีมวลกายและ% ไขมันเป็นหลายคอลลิแนร์มีความสัมพันธ์รอบ r = 0.8-0.9 ซึ่งกันและกันในเพศเดียวกัน เป็นค่าเป็นไปได้กับเหล่านี้หรือไม่มีความสัมพันธ์แบบตรงระหว่าง 's และหรือไม่?R2R2R^2ββ\betaββ\betaR2R2R^2 นอกจากนี้ปัญหาของตัวทำนายหลายค่าอาจส่งผลต่อของตัวทำนายที่สี่ (VO2max) ซึ่งสัมพันธ์กับ r = 0.4 ด้วยตัวแปรสามตัวดังกล่าวข้างต้นหรือไม่ββ\beta

2
จะคำนวณช่วงความมั่นใจของการสกัดกั้น x ในการถดถอยเชิงเส้นได้อย่างไร?
เนื่องจากข้อผิดพลาดมาตรฐานของการถดถอยเชิงเส้นมักจะได้รับสำหรับตัวแปรตอบสนองฉันสงสัยว่าจะได้รับช่วงความมั่นใจในทิศทางอื่นได้อย่างไร - เช่นการสกัดกั้น x ฉันสามารถเห็นภาพว่ามันอาจจะเป็นอะไร แต่ฉันแน่ใจว่าต้องมีวิธีที่ตรงไปตรงมาในการทำเช่นนี้ ด้านล่างเป็นตัวอย่างใน R ของวิธีการเห็นภาพนี้: set.seed(1) x &lt;- 1:10 a &lt;- 20 b &lt;- -2 y &lt;- a + b*x + rnorm(length(x), mean=0, sd=1) fit &lt;- lm(y ~ x) XINT &lt;- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, …

1
นิยามน้ำหนักถ่วงน้ำหนักน้อยที่สุด: ฟังก์ชัน R lm เทียบกับ
ใครช่วยบอกฉันหน่อยได้ไหมว่าทำไมฉันถึงได้ผลลัพธ์ที่แตกต่างจากRน้ำหนักอย่างน้อยกำลังสองและวิธีแก้ปัญหาด้วยตนเองโดยการทำงานของเมทริกซ์ ? โดยเฉพาะฉันกำลังพยายามแก้ไขด้วยตนเองโดยที่คือเมทริกซ์แนวทแยงมุมที่มีน้ำหนักคือเมทริกซ์ข้อมูลคือการตอบสนอง เวกเตอร์ W A x = W bWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Aขb\mathbf b ฉันพยายามเปรียบเทียบผลลัพธ์กับR lmฟังก์ชันโดยใช้weightsอาร์กิวเมนต์

1
ธรรมดาในช่องสี่เหลี่ยมน้อยที่สุดคืออะไร?
เมื่อเร็ว ๆ นี้เพื่อนของฉันคนหนึ่งถามว่าอะไรที่ธรรมดามาก ๆ ดูเหมือนว่าเราจะไม่ได้อยู่ที่ใดในการสนทนา เราทั้งสองตกลงกันว่า OLS เป็นกรณีพิเศษของโมเดลเชิงเส้นมีประโยชน์หลายอย่างรู้กันดีและเป็นกรณีพิเศษของรุ่นอื่น ๆ แต่ทั้งหมดนี้จริงเหรอ? ดังนั้นฉันต้องการทราบ: ชื่อมาจากไหนจริงๆ ใครเป็นคนแรกที่ใช้ชื่อ?

2
การกำหนดน้ำหนักให้มากขึ้นเพื่อการสังเกตการณ์ล่าสุดในการถดถอย
ฉันจะกำหนดน้ำหนักให้กับการสำรวจล่าสุดใน R มากขึ้นได้อย่างไร ฉันคิดว่านี่เป็นคำถามหรือความปรารถนาที่ถามบ่อย แต่ฉันมีเวลายากที่จะหาวิธีการใช้งาน ฉันพยายามค้นหาสิ่งนี้มาก แต่ฉันไม่สามารถหาตัวอย่างการปฏิบัติที่ดีได้ ในตัวอย่างของฉันฉันจะมีชุดข้อมูลขนาดใหญ่เมื่อเวลาผ่านไป ฉันต้องการบอกว่าใช้การยกน้ำหนักแบบเอกซ์โปเนนเชียลของแถวของข้อมูลที่ใหม่กว่า ดังนั้นฉันจะมีฟังก์ชันเลขชี้กำลังบางส่วนที่บอกว่าการสังเกตในปี 2558 มีความสำคัญมากกว่า ___ ในการฝึกอบรมแบบจำลองมากกว่าการสังเกตในปี 2012 ตัวแปรชุดข้อมูลของฉันมีการผสมผสานของค่าหมวดหมู่และตัวเลขและเป้าหมายของฉันคือค่าตัวเลข - หากเป็นสิ่งสำคัญ ฉันต้องการทดสอบ / ลองใช้โมเดลเช่น GBM / Random Forest โดยเฉพาะในแพ็คเกจ CARET ปรับปรุงคำถาม ฉันขอขอบคุณคำตอบที่ระบุไว้ด้านล่างเกี่ยวกับวิธีลดน้ำหนักแบบเอ็กซ์โปเนนเชียลตามระยะทางวันที่ระหว่างจุดสองจุด อย่างไรก็ตามเมื่อพูดถึงการฝึกอบรมรุ่นนี้ด้วยคาเร็ตน้ำหนักตัวประกอบมีอะไรกันแน่? ค่าน้ำหนักในแต่ละแถวการฝึกอบรมคือระยะห่างระหว่างบางจุดในอนาคตและเมื่อจุดนั้นเกิดขึ้นในอดีต น้ำหนักมีการเล่นเฉพาะในระหว่างการทำนายหรือไม่? เพราะถ้าพวกเขาเข้ามาในระหว่างการฝึกซ้อมนั่นจะไม่ทำให้เกิดปัญหาทุกอย่างเพราะ cross-folds ต่าง ๆ จะมีน้ำหนักต่างกันพยายามที่จะทำนายบางสิ่งที่อาจมีอยู่ก่อนหน้านี้ใช่ไหม?

2
เหตุใดจึงใช้เกณฑ์ข้อมูล (ไม่ได้ปรับ ) เพื่อเลือกลำดับความล่าช้าที่เหมาะสมในรุ่นอนุกรมเวลา
ในโมเดลอนุกรมเวลาเช่น ARMA-GARCH เพื่อเลือกความล่าช้าหรือลำดับของเกณฑ์ข้อมูลที่แตกต่างกันของโมเดลเช่น AIC, BIC, SIC เป็นต้น คำถามของฉันง่ายมากเหตุใดเราจึงไม่ใช้การปรับเพื่อเลือกรุ่นที่เหมาะสม เราสามารถเลือกรูปแบบที่นำไปสู่มูลค่าที่สูงขึ้นของการปรับ 2 เนื่องจากทั้งสองปรับและเกณฑ์ข้อมูลลงโทษสำหรับจำนวน regressors เพิ่มเติมในรูปแบบที่ซึ่งอดีตลงโทษและต่อมาลงโทษค่าโอกาส R2R2R^2R2R2R^2R2R2R^2R2R2R^2

2
การทดสอบ Breusch-Pagan ทั้งสองนี้แตกต่างกันอย่างไร?
การใช้ R กับข้อมูลบางอย่างและพยายามดูว่าข้อมูลของฉันเป็นแบบ heteroscedastic หรือไม่ฉันพบการใช้งานสองแบบของการทดสอบ Breusch-Pagan, bptest (แพ็คเกจ lmtest) และncvTest (รถยนต์แพ็คเกจ) อย่างไรก็ตามสิ่งเหล่านี้ให้ผลลัพธ์ที่แตกต่าง ความแตกต่างระหว่างสองคืออะไร? เมื่อใดที่คุณควรเลือกใช้อย่างใดอย่างหนึ่ง &gt; model &lt;- lm(y ~ x) &gt; bp &lt;- bptest(model) &gt; bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 &gt; ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values …

1
พื้นที่ข้อมูลพื้นที่ผันแปรพื้นที่สังเกตพื้นที่จำลอง (เช่นในการถดถอยเชิงเส้น)
สมมติว่าเรามี data matrixซึ่งก็คือ -by-และ label vectorซึ่งก็คือ -by-one ที่นี่แต่ละแถวของเมทริกซ์คือการสังเกตและแต่ละคอลัมน์สอดคล้องกับมิติ / ตัวแปร (สมมติ )XX\mathbf{X}nnnpppYYYnnnn&gt;pn&gt;pn>p แล้วสิ่งที่ไม่data space, variable space, observation space, model spaceหมายความว่าอย่างไร พื้นที่ที่ถูกขยายโดยเวกเตอร์คอลัมน์, ช่องว่าง(ลดลง) -D เนื่องจากมันมีพิกัดในขณะที่อยู่ในอันดับซึ่งเรียกว่าพื้นที่ว่างเนื่องจากมันถูกขยายโดยตัวแปร-เวกเตอร์? หรือเรียกว่าพื้นที่สังเกตการณ์เนื่องจากแต่ละมิติ / พิกัดสอดคล้องกับการสังเกต?nnnnnnppp แล้วเวกเตอร์แถวที่ถูกขยายออกมาล่ะ?

4
การตีความค่า AIC
ค่าทั่วไปของ AIC ที่ฉันเห็นสำหรับโมเดลโลจิสติกอยู่ในหลักพันเป็นอย่างน้อยเป็นร้อย เช่นในhttp://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC คือ 727.39 แม้ว่าจะมีการกล่าวเสมอว่าควรใช้ AIC เพื่อเปรียบเทียบแบบจำลองเท่านั้น แต่ฉันต้องการเข้าใจว่าค่า AIC นั้นหมายถึงอะไร ตามสูตร A Iค= - 2 บันทึก( L ) + 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K โดยที่ L = ความเป็นไปได้สูงสุดจากตัวประมาณ MLE K คือจำนวนพารามิเตอร์ ในตัวอย่างด้านบน K = 8 ดังนั้นด้วยเลขคณิตอย่างง่าย: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= …

1
มีรูปทรง
ฉันถือว่าการตั้งค่าทั่วไปของการถดถอยนั่นคือฟังก์ชันต่อเนื่องถูกเลือกจากครอบครัวเพื่อให้พอดีกับข้อมูลที่ได้รับ (สามารถเป็นพื้นที่ใด ๆ เช่นลูกบาศก์หรือในความเป็นจริงใด ๆ ที่ทอพอโลยีพื้นที่เหมาะสม) ตามเกณฑ์ธรรมชาติบางอย่างhθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m มีแอปพลิเคชันของการถดถอยหรือไม่ที่ใครสนใจในรูปร่าง h−1(y)h−1(y)h^{-1}(y) ของ hhh สำหรับบางจุด y∈Rny∈Rny\in \mathbb R^n - เช่นชุดศูนย์ h−1(0)h−1(0)h^{-1}(0)? คำอธิบายความสนใจของฉันมีดังต่อไปนี้: เนื่องจากในหลาย ๆ สถานการณ์มีความไม่แน่นอนเกิดขึ้นกับผู้เรียน hθhθh_\theta (ไม่แม่นยำหรือขาดข้อมูล) หนึ่งอาจต้องการวิเคราะห์ชุดศูนย์ h−1(0)h−1(0)h^{-1}(0)"ทนทาน" กล่าวคือศึกษาคุณลักษณะของชุดศูนย์ซึ่งเป็นเรื่องปกติสำหรับ "การก่อกวน" ทั้งหมดของhhh. ความเข้าใจที่ดีมากได้รับการพัฒนาเมื่อเร็ว ๆ นี้ในสภาพแวดล้อมที่ก่อกวนfff สามารถเป็นแผนที่ต่อเนื่องโดยพลการใกล้กับ hhh ใน ℓ∞ℓ∞\ell_\inftyบรรทัดฐาน หรืออย่างเท่าเทียมกันเป็นหลักfff มีความต่อเนื่องตามอำเภอใจเช่นนั้นสำหรับทุกคน x∈Xx∈Xx\in X เรามี |f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.