คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
การตีความ Pseudo-R2 ของ McFadden
ฉันมีรูปแบบการถดถอยแบบโลจิสติกแบบไบนารีที่มีการปลอม R-squared ของ McFadden 0.192 โดยมีตัวแปรตามเรียกว่าการชำระเงิน (1 = การชำระเงินและ 0 = ไม่มีการชำระเงิน) การตีความ R-squared แบบหลอกคืออะไร? มันเป็นการเปรียบเทียบแบบสัมพัทธ์สำหรับโมเดลที่ซ้อนกัน (เช่นแบบจำลองตัวแปร 6 ตัวมีการปลอม R-squared ของ McFadden 0.192 ในขณะที่แบบจำลองตัวแปร 5 ตัว (หลังจากลบตัวแปรหนึ่งตัวจากแบบจำลองตัวแปร 6 ดังกล่าวข้างต้น) รุ่นตัวแปร 5 ตัวนี้มีหลอก R - จาก 0.131 เราอยากจะเก็บตัวแปรที่ 6 ไว้ในตัวแบบหรือไม่? หรือเป็นปริมาณที่แน่นอน (เช่นแบบจำลองที่กำหนดซึ่งมีการหลอกของ McFadden R-squared ของ 0.192 นั้นดีกว่ารุ่นใด ๆ ที่มีแบบหลอกของ McFadden R-squared …

3
การถดถอยพหุนามใช้ scikit เรียนรู้
ฉันพยายามใช้ scikit เรียนรู้สำหรับการถดถอยพหุนาม จากสิ่งที่ฉันอ่านการถดถอยพหุนามเป็นกรณีพิเศษของการถดถอยเชิงเส้น ฉันกำลังกระโดดนั่นอาจเป็นหนึ่งในโมเดลเชิงเส้นทั่วไปของ scikit สามารถกำหนดพารามิเตอร์เพื่อให้พอดีกับชื่อพหุนามคำสั่งที่สูงขึ้น แต่ฉันไม่เห็นตัวเลือกสำหรับการทำเช่นนั้น ฉันจัดการเพื่อใช้ Support Vector Regressor กับ poly kernel ซึ่งทำงานได้ดีกับชุดย่อยของข้อมูลของฉัน แต่ใช้เวลานานมากในการพอดีกับชุดข้อมูลที่มีขนาดใหญ่กว่าดังนั้นฉันยังต้องการค้นหาบางสิ่งได้เร็วขึ้น (แม้ว่าการซื้อขายจะมีความแม่นยำ) ฉันขาดอะไรบางอย่างชัดเจนที่นี่?


4
คุณตีความ RMSLE อย่างไร (รูตเฉลี่ยกำลังสองผิดพลาดลอการิทึม)
ฉันทำการแข่งขันการเรียนรู้ของเครื่องโดยใช้ RMSLE (Root Mean Squared Logarithmic Error) เพื่อประเมินประสิทธิภาพการทำนายราคาขายของอุปกรณ์ประเภทหนึ่ง ปัญหาคือฉันไม่แน่ใจว่าจะตีความความสำเร็จของผลลัพธ์สุดท้ายได้อย่างไร ตัวอย่างเช่นถ้าฉันได้รับ RMSLE ที่1.0521.0521.052ฉันสามารถยกกำลังยกกำลังeeeและตีความมันแบบ rmse ได้หรือไม่? (เช่น. e1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE )? ฉันจะบอกว่าแล้วว่าการคาดการณ์ของฉันได้เฉลี่ยจากราคาที่เกิดขึ้นจริง? หรือมีวิธีที่ดีกว่าในการตีความตัวชี้วัด? หรือสามารถตีความเมตริกได้ด้วยข้อยกเว้นเมื่อเปรียบเทียบกับ RMSLE อื่นของรุ่นอื่น ๆ ±$2.863±$2.863\pm \$2.863

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

4
ฟังก์ชั่นค่าใช้จ่ายเป็นอย่างไรจาก Logistic Regression
ฉันกำลังเรียนหลักสูตร Machine Learning Stanford ใน Coursera ในบทที่เกี่ยวกับการถดถอยโลจิสติกฟังก์ชันต้นทุนคือ: จากนั้นมันจะอยู่ที่นี่: ฉันพยายามหาอนุพันธ์ของฟังก์ชันต้นทุน แต่ฉันได้บางอย่างที่แตกต่างออกไปอย่างสิ้นเชิง อนุพันธ์ได้มาอย่างไร ขั้นตอนตัวกลางคืออะไร

1
แบบจำลองการถดถอยไม่ถูกต้องอย่างไรเมื่อไม่ตรงตามสมมติฐาน?
เมื่อติดตั้งโมเดลการถดถอยจะเกิดอะไรขึ้นถ้าข้อสันนิษฐานของผลลัพธ์ไม่เป็นไปตามที่ระบุ: จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk? ฉันเข้าใจว่าไม่มีการแบ่งสีดำและสีขาวอย่างหนักว่า 0.94 ถูกต้องและ 0.95 ไม่ถูกต้องและในคำถามฉันต้องการทราบว่า: ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่? การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด? เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

1
เหตุใดฉันจึงได้รับโซลูชัน lasso แบบปิดไม่ถูกต้อง
ปัญหา lassoมีรูปแบบการปิด: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + ถ้าXมีคอลัมน์แบบออโธเทนเน็ต นี่ก็แสดงให้เห็นในกระทู้นี้: ที่มาของรูปแบบปิดวิธีการแก้เชือกβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมไม่มีโซลูชันแบบปิดโดยทั่วไป ใช้ subifferentials …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?
ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น: m <- lm(weight ~ Time*Diet, data=ChickWeight) คำถามของฉัน: รูปแบบใดที่จะเป็นที่น่าสงสัย? ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่? การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

5
การเลือกรุ่นที่ดีที่สุดจากโมเดล“ ดีที่สุด” ที่แตกต่างกัน
คุณจะเลือกรุ่นจากรุ่นที่แตกต่างกันซึ่งเลือกโดยวิธีการที่แตกต่างกัน (เช่นการเลือกถอยหลังหรือการส่งต่อ) นอกจากนี้แบบจำลองทางการเงินคืออะไร?

4
Pseudo R สูตรกำลังสองสำหรับ GLMs
ฉันพบสูตรสำหรับหลอกR2R2R^2ในหนังสือขยายแบบจำลองเชิงเส้นด้วย R, Julian J. Faraway (หน้า 59) 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}NullDeviance นี่เป็นสูตรทั่วไปสำหรับหลอกR2R2R^2สำหรับ GLM หรือไม่

6
ทำไมเราต้องมีการถดถอยหลายตัวแปร (ซึ่งต่างจากการถดถอยหลายตัวแปร)
ฉันเพียงแค่เรียกดูผ่านหนังสือที่ยอดเยี่ยมนี้: การประยุกต์ใช้การวิเคราะห์ทางสถิติหลายตัวแปรโดยจอห์นสันและ Wichern การประชดคือฉันยังคงไม่สามารถเข้าใจแรงจูงใจในการใช้แบบจำลองหลายตัวแปร (การถดถอย) แทนที่จะเป็นแบบจำลองแบบ univariate (การถดถอย) ที่แยกต่างหาก ฉันผ่าน stats.statexchange โพสต์ที่1และ2ที่อธิบาย (ก) ความแตกต่างระหว่างการถดถอยแบบหลายตัวแปรและหลายตัวแปรและ (b) การตีความผลการถดถอยหลายตัวแปร แต่ฉันไม่สามารถปรับแต่งการใช้แบบจำลองสถิติหลายตัวแปรจากข้อมูลทั้งหมดที่ฉัน ออนไลน์เกี่ยวกับพวกเขา คำถามของฉันคือ: ทำไมเราต้องมีการถดถอยหลายตัวแปร? อะไรคือข้อได้เปรียบของการพิจารณาผลลัพธ์พร้อมกันมากกว่าแต่ละรายการเพื่อที่จะทำการอนุมาน เมื่อใดจึงควรใช้แบบจำลองหลายตัวแปรและเมื่อใดจึงจะใช้แบบจำลองหลายตัวแปร (สำหรับหลายผลลัพธ์) ยกตัวอย่างที่ได้รับจากเว็บไซต์ของ UCLAด้วยผลลัพธ์สามประการ: สถานที่ควบคุม, แนวคิดของตัวเองและแรงจูงใจ ด้วยความเคารพต่อ 1 และ 2 เราสามารถเปรียบเทียบการวิเคราะห์เมื่อเราทำการถดถอยแบบหลายตัวแปรที่ไม่ซ้ำกันสามตัวเปรียบเทียบกับการถดถอยหลายตัวแปรแบบหลายตัวแปรได้หรือไม่ วิธีที่จะพิสูจน์ความชอบธรรมมากกว่ากันได้อย่างไร ฉันยังไม่ได้เจอกับเอกสารทางวิชาการมากมายที่ใช้ตัวแบบสถิติหลายตัวแปร นี่เป็นเพราะข้อสันนิษฐานของตัวแปรหลายตัวแปรความซับซ้อนของการปรับ / ตีความแบบจำลองหรือเหตุผลเฉพาะอื่น ๆ ?

3
เหตุใดการกำหนดค่าตัวแปรอิสระให้อยู่ตรงกลางสามารถเปลี่ยนเอฟเฟกต์หลักด้วยการควบคุมได้
ฉันมีคำถามเกี่ยวกับการถดถอยหลายครั้งและการมีปฏิสัมพันธ์ซึ่งได้รับแรงบันดาลใจจากหัวข้อ CV นี้: คำที่ใช้โต้ตอบโดยใช้ตัวแปรกึ่งกลางการวิเคราะห์การถดถอยแบบลำดับชั้น? ตัวแปรใดที่เราควรตั้งศูนย์ เมื่อตรวจสอบเอฟเฟกต์การกลั่นกรองฉันจะวางตัวแปรอิสระไว้ที่กึ่งกลางและคูณตัวแปรกึ่งกลางเพื่อคำนวณระยะการโต้ตอบของฉัน จากนั้นฉันเรียกใช้การวิเคราะห์การถดถอยและตรวจสอบผลหลักและการโต้ตอบซึ่งอาจแสดงการกลั่นกรอง ถ้าฉันทำการวิเคราะห์ซ้ำโดยไม่อยู่ตรงกลางเห็นได้ชัดว่าสัมประสิทธิ์การตัดสินใจ ( ) ไม่เปลี่ยนแปลง แต่สัมประสิทธิ์การถดถอย ( s) ทำ ที่ดูเหมือนชัดเจนและมีเหตุผลR2R2R^2ββ\beta สิ่งที่ฉันไม่เข้าใจ: ค่า p ของเอฟเฟ็กต์หลักเปลี่ยนไปอย่างมากเมื่ออยู่กึ่งกลางแม้ว่าการโต้ตอบไม่ได้ (ซึ่งถูกต้อง) ดังนั้นการตีความของฉันเกี่ยวกับเอฟเฟ็กต์หลักอาจเปลี่ยนไปอย่างมาก - เพียงแค่กำหนดโดยการอยู่กึ่งกลาง (มันยังคงเป็นข้อมูลเดียวกันในการวิเคราะห์ทั้งสอง!) บางคนสามารถอธิบายได้หรือไม่ - เพราะนั่นหมายความว่าตัวเลือกในการกำหนดตัวแปรของฉันให้อยู่ตรงกลางและทุกคนควรทำเพื่อให้ได้ผลลัพธ์เดียวกันกับข้อมูลเดียวกัน ขอบคุณมากสำหรับการแจกจ่ายให้กับปัญหานั้นและคำอธิบายที่ครอบคลุมของคุณ มั่นใจได้ว่าความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก! สำหรับฉันประโยชน์ที่ใหญ่ที่สุดของการอยู่ตรงกลางคือการหลีกเลี่ยงความไม่ลงรอยกัน มันค่อนข้างสับสนที่จะสร้างกฎไม่ว่าจะอยู่กึ่งกลางหรือไม่ก็ตาม ความประทับใจของฉันคือทรัพยากรส่วนใหญ่แนะนำให้ศูนย์แม้ว่าจะมี "ความเสี่ยง" บางอย่างเมื่อทำมัน อีกครั้งฉันต้องการที่จะนำความจริงออกมาว่านักวิจัย 2 คนที่จัดการกับวัสดุและข้อมูลเดียวกันอาจสรุปผลลัพธ์ที่แตกต่างกันได้ ฉันเพิ่งอ่านบางส่วนของหนังสือโดย Bortz (เขาเป็นศาสตราจารย์และเป็นดาวสถิติในเยอรมนีและยุโรป) และเขาไม่ได้พูดถึงเทคนิคนั้น เพียงชี้ให้เห็นอย่างระมัดระวังในการตีความผลกระทบหลักของตัวแปรเมื่อพวกเขามีส่วนร่วมในการโต้ตอบ ท้ายที่สุดเมื่อคุณทำการถดถอยด้วยหนึ่ง IV หนึ่งโมเดอเรเตอร์ (หรือ IV ที่สอง) และ …

2
เหตุใด RSS จึงกระจายไคสแควร์ถึง np
ฉันต้องการที่จะเข้าใจว่าทำไมภายใต้รูปแบบ OLS ที่ RSS (ผลรวมที่เหลือของสี่เหลี่ยม) มีการกระจาย ( Pเป็นจำนวนของพารามิเตอร์ในรูปแบบที่nจำนวนสังเกต)χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn ฉันขอโทษที่ถามคำถามพื้นฐาน แต่ดูเหมือนว่าฉันจะไม่สามารถหาคำตอบออนไลน์ได้ (หรือในตำราเรียนที่เน้นการประยุกต์ใช้มากขึ้น)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.