คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว


5
ข้อมูลที่ถูกตรวจสอบอย่างถูกต้องคืออะไร?
ฉันได้อ่านคำอธิบายที่แตกต่างของข้อมูลเซ็นเซอร์: A) ตามที่อธิบายไว้ในหัวข้อนี้ข้อมูลที่ไม่มีเงื่อนไขด้านล่างหรือสูงกว่าเกณฑ์ที่กำหนดจะถูกเซ็นเซอร์ ข้อมูลที่ไม่มีเงื่อนไขหมายถึงข้อมูลสูงกว่าหรือต่ำกว่าเกณฑ์ที่กำหนด แต่เราไม่ทราบค่าที่แน่นอน ข้อมูลจะถูกทำเครื่องหมายที่ค่าต่ำสุดหรือสูงกว่าเกณฑ์ในตัวแบบการถดถอย มันตรงกับคำอธิบายในงานนำเสนอนี้ซึ่งฉันพบว่าชัดเจนมาก (สไลด์ที่ 2 ในหน้าแรก) กล่าวอีกนัยหนึ่งว่าYYYถูก จำกัด ด้วยค่าต่ำสุดค่าสูงสุดหรือทั้งคู่เพราะเราไม่ทราบค่าจริงนอกช่วงนั้น B) เพื่อนบอกผมว่าเราสามารถใช้รูปแบบข้อมูลเซ็นเซอร์บางส่วนที่ไม่รู้จัก YYYสังเกตให้เรามีอย่างน้อยข้อมูลบางอย่างเกี่ยวกับการ จำกัด ไม่รู้จักYiYiY_iผลลัพธ์ ตัวอย่างเช่นเราต้องการประเมินราคาสุดท้ายสำหรับการประมูลแบบเงียบและแบบเปิดโดยพิจารณาจากเกณฑ์เชิงคุณภาพ (ประเภทของสินค้า, ประเทศ, ความมั่งคั่งของผู้เสนอราคาเป็นต้น) ในขณะที่การประมูลแบบเปิดเราทราบราคาสุดท้ายทั้งหมดYiYiY_iสำหรับการประมูลแบบเงียบเรารู้เพียงแค่การประมูลครั้งแรก (พูด $ 1,000) แต่ไม่ใช่ราคาสุดท้าย ฉันบอกว่าในกรณีนี้ข้อมูลถูกเซ็นเซอร์จากด้านบนและควรใช้โมเดลการถดถอยแบบเซ็นเซอร์ C) ในที่สุดก็มีความหมายที่กำหนดโดยWikipediaที่YYYหายไปโดยสิ้นเชิง แต่มีตัวทำนาย ฉันไม่แน่ใจว่าตัวอย่างนี้แตกต่างจากข้อมูลที่ถูกตัดทอนอย่างไร ดังนั้นข้อมูลที่ถูกเซ็นเซอร์คืออะไร?

4
“ สหสัมพันธ์” หมายถึงความชันในการวิเคราะห์การถดถอยด้วยหรือไม่
ฉันกำลังอ่านกระดาษและผู้เขียนเขียนว่า: ศึกษาผลของ A, B, C ต่อ Y โดยใช้การวิเคราะห์ถดถอยแบบพหุ A, B, C ถูกป้อนเข้าสู่สมการถดถอยด้วย Y เป็นตัวแปรตาม การวิเคราะห์ความแปรปรวนแสดงในตารางที่ 3 ผลกระทบของ B ต่อ Y มีนัยสำคัญโดยที่ B สัมพันธ์กับ. 27 กับ Y ภาษาอังกฤษไม่ใช่ภาษาแม่ของฉันและฉันสับสนมากที่นี่ ก่อนอื่นเขาบอกว่าเขาจะทำการวิเคราะห์การถดถอยจากนั้นเขาก็แสดงให้เราเห็นการวิเคราะห์ความแปรปรวน ทำไม? แล้วเขาก็เขียนเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์นั่นไม่ได้มาจากการวิเคราะห์ความสัมพันธ์? หรือคำนี้สามารถใช้อธิบายความชันถดถอยได้

1
ความแตกต่างระหว่างสัมประสิทธิ์การถดถอยและสัมประสิทธิ์การถดถอยบางส่วนคืออะไร?
ฉันอ่านใน Abdi (2003)แล้ว เมื่อตัวแปรอิสระเป็นค่ามุมฉากคู่ผลของแต่ละตัวแปรในการถดถอยจะถูกประเมินโดยการคำนวณความชันของการถดถอยระหว่างตัวแปรอิสระนี้และตัวแปรตาม ในกรณีนี้ (เช่น orthogonality ของ IV) สัมประสิทธิ์การถดถอยบางส่วนจะเท่ากับสัมประสิทธิ์การถดถอย ในกรณีอื่น ๆ ทั้งหมดสัมประสิทธิ์การถดถอยจะแตกต่างจากสัมประสิทธิ์การถดถอยบางส่วน อย่างไรก็ตามเอกสารไม่ได้อธิบายก่อนหน้านี้ว่าความแตกต่างระหว่างสัมประสิทธิ์การถดถอยทั้งสองประเภทนี้คืออะไร Abdi, H. (2003) สัมประสิทธิ์การถดถอยบางส่วน ใน Lewis-Beck M. , Bryman, A. , Futing T. (บรรณาธิการ) (2003) สารานุกรมสังคมศาสตร์: วิธีการวิจัย Thousand Oaks, CA: สิ่งพิมพ์ SAGE

4
ระเบียบวิธีการป่าแบบสุ่มสามารถนำไปใช้กับการถดถอยเชิงเส้นได้หรือไม่?
ป่าสุ่มทำงานโดยการสร้างกลุ่มของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นถูกสร้างขึ้นโดยใช้ตัวอย่างบูตสแตรปของข้อมูลการฝึกอบรมดั้งเดิม (ตัวอย่างของตัวแปรอินพุตและการสังเกต) สามารถใช้กระบวนการที่คล้ายกันสำหรับการถดถอยเชิงเส้นได้หรือไม่? สร้างโมเดลการถดถอยเชิงเส้น k โดยใช้ตัวอย่างบูทสแตรปแบบสุ่มสำหรับแต่ละการถดถอย k อะไรคือเหตุผลที่ไม่สร้าง "การถดถอยแบบสุ่ม" เหมือนโมเดล ขอบคุณ หากมีบางสิ่งที่ฉันเข้าใจผิดไปจากเดิมโปรดแจ้งให้เราทราบ

3
การทำความเข้าใจกลุ่มความเชื่อมั่นจากการถดถอยพหุนาม
ฉันพยายามเข้าใจผลลัพธ์ที่เห็นในกราฟด้านล่าง โดยปกติแล้วฉันมักจะใช้ Excel และรับเส้นการถดถอยเชิงเส้น แต่ในกรณีด้านล่างฉันใช้ R และฉันได้รับการถดถอยพหุนามด้วยคำสั่ง: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() ดังนั้นคำถามของฉันถึงกับ: พื้นที่สีเทา (ลูกศร # 1) รอบ ๆ เส้นการถดถอยสีน้ำเงินคืออะไร นี่คือค่าเบี่ยงเบนมาตรฐานของการถดถอยพหุนามหรือไม่? ฉันสามารถพูดได้ไหมว่าสิ่งที่อยู่นอกพื้นที่สีเทา (ลูกศร # 2) คือ 'ผิดเพี้ยน' และอะไรก็ตามที่อยู่ในพื้นที่สีเทา (ลูกศร # 3) อยู่ในส่วนเบี่ยงเบนมาตรฐาน?

3
อัลกอริธึมทรีถดถอยด้วยโมเดลการถดถอยเชิงเส้นในแต่ละใบไม้
ฉบับย่อ:ฉันกำลังมองหาแพ็คเกจ R ที่สามารถสร้างแผนภูมิการตัดสินใจในขณะที่ใบไม้แต่ละใบในแผนผังการตัดสินใจเป็นรูปแบบการถดถอยเชิงเส้นเต็มรูปแบบ AFAIK ไลบรารีrpartสร้างแผนผังการตัดสินใจที่ตัวแปรตามคงที่ในแต่ละใบไม้ มีห้องสมุดอื่น (หรือการrpartตั้งค่าที่ฉันไม่ทราบ) ที่สามารถสร้างต้นไม้ดังกล่าวได้หรือไม่? รุ่นยาว:ฉันกำลังมองหาอัลกอริทึมที่สร้างแผนภูมิการตัดสินใจตามชุดข้อมูลการฝึกอบรม การตัดสินใจแต่ละครั้งในต้นไม้จะแยกข้อมูลการฝึกอบรมออกเป็นสองส่วนตามเงื่อนไขของหนึ่งในตัวแปรอิสระ รูทของทรีมีชุดข้อมูลแบบเต็มและแต่ละไอเท็มในชุดข้อมูลนั้นมีอยู่ในโหนดใบเดียว อัลกอริทึมเป็นดังนี้: เริ่มต้นด้วยชุดข้อมูลแบบเต็มซึ่งเป็นโหนดรูทของทรี เลือกโหนดนี้และเรียกว่าNNNN สร้างรูปแบบการถดถอยเชิงเส้นกับข้อมูลในNNNN หากโมเดลเชิงเส้นของNสูงกว่าขีด จำกัด บางθ R 2 แสดงว่าเราเสร็จด้วยNดังนั้นให้ทำเครื่องหมายNR2R2R^2NNNθR2θR2\theta_{R^2}NNNNNNเป็นใบและข้ามไปยังขั้นตอนที่ 5 ลองตัดสินใจแบบสุ่มและเลือกหนึ่งที่มีอัตราผลตอบแทนที่ดีที่สุดR 2ในโหนดย่อยนี้: nnnR2R2R^2 เลือกตัวแปรอิสระแบบสุ่มเช่นเดียวกับเกณฑ์แบบสุ่มθ iviviv_iθiθi\theta_iฉัน การตัดสินใจแยกชุดข้อมูลของN เป็นสองโหนดใหม่ Nและ~ Nvi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} N สร้างแบบจำลองการถดถอยเชิงเส้นทั้งNและ~ NและคำนวณของพวกเขาR 2 (เรียกพวกเขาrและ~ RN^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} ) จากทั้งหมดที่ tuples ( วีฉัน , θ ฉัน , R , …
14 r  regression  rpart  cart 

2
การถดถอยแบบขั้นตอนจัดเตรียมการประมาณแบบเอนเอียงของประชากร r-square หรือไม่?
ในด้านจิตวิทยาและสาขาอื่น ๆ รูปแบบของการถดถอยแบบขั้นตอนมักถูกใช้ซึ่งเกี่ยวข้องกับสิ่งต่อไปนี้: ดูตัวทำนายที่เหลือ (ไม่มีตัวแบบในตอนแรก) และระบุตัวทำนายที่ทำให้เกิดการเปลี่ยนแปลง r-square ที่ใหญ่ที่สุด หากค่า p ของการเปลี่ยนแปลง r-square น้อยกว่าอัลฟา (โดยทั่วไปคือ. 05) ให้รวมตัวทำนายนั้นและกลับไปที่ขั้นตอนที่ 1 มิฉะนั้นหยุด ตัวอย่างเช่นดูขั้นตอนนี้ในโปรแกรม SPSS ขั้นตอนการวิพากษ์วิจารณ์เป็นประจำด้วยเหตุผลที่หลากหลาย (ดูการสนทนานี้ในเว็บไซต์ Stata พร้อมการอ้างอิง ) โดยเฉพาะอย่างยิ่งเว็บไซต์ Stata สรุปความคิดเห็นหลายประการโดย Frank Harrell ฉันสนใจข้อเรียกร้อง: [การถดถอยแบบขั้นตอน] ให้ค่า R-squared ที่มีความเอนเอียงไม่ดีที่จะสูง โดยเฉพาะบางส่วนของการวิจัยในปัจจุบันของฉันมุ่งเน้นไปที่การประมาณการประชากร R-ตาราง จากประชากร r-square ฉันอ้างถึงเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยข้อมูลประชากรที่สร้างสมการในประชากร วรรณกรรมที่มีอยู่ส่วนใหญ่ที่ฉันกำลังตรวจสอบได้ใช้ขั้นตอนการถดถอยแบบขั้นตอนและฉันต้องการทราบว่าการประเมินที่ให้นั้นมีความลำเอียงหรือไม่และถ้าเป็นเช่นนั้น โดยเฉพาะอย่างยิ่งการศึกษาทั่วไปจะมีตัวทำนาย 30 ตัว n = 200 อัลฟาของการป้อน. 05 และการประมาณ …

4
การทดสอบตัวผู้ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน7 เดือนที่ผ่านมา ในการทดสอบสมมติฐานการถดถอยแบบขนานในการถดถอยโลจิสติกอันดับฉันพบว่ามีหลายวิธี ฉันใช้ทั้งวิธีกราฟิก (ตามรายละเอียดในหนังสือของ Harrell) และวิธีรายละเอียดโดยใช้ แพ็คเกจลำดับใน R อย่างไรก็ตามฉันต้องการรันการทดสอบ Brant (จาก Stata) สำหรับทั้งตัวแปรเดี่ยวและสำหรับโมเดลทั้งหมด ฉันได้ดูไปรอบ ๆ แต่ไม่พบการใช้งานใน R มีการนำการทดสอบ Brant ไปใช้ใน R หรือไม่?

3
การประมาณ
ฉันมีแบบจำลองทางเศรษฐศาสตร์เชิงทฤษฎีซึ่งมีดังต่อไปนี้ y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u ดังนั้นทฤษฎีบอกว่ามี , x 2และx 3ปัจจัยในการประมาณการปีx1x1x_1x2x2x_2x3x3x_3yyy ตอนนี้ผมมีข้อมูลจริงและฉันต้องการที่จะประเมิน , ข2 , B 3 ปัญหาคือชุดข้อมูลจริงมีเพียงข้อมูลสำหรับx 1และx 2เท่านั้น มีข้อมูลสำหรับการไม่มีx 3 ดังนั้นแบบจำลองที่ฉันสามารถใส่ได้คือ:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u มันโอเคที่จะประเมินโมเดลนี้หรือไม่? ฉันจะสูญเสียสิ่งที่ประเมินหรือไม่ ถ้าฉันประมาณ , b 2แล้วเทอมb 3 x 3จะไปที่ไหนb1b1b_1b2b2b_2b3x3b3x3b_3x_3 มันคิดโดยระยะผิดพลาด ?uuu …

6
เวลาที่ใช้ในกิจกรรมเป็นตัวแปรอิสระ
ฉันต้องการรวมเวลาที่ใช้ในการทำบางสิ่ง (เช่นการให้นมลูกเป็นสัปดาห์) เป็นตัวแปรอิสระในโมเดลเชิงเส้น อย่างไรก็ตามการสังเกตบางอย่างไม่ได้มีส่วนร่วมในพฤติกรรมเลย การเข้ารหัสเป็น 0 ไม่ถูกต้องเพราะ 0 นั้นมีคุณภาพแตกต่างจากค่าใด ๆ > 0 (นั่นคือผู้หญิงที่ไม่ได้ให้นมลูกอาจแตกต่างจากผู้หญิงที่ทำเช่นนั้นแม้แต่คนที่ไม่ได้ทำมานานมาก) สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือชุดของหุ่นที่แบ่งเวลาที่ใช้ออกไป แต่นี่เป็นข้อมูลที่มีค่า บางสิ่งบางอย่างที่เหมือนกับปัวซองที่มีค่าเป็นศูนย์สูงเกินไปก็ดูเหมือนว่าเป็นไปได้ แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าจะมีลักษณะอย่างไรในบริบทนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ?

1
วิธีการหาที่เหลือและพล็อตพวกเขา
ฉันได้รับข้อมูลแล้ว x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) ฉันจะได้รับส่วนที่เหลือและพล็อตกับอย่างไร? และฉันจะทดสอบว่าส่วนที่เหลือดูเหมือนจะเป็นปกติโดยประมาณได้อย่างไรxxx ฉันไม่แน่ใจว่าถ้าฉันทำแบบเชิงเส้นพอดีอย่างถูกต้องเมื่อฉันได้สมการแต่บันทึกการบรรยายบอกว่าเส้นการถดถอยเชิงเส้นควรอยู่ในรูปแบบy i = β 0 + β 1 x + ϵ .Y= 6.9 x - 5.5Y=6.9x-5.5y=6.9x-5.5Yผม= β0+ β1x + ϵYผม=β0+β1x+εy_i=\beta_0+\beta_1x+\epsilon
14 r  regression 

2
ประสิทธิภาพของตัวแบบในการสร้างแบบจำลองควอไทล์
ฉันใช้การถดถอยแบบควอไทล์ (เช่นผ่านgbmหรือquantregใน R) - ไม่ได้มุ่งเน้นไปที่ค่ามัธยฐาน แต่แทนที่จะเป็นควอไทล์บน (เช่น 75) มาจากพื้นหลังการสร้างแบบจำลองการคาดการณ์ฉันต้องการวัดความเหมาะสมของแบบจำลองในชุดทดสอบและสามารถอธิบายสิ่งนี้กับผู้ใช้ทางธุรกิจ คำถามของฉันเป็นอย่างไร ในการตั้งค่าทั่วไปที่มีเป้าหมายต่อเนื่องฉันสามารถทำสิ่งต่อไปนี้: คำนวณ RMSE โดยรวม จัดทำชุดข้อมูลตามค่าที่ทำนายและเปรียบเทียบค่าเฉลี่ยจริงกับค่าเฉลี่ยที่คาดการณ์ในแต่ละช่วง เป็นต้น สิ่งที่สามารถทำได้ในกรณีนี้ที่ไม่มีมูลค่าจริง (ฉันไม่คิดว่าอย่างน้อย) เพื่อเปรียบเทียบการทำนายกับ? นี่คือตัวอย่างรหัส: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage …

3
การเลือกตัวแปรแบบเบย์ - ใช้งานได้จริงหรือ
ฉันคิดว่าฉันอาจเล่นกับการเลือกตัวแปรแบบเบย์บางอย่างหลังจากโพสต์บล็อกที่ดีและเอกสารที่เชื่อมโยงอยู่ในนั้น ฉันเขียนโปรแกรมในrjags (ที่ฉันค่อนข้างใหม่) และดึงข้อมูลราคาสำหรับ Exxon Mobil พร้อมกับบางสิ่งที่ไม่น่าจะอธิบายผลตอบแทน (เช่นราคาของแพลเลเดียม) และสิ่งอื่น ๆ ที่ควรมีความสัมพันธ์สูง (เช่น SP500 ) วิ่งlm()เราจะเห็นว่ามีหลักฐานที่ชัดเจนของแบบจำลองที่มีพารามิเตอร์มากเกินไป แต่แพลเลเดียมนั้นควรได้รับการยกเว้น: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error …

3
คุณจะทำ Bayesian ANOVA และการถดถอยใน R อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันมีชุดข้อมูลที่ค่อนข้างง่ายซึ่งประกอบด้วยตัวแปรอิสระหนึ่งตัวหนึ่งตัวแปรขึ้นอยู่กับหนึ่งตัวและตัวแปรเด็ดขาด ผมมีประสบการณ์มากมายการทดสอบการทำงาน frequentist ชอบaov()และlm()แต่ฉันไม่สามารถหาวิธีการดำเนินการเทียบเท่าแบบเบย์ในอาร์ ฉันต้องการเรียกใช้การถดถอยเชิงเส้นแบบเบย์ในสองตัวแปรแรกและการวิเคราะห์ความแปรปรวนแบบเบย์โดยใช้ตัวแปรหมวดหมู่เป็นการจัดกลุ่ม แต่ฉันไม่สามารถหาตัวอย่างง่ายๆเกี่ยวกับวิธีการทำเช่นนี้กับอาร์ ทั้งสอง? นอกจากนี้สถิติผลลัพธ์ที่สร้างขึ้นโดยการวิเคราะห์แบบเบย์คืออะไรและพวกเขาแสดงอะไร? ฉันไม่ได้มีความเชี่ยวชาญในสถิติมากนัก แต่ฉันทามติดูเหมือนว่าการใช้การทดสอบขั้นพื้นฐานที่มีค่า p นั้นตอนนี้คิดว่าค่อนข้างผิดและฉันพยายามติดตาม ความนับถือ.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.