คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
สร้างตัวอย่างข้อมูลจากการถดถอยปัวซอง
ฉันสงสัยว่าคุณจะสร้างข้อมูลจากสมการการถดถอยปัวซองใน R ได้อย่างไร? ฉันสับสนวิธีจัดการกับปัญหา ดังนั้นถ้าผมถือว่าเรามีสองทำนายและซึ่งกระจาย(0,1) และการสกัดกั้นคือ 0 และสัมประสิทธิ์ทั้งสองเท่ากัน 1 จากนั้นค่าประมาณของฉันคือ:X1X1X_1X2X2X_2ยังไม่มีข้อความ( 0 , 1) )ยังไม่มีข้อความ(0,1)N(0,1) เข้าสู่ระบบ( Y) = 0 + 1 ⋅ X1+ 1 ⋅ X2เข้าสู่ระบบ⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 แต่เมื่อฉันคำนวณ log (Y) - ฉันจะสร้างจำนวนปัวซองตามนั้นได้อย่างไร พารามิเตอร์ rate สำหรับการแจกแจงปัวซองคืออะไร? ถ้าใครสามารถเขียนสคริปต์ R สั้น ๆ ที่สร้างตัวอย่างการถดถอยปัวซองที่น่ากลัว!

2
วิธีรับเอาท์พุทอย่างต่อเนื่องมูลค่าจริงจาก Neural Network
ในตัวอย่างส่วนใหญ่ที่ฉันเคยเห็นจนถึงเครือข่ายนิวรัลเครือข่ายใช้สำหรับการจำแนกประเภทและโหนดจะถูกแปลงด้วยฟังก์ชัน sigmoid อย่างไรก็ตามฉันต้องการใช้โครงข่ายประสาทเทียมเพื่อส่งออกมูลค่าที่แท้จริงอย่างต่อเนื่อง (ตามจริงแล้วเอาต์พุตมักจะอยู่ในช่วง -5 ถึง +5) คำถามของฉันคือ: 1. Should I still scale the input features using feature scaling? What range? 2. What transformation function should I use in place of the sigmoid? ฉันกำลังมองหาแรกใช้มัน PyBrain ซึ่งอธิบายเหล่านี้ประเภทชั้น ดังนั้นฉันคิดว่าฉันควรมี 3 เลเยอร์ให้เริ่ม (อินพุต, ซ่อนเร้นและเลเยอร์เอาท์พุท) นั่นคือเลเยอร์เชิงเส้นทั้งหมดหรือไม่ นั่นเป็นวิธีที่สมเหตุสมผลหรือไม่ หรือฉันจะ "ยืด" ฟังก์ชั่น sigmoid ในช่วง -5 ถึง …

2
ฟังก์ชัน Gradient descent vs lm () ใน R?
ฉันกำลังดูวิดีโอในหลักสูตรการเรียนรู้ภาษาออนไลน์ของ Andrew Ng ที่ Stanford เขากล่าวถึง Gradient Descent เป็นอัลกอริทึมในการแก้ปัญหาการถดถอยเชิงเส้นและการเขียนฟังก์ชั่นในระดับแปดเสียงเพื่อดำเนินการ สมมุติว่าฉันสามารถเขียนฟังก์ชันเหล่านั้นใน R ใหม่ได้ แต่คำถามของฉันไม่ใช่ฟังก์ชัน lm () ให้ผลลัพธ์ของการถดถอยเชิงเส้นแล้ว ทำไมฉันต้องการเขียนฟังก์ชันการไล่ระดับสีของตัวเอง มีข้อได้เปรียบหรือว่าเป็นแบบฝึกหัดการเรียนรู้เท่านั้น? lm () ทำโคตรลาดชันหรือไม่?

8
วิธีการถดถอยเชิงเส้นทีละน้อยพร้อมปมที่ไม่รู้จักหลายวิธี
มีแพ็คเกจใดบ้างที่ต้องทำการถดถอยเชิงเส้นแบบทีละชิ้น ขอบคุณ เมื่อฉันใช้แพคเกจ Strucchange ฉันตรวจไม่พบจุดเปลี่ยนแปลง ฉันไม่รู้ว่ามันตรวจจับจุดเปลี่ยนได้อย่างไร จากแปลงฉันเห็นว่ามีหลายจุดที่ฉันต้องการมันช่วยให้ฉันเลือกพวกมันออกมาได้ ใครช่วยยกตัวอย่างที่นี่ได้ไหม

2
ใครบางคนสามารถแยกแสงกับเอฟเฟกต์แบบเชิงเส้นตรงและแบบไม่เชิงเส้นได้
ฉันกำลังจะดำน้ำในการเรียนรู้ R และโครงการการเรียนรู้ของฉันจะนำมาซึ่งการประยุกต์ใช้การถดถอยแบบผสมหรือแบบสุ่มกับชุดข้อมูลเพื่อพัฒนาสมการพยากรณ์ ฉันแบ่งปันความกังวลของนักเขียนในโพสต์นี้ วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม? ในการสงสัยว่า NLME หรือ LME4 เป็นแพ็คเกจที่ดีกว่าที่จะทำความคุ้นเคยกับ คำถามพื้นฐานเพิ่มเติมคืออะไรคือความแตกต่างระหว่างการสร้างโมเดลเอฟเฟกต์แบบเชิงเส้นและไม่เชิงเส้น สำหรับพื้นหลังฉันใช้การสร้างแบบจำลอง ME ในการวิจัย MS ของฉัน (ใน MATLAB ไม่ใช่ R) ดังนั้นฉันจึงคุ้นเคยกับวิธีปฏิบัติกับตัวแปรสุ่มและแบบคงที่ แต่ฉันไม่แน่ใจว่างานที่ฉันทำนั้นถือว่าเป็นเชิงเส้นหรือไม่เชิงเส้นฉัน มันเป็นเพียงรูปแบบการทำงานของสมการที่ใช้หรืออย่างอื่น?

2
อธิบายการปรับโมเดลในภาษาอังกฤษแบบธรรมดา
การอ่านเกี่ยวกับวิธีการและผลลัพธ์ของการวิเคราะห์ทางสถิติโดยเฉพาะอย่างยิ่งในด้านระบาดวิทยาฉันมักได้ยินเกี่ยวกับการปรับหรือควบคุมโมเดล คุณจะอธิบายเกี่ยวกับจุดประสงค์ของสิ่งที่ไม่ใช่นักสถิติได้อย่างไร? คุณตีความผลลัพธ์ของคุณหลังจากควบคุมตัวแปรบางตัวได้อย่างไร การเดินผ่านเล็ก ๆ ใน Stata หรือ R หรือตัวชี้ไปยังหนึ่งออนไลน์จะเป็นอัญมณีที่แท้จริง

3
การถดถอยเชิงเส้นอย่างง่ายค่า p และ AIC
ฉันรู้ว่าหัวข้อนี้เกิดขึ้นหลายครั้งก่อนเช่นที่นี่แต่ฉันยังไม่แน่ใจว่าจะตีความผลลัพธ์การถดถอยของฉันได้ดีที่สุดอย่างไร ฉันมีชุดข้อมูลที่ง่ายมากประกอบด้วยคอลัมน์ของค่า xและคอลัมน์ค่า yแบ่งออกเป็นสองกลุ่มตามที่ตั้ง (loc) คะแนนมีลักษณะเช่นนี้ เพื่อนร่วมงานได้ตั้งสมมติฐานว่าเราควรใส่การถดถอยเชิงเส้นอย่างง่ายแยกกันในแต่ละกลุ่มซึ่งฉันได้ใช้y ~ x * C(loc)ไปแล้ว เอาท์พุทที่แสดงด้านล่าง OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: …

6
เหตุใดเศษที่เหลือในการถดถอยเชิงเส้นจึงรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น?
ฉันกำลังเรียนหลักสูตรรูปแบบการถดถอยและหนึ่งในคุณสมบัติที่มีให้สำหรับการถดถอยเชิงเส้นคือส่วนที่เหลือจะรวมเป็นศูนย์เสมอเมื่อมีการสกัดกั้น ใครสามารถให้คำอธิบายที่ดีว่าทำไมถึงเป็นเช่นนี้

3
การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression
นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม ! คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้: log(p1−p)=β0+β1x1log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1x 1exp(β1)exp⁡(β1)\exp(\beta_1) x1x1x_1 แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้: WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

4
อะไรคือความแตกต่างของ "เชิงกล" ระหว่างการถดถอยเชิงเส้นแบบหลายจุดด้วย lags และอนุกรมเวลา
ฉันสำเร็จการศึกษาด้านธุรกิจและเศรษฐศาสตร์ซึ่งกำลังศึกษาระดับปริญญาโทด้านวิศวกรรมข้อมูล ในขณะที่กำลังศึกษาการถดถอยเชิงเส้น (LR) และการวิเคราะห์อนุกรมเวลา (TS) คำถามหนึ่งก็ผุดขึ้นในใจของฉัน เหตุใดจึงต้องสร้างวิธีการใหม่ทั้งหมดเช่นอนุกรมเวลา (ARIMA) แทนที่จะใช้การถดถอยเชิงเส้นหลายเส้นและการเพิ่มตัวแปรที่ล้าหลัง (โดยใช้คำสั่งล่าช้าที่กำหนดโดยใช้ ACF และ PACF) ดังนั้นอาจารย์แนะนำให้ฉันเขียนเรียงความเล็ก ๆ น้อย ๆ เกี่ยวกับปัญหา ฉันจะไม่ขอความช่วยเหลือจากมือเปล่าดังนั้นฉันจึงทำการวิจัยในหัวข้อนี้ ฉันรู้แล้วว่าเมื่อใช้ LR หากการละเมิดสมมติฐานของเกาส์ - มาร์คอฟการถดถอยของ OLS นั้นไม่ถูกต้องและสิ่งนี้เกิดขึ้นเมื่อใช้ข้อมูลอนุกรมเวลา (ความสัมพันธ์อัตโนมัติเป็นต้น) (คำถามอื่นเกี่ยวกับเรื่องนี้สมมุติฐานของจีเอ็มหนึ่งข้อคือตัวแปรอิสระควรแจกแจงตามปกติหรือเพียงแค่ตัวแปรตามเงื่อนไขให้กับตัวแปรอิสระ) ฉันรู้ด้วยว่าเมื่อใช้การถดถอยแบบกระจายแบบกระจายซึ่งเป็นสิ่งที่ฉันคิดว่าฉันเสนอที่นี่และการใช้ OLS เพื่อประเมินค่าพารามิเตอร์ความหลากหลายทางหลายทางระหว่างตัวแปรอาจเกิดขึ้นอย่างชัดเจนดังนั้นการประมาณจึงผิด ในโพสต์ที่คล้ายกันเกี่ยวกับ TS และ LRที่นี่ @IrishStat กล่าวว่า: ... แบบจำลองการถดถอยเป็นกรณีเฉพาะของ Transfer Function Model หรือที่รู้จักกันในชื่อรุ่นการถดถอยแบบไดนามิกหรือรุ่น XARMAX จุดสำคัญคือการระบุรูปแบบในอนุกรมเวลานั่นคือความแตกต่างที่เหมาะสมความล่าช้าที่เหมาะสมของ X โครงสร้าง ARIMA ที่เหมาะสมการระบุที่เหมาะสมของโครงสร้างที่ไม่ระบุรายละเอียดที่กำหนดเช่นพัลส์ระดับเลื่อนแนวโน้มเวลาท้องถิ่นฤดูกาลและการรวม บริษัท …

4
วิธีการตีความโค้ง ROC?
ฉันใช้การถดถอยโลจิสติกกับข้อมูลของฉันบน SAS และนี่คือเส้นโค้ง ROC และตารางการจำแนก ฉันพอใจกับตัวเลขในตารางการจัดหมวดหมู่ แต่ไม่แน่ใจว่าเส้นโค้งและพื้นที่ใต้กราฟนั้นเป็นเท่าใด คำอธิบายใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

3
เมื่อทำ t-test สำหรับความสำคัญของค่าสัมประสิทธิ์การถดถอยทำไมเป็นจำนวนองศาของเสรีภาพ
ฉันอ่านที่นี่ว่าคือจำนวนองศาอิสระที่ฉันควรใช้เมื่อทำการทดสอบ t สำหรับความสำคัญของสัมประสิทธิ์การถดถอย แต่ฉันไม่เข้าใจว่าทำไม ความเข้าใจของฉันคือการทดสอบแบบ t โดยทั่วไปแล้วจะมีอิสระในระดับn - 1องศาn−p−1n−p−1n-p-1n−1n−1n-1

3
ดำเนินการถดถอยเชิงเส้น แต่บังคับให้โซลูชันหาจุดข้อมูลบางจุด
ฉันรู้วิธีดำเนินการถดถอยเชิงเส้นในชุดของคะแนน นั่นคือฉันรู้วิธีปรับให้พอดีกับพหุนามที่ฉันเลือกกับชุดข้อมูลที่กำหนด (ในความหมาย LSE) อย่างไรก็ตามสิ่งที่ฉันไม่ทราบคือวิธีการบังคับให้วิธีการแก้ปัญหาของฉันผ่านบางจุดที่ฉันเลือก ฉันเคยเห็นสิ่งนี้ทำมาก่อน แต่ฉันจำไม่ได้ว่ากระบวนการนั้นเรียกว่าอะไร เป็นตัวอย่างที่เรียบง่ายและเป็นรูปธรรมขอให้เราบอกว่าฉันมี 100 จุดกระจายอยู่บนระนาบ xy และฉันเลือกที่จะใส่พหุนามตามลำดับ ฉันรู้วิธีการดำเนินการถดถอยเชิงเส้นนี้เป็นอย่างดี อย่างไรก็ตามขอให้เราบอกว่าฉันต้องการ 'บังคับ' วิธีแก้ปัญหาของฉันเพื่อบอกว่าจุดข้อมูลสามจุดที่พิกัด , x = 19 , และx = 89 , (และพิกัด y ที่สอดคล้องกัน แน่นอน).x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 ขั้นตอนทั่วไปนี้เรียกว่าทำอย่างไรและมีข้อผิดพลาดเฉพาะที่ฉันต้องระวังหรือไม่ แก้ไข: ฉันต้องการเพิ่มว่าฉันกำลังมองหาวิธีที่เป็นรูปธรรมในการทำเช่นนี้ ฉันได้เขียนโปรแกรมที่จริงแล้วการถดถอยเชิงเส้นในวิธีใดวิธีหนึ่งโดยการคว่ำเมทริกซ์ความแปรปรวนร่วมโดยตรงหรือผ่านการไล่ระดับสี สิ่งที่ฉันถามคือฉันจะปรับเปลี่ยนสิ่งที่ฉันทำทีละขั้นตอนเช่นนั้นฉันบังคับให้คำตอบพหุนามต้องผ่านจุดที่เฉพาะเจาะจงหรือไม่ ขอบคุณ!

3
OLS เป็นสีฟ้า แต่ถ้าฉันไม่สนใจเรื่องความเป็นกลางและความเป็นเส้นตรงล่ะ?
ทฤษฎีบทเกาส์ - มาร์คอฟบอกเราว่าตัวประมาณ OLS เป็นตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับตัวแบบการถดถอยเชิงเส้น แต่สมมติว่าฉันไม่สนใจเรื่องความเป็นเส้นตรงและความเป็นกลาง จากนั้นมีการประมาณค่าอื่น ๆ (แบบไม่เชิงเส้น / ลำเอียง) สำหรับตัวแบบการถดถอยเชิงเส้นซึ่งมีประสิทธิภาพมากที่สุดภายใต้สมมติฐาน Gauss-Markov หรือสมมติฐานทั่วไปอื่น ๆ แน่นอนว่ามีหนึ่งผลลัพธ์มาตรฐาน: OLS เป็นตัวประมาณค่าที่ดีที่สุดหากนอกเหนือไปจากสมมติฐาน Gauss-Markov เรายังสันนิษฐานว่าข้อผิดพลาดนั้นมักจะกระจายออกไป สำหรับการแจกแจงข้อผิดพลาดเฉพาะอื่น ๆ ฉันสามารถคำนวณตัวประมาณโอกาสสูงสุดที่สอดคล้องกันได้ แต่ฉันสงสัยว่ามีตัวประมาณซึ่งดีกว่า OLS ในบางสถานการณ์ที่ค่อนข้างทั่วไปหรือไม่?

6
การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง
คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.