คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
(เพราะเหตุใด) โมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์จำนวนมากหรือไม่
ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้: สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - …

2
องศาอิสระในการทดสอบ Hosmer-Lemeshow
สถิติการทดสอบสำหรับการทดสอบHosmer-Lemeshow (HLT) สำหรับความดีของพอดี (GOF) ของแบบจำลองการถดถอยโลจิสติกถูกกำหนดดังนี้: ตัวอย่างจะถูกแบ่งออกเป็น deciles, D_1, D_2, \ dots, D_ {d} , ต่อหนึ่ง decile คำนวณปริมาณต่อไปนี้:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , คือจำนวนที่สังเกตได้ของจำนวนคดีที่เป็นบวกใน decile DdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)คือจำนวนที่สังเกตได้จากจำนวนลบในช่วงDdDdD_d ; E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_iคือจำนวนคดีโดยประมาณที่เป็นบวกในช่วงDdDdD_d ; E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)คือจำนวนผู้ติดลบโดยประมาณในช่วงDdDdD_d ; …

1
การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?
ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

2
การทำความเข้าใจรูปร่างและการคำนวณแถบความเชื่อมั่นในการถดถอยเชิงเส้น
ฉันพยายามเข้าใจที่มาของรูปโค้งของแถบความเชื่อมั่นที่เกี่ยวข้องกับการถดถอยเชิงเส้น OLS และวิธีการที่เกี่ยวข้องกับช่วงความมั่นใจของพารามิเตอร์การถดถอย (ความชันและจุดตัด) ตัวอย่างเช่น (โดยใช้ R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) ปรากฏว่าวงดนตรีมีความเกี่ยวข้องกับขีด จำกัด ของเส้นที่คำนวณด้วยการสกัด 2.5% และความชัน 97.5% เช่นเดียวกับการสกัดกั้น 97.5% และความชัน 2.5% (แม้ว่าจะไม่มาก): xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) สิ่งที่ฉันไม่เข้าใจมีสองสิ่ง: สิ่งที่เกี่ยวกับการรวมกันของความชัน 2.5% และการสกัดกั้น 2.5% รวมถึงความชัน 97.5% และการสกัดกั้น 97.5% สิ่งเหล่านี้ให้เส้นที่ชัดเจนนอกวงที่วางแผนไว้ด้านบน บางทีฉันอาจไม่เข้าใจความหมายของช่วงความมั่นใจ แต่ถ้าใน 95% ของกรณีที่การประมาณการของฉันอยู่ในช่วงความเชื่อมั่นสิ่งเหล่านี้ดูเหมือนจะเป็นผลลัพธ์ที่เป็นไปได้หรือไม่ อะไรเป็นตัวกำหนดระยะห่างขั้นต่ำระหว่างขีด …

2
ทฤษฎีเบื้องหลังการถดถอยกำลังสองน้อยที่สุด
ใครสามารถแนะนำการอธิบายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยกำลังสองน้อยที่สุด (มีให้ทางออนไลน์) สำหรับคนที่เข้าใจ SVD และ PCA? ฉันดูแหล่งข้อมูลออนไลน์มากมายและไม่พบสิ่งใดที่มีการผสมผสานที่ถูกต้องของความแม่นยำและการเข้าถึง ฉันได้ดูเป็นองค์ประกอบของการเรียนรู้ทางสถิติซึ่งได้รับการแนะนำในความคิดเห็นในคำถามที่ถามเกี่ยวกับการรอการตรวจสอบ , สี่เหลี่ยมอย่างน้อยบางส่วน (PLS) ถดถอยคืออะไรและวิธีการที่แตกต่างจาก OLS? แต่ฉันไม่คิดว่าการอ้างอิงนี้จะทำให้เกิดความยุติธรรมในหัวข้อ (สั้นเกินไปที่จะทำเช่นนั้นและไม่ได้ให้ทฤษฎีเกี่ยวกับเรื่องนี้มากนัก) จากสิ่งที่ฉันได้อ่าน PLS ใช้ประโยชน์จากการรวมกันเชิงเส้นของตัวแปรทำนายที่เพิ่มความแปรปรวนร่วมภายใต้ข้อ จำกัดและz_i ^ Tz_j = 0ถ้าฉัน \ neq j , ที่\ varphi_izi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i Z T ฉัน Z J = 0 ฉัน≠ เจφ ฉัน∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq jφiφi\varphi_iจะถูกเลือกซ้ำตามลำดับที่พวกเขาเพิ่มความแปรปรวนร่วมสูงสุด แต่หลังจากทั้งหมดที่ฉันอ่านฉันยังคงไม่แน่ใจว่ามันเป็นเรื่องจริงและถ้าเป็นเช่นนั้นวิธีการที่จะดำเนินการ

2
การทำให้เป็นมาตรฐานของ Tikhonov เหมือนกับการถดถอยของสันเขาหรือไม่?
การทำให้เป็นมาตรฐาน Tikhonov และการถดถอยสันเป็นคำที่มักใช้ราวกับว่าพวกเขาเหมือนกัน เป็นไปได้หรือไม่ที่จะระบุอย่างชัดเจนว่าความแตกต่างคืออะไร?

4
เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง
เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

3
ชุดข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์คล้ายกับชุดของ Anscombe
ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ

1
ทำไม R ถึงส่งกลับ NA เป็นสัมประสิทธิ์ lm ()
ฉันปรับlm()โมเดลให้เหมาะสมกับชุดข้อมูลที่มีตัวบ่งชี้สำหรับไตรมาสทางการเงิน (Q1, Q2, Q3 ทำให้ Q4 เป็นค่าเริ่มต้น) ใช้lm(Y~., data = data) ฉันได้รับNAเป็นค่าสัมประสิทธิ์สำหรับไตรมาสที่ 3 และคำเตือนว่าตัวแปรหนึ่งตัวถูกแยกออกเนื่องจากภาวะเอกฐาน ฉันต้องเพิ่มคอลัมน์ Q4 หรือไม่
32 r  regression 

7
มีอัลกอริทึมสำหรับการคำนวณพารามิเตอร์ "การทำงาน" เชิงเส้นหรือการถดถอยโลจิสติกหรือไม่?
กระดาษ "คำนวณความแปรปรวนในการทำงานอย่างถูกต้อง" ที่http://www.johndcook.com/standard_deviation.html แสดงวิธีคำนวณค่าเฉลี่ยความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน มีอัลกอริทึมที่พารามิเตอร์ของตัวแบบการถดถอยเชิงเส้นหรือแบบลอจิสติกสามารถอัปเดต "แบบไดนามิก" แบบเดียวกันได้หรือไม่เมื่อมีการจัดทำบันทึกการฝึกอบรมใหม่

1
อะไรคือความแตกต่างระหว่าง“ สัมประสิทธิ์การตัดสินใจ” และ“ หมายถึงข้อผิดพลาดกำลังสอง”?
สำหรับปัญหาการถดถอยฉันเคยเห็นผู้คนใช้ "สัมประสิทธิ์การตัดสินใจ" (aka R squared) เพื่อทำการเลือกแบบจำลองเช่นการค้นหาค่าสัมประสิทธิ์การลงโทษที่เหมาะสมสำหรับการทำให้เป็นมาตรฐาน อย่างไรก็ตามมันเป็นเรื่องธรรมดาที่จะใช้ "mean squared error" หรือ "root Mean squared error" เป็นการวัดความแม่นยำในการถดถอย แล้วความแตกต่างหลักระหว่างสองสิ่งนี้คืออะไร? พวกเขาสามารถใช้แทนกันได้สำหรับงาน "normalization" และ "ถดถอย" หรือไม่? และอะไรคือการใช้งานหลักของแต่ละอย่างในทางปฏิบัติเช่นในการเรียนรู้ของเครื่องจักรงานการขุดข้อมูล

1
สถาปัตยกรรมของซีเอ็นเอ็นเพื่อการถดถอย?
ฉันกำลังทำงานกับปัญหาการถดถอยที่อินพุตเป็นภาพและฉลากเป็นค่าต่อเนื่องระหว่าง 80 และ 350 ภาพเป็นสารเคมีบางอย่างหลังจากปฏิกิริยาเกิดขึ้น สีที่ปรากฎออกมาบ่งบอกถึงความเข้มข้นของสารเคมีอื่นที่เหลืออยู่และนั่นคือสิ่งที่แบบจำลองนั้นต้องการออก - ความเข้มข้นของสารเคมีนั้น ภาพสามารถหมุนพลิกสะท้อนและออกที่คาดหวังควรจะยังคงเหมือนเดิม การวิเคราะห์แบบนี้ทำในห้องปฏิบัติการจริง (เครื่องจักรพิเศษมากให้ความเข้มข้นของสารเคมีโดยใช้การวิเคราะห์สีเช่นเดียวกับที่ฉันกำลังฝึกรุ่นนี้ให้ทำ) จนถึงตอนนี้ฉันได้ทดลองกับแบบจำลองโดยอ้างอิงจาก VGG (หลายลำดับของบล็อก Conv-conv-conv-conv-pool) ก่อนที่จะทำการทดลองกับสถาปัตยกรรมที่ใหม่กว่านี้ (Inception, ResNets ฯลฯ ) ฉันคิดว่าฉันจะทำการวิจัยถ้ามีสถาปัตยกรรมอื่น ๆ ที่ใช้กันโดยทั่วไปสำหรับการถดถอยโดยใช้รูปภาพ ชุดข้อมูลมีลักษณะดังนี้: ชุดข้อมูลมีตัวอย่างประมาณ 5,000 250x250 ตัวอย่างซึ่งฉันได้ปรับขนาดเป็น 64x64 เพื่อให้การฝึกอบรมง่ายขึ้น เมื่อฉันพบสถาปัตยกรรมที่มีแนวโน้มฉันจะทดลองกับภาพความละเอียดที่ใหญ่ขึ้น จนถึงตอนนี้โมเดลที่ดีที่สุดของฉันมีข้อผิดพลาดกำลังสองเฉลี่ยทั้งชุดการฝึกอบรมและการตรวจสอบความถูกต้องประมาณ 0.3 ซึ่งอยู่ไกลจากที่ยอมรับได้ในกรณีใช้งานของฉัน รุ่นที่ดีที่สุดของฉันมีลักษณะเช่นนี้: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = …

2
การถดถอยโลจิสติก: Scikit Learn vs Statsmodels
ฉันพยายามที่จะเข้าใจว่าทำไมผลลัพธ์จากการถดถอยโลจิสติกส์ของห้องสมุดทั้งสองนี้จึงให้ผลลัพธ์ที่แตกต่างกัน ฉันใช้ชุดข้อมูลจาก UCLA Idre กวดวิชาทำนายadmitบนพื้นฐานgre, และgpa ถูกใช้เป็นตัวแปรเด็ดขาดดังนั้นจึงถูกแปลงเป็นตัวแปรดัมมีการดร็อป คอลัมน์ดักจะถูกเพิ่มด้วยrankrankrank_1 df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit ~ gre + gpa + C(rank)', df, return_type = 'dataframe') X.head() > Intercept C(rank)[T.2] C(rank)[T.3] C(rank)[T.4] gre gpa 0 1 0 1 0 380 3.61 1 1 0 1 0 660 3.67 2 1 0 …

2
ฟังก์ชันต้นทุนในการถดถอยเชิงเส้น OLS
ฉันสับสนเล็กน้อยกับการบรรยายเกี่ยวกับการถดถอยเชิงเส้นที่ Andrew Ng ให้กับ Coursera เกี่ยวกับการเรียนรู้ของเครื่อง ที่นั่นเขาได้จัดทำฟังก์ชั่นต้นทุนที่จะลดผลรวมของกำลังสองเป็น: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 ฉันเข้าใจว่ามาจากไหน ฉันคิดว่าเขาทำเพื่อที่ว่าเมื่อเขาทำอนุพันธ์บนเทอมสแควร์, 2 ในเทอมสแควร์จะยกเลิกด้วยครึ่งหนึ่ง แต่ฉันไม่เข้าใจว่ามาจากไหน 11212\frac{1}{2}1m1m\frac{1}{m} ทำไมเราต้องทำ ? ในการถดถอยเชิงเส้นมาตรฐานเราไม่มีมันเราแค่ลดจำนวนเหลือ ทำไมเราต้องการที่นี่?1m1m\frac{1}{m}

1
คำถามการถดถอยแบบทวินามเชิงลบ - เป็นแบบจำลองที่ไม่ดีหรือไม่?
ฉันกำลังอ่านบทความที่น่าสนใจโดยผู้ขายและ Shmueliเกี่ยวกับแบบจำลองการถดถอยสำหรับข้อมูลนับ ใกล้ถึงจุดเริ่มต้น (หน้า 944) พวกเขาอ้างถึงMcCullaugh และ Nelder (1989) ว่าการถดถอยเชิงลบแบบทวินามนั้นไม่เป็นที่นิยมและมีปัญหาการเชื่อมโยงที่เป็นที่ยอมรับ ฉันพบข้อความอ้างอิงแล้วและมันก็บอกว่า (หน้า 374 ของ M และ N) "ดูเหมือนว่าการใช้งานเล็กน้อยจะทำจากการแจกแจงลบทวินามในแอปพลิเคชันโดยเฉพาะการใช้ลิงก์แบบบัญญัติเป็นปัญหาเพราะมันทำให้ตัวทำนายเชิงเส้นเป็นฟังก์ชันของพารามิเตอร์ของฟังก์ชันความแปรปรวน" ในหน้าก่อนหน้าพวกเขาให้ฟังก์ชั่นการเชื่อมโยงเป็น η=log(α1+α)=log(μμ+k)η=log⁡(α1+α)=log⁡(μμ+k)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) และฟังก์ชันความแปรปรวน V=μ+μ2k.V=μ+μ2k.V = \mu + \frac{\mu^2}{k}. การกระจายจะได้รับเป็น Pr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y=y;α,k)=(y+k−1)!y!(k−1)!αy(1+α)y=kPr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}} ฉันพบว่าการถดถอยของ NB มีการใช้กันอย่างแพร่หลาย (และแนะนำในหนังสือหลายเล่ม) การใช้และคำแนะนำทั้งหมดนี้มีข้อผิดพลาดหรือไม่? อะไรคือผลที่เกิดขึ้นจากลิงค์ที่เป็นปัญหานี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.