คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
การตีความทางเรขาคณิตของสัมประสิทธิ์สหสัมพันธ์
ฉันสนใจในความหมายทางเรขาคณิตของค่าสหสัมพันธ์และสัมประสิทธิ์การตัดสินใจในการถดถอยหรือในสัญกรณ์เวกเตอร์RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} นี่คือการออกแบบเมทริกซ์มีแถวและคอลัมน์ที่แรกคือ , เวกเตอร์ของ 1s ที่สอดคล้องกับการตัด\XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 รูปทรงเรขาคณิตน่าสนใจยิ่งขึ้นในพื้นที่หัวเรื่อง -dimensional มากกว่าในพื้นที่ตัวแปร -dimensional กำหนดเมทริกซ์หมวก:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top นี่คือการฉายฉากบนพื้นที่คอลัมน์ของคือแบน ผ่านกำเนิดทอดโดยเวกเตอร์เป็นตัวแทนของแต่ละตัวแปรคนแรกซึ่งเป็น\จากนั้นโครงการเวกเตอร์ของการตอบสนองที่สังเกตบน "เงา" ของมันบนพื้นราบเวกเตอร์ของค่าติดตั้งและถ้าเรา มองไปตามเส้นทางของเส้นโครงที่เราเห็นเวกเตอร์ของเศษเหลือสร้างด้านที่สามของรูปสามเหลี่ยม สิ่งนี้น่าจะให้ทางเราสองทางในการตีความทางเรขาคณิตของXX\mathbf{X}xฉัน1 n H Y Y = H …


2
วิธีการออกแบบและใช้งานฟังก์ชั่นการสูญเสียไม่สมดุลสำหรับการถดถอย?
ปัญหา ในการถดถอยเรามักจะคำนวณความผิดพลาดกำลังสองเฉลี่ย (MSE) สำหรับตัวอย่าง: เพื่อวัดคุณภาพของเครื่องทำนายMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 ตอนนี้ฉันกำลังทำงานกับปัญหาการถดถอยที่เป้าหมายคือการคาดการณ์ราคาที่ลูกค้ายินดีจ่ายสำหรับผลิตภัณฑ์ที่มีคุณสมบัติเป็นตัวเลขจำนวนหนึ่ง หากราคาที่คาดการณ์ไว้สูงเกินไปไม่มีลูกค้าจะซื้อผลิตภัณฑ์ แต่การสูญเสียทางการเงินต่ำเพราะราคาสามารถลดลงได้ง่าย แน่นอนว่าไม่ควรสูงเกินไปเพราะอาจไม่สามารถซื้อผลิตภัณฑ์ได้เป็นเวลานาน ในทางกลับกันหากราคาที่คาดการณ์ไว้ต่ำเกินไปผลิตภัณฑ์จะถูกซื้ออย่างรวดเร็วโดยไม่มีโอกาสปรับราคา กล่าวอีกนัยหนึ่งอัลกอริทึมการเรียนรู้ควรทำนายราคาที่สูงขึ้นเล็กน้อยซึ่งสามารถลดลงได้หากจำเป็นแทนที่จะประเมินราคาที่แท้จริงต่ำกว่าซึ่งจะส่งผลให้เกิดการสูญเสียเงินทันที คำถาม คุณจะออกแบบเมตริกข้อผิดพลาดที่รวมค่าใช้จ่ายไม่สมดุลนี้ได้อย่างไร ทางออกที่เป็นไปได้ วิธีการกำหนดฟังก์ชั่นการสูญเสียแบบอสมมาตรคือเพียงแค่คูณด้วยน้ำหนัก: โดยที่เป็นพารามิเตอร์ที่เราสามารถปรับเปลี่ยนระดับของความไม่สมดุลได้ ฉันได้พบมันนี่ ดูเหมือนว่าสิ่งที่ตรงไปตรงมาที่สุดที่จะทำในขณะที่ยังคงสูญเสียกำลังสอง1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))&lt;0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))&lt;0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 α∈(0,1)α∈(0,1)\alpha \in (0,1)

1
ช่วงการทำนายการถดถอยเชิงเส้น
หากการประมาณเชิงเส้นที่ดีที่สุด (โดยใช้กำลังสองน้อยที่สุด) ของจุดข้อมูลของฉันคือเส้นฉันจะคำนวณข้อผิดพลาดการประมาณได้อย่างไร ถ้าฉันคำนวณค่าเบี่ยงเบนมาตรฐานของความแตกต่างระหว่างการสังเกตและการคาดการณ์ฉันจะพูดในภายหลังว่าค่าจริง (แต่ไม่ได้สังเกต)เป็นของช่วง ( ) ที่มีความน่าจะเป็น ~ 68% สมมติว่ามีการแจกแจงแบบปกติหรือไม่?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ …

2
คุณควรทำการวินิจฉัยการถดถอยเชิงเส้นในลำดับใด
ในการวิเคราะห์การถดถอยเชิงเส้นเราวิเคราะห์ค่าผิดปกติตรวจสอบความสัมพันธ์หลายระดับทดสอบความแตกต่าง คำถามคือ: มีคำสั่งให้ใช้สิ่งเหล่านี้หรือไม่? ฉันหมายความว่าเราต้องวิเคราะห์ค่าผิดปกติก่อนแล้วจึงตรวจสอบค่าความสัมพันธ์หลายระดับ? หรือย้อนกลับ มีกฎของหัวแม่มือเกี่ยวกับเรื่องนี้หรือไม่?

3
สมการในข่าว: การแปลโมเดลหลายระดับเป็นกลุ่มเป้าหมายทั่วไป
เดอะนิวยอร์กไทมส์มีความคิดเห็นที่ยาวนานเกี่ยวกับระบบการประเมินผลครู 'มูลค่าเพิ่ม' ที่ใช้ในการให้ข้อเสนอแนะกับนักการศึกษานิวยอร์กซิตี้ lede เป็นสมการที่ใช้ในการคำนวณคะแนน - นำเสนอโดยไม่มีบริบท กลยุทธ์วาทศิลป์ดูเหมือนจะเป็นการข่มขู่ทางคณิตศาสตร์: เนื้อหาทั้งหมดของบทความมีอยู่ที่: http://www.nytimes.com/2011/03/07/education/07winerip.html ผู้เขียน Michael Winerip ให้เหตุผลว่าความหมายของสมการนั้นเกินความสามารถของใครก็ตามที่ไม่เข้าใจแมตต์เดมอนผู้เข้าใจโดยเฉลี่ยน้อยกว่าครูทั่วไป: "การคำนวณคะแนนคาดคะเนของมิสซิสไอแซคสัน 3.69 นั้นยิ่งน่ากลัวมากขึ้นมันขึ้นอยู่กับตัวแปร 32 ตัว - รวมถึงว่านักเรียน“ ถูกเก็บรักษาไว้ในเกรดก่อนปีที่ทดสอบก่อน” และนักเรียนเป็น“ ใหม่สู่เมืองก่อนสอบ ปี." ตัวแปร 32 ตัวนั้นเสียบเข้ากับแบบจำลองทางสถิติที่ดูเหมือนหนึ่งในสมการเหล่านั้นใน“ การล่าสัตว์ตามใจปรารถนา” เท่านั้นที่ Matt Damon เท่านั้นที่สามารถแก้ไขได้ กระบวนการดูเหมือนโปร่งใส แต่ชัดเจนว่าเป็นโคลนแม้กระทั่งคนที่มีความคิดสร้างสรรค์เช่นครูอาจารย์ใหญ่และฉันลังเลที่จะพูดแบบนี้ - นักข่าว นางสาว Isaacson อาจมีสององศา Ivy League แต่เธอหายไป “ ฉันพบว่าเป็นไปไม่ได้ที่จะเข้าใจ” เธอกล่าว ในภาษาอังกฤษธรรมดา Ms. Isaacson เดาได้ดีที่สุดเกี่ยวกับสิ่งที่แผนกพยายามจะบอกเธอว่า: …

4
ความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) คืออะไร?
มีความสัมพันธ์ระหว่างการถดถอยและการวิเคราะห์จำแนกเชิงเส้น (LDA) หรือไม่? ความคล้ายคลึงและความแตกต่างของพวกเขาคืออะไร มันสร้างความแตกต่างหรือไม่ถ้ามีสองคลาสหรือมากกว่าสองคลาส?

3
ลำดับของตัวแปรอธิบายมีความสำคัญเมื่อคำนวณสัมประสิทธิ์การถดถอยหรือไม่
ตอนแรกฉันคิดว่าคำสั่งไม่สำคัญ แต่จากนั้นฉันอ่านเกี่ยวกับกระบวนการ orthogonalization กรัมสำหรับการคำนวณค่าสัมประสิทธิ์การถดถอยหลายและตอนนี้ฉันมีความคิดที่สอง ตามกระบวนการ gram-schmidt ตัวแปรที่อธิบายต่อมาถูกจัดทำดัชนีในหมู่ตัวแปรอื่น ๆ เวกเตอร์ที่เหลือของมันที่เล็กลงนั้นเป็นเพราะเวกเตอร์ที่เหลือของตัวแปรก่อนหน้านั้นจะถูกลบออกจากมัน ดังนั้นค่าสัมประสิทธิ์การถดถอยของตัวแปรอธิบายก็มีขนาดเล็กลงเช่นกัน หากนั่นเป็นจริงเวกเตอร์ที่เหลือของตัวแปรนั้นจะใหญ่กว่าถ้ามันถูกจัดทำดัชนีไว้ก่อนหน้านี้เนื่องจากเวกเตอร์ที่เหลือน้อยกว่าจะถูกลบออกจากมัน ซึ่งหมายความว่าสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นเช่นกัน ตกลงดังนั้นฉันถูกขอให้อธิบายคำถามของฉัน ดังนั้นฉันจึงโพสต์ภาพหน้าจอจากข้อความที่ทำให้ฉันสับสนตั้งแต่แรก ตกลงไปเลย ความเข้าใจของฉันคือว่ามีอย่างน้อยสองตัวเลือกในการคำนวณค่าสัมประสิทธิ์การถดถอย ตัวเลือกแรกจะแสดง (3.6) ในภาพหน้าจอด้านล่าง นี่คือตัวเลือกที่สอง (ฉันต้องใช้หลายภาพหน้าจอ) ถ้าฉันไม่ได้อ่านอะไรผิดพลาด (ซึ่งเป็นไปได้อย่างแน่นอน) ดูเหมือนว่าคำสั่งจะมีความสำคัญในตัวเลือกที่สอง มันมีความสำคัญในตัวเลือกแรกหรือไม่? ทำไมหรือทำไมไม่? หรือกรอบอ้างอิงของฉันสับสนหรือเปล่าว่านี่ไม่ใช่คำถามที่ถูกต้อง? นอกจากนี้ทั้งหมดนี้เกี่ยวข้องกับ Type I Sum of Squares หรือไม่กับ Type II Sum of Squares ขอบคุณล่วงหน้ามากฉันสับสนมาก!

3
'สัมประสิทธิ์นามแฝง' คืออะไร
ในขณะที่สร้างแบบจำลองการถดถอยใน R ( lm) ฉันมักได้รับข้อความนี้ "there are aliased coefficients in the model" มันหมายความว่าอะไรกันแน่? นอกจากนี้เนื่องจากสิ่งนี้predict()ยังเป็นการเตือน แม้ว่าจะเป็นเพียงคำเตือนฉันต้องการทราบว่าเราสามารถตรวจจับ / ลบค่าสัมประสิทธิ์ aliased ก่อนสร้างแบบจำลองได้อย่างไร นอกจากนี้อะไรคือผลลัพธ์ที่เป็นไปได้ของการละเลยคำเตือนนี้
24 r  regression 

3
เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น
ฉันต้องการทราบว่าเหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าแบบจำลองเชิงเส้น มันใช้ฟังก์ชั่น sigmoid ซึ่งไม่ได้เป็นเชิงเส้น เหตุใดการถดถอยแบบลอจิสติกจึงเป็นแบบจำลองเชิงเส้น

2
อะไรคือความแตกต่างระหว่างฟังก์ชั่นการสูญเสียและฟังก์ชั่นการตัดสินใจ?
ฉันเห็นว่าทั้งสองฟังก์ชั่นเป็นส่วนหนึ่งของวิธีการขุดข้อมูลเช่นตัวเร่งการเลื่อนสีไล่ระดับสี ฉันเห็นว่ามันเป็นวัตถุแยกกันเช่นกัน ความสัมพันธ์ระหว่างทั้งสองเป็นอย่างไร

1
มีวิธีใช้เมทริกซ์ความแปรปรวนร่วมเพื่อค้นหาค่าสัมประสิทธิ์สำหรับการถดถอยหลายครั้งหรือไม่?
สำหรับการถดถอยเชิงเส้นอย่างง่ายสัมประสิทธิ์การถดถอยสามารถคำนวณได้โดยตรงจากความแปรปรวน - ความแปรปรวนร่วมเมทริกซ์โดย โดยที่คือดัชนีตัวแปรตามและคือดัชนีของตัวแปรอธิบายC d , eCCC deCd, ECe , eCd,อีCอี,อี C_{d, e}\over C_{e,e} dddอีอีe หากมีเพียงเมทริกซ์ความแปรปรวนร่วมเป็นไปได้หรือไม่ที่จะคำนวณค่าสัมประสิทธิ์สำหรับแบบจำลองที่มีตัวแปรอธิบายหลายค่า? ETA: สำหรับตัวแปรอธิบายสองตัวปรากฏว่า และ analogously สำหรับ\ฉันไม่ได้เห็นวิธีการขยายตัวแปรนี้เป็นตัวแปรสามตัวขึ้นไปทันทีβ1= Co v ( y, x1) v a r ( x2) - Co v ( y, x2) Co v ( x1, x2)v a r ( x1) v a r ( …

10
คุณมีคำแนะนำสำหรับหนังสือเกี่ยวกับสถิติประยุกต์ที่สอนด้วยตนเองในระดับบัณฑิตศึกษาหรือไม่?
ฉันเรียนวิชาสถิติหลายหลักสูตรในวิทยาลัย แต่ฉันพบว่าการศึกษาของฉันเป็นไปตามทฤษฎีมาก ฉันสงสัยว่ามีผู้ใดที่มีข้อความในสถิติประยุกต์ (ระดับบัณฑิตศึกษา) ที่คุณแนะนำหรือเคยมีประสบการณ์ที่ดีมาก่อนหรือไม่


4
จะทำการลบกรณีที่ถูกตั้งค่าสถานะเป็นค่าผิดปกติโดยซอฟต์แวร์ทางสถิติเมื่อทำการถดถอยหลายครั้งหรือไม่?
ฉันทำการวิเคราะห์การถดถอยหลายครั้งและฉันไม่แน่ใจว่าควรลบค่าผิดปกติในข้อมูลของฉันหรือไม่ ข้อมูลที่ฉันกังวลปรากฏเป็น "แวดวง" ในกล่องสี่เหลี่ยมของ SPSS อย่างไรก็ตามไม่มีเครื่องหมายดอกจัน (ซึ่งทำให้ฉันคิดว่าพวกเขาไม่ใช่ 'แย่') กรณีที่ฉันกังวลจะปรากฏภายใต้ตาราง "การวินิจฉัย casewise" ในผลลัพธ์ - ดังนั้นฉันควรลบกรณีเหล่านี้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.