คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
การทดสอบทางสถิติทั่วไปเป็นแบบจำลองเชิงเส้น
(อัปเดต: ฉันพุ่งลึกเข้าไปในสิ่งนี้และโพสต์ผลลัพธ์ที่นี่ ) รายการทดสอบทางสถิติที่ตั้งชื่อนั้นมีขนาดใหญ่มาก การทดสอบทั่วไปจำนวนมากอาศัยการอนุมานจากโมเดลเชิงเส้นอย่างง่ายเช่นหนึ่งตัวอย่าง t-test คือy = β + εซึ่งทดสอบกับแบบจำลองโมฆะy = μ + εนั่นคือβ = μโดยที่μเป็นโมฆะบางอย่าง ค่า - โดยทั่วไปแล้วμ = 0 ฉันคิดว่านี่เป็นคำแนะนำเพื่อวัตถุประสงค์ในการสอนมากกว่าการเรียนรู้แบบท่องจำที่มีชื่อเมื่อใช้และสมมติฐานของพวกเขาราวกับว่าพวกเขาไม่มีอะไรเกี่ยวข้องกัน วิธีการส่งเสริมนั้นไม่ส่งเสริมความเข้าใจ อย่างไรก็ตามฉันไม่สามารถหาแหล่งรวบรวมที่ดีได้ ฉันสนใจในการเปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา แม้ว่าเท่าที่ฉันเห็นการทดสอบอัตราส่วนความน่าจะเป็นในตัวแบบเชิงเส้นทั้งหมดนี้ให้ผลลัพธ์แบบเดียวกับการอนุมานแบบ "คลาสสิค" ต่อไปนี้เป็นสิ่งที่ฉันได้เรียนรู้มาโดยไม่คำนึงถึงข้อผิดพลาดและสมมติว่าสมมติฐานว่างทั้งหมดไม่มีผล:ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2) หนึ่งตัวอย่าง t-test: 0y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 t-test ตัวอย่างแบบจับคู่: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: …

3
ระยะเวลาข้อผิดพลาดการถดถอยจะสัมพันธ์กับตัวแปรอธิบายได้อย่างไร
ประโยคแรกของหน้าวิกินี้อ้างว่า "ในเศรษฐมิติปัญหาเอ็นเอ็นจีนิตี้เกิดขึ้นเมื่อตัวแปรอธิบายมีความสัมพันธ์กับคำผิดพลาด1 " คำถามของฉันคือสิ่งนี้จะเกิดขึ้นได้อย่างไร? การถดถอยแบบเบต้าไม่ได้ถูกเลือกเช่นนี้เพราะข้อผิดพลาดคือมุมฉากกับพื้นที่คอลัมน์ของเมทริกซ์การออกแบบหรือไม่
22 regression 

9
วิธีการตรวจสอบความเชื่อมั่นของการทำนายเครือข่ายประสาท?
เพื่อแสดงคำถามของฉันสมมติว่าฉันมีชุดฝึกอบรมที่อินพุตมีระดับเสียงรบกวน แต่เอาต์พุตไม่ได้ตัวอย่างเช่น; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] เอาท์พุทที่นี่คือการไล่ระดับสีของอาเรย์ใส่ถ้ามันไม่มีเสียง (ไม่ไล่โทนสีที่เกิดขึ้นจริง) หลังจากฝึกอบรมเครือข่ายผลลัพธ์ควรมีลักษณะเช่นนี้สำหรับอินพุตที่กำหนด # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] …

2
คุณจะหาน้ำหนักสำหรับการถดถอยกำลังสองน้อยที่สุดได้อย่างไร?
ฉันหลงทางเล็กน้อยในกระบวนการถดถอยของ WLS ฉันได้รับชุดข้อมูลแล้วและหน้าที่ของฉันคือการทดสอบว่ามีความแตกต่างที่แน่นอนและถ้าเป็นเช่นนั้นฉันควรรัน WLS regression ฉันได้ทำการทดสอบและพบหลักฐานเกี่ยวกับความแตกต่างระหว่างดังนั้นฉันจึงต้องเรียกใช้ WLS ฉันได้รับแจ้งว่า WLS นั้นโดยทั่วไปแล้วการถดถอย OLS ของโมเดลที่แปลงแล้ว แต่ฉันสับสนเล็กน้อยเกี่ยวกับการค้นหาฟังก์ชันการแปลง ฉันได้อ่านบทความที่แนะนำว่าการเปลี่ยนแปลงสามารถเป็นหน้าที่ของส่วนที่เหลือกำลังสองจากการถดถอย OLS แต่ฉันจะขอบคุณถ้ามีคนสามารถช่วยฉันในการติดตามที่ถูกต้อง

3
ทำความเข้าใจกับความขัดแย้งของซิมป์สัน: ตัวอย่างของแอนดรูว์เจลแมนด้วยการลดรายได้เกี่ยวกับเรื่องเพศและส่วนสูง
Andrew Gelman หนึ่งในบล็อกโพสต์ล่าสุดของเขาพูดว่า: ฉันไม่คิดว่าการต่อต้านหรือผลที่อาจเกิดขึ้นเป็นสิ่งจำเป็นสำหรับความขัดแย้งของซิมป์สัน ฉันพูดแบบนี้เพราะเราสามารถตั้งค่าความขัดแย้งของซิมป์สันด้วยตัวแปรที่ไม่สามารถจัดการได้หรือการจัดการที่ไม่ได้สนใจโดยตรง ความขัดแย้งของซิมป์สันเป็นส่วนหนึ่งของปัญหาทั่วไปที่โคย์การถดถอยเปลี่ยนแปลงหากคุณเพิ่มตัวทำนายมากขึ้นการพลิกสัญญาณไม่จำเป็นจริงๆ นี่คือตัวอย่างที่ฉันใช้ในการสอนที่แสดงทั้งสองประเด็น: ฉันสามารถใช้การถดถอยเพื่อทำนายรายได้จากเพศและส่วนสูง ฉันพบว่า coef ของเพศคือ$ 10,000 (เช่นการเปรียบเทียบชายและหญิงที่มีความสูงเท่ากันโดยเฉลี่ยแล้วผู้ชายจะเพิ่มอีก$ 10,000) และค่าสัมประสิทธิ์ของความสูงคือ$ 500 (เช่นการเปรียบเทียบผู้ชายสองคนหรือผู้หญิงสองคน ความสูงที่แตกต่างกันโดยเฉลี่ยคนที่สูงกว่าจะทำเงินได้สูงกว่า$ 500 ต่อนิ้ว) ฉันจะแปลความหมายเหล่านี้ได้อย่างไร ฉันรู้สึกว่า coef of height นั้นง่ายต่อการตีความ (มันเป็นเรื่องง่ายที่จะจินตนาการเปรียบเทียบคนสองคนที่มีเพศเดียวกันกับความสูงที่แตกต่างกัน) แน่นอนว่ามันผิด“ ผิด” ที่จะถอยกลับที่ความสูงโดยไม่ควบคุมเพศ ความแตกต่างระหว่างคนที่สั้นและสูงสามารถ“ อธิบาย” ได้โดยการเป็นความแตกต่างระหว่างผู้ชายกับผู้หญิง แต่การมีเพศสัมพันธ์ในโมเดลด้านบนนั้นยากที่จะตีความ: ทำไมเปรียบเทียบผู้ชายกับผู้หญิงที่สูง 66 นิ้ว? นั่นจะเป็นการเปรียบเทียบชายร่างเตี้ยกับผู้หญิงสูง เหตุผลทั้งหมดนี้ดูเหมือนว่ามีสาเหตุเชิงลบ แต่ฉันไม่คิดว่ามันสมเหตุสมผลที่จะใช้ผลลัพธ์ที่เป็นไปได้ ฉันไตร่ตรองมากกว่านั้น (และแสดงความคิดเห็นในโพสต์) และคิดว่ามีบางสิ่งที่จะเข้าใจได้ชัดเจนยิ่งขึ้นที่นี่ จนกว่าส่วนในการตีความของเพศมันก็โอเค แต่ฉันไม่เห็นสิ่งที่เป็นปัญหาที่อยู่เบื้องหลังการเปรียบเทียบชายสั้นและผู้หญิงสูง นี่คือประเด็นของฉัน: ในความเป็นจริงมันสมเหตุสมผลดีกว่า (จากสมมติฐานที่ว่าผู้ชายสูงโดยเฉลี่ย) คุณไม่สามารถเปรียบเทียบ 'ชายร่างเตี้ย' …

2
การทดสอบ Wald ในการถดถอย (OLS และ GLMs): t- กับการกระจาย z
ฉันเข้าใจว่าการทดสอบ Wald สำหรับสัมประสิทธิ์การถดถอยขึ้นอยู่กับคุณสมบัติต่อไปนี้ที่เก็บ asymptotically (เช่น Wasserman (2006): สถิติทั้งหมดหน้า 153, 214-215): โดยที่แสดงถึงสัมประสิทธิ์การถดถอยโดยประมาณแสดงถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยและเป็นค่าที่น่าสนใจ (มักจะเป็น 0 เพื่อทดสอบว่าค่าสัมประสิทธิ์เป็นหรือไม่ แตกต่างจาก 0) ดังนั้นขนาดการทดสอบ Wald คือ: ปฏิเสธเมื่อใดβ^SE(β)β0β0αH0| W| >zα/2( β^- β0)SEˆ( β^)∼ N( 0 , 1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ( β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}โดยที่ W= β^SEˆ( β^).W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. แต่เมื่อคุณทำการถดถอยเชิงเส้นด้วยlmใน R, -value แทน -value จะใช้ในการทดสอบว่าสัมประสิทธิ์การถดถอยแตกต่างกันอย่างมีนัยสำคัญจาก …

3
ทำไม Lars และ Glmnet จึงเสนอวิธีแก้ปัญหาต่าง ๆ สำหรับ Lasso?
ฉันต้องการเข้าใจแพ็คเกจ R Larsและดีกว่าGlmnetซึ่งใช้เพื่อแก้ปัญหา Lasso: (สำหรับตัวอย่างpตัวแปรและNดูwww.stanford.edu/~hastie/Papers/glmnet.pdfหน้า 3)m ฉันn( β0β) ∈ Rp + 1[ 12 NΣi = 1ยังไม่มีข้อความ( yผม- β0- xTผมβ)2+ λ | | β| |ล.1]ม.ผมn(β0β)∈Rพี+1[12ยังไม่มีข้อความΣผม=1ยังไม่มีข้อความ(Yผม-β0-xผมTβ)2+λ||β||ล.1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]พีพีpยังไม่มีข้อความยังไม่มีข้อความN ดังนั้นฉันจึงใช้ทั้งชุดของเล่นเดียวกัน น่าเสียดายที่ทั้งสองวิธีไม่ได้ให้วิธีแก้ไขปัญหาเดียวกันสำหรับการป้อนข้อมูลเดียวกัน ไม่มีใครมีความคิดที่แตกต่างมาจากไหน? ฉันได้ผลลัพธ์ดังนี้: หลังจากสร้างข้อมูล (8 ตัวอย่าง, 12 คุณสมบัติ, การออกแบบ Toeplitz, ทุกอย่างที่อยู่กึ่งกลาง) ฉันคำนวณเส้นทาง Lasso ทั้งหมดโดยใช้ Lars จากนั้นฉันใช้ Glmnet …

5
การสุ่มตัวอย่างสำหรับข้อมูลที่ไม่สมดุลในการถดถอย
มีคำถามที่ดีเกี่ยวกับการจัดการข้อมูลที่ไม่สมดุลในบริบทการจัดประเภทแต่ฉันสงสัยว่าคนทำเพื่อตัวอย่างสำหรับการถดถอย สมมติว่าโดเมนปัญหามีความไวต่อสัญญาณมาก แต่ค่อนข้างอ่อนไหวต่อขนาดของเป้าหมาย อย่างไรก็ตามขนาดมีความสำคัญพอที่ตัวแบบควรจะถดถอย (เป้าหมายต่อเนื่อง) ไม่ใช่การจำแนกประเภท (คลาสบวกกับคลาสลบ) และพูดในโดเมนปัญหานี้ว่าชุดข้อมูลการฝึกอบรมใด ๆ จะมีค่าลบมากกว่าเป้าหมายเชิงบวก 10 เท่า ในสถานการณ์นี้ฉันอาจสุ่มตัวอย่างตัวอย่างเป้าหมายเชิงบวกเพื่อให้ตรงกับจำนวนตัวอย่างเป้าหมายเชิงลบและจากนั้นฝึกโมเดลเพื่อแยกความแตกต่างระหว่างสองกรณี เห็นได้ชัดว่าวิธีการฝึกอบรมนั้นมีข้อมูลที่ไม่สมดุลดังนั้นฉันต้องทำการสุ่มตัวอย่างบางอย่าง อะไรจะเป็นวิธีที่ดีในการ "ยกเลิก" การสุ่มตัวอย่างนี้เมื่อทำการคาดการณ์ บางทีแปลโดย (ลบ) ค่าเฉลี่ยหรือค่ามัธยฐานของเป้าหมายของข้อมูลการฝึกอบรมตามธรรมชาติ?

5
การถดถอยพหุนามแบบมุมฉากดิบหรือ?
ฉันต้องการที่จะถอยหลังตัวแปรyYyบนx,x2,…,x5x,x2,...,x5x,x^2,\ldots,x^5 5 ฉันควรทำสิ่งนี้โดยใช้ชื่อพหุนามแบบมุมฉากหรือไม่? ฉันดูคำถามบนเว็บไซต์ที่จัดการกับสิ่งเหล่านี้ แต่ฉันไม่เข้าใจจริงๆว่าอะไรคือความแตกต่างระหว่างการใช้งาน เหตุใดฉันจึงไม่สามารถทำการถดถอยแบบ "ปกติ" เพื่อรับค่าสัมประสิทธิ์βiβผม\beta_iของy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i (พร้อมกับค่า p และสิ่งอื่น ๆ ที่ดีทั้งหมด) และแทนที่จะต้องกังวลว่าจะใช้หรือไม่ ชื่อพหุนามดิบหรือมุมฉาก? ตัวเลือกนี้ดูเหมือนว่าฉันจะอยู่นอกขอบเขตของสิ่งที่ฉันต้องการจะทำ ในหนังสือสถิติที่ฉันกำลังอ่าน (ISLR โดย Tibshirani และคณะ) สิ่งเหล่านี้ไม่ได้กล่าวถึง ที่จริงแล้วพวกเขาถูกวัดผลในทางใดทางหนึ่ง เหตุผลคือ AFAIK ซึ่งในlm()ฟังก์ชั่นใน R ใช้y ~ poly(x, 2)จำนวนเงินเพื่อใช้ชื่อพหุนามแบบมุมฉากและใช้y ~ x + I(x^2)จำนวนเงินเพื่อใช้วัตถุดิบ แต่ในหน้า 116 ผู้เขียนบอกว่าเราใช้ตัวเลือกแรกเพราะตัวหลังเป็น "ยุ่งยาก" ซึ่งไม่มีข้อบ่งชี้ว่าคำสั่งเหล่านี้จริง ๆ กับสิ่งที่แตกต่างกันโดยสิ้นเชิง (คำถามที่สาม) เหตุใดผู้เขียน ISLR จึงทำให้ผู้อ่านสับสนเช่นนั้น

1
ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง
ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง" ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ . นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง? เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่

4
ความแตกต่างระหว่างสมมติฐานที่มีความสัมพันธ์กับการทดสอบความชันของการถดถอยอย่างมีนัยสำคัญ
คำถามของฉันเกิดจากการพูดคุยกับ @whuber ในความคิดเห็นของคำถามอื่น โดยเฉพาะความคิดเห็นของ @whuber มีดังนี้: เหตุผลหนึ่งที่ทำให้คุณประหลาดใจก็คือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันของการถดถอยนั้นแตกต่างกันดังนั้นแม้ว่าเราจะเข้าใจว่าสหสัมพันธ์และความชันนั้นวัดในสิ่งเดียวกันจริง ๆ ทำไมค่า p ของพวกเขาจึงเหมือนกัน นั่นแสดงให้เห็นว่าปัญหาเหล่านี้ลึกซึ้งยิ่งกว่าเพียงว่าและควรเท่ากับตัวเลขหรือไม่βRrrββ\beta นี่ทำให้ฉันคิดถึงมันและฉันก็ได้คำตอบที่น่าสนใจมากมาย ตัวอย่างเช่นฉันพบคำถามนี้ " สมมติฐานของค่าสัมประสิทธิ์สหสัมพันธ์ " แต่ไม่สามารถดูว่าสิ่งนี้จะชี้แจงความคิดเห็นข้างต้น ฉันพบคำตอบที่น่าสนใจมากขึ้นเกี่ยวกับความสัมพันธ์ของ Pearson'sและความชันในการถดถอยเชิงเส้นอย่างง่าย (ดูที่นี่และที่นี่เป็นต้น) แต่ดูเหมือนว่าไม่มีใครตอบคำถามที่ @whuber อ้างถึงในความคิดเห็นของเขา ถึงฉัน).βRrrββ\beta คำถามที่ 1:อะไรคือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย สำหรับคำถามที่ 2 พิจารณาผลลัพธ์ต่อไปนี้ในR: model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min …

2
การเพิ่มน้ำหนักให้กับการถดถอยโลจิสติกสำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกด้วยข้อมูลที่ไม่สมดุล (9: 1) ฉันต้องการลองใช้ตัวเลือกตุ้มน้ำหนักในglmฟังก์ชันใน R แต่ฉันไม่แน่ใจ 100% ว่ามันทำอะไร c(0,0,0,0,0,0,0,0,0,1)ช่วยบอกตัวแปรเอาท์พุทของฉันคือ ตอนนี้ฉันต้องการเพิ่มน้ำหนัก "1" 10 เท่า weights=c(1,1,1,1,1,1,1,1,1,1,1,10)ดังนั้นผมจึงให้น้ำหนักการโต้แย้ง เมื่อฉันทำเช่นนั้นมันจะได้รับการพิจารณาในการคำนวณความเป็นไปได้สูงสุด ฉันถูกไหม? การจำแนกประเภทของ "1" นั้นแย่กว่านั้นเพียง 10 เท่าจากนั้นการจัดประเภทผิดพลาดเป็น "0"

1
ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)
แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย) กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่xxx , yyyพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xxxและสี่แยกyyy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2R2R^2 2 ℓ2ℓ2\ell_2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyyyxxxxxxxxx ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 …

2
เหตุใดภาวะปกติของสิ่งตกค้างจึงแทบไม่สำคัญเลยสำหรับการประเมินเส้นถดถอย
Gelman and Hill (2006) เขียนใน p46 ที่: ข้อสันนิษฐานการถดถอยที่โดยทั่วไปมีความสำคัญน้อยที่สุดคือข้อผิดพลาดจะกระจายตามปกติ ในความเป็นจริงเพื่อจุดประสงค์ในการประเมินเส้นการถดถอย (เมื่อเทียบกับการทำนายจุดข้อมูลของแต่ละบุคคล) การสันนิษฐานของความเป็นมาตรฐานนั้นแทบไม่มีความสำคัญเลย ดังนั้นในทางตรงกันข้ามกับหนังสือเรียนการถดถอยหลายฉบับเราไม่แนะนำให้ทำการวินิจฉัยภาวะปกติของเศษซากถดถอย Gelman และ Hill ดูเหมือนจะไม่อธิบายประเด็นนี้อีกต่อไป Gelman และ Hill ถูกต้องหรือไม่? ถ้าเป็นเช่นนั้น: ทำไม "แทบไม่มีความสำคัญเลย" ทำไมมันไม่สำคัญหรือไม่เกี่ยวข้องเลย? เหตุใดจึงเป็นเรื่องปกติของการตกค้างในการทำนายจุดข้อมูลแต่ละจุด? Gelman, A. , & Hill, J. (2006) การวิเคราะห์ข้อมูลโดยใช้การถดถอยและตัวแบบหลายระดับ / ลำดับชั้น สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

1
ความแตกต่างระหว่างการถดถอยโลจิสติกและ Logit คืออะไร?
ความแตกต่างระหว่างการถดถอยโลจิสติกและ Logit คืออะไร? ฉันเข้าใจว่าพวกเขาเหมือนกัน (หรือแม้กระทั่งสิ่งเดียวกัน) แต่มีคนอธิบายความแตกต่างระหว่างสองสิ่งนี้ได้ไหม เป็นเรื่องเกี่ยวกับอัตราต่อรองหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.