คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
วัตถุประสงค์ของฟังก์ชั่นลิงค์ในโมเดลเชิงเส้นทั่วไป
จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน? รัฐ Wikipedia: สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง อะไรคือข้อดีของการทำเช่นนี้?

2
สูตร R-squared ที่ปรับแล้วใน lm ใน R คืออะไรและควรตีความอย่างไร
สูตรที่แน่นอนที่ใช้ใน R lm() สำหรับการปรับ R-squared คืออะไร? ฉันจะตีความมันได้อย่างไร ปรับสูตร r-squared ดูเหมือนจะมีสูตรอยู่หลายสูตรในการคำนวณการปรับ R-squared สูตรของ Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} สูตรของ McNemar: 1 - ( 1 - R2) ( n - 1 )( n - v - 1 )1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} สูตรของลอร์ด: 1 - …

7
การเลือกตัวแปรที่จะรวมไว้ในโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังทำงานเพื่อสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้นหลายครั้ง หลังจากเล่นซอกับโมเดลของฉันฉันไม่แน่ใจว่าจะกำหนดตัวแปรที่จะเก็บได้ดีที่สุดและควรลบอย่างไร แบบจำลองของฉันเริ่มต้นด้วยตัวพยากรณ์ 10 ตัวสำหรับ DV เมื่อใช้ตัวทำนายทั้ง 10 ตัวสี่คนถือว่ามีนัยสำคัญ หากฉันลบตัวพยากรณ์ที่ไม่ถูกต้องออกไปบางตัวเท่านั้นตัวพยากรณ์บางตัวที่ไม่ได้มีนัยสำคัญในตอนแรกจะกลายเป็นสิ่งสำคัญ สิ่งใดทำให้ฉันมีคำถามของฉัน: ใครจะไปพิจารณาตัวทำนายที่จะรวมในแบบจำลอง สำหรับฉันแล้วคุณควรใช้แบบจำลองนี้กับผู้ทำนายทุกคนเอาสิ่งที่ไม่สำคัญออกแล้วจึงรันใหม่อีกครั้ง แต่ถ้าการลบตัวพยากรณ์เหล่านี้ออกไปทำให้ผู้อื่นมีความสำคัญฉันก็ยังสงสัยว่าฉันกำลังใช้วิธีการที่ผิดทั้งหมดหรือไม่ ผมเชื่อว่านี้ด้ายคล้ายกับคำถามของฉัน แต่ฉันไม่แน่ใจว่าฉันกำลังตีความอภิปรายได้อย่างถูกต้อง บางทีนี่อาจเป็นหัวข้อการออกแบบเชิงทดลอง แต่อาจมีบางคนมีประสบการณ์ที่พวกเขาสามารถแบ่งปันได้

5
แนวปฏิบัติที่ดีที่สุดในการระบุเอฟเฟกต์การโต้ตอบคืออะไร?
นอกเหนือจากการทดสอบตัวอักษรที่เป็นไปได้รวมกันในแบบจำลอง ( x1:x2หรือx1*x2 ... xn-1 * xn) คุณจะระบุได้อย่างไรว่าการโต้ตอบควรมีอยู่ระหว่างตัวแปรอิสระ (หวังว่า) ของคุณหรือไม่ แนวปฏิบัติที่ดีที่สุดในการพยายามระบุการโต้ตอบคืออะไร มีเทคนิคกราฟิกที่คุณสามารถใช้หรือไม่?

1
การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)
ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

3
ความขัดแย้งที่มีนัยสำคัญในการถดถอยเชิงเส้น: t-test อย่างมีนัยสำคัญสำหรับสัมประสิทธิ์เทียบกับ F-statistic โดยรวมที่ไม่สำคัญ
ฉันเหมาะสมกับโมเดลการถดถอยเชิงเส้นหลายแบบระหว่างตัวแปรเด็ดขาด 4 อัน (แต่ละระดับมี 4 ระดับ) และเอาต์พุตตัวเลข ชุดข้อมูลของฉันมีข้อสังเกต 43 ข้อ การถดถอยทำให้ผมมีดังต่อไปนี้ -values จาก -test สำหรับทุกค่าสัมประสิทธิ์ความลาดชัน:0.02 ดังนั้นสัมประสิทธิ์สำหรับตัวทำนายที่ 4 จึงมีนัยสำคัญที่ระดับความเชื่อมั่นpppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 ในทางกลับกันการถดถอยให้จากการทดสอบโดยรวมของสมมติฐานว่างที่สัมประสิทธิ์ความชันของฉันทั้งหมดเท่ากับศูนย์ สำหรับชุดข้อมูลของฉันนี้คือ.pppFFFppp.11.11.11 คำถามของฉัน: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ซึ่ง -value ฉันควรใช้และทำไม? สัมประสิทธิ์สำหรับตัวแปรที่ 4 แตกต่างจากที่ระดับความเชื่อมั่นหรือไม่?ppp000α=.05α=.05\alpha = .05 ผมเคยเห็นคำถามที่เกี่ยวข้อง,และสถิติในการถดถอยแต่มีสถานการณ์ตรงข้าม: สูง -test -values และต่ำ -test -value จริง ๆ แล้วฉันไม่เข้าใจว่าทำไมเราถึงต้องการการทดสอบแบบนอกเหนือจากการทดสอบแบบเพื่อดูว่าสัมประสิทธิ์การถดถอยเชิงเส้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่FFFttttttpppFFFpppFFFttt

3
ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร
เมื่อรันโมเดลการถดถอยหลายแบบใน R เอาต์พุตหนึ่งในนั้นคือข้อผิดพลาดมาตรฐานที่เหลืออยู่ที่ 0.0589 กับองศาอิสระ 95,161 องศา ฉันรู้ว่าอิสรภาพ 95,161 ดีกรีนั้นมาจากความแตกต่างระหว่างจำนวนการสังเกตในตัวอย่างของฉันกับจำนวนตัวแปรในแบบจำลองของฉัน ข้อผิดพลาดมาตรฐานที่เหลือคืออะไร

5
จะเกิดอะไรขึ้นถ้าข้อมูลการถดถอยเชิงเส้นของฉันมีความสัมพันธ์เชิงเส้นแบบร่วมหลายตัว
สมมติว่าฉันกำลังศึกษาว่าดอกแดฟโฟดิลตอบสนองต่อสภาพดินต่าง ๆ อย่างไร ฉันได้รวบรวมข้อมูลเกี่ยวกับค่าความเป็นกรดของดินกับความสูงของดอกแดฟโฟดิล ฉันคาดว่าจะมีความสัมพันธ์เชิงเส้นดังนั้นฉันจะดำเนินการเกี่ยวกับการถดถอยเชิงเส้น อย่างไรก็ตามฉันไม่ได้ตระหนักถึงเมื่อฉันเริ่มการศึกษาของฉันว่าประชากรมีดอกแดฟโฟดิลสองพันธุ์ซึ่งแต่ละชนิดตอบสนองต่อค่า pH ของดินต่างกันมาก ดังนั้นกราฟจึงมีความสัมพันธ์เชิงเส้นที่แตกต่างกันสองแบบ: ฉันสามารถคัดแยกและแยกมันด้วยตนเองได้แน่นอน แต่ฉันสงสัยว่ามีวิธีการที่เข้มงวดกว่านี้หรือไม่ คำถาม: มีการทดสอบทางสถิติเพื่อพิจารณาว่าชุดข้อมูลจะเหมาะสมกว่าโดยใช้เพียงบรรทัดเดียวหรือ N บรรทัดหรือไม่? ฉันจะรันการถดถอยเชิงเส้นเพื่อให้พอดีกับเส้น N ได้อย่างไร กล่าวอีกนัยหนึ่งฉันจะคลี่คลายข้อมูลร่วมกันได้อย่างไร ฉันคิดว่าวิธีการผสมผสานบางอย่างอาจมีราคาแพง ชี้แจง: การมีอยู่ของสองสายพันธุ์นั้นไม่เป็นที่รู้จักในเวลาที่ทำการรวบรวมข้อมูล ไม่พบความหลากหลายของแดฟโฟดิลแต่ละชนิดไม่สังเกตและไม่บันทึก ไม่สามารถกู้คืนข้อมูลนี้ได้ แดฟโฟดิลเสียชีวิตตั้งแต่เวลารวบรวมข้อมูล ฉันมีความประทับใจว่าปัญหานี้เป็นสิ่งที่คล้ายกับการใช้อัลกอริทึมการจัดกลุ่มซึ่งคุณเกือบจะต้องรู้จำนวนกลุ่มก่อนที่จะเริ่ม ฉันเชื่อว่าด้วยชุดข้อมูลใด ๆ การเพิ่มจำนวนบรรทัดจะลดข้อผิดพลาด rms ทั้งหมด ในสุดขีดคุณสามารถแบ่งชุดข้อมูลของคุณเป็นคู่โดยพลการและวาดเส้นผ่านแต่ละคู่ (เช่นถ้าคุณมี 1,000 จุดข้อมูลคุณสามารถแบ่งพวกมันออกเป็น 500 คู่โดยพลการและวาดเส้นผ่านแต่ละคู่) ความพอดีจะแน่นอนและข้อผิดพลาด rms จะเป็นศูนย์อย่างแน่นอน แต่นั่นไม่ใช่สิ่งที่เราต้องการ เราต้องการจำนวนบรรทัด "ถูกต้อง"

4
เหตุใดการถดถอยของโลจิสติกจึงไม่เสถียรเมื่อมีการแยกคลาสอย่างชัดเจน
ทำไมการถดถอยโลจิสติกจึงไม่เสถียรเมื่อชั้นเรียนถูกแยกออกจากกัน คลาสที่แยกกันอย่างดีหมายถึงอะไร ฉันจะขอบคุณจริง ๆ ถ้ามีคนอธิบายตัวอย่างได้

3
R - สับสนในคำศัพท์ที่เหลือ
รูทหมายความว่าข้อผิดพลาดกำลังสอง ผลรวมที่เหลือของกำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ หมายถึงข้อผิดพลาดกำลังสอง ข้อผิดพลาดในการทดสอบ ฉันคิดว่าฉันเคยเข้าใจเงื่อนไขเหล่านี้ แต่ยิ่งฉันมีปัญหาทางสถิติมากเท่าไหร่ฉันก็ยิ่งสับสนมากขึ้น ฉันต้องการความมั่นใจอีกครั้ง & เป็นตัวอย่างที่ชัดเจน ฉันสามารถหาสมการได้อย่างง่ายดายพอออนไลน์ แต่ฉันมีปัญหาในการอธิบาย 'อธิบายเหมือนฉัน 5' ของคำศัพท์เหล่านี้เพื่อให้ฉันสามารถตกผลึกในหัวของฉันความแตกต่างและวิธีหนึ่งนำไปสู่อีก หากใครสามารถใช้รหัสนี้ด้านล่างและชี้ให้เห็นว่าฉันจะคำนวณเงื่อนไขเหล่านี้ได้อย่างไรฉันจะขอบคุณมัน รหัส R จะดีมาก .. ใช้ตัวอย่างนี้ด้านล่าง: summary(lm(mpg~hp, data=mtcars)) แสดงให้ฉันในรหัส R วิธีการค้นหา: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ คะแนนโบนัสสำหรับการอธิบายเช่นฉัน …

2
การตีความค่าส่วนที่เหลือเทียบกับค่าพล็อตที่ติดตั้งเพื่อตรวจสอบสมมติฐานของโมเดลเชิงเส้น
พิจารณารูปต่อไปนี้จากรุ่นเชิงเส้นของ Faraway ด้วย R (2005, p. 59) พล็อตแรกนั้นดูเหมือนว่าบ่งบอกว่าส่วนที่เหลือและค่าติดตั้งนั้นไม่ได้มีความสัมพันธ์กันเนื่องจากพวกมันควรอยู่ในโมเดลเชิงเส้น homoscedastic ที่มีข้อผิดพลาดกระจายตามปกติ ดังนั้นพล็อตที่สองและสามซึ่งดูเหมือนจะบ่งบอกถึงการพึ่งพาระหว่างค่าตกค้างและค่าติดตั้งแนะนำรูปแบบที่แตกต่างกัน แต่ทำไมพล็อตที่สองถึงแนะนำเช่น Faraway บันทึกเป็นโมเดลเชิงเส้นตรงแบบเฮเทอโรเซดีติกในขณะที่พล็อตที่สามแนะนำโมเดลที่ไม่ใช่เชิงเส้น? พล็อตที่สองดูเหมือนว่าจะแสดงให้เห็นว่าค่าสัมบูรณ์ของส่วนที่เหลือมีความสัมพันธ์เชิงบวกอย่างมากกับค่าติดตั้งในขณะที่ไม่มีแนวโน้มดังกล่าวปรากฏชัดในพล็อตที่สาม ดังนั้นหากเป็นกรณีที่การพูดเชิงทฤษฎีในแบบจำลองเชิงเส้นตรงแบบ heteroscedastic ที่มีข้อผิดพลาดกระจายทั่วไป Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (ที่นิพจน์ทางซ้ายคือเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมระหว่างค่าตกค้างและค่าติดตั้ง) สิ่งนี้จะอธิบายว่าทำไมแปลงที่สองและสามเห็นด้วยกับการตีความของ Faraway แต่เป็นกรณีนี้หรือไม่ ถ้าไม่เช่นนั้นการตีความของ Faraway เกี่ยวกับแผนการแปลงที่สองและสามจะเป็นธรรมได้อย่างไร นอกจากนี้ทำไมพล็อตที่สามจำเป็นต้องระบุว่าไม่ใช่เชิงเส้น? เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ …

4
X และ Y ไม่มีความสัมพันธ์ แต่ X เป็นตัวทำนายที่สำคัญของ Y ในการถดถอยหลายครั้ง มันหมายความว่าอะไร?
X และ Y ไม่มีความสัมพันธ์ (-.01); อย่างไรก็ตามเมื่อฉันวาง X ลงในการพยากรณ์การถดถอยหลายครั้งพร้อมกับตัวแปร (A, B, C) อื่น (ที่เกี่ยวข้อง) ตัวแปรสามตัว, X และตัวแปรอื่นอีกสองตัว (A, B) เป็นตัวทำนายที่สำคัญของ Y โปรดทราบว่าอีกสอง ( ตัวแปร A, B) มีความสัมพันธ์อย่างมีนัยสำคัญกับ Y นอกการถดถอย ฉันควรตีความข้อค้นพบเหล่านี้อย่างไร X ทำนายความแปรปรวนที่ไม่ซ้ำกันใน Y แต่เนื่องจากสิ่งเหล่านี้ไม่มีความสัมพันธ์ (Pearson) จึงยากที่จะตีความ ฉันรู้กรณีตรงกันข้าม (เช่นตัวแปรสองตัวมีความสัมพันธ์กัน แต่การถดถอยไม่สำคัญ) และค่อนข้างง่ายกว่าที่จะเข้าใจจากมุมมองเชิงทฤษฎีและสถิติ โปรดทราบว่าตัวพยากรณ์บางตัวมีความสัมพันธ์กันค่อนข้างมาก (เช่น. 70) แต่ไม่ใช่ในระดับที่ฉันคาดหวังว่าจะมีความหลากหลายทางชีวภาพที่สำคัญ บางทีฉันอาจเข้าใจผิด หมายเหตุ: ฉันถามคำถามนี้ก่อนหน้านี้และมันถูกปิด เหตุผลก็คือคำถามนี้ซ้ำซ้อนกับคำถามที่ว่า " การถดถอยจะมีความสำคัญได้อย่างไรบางทีฉันไม่เข้าใจคำถามอื่น แต่ฉันเชื่อว่าคำถามเหล่านี้เป็นคำถามที่แยกจากกันทั้งในเชิงคณิตศาสตร์และเชิงทฤษฎีคำถามของฉันไม่ขึ้นอยู่กับว่า …


3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

6
การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?
ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.