คำถามติดแท็ก predictor

หมายถึงตัวแปรที่ใช้ในแบบจำลองเพื่อทำนายการตอบสนอง แท็กนี้ยังสามารถใช้สำหรับXตัวแปรในการสร้างแบบจำลองเชิงอธิบายและเชิงพรรณนาไม่ใช่แค่การสร้างแบบจำลองเชิงคาดการณ์ โครงสร้างเดียวกันนี้มีหลายชื่อในบริบทที่แตกต่างกัน ได้แก่ : ตัวแปรอิสระ, ตัวแปรอธิบาย, ตัวแปร regressor, โควาเรียต ฯลฯ แท็กนี้สามารถใช้สำหรับคำที่มีความหมายเหมือนกันเหล่านี้

6
ความแตกต่างระหว่างการประมาณและการทำนายคืออะไร?
ตัวอย่างเช่นฉันมีข้อมูลการสูญเสียในอดีตและฉันกำลังคำนวณปริมาณมาก (มูลค่าที่เสี่ยงหรือการสูญเสียสูงสุดที่น่าจะเป็น) ผลลัพธ์ที่ได้มีไว้สำหรับการประเมินการสูญเสียหรือทำนายพวกเขา? หนึ่งสามารถวาดเส้นที่ไหน ฉันสับสน.

4
โควาเรียตที่ไม่มีนัยสำคัญทางสถิติควร 'เก็บไว้ใน' เมื่อสร้างแบบจำลองหรือไม่?
ฉันมีโควาเรียร์หลายตัวในการคำนวณแบบจำลองและไม่ใช่ทั้งหมดที่มีนัยสำคัญทางสถิติ ฉันควรลบสิ่งที่ไม่ใช่หรือไม่ คำถามนี้อธิบายถึงปรากฏการณ์ แต่ไม่ตอบคำถามของฉัน: จะตีความผลกระทบที่ไม่สำคัญของ covariate ใน ANCOVA อย่างไร ไม่มีอะไรในคำตอบสำหรับคำถามนั้นที่ชี้ให้เห็นว่ามีการแปรผันที่ไม่สำคัญออกไปแม้ว่าตอนนี้ฉันมีแนวโน้มที่จะเชื่อว่าพวกเขาควรจะอยู่ต่อไปก่อนที่จะอ่านคำตอบนั้น ยังสามารถอธิบายความแปรปรวนบางอย่าง (และช่วยให้แบบจำลอง) โดยไม่จำเป็นต้องอธิบายจำนวนเกินกว่าขีด จำกัด บางอย่าง (ค่าขีด จำกัด นัยสำคัญซึ่งฉันเห็นว่าไม่สามารถใช้ได้กับ covariates) มีอีกคำถามหนึ่งในประวัติย่อที่คำตอบดูเหมือนจะบ่งบอกว่า covariates ควรเก็บไว้โดยไม่คำนึงถึงความสำคัญ แต่ก็ไม่ชัดเจนในเรื่องนั้น (ฉันต้องการเชื่อมโยงกับคำถามนั้น แต่ฉันไม่สามารถติดตามได้อีกในตอนนี้) ดังนั้น ... โควาเรียต์ที่ไม่แสดงว่ามีนัยสำคัญทางสถิติควรถูกเก็บไว้ในการคำนวณสำหรับโมเดลหรือไม่? (ฉันได้แก้ไขคำถามนี้เพื่อชี้แจงว่า covariates ไม่เคยอยู่ในรูปแบบผลลัพธ์โดยการคำนวณอยู่ดี) หากต้องการเพิ่มความซับซ้อนจะเกิดอะไรขึ้นถ้าค่าความแปรปรวนร่วมมีความสำคัญทางสถิติสำหรับชุดย่อยบางส่วนของข้อมูล (ชุดย่อยที่ต้องดำเนินการแยกต่างหาก) ฉันจะเริ่มต้นที่จะรักษา covariate มิฉะนั้นจะต้องใช้โมเดลที่แตกต่างกันหรือคุณจะมี covariate ที่มีนัยสำคัญทางสถิติหายไปในกรณีใดกรณีหนึ่ง หากคุณมีคำตอบสำหรับคดีแยกนี้เช่นกันโปรดพูดถึงมัน

2
เมื่อใดและอย่างไรที่จะใช้ตัวแปรอธิบายที่เป็นมาตรฐานในการถดถอยเชิงเส้น
ฉันมีคำถามง่ายๆ 2 ข้อเกี่ยวกับการถดถอยเชิงเส้น: เมื่อใดควรที่จะสร้างมาตรฐานของตัวแปรอธิบาย? เมื่อการประมาณค่าดำเนินการด้วยค่ามาตรฐานแล้วหนึ่งคนจะคาดการณ์ด้วยค่าใหม่ได้อย่างไร (ควรประเมินค่ามาตรฐานใหม่อย่างไร) การอ้างอิงบางอย่างจะเป็นประโยชน์

3
สัมประสิทธิ์การถดถอยที่พลิกสัญญาณหลังจากรวมตัวทำนายอื่น ๆ
จินตนาการ คุณรันการถดถอยเชิงเส้นพร้อมตัวทำนายตัวเลขสี่ตัว (IV1, ... , IV4) เมื่อมีเพียง IV1 เท่านั้นที่รวมเป็นตัวทำนายค่าเบต้ามาตรฐานคือ +.20 เมื่อคุณรวม IV2 ถึง IV4 เครื่องหมายของสัมประสิทธิ์การถดถอยมาตรฐานของ IV1 พลิกไปที่-.25(เช่นมันจะกลายเป็นค่าลบ) สิ่งนี้ก่อให้เกิดคำถามสองสามข้อ: เกี่ยวกับคำศัพท์คุณเรียกสิ่งนี้ว่า "เอฟเฟกต์การยับยั้ง" หรือไม่? คุณจะใช้กลยุทธ์อะไรในการอธิบายและเข้าใจผลกระทบนี้? คุณมีตัวอย่างของผลกระทบดังกล่าวในทางปฏิบัติและคุณอธิบายและเข้าใจผลกระทบเหล่านี้ได้อย่างไร

7
ในการวิเคราะห์การถดถอยทำไมเราจึงเรียกตัวแปรอิสระว่า "อิสระ"
ฉันหมายถึงตัวแปรบางตัวนั้นมีความสัมพันธ์กันอย่างมาก เรานิยามว่ามันเป็นตัวแปรอิสระอย่างไร / ทำไม / ในบริบทใด

4
ตัวแปรอิสระ = ตัวแปรสุ่ม?
ฉันสับสนเล็กน้อยหากตัวแปรอิสระ (เรียกอีกอย่างว่าตัวทำนายหรือคุณสมบัติ) ในแบบจำลองทางสถิติตัวอย่างเช่นในการถดถอยเชิงเส้นเป็นตัวแปรสุ่มหรือไม่?XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
ตัวอย่างข้อมูลที่ดีจำเป็นต้องใช้กับ covariate รับผลกระทบจากการรักษา
ฉันได้ดูชุดข้อมูล R จำนวนมากการโพสต์ใน DASL และที่อื่น ๆ และฉันไม่พบตัวอย่างที่ดีของชุดข้อมูลที่น่าสนใจมากมายที่แสดงการวิเคราะห์ความแปรปรวนร่วมสำหรับข้อมูลการทดลอง มีชุดข้อมูล "ของเล่น" จำนวนมากที่มีข้อมูลที่ประดิษฐ์ไว้ในตำราเรียน ฉันต้องการตัวอย่างที่: ข้อมูลเป็นของจริงพร้อมเรื่องราวที่น่าสนใจ มีปัจจัยการรักษาอย่างน้อยหนึ่งปัจจัยและสองตัวแปรร่วม covariate อย่างน้อยหนึ่งตัวได้รับผลกระทบจากปัจจัยการรักษาอย่างน้อยหนึ่งอย่างและอย่างใดอย่างหนึ่งไม่ได้รับผลกระทบจากการรักษา ทดลองมากกว่าการสังเกตโดยเฉพาะอย่างยิ่ง พื้นหลัง เป้าหมายที่แท้จริงของฉันคือการหาตัวอย่างที่ดีในการเขียนบทความสั้น ๆ สำหรับแพ็คเกจ R ของฉัน แต่เป้าหมายที่ใหญ่กว่าคือผู้คนจำเป็นต้องเห็นตัวอย่างที่ดีเพื่อแสดงให้เห็นถึงความกังวลที่สำคัญในการวิเคราะห์ความแปรปรวนร่วม พิจารณาสถานการณ์ที่สร้างขึ้นต่อไปนี้ (และโปรดเข้าใจว่าความรู้ของฉันเกี่ยวกับการเกษตรเป็นเรื่องที่ตื้นที่สุด) เราทำการทดลองที่ปุ๋ยถูกสุ่มไปยังแปลงและปลูกพืช หลังจากระยะเวลาการเจริญเติบโตที่เหมาะสมเราเก็บเกี่ยวพืชผลและวัดลักษณะคุณภาพ - นั่นคือตัวแปรตอบสนอง แต่เรายังบันทึกปริมาณน้ำฝนทั้งหมดในช่วงที่ปลูกและความเป็นกรดของดินในช่วงที่มีการเก็บเกี่ยว - และแน่นอนว่ามีการใช้ปุ๋ย ดังนั้นเราจึงมีโควาเรียสองตัวและการบำบัด วิธีปกติในการวิเคราะห์ข้อมูลที่ได้จะเป็นแบบจำลองเชิงเส้นตรงกับการรักษาเป็นปัจจัยและผลเสริมสำหรับ covariates จากนั้นจะสรุปผลลัพธ์หนึ่งคำสั่ง "ปรับหมายถึง" (AKA หมายถึงกำลังสองน้อยที่สุด) ซึ่งเป็นการทำนายจากแบบจำลองสำหรับแต่ละปุ๋ยที่ปริมาณน้ำฝนเฉลี่ยและความเป็นกรดของดินเฉลี่ย 3 สิ่งนี้ทำให้ทุกอย่างเท่าเทียมกันเพราะเมื่อเราเปรียบเทียบผลลัพธ์เหล่านี้เรามีปริมาณน้ำฝนและค่าความเป็นกรดคงที่ แต่นี่อาจเป็นสิ่งที่ผิดที่ต้องทำเพราะปุ๋ยอาจส่งผลกระทบต่อความเป็นกรดของดินรวมถึงการตอบสนอง สิ่งนี้ทำให้การปรับหมายถึงทำให้เข้าใจผิดเพราะผลการรักษารวมถึงผลกระทบต่อความเป็นกรด วิธีหนึ่งในการจัดการสิ่งนี้คือการเอากรดออกจากแบบจำลองจากนั้นวิธีการปรับปริมาณน้ำฝนจะให้การเปรียบเทียบที่เป็นธรรม แต่ถ้าความเป็นกรดมีความสำคัญความเป็นธรรมนี้มาพร้อมกับราคาที่ดีในการเพิ่มความแปรปรวนที่เหลือ มีวิธีแก้ไขโดยใช้ความเป็นกรดที่ปรับแล้วในแบบจำลองแทนที่จะเป็นค่าดั้งเดิม การปรับปรุงที่จะเกิดขึ้นในแพคเกจ R ฉันlsmeansจะทำให้เรื่องนี้อย่างจริงจังง่าย …

4
จำนวนตัวแปรอิสระสูงสุดที่สามารถป้อนลงในสมการการถดถอยหลายตัว
จำนวนตัวแปรอิสระที่ จำกัด ไว้ที่หนึ่งอาจป้อนในสมการถดถอยหลายคืออะไร? ฉันมีตัวทำนาย 10 ตัวที่ฉันต้องการตรวจสอบในแง่ของการมีส่วนร่วมของพวกเขากับตัวแปรผลลัพธ์ ฉันควรใช้การแก้ไข bonferroni เพื่อปรับสำหรับการวิเคราะห์หลายครั้งหรือไม่

2
ในโมเดลปัวซองความแตกต่างระหว่างการใช้เวลาในรูปของ covariate หรือออฟเซ็ตคืออะไร
ฉันเพิ่งค้นพบวิธีจำลองแบบการเปิดเผยเมื่อเวลาผ่านไปโดยใช้บันทึกเวลา (เช่น) เป็นการชดเชยในการถดถอยของปัวซอง ฉันเข้าใจว่าออฟเซ็ตสอดคล้องกับการมีเวลาเป็น covariate กับสัมประสิทธิ์ 1 ฉันต้องการเข้าใจความแตกต่างระหว่างการใช้เวลาเป็นออฟเซ็ตหรือ covariate ปกติดีกว่า (ดังนั้นการประมาณค่าสัมประสิทธิ์) ฉันควรใช้วิธีใดวิธีหนึ่งในสถานการณ์ใด การอัปเกรด: ฉันไม่รู้ว่ามันน่าสนใจหรือไม่ แต่ฉันรันการตรวจสอบความถูกต้องของสองวิธีโดยใช้ข้อมูลแยกแบบสุ่มซ้ำ 500 ครั้งและฉันสังเกตเห็นว่าการใช้วิธีการชดเชยทำให้เกิดข้อผิดพลาดในการทดสอบที่มากขึ้น

3
วิธีจัดการกับตัวแปรเด็ดขาดลำดับเป็นตัวแปรอิสระ
ฉันใช้โมเดล logit ตัวแปรตามของฉันคือไบนารี 1.very good, 2.good, 3.average, 4.poor and 5.very poorแต่ฉันมีตัวแปรอิสระซึ่งเป็นเด็ดขาดและมีการตอบ: ดังนั้นมันจึงเป็นอันดับ ("เด็ดขาดเชิงปริมาณ") ฉันไม่แน่ใจว่าจะจัดการกับสิ่งนี้อย่างไรในแบบจำลอง gretlฉันใช้ [หมายเหตุจาก @ttnphns: แม้ว่าคำถามจะบอกว่าตัวแบบนั้นเป็น logit (เนื่องจากการพึ่งพานั้นจัดอยู่ในหมวดหมู่) แต่ประเด็นสำคัญ - ตัวแปรอิสระลำดับ- มีความเหมือนกัน ดังนั้นคำถามก็มีความเกี่ยวข้องเท่าเทียมกันกับการพูดการถดถอยเชิงเส้นเช่นกันเช่นเดียวกับการถดถอยแบบโลจิสติกหรือแบบจำลองการบันทึกอื่น ๆ ]

3
ตัวแปรที่ต่อเนื่องขึ้นอยู่กับตัวแปรอิสระลำดับ
ด้วยตัวแปรy ที่ขึ้นต่อเนื่องและตัวแปรอิสระรวมถึงตัวแปรลำดับX 1ฉันจะพอดีกับตัวแบบเชิงเส้นได้Rอย่างไร? มีเอกสารเกี่ยวกับรูปแบบประเภทนี้หรือไม่?

3
เราจำเป็นต้องรวม“ ตัวทำนายที่เกี่ยวข้องทั้งหมดหรือไม่”
สมมติฐานพื้นฐานของการใช้แบบจำลองการถดถอยสำหรับการอนุมานคือ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ได้รวมอยู่ในสมการทำนาย เหตุผลก็คือความล้มเหลวในการรวมปัจจัยที่สำคัญในโลกแห่งความจริงนำไปสู่ค่าสัมประสิทธิ์ความเอนเอียงและการอนุมานที่ไม่ถูกต้อง แต่ในการปฏิบัติงานวิจัยฉันไม่เคยเห็นใครเลยรวมทั้งสิ่งที่คล้ายคลึงกับ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ปรากฏการณ์หลายอย่างมีสาเหตุสำคัญมากมายและมันคงเป็นเรื่องยากมากที่จะรวมพวกเขาทั้งหมดเข้าด้วยกัน ตัวอย่างนอกข้อมือคือการสร้างแบบจำลองภาวะซึมเศร้าเป็นผลลัพธ์: ไม่มีใครสร้างอะไรที่ใกล้เคียงกับแบบจำลองซึ่งรวมถึง "ตัวแปรที่เกี่ยวข้องทั้งหมด": เช่นประวัติผู้ปกครองลักษณะบุคลิกภาพการสนับสนุนทางสังคมรายได้ปฏิสัมพันธ์ของพวกเขา ฯลฯ ฯลฯ ... ยิ่งไปกว่านั้นการติดตั้งแบบจำลองที่ซับซ้อนเช่นนี้จะนำไปสู่การประมาณค่าที่ไม่เสถียรสูงเว้นแต่ว่ามีตัวอย่างขนาดใหญ่ คำถามของฉันง่ายมาก: สมมติฐาน / คำแนะนำในการ "รวมตัวทำนายที่เกี่ยวข้องทั้งหมด" เป็นเพียงแค่สิ่งที่เรา "พูด" แต่ไม่เคยหมายความว่าจริงหรือ? ถ้าไม่เช่นนั้นทำไมเราจึงให้คำแนะนำในการสร้างแบบจำลองจริง? และนี่หมายความว่าสัมประสิทธิ์ส่วนใหญ่อาจทำให้เข้าใจผิด? (เช่นการศึกษาปัจจัยบุคลิกภาพและภาวะซึมเศร้าที่ใช้ตัวทำนายหลายตัวเท่านั้น) พูดอีกอย่างคือปัญหาใหญ่แค่ไหนสำหรับข้อสรุปของวิทยาศาสตร์ของเรา?

1
การแปลง betas ที่ได้มาตรฐานกลับไปเป็นตัวแปรดั้งเดิม
ฉันรู้ว่านี่อาจเป็นคำถามง่าย ๆ แต่หลังจากค้นหาฉันไม่พบคำตอบที่ฉันค้นหา ฉันมีปัญหาที่ฉันจำเป็นต้องสร้างมาตรฐานให้กับตัวแปรที่เรียกใช้ (การถดถอยริดจ์) เพื่อคำนวณค่าประมาณสันเขาของเบต้า ฉันต้องแปลงกลับไปเป็นขนาดดั้งเดิม แต่ฉันจะทำสิ่งนี้ได้อย่างไร ฉันพบสูตรสำหรับกรณีที่มีการแปรสภาพนั้น β∗=β^SxSy.β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. สิ่งนี้ได้รับใน D. Gujarati เศรษฐมิติพื้นฐานหน้า 175 สูตร (6.3.8) โดยที่เป็นตัวประมาณจากการถดถอยที่ทำงานบนตัวแปรมาตรฐานและเป็นตัวประมาณเดียวกันที่แปลงกลับไปเป็นมาตราส่วนดั้งเดิมคือค่าเบี่ยงเบนมาตรฐานตัวอย่างของรีจีสเตอร์และคือค่าเบี่ยงเบนมาตรฐานตัวอย่างβ∗β∗\beta^*β^β^\hat\betaSySyS_ySxSxS_x น่าเสียดายที่หนังสือเล่มนี้ไม่ครอบคลุมผลลัพธ์ที่คล้ายคลึงกันสำหรับการถดถอยหลายครั้ง นอกจากนี้ฉันไม่แน่ใจว่าฉันเข้าใจคดี bivariate หรือไม่ การปรับพีชคณิตอย่างง่ายให้สูตรในระดับเดิม:β^β^\hat\beta β^=β∗SySxβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} ดูเหมือนว่าแปลกสำหรับฉันที่ที่คำนวณกับตัวแปรที่ได้รับการยุบแล้วจะต้องมีการยุบโดยอีกครั้งเพื่อที่จะถูกแปลงกลับ? (และทำไมค่าเฉลี่ยไม่ถูกเพิ่มเข้ามา)β^β^\hat\betaSxSxS_xSxSxS_x ดังนั้นใครบางคนสามารถอธิบายวิธีการทำเช่นนี้สำหรับกรณีหลายตัวแปรโดยมีแหล่งที่มาเพื่อให้ฉันเข้าใจผลลัพธ์

4
เปรียบเทียบความสำคัญของชุดทำนายที่แตกต่างกัน
ฉันให้คำปรึกษากับนักศึกษาวิจัยเกี่ยวกับปัญหาบางอย่างและฉันก็กระตือรือร้นที่จะรับข้อมูลของผู้อื่นในเว็บไซต์นี้ บริบท: ผู้วิจัยมีตัวแปรทำนายสามประเภท แต่ละประเภทมีตัวแปรทำนายจำนวนแตกต่างกัน ตัวทำนายแต่ละตัวเป็นตัวแปรต่อเนื่อง: สังคม: S1, S2, S3, S4 (เช่นตัวทำนายสี่ตัว) เกี่ยวกับความรู้ความเข้าใจ: C1, C2 (เช่น, ผู้ทำนายสองคน) เกี่ยวกับพฤติกรรม: B1, B2, B3 (เช่นผู้ทำนายสามคน) ตัวแปรผลลัพธ์ก็ต่อเนื่องเช่นกัน กลุ่มตัวอย่างประกอบด้วยผู้เข้าร่วมประมาณ 60 คน ผู้วิจัยต้องการแสดงความคิดเห็นเกี่ยวกับประเภทของตัวทำนายที่สำคัญกว่าในการอธิบายตัวแปรผลลัพธ์ สิ่งนี้เกี่ยวข้องกับความกังวลทางทฤษฎีที่กว้างขึ้นเกี่ยวกับความสำคัญเชิงสัมพัทธ์ของตัวทำนายประเภทนี้ คำถาม เป็นวิธีที่ดีในการประเมินความสำคัญสัมพัทธ์ของชุดทำนายหนึ่งเมื่อเทียบกับชุดอื่นคืออะไร? อะไรคือกลยุทธ์ที่ดีในการจัดการกับความจริงที่ว่ามีตัวทำนายจำนวนต่างกันในแต่ละชุด? คุณควรแนะนำการตีความแบบใด การอ้างอิงใด ๆ กับตัวอย่างหรือการอภิปรายเกี่ยวกับเทคนิคก็ยินดีด้วยเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.