ฉันสับสนเล็กน้อยหากตัวแปรอิสระ (เรียกอีกอย่างว่าตัวทำนายหรือคุณสมบัติ) ในแบบจำลองทางสถิติตัวอย่างเช่นในการถดถอยเชิงเส้นเป็นตัวแปรสุ่มหรือไม่?
ฉันสับสนเล็กน้อยหากตัวแปรอิสระ (เรียกอีกอย่างว่าตัวทำนายหรือคุณสมบัติ) ในแบบจำลองทางสถิติตัวอย่างเช่นในการถดถอยเชิงเส้นเป็นตัวแปรสุ่มหรือไม่?
คำตอบ:
มีสองสูตรทั่วไปของการถดถอยเชิงเส้น เพื่อมุ่งเน้นแนวคิดฉันจะทำให้เป็นนามธรรมบ้าง คำอธิบายทางคณิตศาสตร์เกี่ยวข้องมากกว่าคำอธิบายภาษาอังกฤษเล็กน้อยดังนั้นให้เริ่มด้วยตัวหลัง:
เชิงเส้นถดถอยเป็นรูปแบบที่มีการตอบสนองจะถือว่าสุ่มที่มีการกระจายที่กำหนดโดย regressors ผ่านเส้น map และอาจจะเป็นโดยพารามิเตอร์อื่น ๆ\
ในกรณีส่วนใหญ่ชุดของการกระจายที่เป็นไปได้คือครอบครัวสถานที่ที่มีพารามิเตอร์และและให้พารามิเตอร์\ตัวอย่าง archetypical คือการถดถอยปกติซึ่งชุดการแจกแจงคือครอบครัวปกติและเป็นฟังก์ชันเชิงเส้นของ regressors
เนื่องจากฉันยังไม่ได้อธิบายทางคณิตศาสตร์มันยังคงเป็นคำถามเปิดที่ว่าวัตถุทางคณิตศาสตร์ประเภท , ,และอ้างถึง - และฉันเชื่อว่านั่นเป็นปัญหาหลักในชุดข้อความนี้ แม้ว่าหนึ่งสามารถสร้างทางเลือก (เทียบเท่า) ที่หลากหลายส่วนใหญ่จะเทียบเท่าหรือกรณีพิเศษของคำอธิบายต่อไปนี้
คง regressors regressorsจะแสดงเป็นพาหะจริง P การตอบสนองเป็นตัวแปรสุ่ม (โดยที่นั้นมี endowed กับสนาม sigma และความน่าจะเป็น) รุ่นเป็นฟังก์ชัน (หรือถ้าคุณชอบชุดของฟังก์ชั่นแปรโดย ) เป็นทอพอโลยีมิติ จำกัด (โดยปกติคือ differentiable สอง) submanifold (หรือ submanifold-with-boundary) ของมิติของพื้นที่ของการแจกแจงความน่าจะเป็น Y : Ω → R Ω ฉ: R × Θ → M d R → M d Θ M d d ฉΘ ⊂ R d - 1 Y ฉ( β ( X ) , θ ) β ∈ R P * θ ∈ Θ Y ∼ f ( β ( X ) , θมักจะถูกนำไปใช้อย่างต่อเนื่อง (หรือ differentiable เพียงพอ) คือ "พารามิเตอร์รบกวน" มันควรจะเป็นว่าการกระจายของคือสำหรับเวกเตอร์คู่คู่ที่ไม่รู้จัก (ที่ "สัมประสิทธิ์การถดถอย") และไม่ทราบ\ เราอาจเขียน
การถดถอยแบบสุ่ม regressors และการตอบสนองเป็นมิติเวกเตอร์ตัวแปรสุ่ม{R} โมเดลเป็นวัตถุชนิดเดียวกันเมื่อก่อน แต่ตอนนี้มันให้ความน่าจะเป็นแบบมีเงื่อนไขY | X ~ ฉ( β ( X ) , θ )
คำอธิบายทางคณิตศาสตร์นั้นไร้ประโยชน์โดยไม่ต้องมีใบสั่งยาบอกว่ามันมีจุดประสงค์ที่จะใช้กับข้อมูล ในกรณี regressor คงที่เราตั้งที่ถูกระบุโดยผู้ทดลอง ดังนั้นมันอาจช่วยให้ดูเป็นผลิตภัณฑ์ endowed กับผลิตภัณฑ์พีชคณิตซิกมา ทดลองกำหนดและธรรมชาติกำหนด (ไม่ทราบบางนามธรรม) \ในกรณีสุ่ม regressor ธรรมชาติกำหนด ,ส่วนประกอบของตัวแปรสุ่มกำหนด(ซึ่งก็คือ "สังเกตุ") และตอนนี้เรามีคู่ที่ได้รับคำสั่งเหมือนกับในกรณี regressor คงที่
ตัวอย่าง archetypical ของการถดถอยเชิงเส้นหลายครั้ง (ซึ่งฉันจะแสดงโดยใช้สัญกรณ์มาตรฐานสำหรับวัตถุมากกว่าหนึ่งทั่วไปมากกว่านี้) คือสำหรับบางคง{+} เมื่อแตกต่างกันทั่วรูปภาพของมันจะแยกออกเป็นส่วนย่อยหนึ่งมิติซึ่งเป็นเส้นโค้งในสองมิติของการแจกแจงปกติ
เมื่อ - ในรูปแบบใดก็ตาม -ประมาณว่าและเป็น , ค่าของเป็นค่าที่ทำนายได้ของเกี่ยวข้องกับว่าจะเป็นถูกควบคุมโดยผู้ทดลอง (กรณีที่ 1) หรือถูกสังเกตเท่านั้น (กรณีที่ 2) ถ้าเราตั้งค่า (กรณีที่ 1) หรือสังเกตการก่อให้เกิด (กรณีที่ 2)ของดังนั้นการตอบสนองเกี่ยวข้องกับนั้นเป็นตัวแปรสุ่มที่มีการแจกแจง ซึ่งไม่ทราบ แต่β σ σ β ( x ) Y x x x X Y X N ( β ( x ) , σ ) N ( β ( x ) , σ ) ที่คาดว่าจะเป็นซิก)
ก่อนอื่น @whuber ให้คำตอบที่ยอดเยี่ยม ฉันจะให้มันใช้เวลาที่แตกต่างกันอาจจะง่ายกว่าในบางแง่มุมด้วยการอ้างอิงถึงข้อความ
สามารถสุ่มหรือคงที่ในสูตรการถดถอย ขึ้นอยู่กับปัญหาของคุณ สำหรับการศึกษาเชิงสังเกตการณ์นั้นจะต้องมีการสุ่มและสำหรับการทดลองมักจะได้รับการแก้ไข
ตัวอย่างที่หนึ่ง ฉันกำลังศึกษาผลกระทบของการได้รับรังสีอิเล็กตรอนต่อความแข็งของชิ้นส่วนโลหะ ดังนั้นฉันจึงนำชิ้นส่วนโลหะสองสามตัวอย่างมาแสดงระดับการแผ่รังสีที่แตกต่างกัน ระดับแสงของฉันคือ X และคงที่เพราะฉันตั้งค่าเป็นระดับที่ฉันเลือก ฉันควบคุมเงื่อนไขของการทดสอบอย่างเต็มที่หรืออย่างน้อยก็ลอง ฉันสามารถทำเช่นเดียวกันกับพารามิเตอร์อื่น ๆ เช่นอุณหภูมิและความชื้น
ตัวอย่างที่สอง คุณกำลังศึกษาผลกระทบของเศรษฐกิจต่อความถี่ของการฉ้อโกงในการสมัครบัตรเครดิต ดังนั้นคุณถอยหลังเหตุการณ์การฉ้อโกงที่มีต่อจีดีพี คุณไม่ได้ควบคุม GDP คุณไม่สามารถตั้งระดับที่ต้องการได้ ยิ่งกว่านั้นคุณอาจต้องการดูการถดถอยหลายตัวแปรดังนั้นคุณมีตัวแปรอื่น ๆ เช่นการว่างงานและตอนนี้คุณมีการรวมกันของค่าใน X ซึ่งคุณสังเกตแต่ไม่ได้ควบคุม ในกรณีนี้ X เป็นแบบสุ่ม
ตัวอย่างที่สาม คุณกำลังศึกษาประสิทธิภาพของสารกำจัดศัตรูพืชชนิดใหม่ในไร่เช่นไม่ได้อยู่ในสภาพห้องปฏิบัติการ แต่ในฟาร์มทดลองจริง ในกรณีนี้คุณสามารถควบคุมบางสิ่งบางอย่างเช่นคุณสามารถควบคุมปริมาณของสารกำจัดศัตรูพืชที่จะใส่ อย่างไรก็ตามคุณไม่ได้ควบคุมทุกสิ่งเช่นสภาพอากาศหรือดิน ตกลงคุณสามารถควบคุมดินได้ในระดับหนึ่ง แต่ไม่สมบูรณ์ นี่คือในระหว่างกรณีที่เงื่อนไขบางอย่างที่มีการตั้งข้อสังเกตและเงื่อนไขบางอย่างจะควบคุม มีสาขาการศึกษาทั้งหมดนี้เรียกว่าการออกแบบการทดลองซึ่งมุ่งเน้นไปที่กรณีที่สามนี้ซึ่งการวิจัยการเกษตรเป็นหนึ่งในแอปพลิเคชันที่ใหญ่ที่สุดของมัน
นี่คือส่วนทางคณิตศาสตร์ของคำตอบ มีชุดของสมมติฐานที่มักจะนำเสนอเมื่อศึกษาการถดถอยเชิงเส้นที่เรียกว่าเงื่อนไข Gauss-Markov พวกเขามีทฤษฎีและไม่มีใครมารบกวนเพื่อพิสูจน์ว่าพวกเขามีส่วนร่วมในการตั้งค่าใด ๆ อย่างไรก็ตามมันมีประโยชน์มากในการทำความเข้าใจข้อ จำกัด ของวิธีกำลังสองน้อยที่สุด (OLS)
ดังนั้นชุดของสมมติฐานจะแตกต่างกันสำหรับการสุ่มและคงที่ X ซึ่งประมาณสอดคล้องกับการศึกษาเชิงสังเกตการณ์และการทดลอง ประมาณอย่างที่ฉันแสดงในตัวอย่างที่สามบางครั้งเราอยู่ในระหว่างสุดขั้วจริงๆ ฉันพบส่วนของทฤษฎีบท "Gauss-Markov" ในสารานุกรมการออกแบบการวิจัยโดย Salkind เป็นจุดเริ่มต้นที่ดีมันมีอยู่ใน Google หนังสือ
สมมติฐานที่แตกต่างกันของการออกแบบคงที่มีดังนี้สำหรับรูปแบบการถดถอยปกติ :
เทียบกับสมมติฐานเดียวกันในการออกแบบแบบสุ่ม:
ในขณะที่คุณสามารถเห็นความแตกต่างในการปรับสมมติฐานบนเมทริกซ์การออกแบบสำหรับการออกแบบแบบสุ่ม การปรับสภาพทำให้สมมติฐานเหล่านี้แข็งแกร่งขึ้น ตัวอย่างเช่นเราไม่เพียงแค่พูดเช่นในการออกแบบแบบคงที่ว่าข้อผิดพลาดมีค่าเฉลี่ยเป็นศูนย์ ในการออกแบบแบบสุ่มเราก็บอกว่ามันไม่ได้ขึ้นอยู่กับ X, โควาเรียต
ในสถิติตัวแปรสุ่มคือปริมาณที่แตกต่างกันแบบสุ่มในบางวิธี คุณสามารถค้นหาการสนทนาที่ดีในเธรด CV ที่ยอดเยี่ยมนี้: "ตัวแปรสุ่ม" มีความหมายอย่างไร
ในรูปแบบการถดถอยของตัวแปร (X-ตัวแปรตัวแปรอธิบายตัวแปรอื่น ๆ ) จะถือว่าได้รับการแก้ไขและเป็นที่รู้จัก พวกเขาจะไม่ถือว่าเป็นแบบสุ่ม การสุ่มทั้งหมดในแบบจำลองจะถือว่าอยู่ในเทอมผิดพลาด พิจารณาแบบจำลองการถดถอยเชิงเส้นอย่างง่ายตามสูตรมาตรฐาน:
ข้อผิดพลาด, , เป็นตัวแปรสุ่มและเป็นแหล่งกำเนิดของการสุ่มในโมเดล เนื่องจากข้อผิดพลาดเป็นตัวแปรสุ่มเช่นกัน แต่ไม่ถือว่าเป็นตัวแปรสุ่ม (แน่นอนมันอาจเป็นตัวแปรสุ่มในความเป็นจริง
ε Y X
ไม่แน่ใจว่าฉันเข้าใจคำถามนี้หรือไม่ แต่ถ้าคุณเพิ่งถามว่า "ต้องเป็นตัวแปรอิสระเสมอเป็นตัวแปรสุ่ม" ดังนั้นคำตอบคือไม่
ตัวแปรอิสระคือตัวแปรที่ถูกตั้งสมมติฐานว่าสัมพันธ์กับตัวแปรตาม จากนั้นคุณทดสอบว่าเป็นกรณีนี้ผ่านการสร้างแบบจำลอง (การวิเคราะห์การถดถอยน่าจะเป็น)
มีภาวะแทรกซ้อนจำนวนมากและ "ifs, buts and maybes" ที่นี่ดังนั้นฉันขอแนะนำให้รับสำเนาของเศรษฐมิติพื้นฐานหรือหนังสือสถิติที่ครอบคลุมการวิเคราะห์การถดถอยและการอ่านอย่างละเอียด หลักสูตรออนไลน์ถ้าเป็นไปได้