คำถามติดแท็ก linear-model

อ้างถึงโมเดลใด ๆ ที่ตัวแปรสุ่มเกี่ยวข้องกับตัวแปรสุ่มหนึ่งตัวหรือมากกว่าโดยฟังก์ชันที่เป็นเส้นตรงในพารามิเตอร์จำนวน จำกัด

1
โมเดลเชิงเส้นที่ไม่เหมาะสมเมื่อใดจะสวยงามอย่างสมบูรณ์?
คำถาม: มีการใช้โมเดลเชิงเส้นที่ไม่เหมาะสมในทางปฏิบัติหรือมีความอยากรู้อยากเห็นบางครั้งอธิบายไว้ในวารสารวิทยาศาสตร์หรือไม่? ถ้าเป็นเช่นนั้นพวกเขาจะใช้ในด้านใด? มีตัวอย่างอื่น ๆ ของโมเดลดังกล่าวอีกไหม? ในที่สุดข้อผิดพลาดมาตรฐาน value,ฯลฯ ที่นำมาจาก OLS สำหรับรุ่นดังกล่าวจะถูกต้องหรือไม่หรือควรได้รับการแก้ไขอย่างใดpppR2R2R^2 ความเป็นมา:แบบจำลองเชิงเส้นที่ไม่เหมาะสมมีการอธิบายเป็นครั้งคราวในวรรณคดี โดยทั่วไปโมเดลดังกล่าวสามารถอธิบายได้ดังนี้ y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon สิ่งที่ทำให้พวกเขาแตกต่างจากการถดถอยก็คือค่าสัมประสิทธิ์ของไม่ได้ประมาณไว้ในแบบจำลอง แต่เป็นน้ำหนักที่wjwjw_j เท่ากับตัวแปรแต่ละตัว ( การถดถอยแบบถ่วงน้ำหนักหน่วย )wi=1wi=1w_i = 1 ขึ้นอยู่กับสหสัมพันธ์ (Dana และ Dawes, 2004)wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) เลือกแบบสุ่ม (Dawes, 1979) −1−1-1สำหรับตัวแปรที่เกี่ยวข้องกับ ,สำหรับตัวแปรที่เกี่ยวข้องกับ (Wainer, 1976)yyy111yyy นอกจากนี้มันเป็นเรื่องธรรมดาที่จะใช้ชนิดของการปรับคุณลักษณะบางอย่างเช่นการแปลงตัวแปรเข้า -scores ดังนั้นแบบจำลองชนิดนี้สามารถทำให้ง่ายขึ้นในการถดถอยเชิงเส้นแบบไม่รวมตัวแปรZZZ …

1
โมเดลการถดถอยเชิงเส้นที่เหมาะสมที่สุดสำหรับข้อมูลที่มีข้อผิดพลาด
ฉันกำลังมองหาอัลกอริทึมการถดถอยเชิงเส้นที่เหมาะสมที่สุดสำหรับข้อมูลที่ตัวแปรอิสระ (x) มีข้อผิดพลาดการวัดค่าคงที่และตัวแปรตาม (y) มีข้อผิดพลาดขึ้นอยู่กับสัญญาณ ภาพด้านบนแสดงคำถามของฉัน

1
การใช้เปอร์เซ็นไทล์เป็นตัวทำนาย - เป็นความคิดที่ดีหรือไม่?
ฉันกำลังคิดเกี่ยวกับปัญหาที่จะทำนายการใช้จ่ายของลูกค้าโดยใช้การถดถอยเชิงเส้น ฉันกำลังพิจารณาว่าฟีเจอร์ใดที่จะใช้เป็นอินพุตและสงสัยว่ามันจะโอเคที่จะใช้เปอร์เซ็นไทล์ของตัวแปรเป็นอินพุต ตัวอย่างเช่นฉันสามารถใช้รายได้ของ บริษัท เป็นอินพุท สิ่งที่ฉันสงสัยคือฉันสามารถใช้เปอร์เซ็นต์รายได้ของ บริษัท แทนได้หรือไม่ อีกตัวอย่างหนึ่งจะเป็นลักษณนามอุตสาหกรรมเด็ดขาด (NAICS) - ถ้าฉันดูค่าใช้จ่ายเฉลี่ยต่อรหัส NAICS แล้วกำหนดรหัส NAICS ให้กับ 'NAICS Percentile' ซึ่งเป็นตัวแปรอธิบายที่ถูกต้องที่ฉันสามารถใช้ได้หรือไม่ เพียงแค่สงสัยว่ามีปัญหาใด ๆ ที่ควรระวังเมื่อใช้เปอร์เซ็นไทล์หรือไม่ ในบางวิธีเทียบเท่ากับการปรับขนาดประเภทหรือไม่

1
ความสับสนที่เกี่ยวข้องกับระบบไดนามิกเชิงเส้น
ฉันอ่านหนังสือเล่มนี้การจดจำรูปแบบและการเรียนรู้ของเครื่องโดยบาทหลวง ฉันมีความสับสนเกี่ยวกับการกำเนิดของระบบพลวัตเชิงเส้น ใน LDS เราถือว่าตัวแปรแฝงเป็นต่อเนื่อง หาก Z หมายถึงตัวแปรแฝงและ X หมายถึงตัวแปรที่สังเกตได้ p (Zn|Zn - 1) = N(Zn| Zn - 1, τ)พี(Zn|Zn-1)=ยังไม่มีข้อความ(Zn|AZn-1,τ)p(z_n|z_{n-1}) = N(z_n|Az_{n-1},\tau) p (xn|Zn) = N(xn, CZn, Σ )พี(xn|Zn)=ยังไม่มีข้อความ(xn,คZn,Σ)p(x_n|z_n) = N(x_n,Cz_n,\Sigma) p (Z1) = N(Z1|ยู0,V0)พี(Z1)=ยังไม่มีข้อความ(Z1|ยู0,V0)p(z_1) = N(z_1|u_0,V_0) ใน LDS ยังใช้การส่งต่อข้อความย้อนหลังอัลฟาเบต้าไปข้างหน้าเพื่อคำนวณการแจกแจงหลังแฝง p (Zn| X)พี(Zn|X)p(z_n|X) α (Zn) = p ( x 1 …

2
ตัวทำนายบางตัวของฉันอยู่ในสเกลที่แตกต่างกันมาก - ฉันต้องเปลี่ยนพวกมันก่อนที่จะปรับตัวแบบถดถอยเชิงเส้นหรือไม่?
ฉันต้องการรันการถดถอยเชิงเส้นบนชุดข้อมูลแบบหลายมิติ มีความแตกต่างระหว่างมิติต่าง ๆ ในแง่ของขนาดของระเบียบ ตัวอย่างเช่นโดยทั่วไปส่วนข้อมูล 1 มีช่วงค่า [0, 1] และส่วนข้อมูล 2 มีช่วงค่า [0, 1,000] ฉันจำเป็นต้องทำการแปลงใด ๆ เพื่อให้แน่ใจว่าช่วงข้อมูลสำหรับมิติข้อมูลที่แตกต่างกันอยู่ในระดับเดียวกันหรือไม่ ถ้ามีจะมีแนวทางใดสำหรับการเปลี่ยนแปลงเช่นนี้หรือไม่?

3
วิธีการใช้คำสัมประสิทธิ์สำหรับปัจจัยและเงื่อนไขเชิงโต้ตอบในสมการเชิงเส้น?
เมื่อใช้ R ฉันได้ติดตั้งโมเดลเชิงเส้นสำหรับตัวแปรการตอบสนองเดี่ยวจากการผสมผสานของตัวทำนายอย่างต่อเนื่องและไม่ต่อเนื่อง นี่เป็นพื้นฐาน uber แต่ฉันมีปัญหาในการเข้าใจว่าค่าสัมประสิทธิ์สำหรับปัจจัยแยกทำงานอย่างไร แนวคิด:เห็นได้ชัดว่าค่าสัมประสิทธิ์ของตัวแปรต่อเนื่อง 'x' ถูกนำมาใช้ในรูปแบบy = coefx(varx) + interceptแต่วิธีการที่ทำงานให้กับปัจจัย z ถ้าปัจจัยที่ไม่ใช่ตัวเลข?y = coefx(varx) + coefz(factorz???) + intercept เฉพาะ:ฉันได้ติดตั้งแบบจำลองใน R เป็นlm(log(c) ~ log(d) + h + a + f + h:a)ตำแหน่งhและfปัจจัยที่ไม่ต่อเนื่องและไม่ใช่ตัวเลข ค่าสัมประสิทธิ์คือ: Coefficients: Estimate (Intercept) -0.679695 log(d) 1.791294 h1 0.870735 h2 -0.447570 h3 0.542033 a 0.037362 f1 …

1
ความแตกต่างระหว่างการควบคุมและการรักษาควรเป็นแบบอย่างชัดเจนหรือโดยปริยาย?
รับการตั้งค่าการทดลองต่อไปนี้: ตัวอย่างจำนวนมากนำมาจากหัวเรื่องและแต่ละตัวอย่างได้รับการปฏิบัติหลายวิธี (รวมถึงการรักษาควบคุม) สิ่งที่น่าสนใจที่สุดคือความแตกต่างระหว่างการควบคุมและการรักษาแต่ละครั้ง ฉันนึกถึงโมเดลง่าย ๆ สองแบบสำหรับข้อมูลนี้ ด้วยตัวอย่างรักษารักษา 0 ถูกควบคุมให้เป็นข้อมูลเป็นพื้นฐานสำหรับตัวอย่าง ,มีความแตกต่างในการรักษาญโมเดลแรกดูทั้งการควบคุมและความแตกต่าง:ผมiiJjjYฉันเจYijY_{ij}γผมγi\gamma_iผมiiδJδj\delta_jJjj Yฉันเจ=γผม+δJ+εฉันเจYij=γi+δj+ϵij Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij} δ0= 0δ0=0 \delta_0=0 ในขณะที่รุ่นที่สองเท่านั้นที่ดูความแตกต่าง หากเราทำการล่วงหน้าล่วงหน้า ดังนั้น dฉันเจdijd_{ij}dฉันเจ=Yฉันเจ-Yฉัน0dij=Yij−Yi0 d_{ij}=Y_{ij}-Y_{i0} dฉันเจ=δJ+εฉันเจdij=δj+εij d_{ij}=\delta_j+\varepsilon_{ij} คำถามของฉันคืออะไรความแตกต่างพื้นฐานระหว่างการตั้งค่าทั้งสองนี้คืออะไร โดยเฉพาะอย่างยิ่งหากระดับนั้นไร้ความหมายในตัวเองและมีเพียงความแตกต่างเท่านั้นที่เป็นโมเดลแรกที่ทำมากเกินไปและอาจต่ำกว่าความเป็นจริง?

2
เหตุใด R จึงวางแผนส่วนที่เหลือเป็นมาตรฐานเทียบกับปริมาณเชิงทฤษฎีในพล็อต QQ
ใน R ทำไมการตั้งค่าเริ่มต้นของการqqplot(linear model)ใช้ค่ามาตรฐานในแกน y? เหตุใด R จึงไม่ใช้ส่วนที่เหลือ "ปกติ"

4
ลำดับของตัวแปรมีความสำคัญในการถดถอยเชิงเส้นหรือไม่
ฉันกำลังตรวจสอบความสัมพันธ์ระหว่างตัวแปรสองตัว (x1x1x_1 และ x2x2x_2) มีความสัมพันธ์เชิงเส้นตรงมากระหว่างตัวแปรเหล่านี้ด้วยr > 0.9r>0.9r>0.9. จากลักษณะของปัญหาฉันไม่สามารถพูดอะไรเกี่ยวกับสาเหตุได้ (ไม่ว่าจะเป็นx1x1x_1 สาเหตุ x2x2x_2หรือวิธีอื่น ๆ ) ฉันต้องการศึกษาการเบี่ยงเบนจากเส้นการถดถอยเพื่อตรวจหาค่าผิดปกติ ในการทำเช่นนี้ฉันสามารถสร้างการถดถอยเชิงเส้นของx1x1x_1 เป็นหน้าที่ของ x2x2x_2หรือวิธีอื่น ๆ การเลือกคำสั่งผันแปรของฉันมีผลต่อผลลัพธ์ของฉันหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.