การตีความสัดส่วนที่รวมหนึ่งเป็นตัวแปรอิสระในการถดถอยเชิงเส้น


13

ฉันคุ้นเคยกับแนวคิดของตัวแปรเด็ดขาดและการเข้ารหัสตัวแปรดัมมี่ตามลำดับที่ช่วยให้เราสามารถปรับให้เป็นหนึ่งในระดับพื้นฐานเพื่อหลีกเลี่ยงความไม่ลงรอยกัน ฉันยังคุ้นเคยกับวิธีตีความการประมาณค่าพารามิเตอร์จากโมเดลดังกล่าว: การเปลี่ยนแปลงที่คาดการณ์ไว้ในผลลัพธ์สำหรับระดับที่เหมาะสมของเครื่องทำนายหมวดหมู่สัมพันธ์กับหมวดหมู่พื้นฐาน

สิ่งที่ฉันไม่แน่ใจเกี่ยวกับวิธีการตีความชุดของตัวแปรอิสระที่มีสัดส่วนที่ว่าผลรวมให้เป็นหนึ่ง เรามี collinearity อีกครั้งถ้าเราพอดีทุกสัดส่วนในโมเดลดังนั้นสมมุติว่าเราจะต้องปล่อยให้หมวดหมู่หนึ่งเป็นพื้นฐาน ฉันยังคิดว่าฉันจะดูประเภท III SS สำหรับการทดสอบโดยรวมของความสำคัญของตัวแปรนี้ อย่างไรก็ตามเราจะตีความพารามิเตอร์ประมาณการสำหรับระดับที่เหมาะสมในแบบจำลองเทียบกับที่ถือว่าเป็นพื้นฐานได้อย่างไร

ตัวอย่าง : ที่ระดับรหัสไปรษณีย์ตัวแปรอิสระคือสัดส่วนของหินแปรหินอัคนีและหินตะกอน อย่างที่คุณอาจทราบว่าหินทั้งสามชนิดนี้สำคัญและหินทั้งหมดจัดอยู่ในประเภทใดประเภทหนึ่ง ดังนั้นสัดส่วนในผลรวมทั้งสามต่อ 1 ผลที่ได้คือระดับเรดอนเฉลี่ยในรหัสไปรษณีย์ที่เกี่ยวข้อง

ถ้าฉันจะพอดีพูดสัดส่วนแปรสภาพและการเผาไหม้เป็นแบบทำนายในแบบจำลองปล่อยให้ตะกอนเป็นพื้นฐานประเภทโดยรวม III SS F - การทดสอบของทั้งสองระดับติดตั้งจะมีความหมายว่าประเภทหินโดยรวมเป็นสิ่งสำคัญ ตัวทำนายผล (ระดับเรดอนโดยเฉลี่ย) จากนั้นฉันสามารถดูค่าp-valueแต่ละตัว(ตามการแจกแจงt ) เพื่อพิจารณาว่าหินชนิดใดชนิดหนึ่งหรือทั้งสองนั้นแตกต่างจากฐานอย่างมีนัยสำคัญ

อย่างไรก็ตามเมื่อมันมาถึงการประมาณค่าพารามิเตอร์สมองของฉันต้องการที่จะตีความพวกเขาอย่างหมดจดเป็นการเปลี่ยนแปลงที่คาดการณ์ไว้ในผลระหว่างกลุ่ม (ประเภทหิน) และฉันไม่เข้าใจวิธีการรวมความจริงที่ว่าพวกเขาพอดีเป็นสัดส่วน .

หากการประมาณค่าสำหรับการแปรเปลี่ยนเป็นเช่น 0.43 การตีความนั้นไม่ใช่เพียงแค่ระดับเรดอนเฉลี่ยที่คาดการณ์เพิ่มขึ้น 0.43 หน่วยเมื่อหินนั้นแปรสภาพกับตะกอน อย่างไรก็ตามการตีความยังไม่เพียง แต่สำหรับการเพิ่มขึ้นของหน่วยบางประเภท (พูด 0.1) ในสัดส่วนของประเภทหินแปรเนื่องจากมันไม่ได้สะท้อนความจริงที่ว่ามันยังสัมพันธ์กับพื้นฐาน ( ตะกอน ) และนอกจากนี้การเปลี่ยนแปลงนั้น สัดส่วนของการเปลี่ยนแปลงโดยเนื้อแท้การเปลี่ยนแปลงสัดส่วนของพอดีระดับหินอื่น ๆ ในรูปแบบที่ร้อนเป็นไฟβ

ใครบ้างมีแหล่งที่ให้การตีความของรูปแบบดังกล่าวหรือคุณสามารถให้ตัวอย่างสั้น ๆ ที่นี่ถ้าไม่?


2
+1 บ่อยครั้งที่สัดส่วนไม่มีความสัมพันธ์เชิงเส้นกับการตอบสนอง หากการแก้ไขใหม่เช่นเพื่อปรับปรุงแบบจำลองพวกเขาก็จะอนุญาตให้มีการตีความแบบง่าย ๆ คุณตรวจสอบความเป็นเส้นตรงในข้อมูลของคุณหรือไม่? (π1,π2,,πk)
πi=exp(λi)exp(λ1)++exp(λk)
whuber

1
ไม่ แต่ฉันเดาว่ามันจะเป็นปัญหาโดยเฉพาะอย่างยิ่งเพราะ "สัดส่วน" จริง ๆ แล้วออกมาเป็น 0 และ 1 หรือค่าใกล้เคียงกับ 0 และ 1 มากดังนั้นจึงทำหน้าที่เป็นไบนารีอยู่แล้ว เช่นนี้เป็นไปได้ว่าเราจะทำให้กลุ่มที่แท้จริงออกมาจากพวกเขา (และทำตามสัดส่วน) แต่สิ่งนี้ยังคงจุดประกายความสนใจของฉันในสิ่งที่การตีความที่ถูกต้องจะเป็นสมมุติฐาน
Meg

ยุติธรรมเพียงพอ - เป็นคำถามที่ดี
whuber

2
เป็นวิธีที่เทียบเท่าทางคณิตศาสตร์เพื่อเป็นตัวแทนของ\หากต้องการแปลความหมายให้พิจารณาว่าด้านซ้ายมือจะถูกเรียกว่า "อัตราส่วนอัตราต่อรอง" เมื่อมีความน่าจะเป็น; มันมีความหมายที่เทียบเคียงได้กับทุกสัดส่วน ดังนั้นสามารถตีความได้เช่นเดียวกับอัตราส่วนอัตราต่อรอง สำหรับชุดของ regressors ที่รวมกันเป็นหนึ่งเดียวคุณสามารถใช้ของเป็นวิธีในการแสดง regressors เหล่านั้นในโมเดลของคุณอีกครั้ง (จำเป็นต้องมีการดูแลบางอย่างเมื่อใดก็ตามที่หรือ )λiπ
log(πi/πj)=λiλj.
πiλiλjkk1λiπi=0πi=1
whuber

2
λi=log(πi)ควรทำงานได้ดีเพราะแล้วและตามที่ตั้งใจไว้
log(πi/πj)=λiλj
exp(λi)exp(λ1)++exp(λk)=πiπ1+π2++πk=π11=πi
whuber

คำตอบ:


8

จากการติดตามและสิ่งที่ฉันคิดว่าเป็นคำตอบที่ถูกต้อง (ดูเหมือนสมเหตุสมผลสำหรับฉัน): ฉันโพสต์คำถามนี้ไว้ใน listserv ASA Connect และได้รับคำตอบจาก Thomas Sexton ที่ Stony Brook ดังนี้

"โมเดลการถดถอยเชิงเส้นโดยประมาณของคุณมีลักษณะดังนี้:

ln (Radon) = (นิพจน์เชิงเส้นในตัวแปรอื่น ๆ ) + 0.43M + 0.92I

โดยที่ M และฉันเป็นตัวแทนเปอร์เซ็นต์ของหินแปรและหินอัคนีตามลำดับในรหัสไปรษณีย์ คุณถูก จำกัด โดย:

M + I + S = 100

โดยที่ S แทนเปอร์เซ็นต์ของหินตะกอนในรหัสไปรษณีย์

การตีความของ 0.43 คือการที่เพิ่มขึ้นร้อยละจุดหนึ่งในเอ็มมีความเกี่ยวข้องกับการเพิ่ม 0.43 LN (Radon) ความถือตัวแปรอื่น ๆ ทั้งหมดในรูปแบบคงที่ ดังนั้นค่าของฉันไม่สามารถเปลี่ยนแปลงได้และวิธีเดียวที่จะมีการเพิ่มจุดหนึ่งเปอร์เซ็นต์ใน M ในขณะที่การบรรลุข้อ จำกัด คือการลดจุดหนึ่งเปอร์เซ็นต์ใน S ซึ่งเป็นหมวดหมู่ที่ละเว้น

แน่นอนว่าการเปลี่ยนแปลงนี้ไม่สามารถเกิดขึ้นได้ในรหัสไปรษณีย์ที่ S = 0 แต่การลดลงของ M และการเพิ่มขึ้นที่สอดคล้องกันของ S จะเป็นไปได้ในรหัสไปรษณีย์ดังกล่าว "

นี่คือลิงค์ไปยังเธรด ASA: http://community.amstat.org/communities/community-home/digestviewer/viewthread?GroupId=2653&MID=29924&tab=digestviewer&UserKey=5adc7e8b-174f5f9f239f5f239f5f9f5f9f9f9a

ฉันโพสต์สิ่งนี้เป็นคำตอบที่ถูกต้องที่ยอมรับได้ แต่ฉันยังคงเปิดให้มีการสนทนาเพิ่มเติมหากใครมีอะไรเพิ่ม


คำแนะนำอย่างหนึ่งคือไปที่เธรด ASA เนื่องจากมีการอภิปรายค่อนข้างมากที่ตั้งคำถามคำตอบไว้ที่นี่
Maxim.K

@ Maxim.K: คุณอ้างอิงถึงหัวข้อ ASA ของฉันที่ฉันลิงก์ไว้ด้านบนหรือไม่ ถ้าใช่มีคำเตือนที่ยังไม่ได้ตอบจำนวนมากและฉันยังไม่แน่ใจในคำตอบที่ "ถูกต้อง" (ถ้ามี) นี่คือเหตุผลที่ฉันเพิ่มตัวระบุ "ฉันกำลังโพสต์สิ่งนี้เป็นคำตอบที่ถูกต้องที่ยอมรับได้ แต่ฉันยังคงเปิดให้มีการสนทนาเพิ่มเติมหากใครมีสิ่งที่จะเพิ่ม"
Meg
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.