วิธีการถดถอยโลจิสติกใน R เมื่อผลเป็นเศษส่วน (อัตราส่วนของสองนับ)?


24

ฉันกำลังตรวจสอบกระดาษที่มีการทดลองทางชีวภาพต่อไปนี้ อุปกรณ์ถูกนำมาใช้เพื่อเปิดเผยเซลล์เพื่อความเครียดที่แตกต่างกันของแรงเฉือนของเหลว เมื่อมีการใช้แรงเฉือนมากขึ้นกับเซลล์จึงเริ่มมีการแยกตัวออกจากสารตั้งต้นมากขึ้น ในแต่ละระดับของความเครียดแรงเฉือนพวกเขานับจำนวนเซลล์ที่ยังคงติดอยู่และเนื่องจากพวกเขารู้ว่าจำนวนเซลล์ทั้งหมดที่ถูกแนบไว้ที่จุดเริ่มต้นพวกเขาสามารถคำนวณสิ่งที่แนบมาเป็นเศษส่วน (หรือแยก)

หากคุณพล็อตเศษส่วนสานุศิษย์เทียบกับความเครียดเฉือนผลที่ได้คือเส้นโค้งโลจิสติก ในทางทฤษฎีแต่ละเซลล์มีการสังเกตเพียงอย่างเดียว แต่เห็นได้ชัดว่ามีเซลล์นับพันหรือหมื่นเซลล์ดังนั้นชุดข้อมูลจะมีขนาดมหึมาถ้ามันถูกสร้างขึ้นในแบบปกติ

ดังนั้นคำถามของฉัน (ตามที่ระบุในชื่อเรื่อง) น่าจะสมเหตุสมผลแล้ว เราจะทำการถดถอยโลจิสติกโดยใช้ผลลัพธ์เศษส่วนเป็น DV ได้อย่างไร มีการแปลงรูปแบบอัตโนมัติที่สามารถทำได้ใน glm หรือไม่?

ในบรรทัดเดียวกันหากมีการวัด 3 ครั้งหรือมากกว่านั้นจะเป็นไปได้อย่างไรสำหรับการถดถอยโลจิสติกพหุนาม


นี่คือตัวอย่างบางประการเกี่ยวกับผลหลายตัวแปรถดถอยโลจิสติคือ:http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
เบญจมบพิตร

1
สิ่งที่คุณอธิบายไม่ได้ดูเหมือนว่าคุณจะมีการสังเกตอย่างอิสระ (เนื่องจากเซลล์สันนิษฐานว่าไม่ต้องใส่กลับเข้าไปใหม่เมื่อแรงเฉือนเพิ่มขึ้นจำนวนที่แนบมากับการตั้งค่าความเครียดแต่ละครั้งจะต้องไม่มากกว่าตัวเลขก่อนหน้า) การพึ่งพานี้จะต้องนำมาพิจารณา (มันทำให้นึกถึงสถานการณ์ที่มีเส้นโค้งการเติบโต) - คุณไม่สามารถเพียงแค่เสียบตัวเลขลงใน GLM ราวกับว่าพวกเขาเป็นอิสระ ... และไม่มีคำตอบใดที่ดูเหมือนจะแก้ไขปัญหานี้
Glen_b -Reinstate Monica

2
@Glen_b การทดสอบแต่ละครั้งจะทำกับเซลล์ต่างกันเช่นเริ่มต้นด้วยการแนบ "100%" และใช้ค่าความเครียดที่แตกต่างกัน
thecity2

อ่าโอเค. ที่จะให้ผลลัพธ์ที่เป็นอิสระ
Glen_b -Reinstate Monica

ที่เกี่ยวข้อง: stats.stackexchange.com/questions/29038
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


37

glmในฟังก์ชั่นRช่วยให้ 3 วิธีที่จะระบุสูตรสำหรับรูปแบบการถดถอยโลจิสติก

ที่พบบ่อยที่สุดคือแต่ละแถวของ data frame แสดงถึงการสังเกตเพียงครั้งเดียวและตัวแปรการตอบสนองเป็น 0 หรือ 1 (หรือปัจจัยที่มี 2 ระดับหรือ varibale อื่น ๆ ที่มีค่าที่ไม่ซ้ำกันเพียง 2)

อีกทางเลือกหนึ่งคือการใช้เมทริกซ์คอลัมน์ 2 คอลัมน์เป็นตัวแปรตอบกลับโดยคอลัมน์แรกเป็นจำนวน 'ความสำเร็จ' และคอลัมน์ที่สองเป็นค่านับของ 'ความล้มเหลว'

นอกจากนี้คุณยังสามารถระบุการตอบสนองเป็นสัดส่วนระหว่าง 0 และ 1 จากนั้นระบุคอลัมน์อื่นเป็น 'น้ำหนัก' ที่ให้จำนวนรวมที่สัดส่วนนั้นมาจาก (การตอบสนองของ 0.3 และน้ำหนัก 10 เท่ากับ 3 ' ความสำเร็จ 'และ 7' ความล้มเหลว ')

ไม่ว่าจะด้วยวิธีใดวิธีหนึ่งจากสองวิธีที่เหมาะสมกับสิ่งที่คุณพยายามทำวิธีสุดท้ายดูเหมือนจะตรงที่สุดสำหรับวิธีที่คุณอธิบายข้อมูลของคุณ


9

เป็นการเริ่มต้นถ้าคุณมีตัวแปรตามที่เป็นสัดส่วนคุณสามารถใช้การถดถอยแบบเบต้า สิ่งนี้ไม่ขยายออกไป (ด้วยความรู้ที่ จำกัด ของฉัน) ไปยังหลาย ๆ สัดส่วน

สำหรับภาพรวม Beta ถดถอยและการดำเนินการตรวจสอบ R betareg


ขอบคุณ! ดูเหมือนว่าสิ่งที่ฉันต้องการสำหรับกรณีทวินาม
thecity2

2

ฉันใช้อยู่แล้วnnet::multinom(package nnet เป็นส่วนหนึ่งของ MASS) เพื่อจุดประสงค์เดียวกันมันรับอินพุตต่อเนื่องใน [0, 1]

หากคุณต้องการการอ้างอิง: C. Beleites และอื่น ๆ : การจัดระดับรามันสเปกโทรสโกของเนื้อเยื่อ astrocytoma: การใช้ข้อมูลอ้างอิงอ่อน Anal Bioanal Chem, 2011, Vol. 400 (9), pp. 2801-2816


ที่ดี! ฉันมีแพ็คเกจนั้นและไม่ได้ตระหนักว่ามันมีความสามารถนี้
thecity2

@cbeleites: มันอนุญาตให้ขึ้นกับเป็น [0,1] หรือไม่ ฉันว่ามันเป็นฟังก์ชั่นสำหรับการพึ่งพาเล็กน้อย (ตัวทำนายควรถูกปรับเป็น [0,1] ...
B_Miner

@B_Miner: ใช่ผู้ติดตามสามารถอยู่ใน [0, 1] ฟังก์ชั่นนี้เหมาะกับเครือข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และด้วยซิกม่ามโลจิสติก และใช่เราขอแนะนำให้ปรับสเกลของตัวทำนายอย่างคร่าว ๆ เป็น [0, 1] และเพื่อการบรรจบที่ดีขึ้น
cbeleites รองรับโมนิก้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.