ฉันสามารถใช้วิธีการทางสถิติเพื่อค้นหาชุดค่าผสมที่นิยมหรือร่วมกันของตัวแปรเด็ดขาดได้อย่างไร


10

ฉันกำลังศึกษาเรื่องการใช้ polydrug ฉันมีชุดข้อมูลของผู้ติดยา 400 คนซึ่งแต่ละคนระบุว่าพวกเขาเสพยา มีมากกว่า 10 ยาเสพติดและด้วยเหตุนี้จึงมีการรวมกันเป็นไปได้ที่มีขนาดใหญ่ ฉันคำนวณส่วนใหญ่ของยาเสพติดที่พวกเขาใช้เป็นตัวแปรไบนารี (เช่นเฮโรอีนคือ 1 หากผู้เสพติดเฮโรอีนเสพติด 0) ฉันต้องการค้นหาชุดยายอดนิยมหรือยาสามัญ 2 หรือ 3 ตัว มีวิธีการทางสถิติที่ฉันสามารถใช้ได้หรือไม่?

คำตอบ:


6

มีเพียง 1024 ชุดที่เป็นไปได้ของยาเสพติดที่จะใช้ร่วมกัน (ถ้ามีเพียง 10 ยา) สมมติว่าผู้ใช้แต่ละคนได้ใช้ยาอย่างน้อย 1 คุณสามารถแปลงตัวแปร 0/1 ของคุณให้เป็นสตริงและต่อกันและเรียกใช้การวิเคราะห์ความถี่บนสตริงเพื่อดูว่าชุดค่าผสมใดเปิดขึ้นบ่อยที่สุด ยกตัวอย่างของเล่นพูดเพียง 3 ยาเสพติด A, B และ C ในการศึกษาของคุณ หากผู้เข้าร่วมใช้ยา A และ C ตัวแปรalldrugsนั้นอาจถูกกำหนดรหัส 101 ผู้เข้าร่วมที่ใช้ยา B เท่านั้นจะได้รับรหัส 010 เรียกใช้ความถี่เหล่านี้เพื่อค้นหาสิ่งที่เลือกบ่อยที่สุด ซอฟต์แวร์ส่วนใหญ่ควรสามารถประมวลผลได้ภายในไม่กี่วินาที


1
ตกลง มีผู้ติดยาเสพติดเพียง 400 คนเท่านั้นที่ทำให้ 1024 ไม่สามารถเกิดขึ้นได้ทั้งหมด
Nick Cox

อ๋อ นี่ควรเป็นเค้กชิ้นหนึ่ง
สถิตินักเรียน

5

การสร้างแบบจำลองชั้นแฝงจะเป็นหนึ่งในแนวทางการเรียนรู้ภายใต้การดูแลเพื่อค้นหาพาร์ทิชันที่ซ่อนอยู่หรือกลุ่มของยาเสพติดและผู้ใช้ยา LC เป็นวิธีการที่ยืดหยุ่นมากโดยมีวิธีการสองแบบคือการทำซ้ำตามมาตรการซ้ำสำหรับเรื่องเดียวกับการจำลองแบบบนพื้นฐานของการจำแนกชุดของตัวแปรเชิงหมวดหมู่ ข้อมูลของคุณจะพอดีกับประเภทที่สอง

ความยืดหยุ่นของ LCs เป็นฟังก์ชั่นของความสามารถในการดูดซับ "ชุดข้อมูลผสม" ของตัวแปรที่มี scalings ต่างกัน (เช่นหมวดหมู่หรือต่อเนื่อง) เนื่องจากวิธีการค้นหาพาร์ติชันที่ซ่อนอยู่เซ็กเมนต์หรือกลุ่มในข้อมูลจึงสามารถพิจารณาเทคนิคการลดขนาด

แบบจำลอง LC ทั้งหมดมี 2 ขั้นตอน: ในระยะที่ 1 ตัวแปรที่ขึ้นอยู่กับหรือเป้าหมายถูกระบุและสร้างแบบจำลองการถดถอย ในขั้นตอนที่ 2 จะมีการวิเคราะห์ส่วนที่เหลือ (เวกเตอร์ "แฝง" เดียว) จากโมเดลขั้นตอนที่ 1 และพาร์ติชันจะถูกสร้างขึ้นเพื่อตรวจสอบความแปรปรวน (หรือความแตกต่าง) - "คลาสแฝง" - ในเวกเตอร์นั้น

ฟรีแวร์นั้นอยู่ที่นั่นสำหรับการดาวน์โหลดซึ่งอาจจะทำงานได้ดีสำหรับคุณ หนึ่งในนั้นคือโมดูล R ที่เรียกว่า polCA มีให้ที่นี่:

http://www.jstatsoft.org/article/view/v042i10

หากคุณมีเงินประมาณ $ 1,000 เพื่อใช้ในเชิงพาณิชย์ผลิตภัณฑ์Latent Goldหาซื้อได้จาก www.statisticalinnovations.com หลังจากใช้กับLatent Goldมานานหลายปีฉันก็เป็นแฟนตัวยงของผลิตภัณฑ์ตัวนี้สำหรับการวิเคราะห์พลังงานและการแก้ปัญหาที่หลากหลาย ตัวอย่างเช่น polCA นั้นมีประโยชน์สำหรับรุ่น LC ที่มีข้อมูลหมวดหมู่เท่านั้นในขณะที่ LG ใช้งานได้ทั่วทั้งคณะ ... บวกด้วยผู้พัฒนาของพวกเขามักจะเพิ่มโมดูลใหม่อยู่เสมอ การเพิ่มล่าสุดสร้างโมเดล LC โดยใช้โซ่มาร์คอฟที่ซ่อนอยู่ แต่โปรดจำไว้ว่า LG ไม่ใช่แพลตฟอร์มข้อมูล "ตั้งแต่ต้นจนจบ" ซึ่งไม่ดีสำหรับการจัดการหรือยกข้อมูลหนัก

มิฉะนั้นมีวิธีอื่น ๆ มากมายในการวิเคราะห์ข้อมูลเชิงหมวดหมู่ซึ่งได้รับการสนับสนุนอย่างกว้างขวางจากซอฟต์แวร์ทางสถิติเช่น R, SPSS, SAS, Python เป็นต้นซึ่งรวมถึงการวิเคราะห์ตารางฉุกเฉิน, โมเดลเชิงเส้นบันทึก, โมเดลผสมแบบ จำกัด , การถดถอยแบบเทนเซอร์แบบเบส์ และอื่น ๆ วรรณกรรมในพื้นที่นี้กว้างขวางและเริ่มต้นด้วย Bishop, et al., Discrete Multivariate Analysisในปี 1975 ขยายผ่านโมเดล RC ของ Leo Goodman จากงานที่เขาทำมาตั้งแต่ยุค 80 การวิเคราะห์ข้อมูลหมวดหมู่ของ Agresti หนังสือของ Stephen Fienberg และรวมถึง Thomas Wickens 'หนังสือยอดเยี่ยมMultiway Contingency Tables Analysis สำหรับสังคมศาสตร์ที่ตีพิมพ์ในปี 1989 Bayesian Tensor Regression เป็นชื่อของบทความโดย David Dunson ที่ Duke และเป็น "วิธีการอันล้ำสมัย" ในการเป็นวิธีการล่าสุดสำหรับการสร้างแบบจำลองตารางฉุกเฉินที่มีหลายทางอย่างหนาแน่น


รักรายการอ้างอิง!
Chris

3

สิ่งที่อยู่ในใจของคุณอย่างสังหรณ์ใจ? คุณต้องการที่จะนับชุดค่าผสมทำไมไม่เพียงแค่หาชุดค่าผสมที่เป็นไปได้ทั้งหมดและนับเพียง? ฉันขอแนะนำให้คุณดูที่การขุดชุดรายการเป็นประจำ

Wikipedia - Apriori

นี่คือการใช้งานไม่กี่ของเดียวกัน:

รูปแบบการขุดความถี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.