Gaussian แบบหลายตัวแปรที่ทนทานใน R


11

ฉันต้องพอดีกับการแจกแจงแบบเกาส์ทั่วไปกับคลาวด์ 7-point ที่บรรจุค่าผิดปกติจำนวนมากและมีเลเวอเรจสูง คุณรู้จักแพ็คเกจ R ที่ดีสำหรับงานนี้หรือไม่?


3
คุณจะพบการเชื่อมโยงไปอย่างน้อยสี่แพคเกจ R สำหรับการระบุค่าผิดปกติหลายตัวแปรในการตอบกลับไปยังคำถามที่คล้ายกันที่stats.stackexchange.com/questions/213/... นั่นอาจเป็นการเริ่มต้นที่ดี
whuber

อาจเป็นคำถามที่ทำให้ฉันหลงไหล แต่เท่าที่เหมาะสมกับการกระจายแบบเกาส์หลายตัวแปรทำไมไม่เพียงแค่ใช้ค่าเฉลี่ยเชิงประจักษ์และ SD เป็น MLE? จากนั้นคุณสามารถมุ่งเน้นไปที่สถิติการวินิจฉัยหากมีคะแนนอิทธิพล / การใช้ประโยชน์สูง
AdamO

ฉันคิดว่าคำถามเกี่ยวกับการใช้บางสิ่งบางอย่างเช่นฟังก์ชันการสูญเสียของ Huberized เพื่อประเมินพารามิเตอร์ ฉันไม่ใช่ผู้เชี่ยวชาญ แต่อาจใช้การสูญเสีย Huber เพื่อให้พอดีกับค่าเฉลี่ยจะเป็นการเริ่มต้น
Tom Dietterich

คำตอบ:


1

นอกจากนี้ยังมี mclust: http://www.stat.washington.edu/research/reports/2012/tr597.pdf http://cran.r-project.org/web/packages/mclust/index.html

อย่างไรก็ตามข้อควรระวังอย่างหนึ่ง: การสร้างแบบจำลองการผสมในพื้นที่ที่มีมิติสูงสามารถทำให้ซีพียูและหน่วยความจำค่อนข้างเข้มข้นหากระบบคลาวด์ของคุณมีขนาดใหญ่ ประมาณสี่ปีที่แล้วฉันกำลังทำชุดข้อมูล 11 มิติ, 50-200K จุดและมันก็มีแนวโน้มที่จะใช้ RAM 4-11GB และใช้เวลานานถึงหนึ่งสัปดาห์ในการคำนวณสำหรับแต่ละกรณี (และฉันมี 400) สิ่งนี้เป็นไปได้อย่างแน่นอน แต่อาจปวดหัวถ้าคุณใช้คลัสเตอร์การคำนวณที่ใช้ร่วมกันหรือมีทรัพยากร จำกัด


1

ฟังดูเหมือนแบบจำลองการผสมแบบเกาส์หลายตัวแปรหลายตัวแปร ฉันคิดว่าแพ็คเกจ BayesM อาจใช้งานได้

ต่อไปนี้เป็นแพคเกจส่วนผสมของ Gaussian Mix หลายตัวแปร

  • bayesm: cran.r-project.org/web/packages/bayesm/index.html
  • mixtools: www.jstatsoft.org/v32/i06/paper
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.