ฉันกำลังทำงานกับชุดข้อมูลขนาดใหญ่บางอย่างโดยใช้แพ็คเกจ gbm ในอาร์ทั้งเมทริกซ์ตัวทำนายของฉันและเวกเตอร์การตอบสนองของฉันค่อนข้างเบาบาง (เช่นรายการส่วนใหญ่เป็นศูนย์) ฉันหวังว่าจะสร้างแผนภูมิการตัดสินใจโดยใช้อัลกอริทึมที่ใช้ประโยชน์จากความกระจัดกระจายตามที่ทำไว้ที่นี่ ) ในบทความดังกล่าวในสถานการณ์ของฉันรายการส่วนใหญ่มีคุณลักษณะที่เป็นไปได้เพียงไม่กี่รายการเท่านั้นดังนั้นพวกเขาจึงสามารถหลีกเลี่ยงการคำนวณจำนวนมากที่สูญเสียไปโดยสมมติว่ารายการของพวกเขาขาดคุณสมบัติที่กำหนดเว้นแต่ข้อมูลจะระบุอย่างชัดเจน ความหวังของฉันคือฉันสามารถเร่งความเร็วที่คล้ายกันโดยใช้อัลกอริทึมแบบนี้ (จากนั้นจึงใส่อัลกอริทึมการเร่งรอบ ๆ มันเพื่อปรับปรุงความแม่นยำในการทำนายของฉัน)
เนื่องจากพวกเขาดูเหมือนจะไม่เผยแพร่รหัสของพวกเขาฉันสงสัยว่ามีแพ็คเกจโอเพนซอร์ซหรือไลบรารี (ในภาษาใด ๆ ) ที่ได้รับการปรับให้เหมาะกับกรณีนี้หรือไม่ เป็นการดีที่ฉันต้องการบางอย่างที่Matrix
สามารถดึงเมทริกซ์แบบเบาบางได้โดยตรงจากแพ็คเกจของ R แต่ฉันจะทำตามที่ฉันจะได้
ฉันได้ดูไปรอบ ๆ และดูเหมือนว่าสิ่งนี้ควรจะอยู่ที่นั่น:
นักเคมีดูเหมือนจะพบปัญหานี้มาก (กระดาษที่ฉันเชื่อมโยงข้างต้นเกี่ยวกับการเรียนรู้ที่จะหาสารประกอบยาใหม่) แต่การใช้งานที่ฉันพบได้นั้นเป็นกรรมสิทธิ์หรือมีความเชี่ยวชาญสูงสำหรับการวิเคราะห์ทางเคมี เป็นไปได้ว่าหนึ่งในนั้นอาจถูกนำมาใช้ซ้ำได้
การจัดหมวดหมู่เอกสารดูเหมือนจะเป็นพื้นที่ที่การเรียนรู้จากการเว้นช่องว่างคุณลักษณะมีประโยชน์ (เอกสารส่วนใหญ่ไม่มีคำมากที่สุด) ตัวอย่างเช่นมีการอ้างอิงแบบเอียงในการใช้งาน C4.5 (อัลกอริทึมคล้าย CART) ในเอกสารนี้แต่ไม่มีรหัส
จากรายการส่งจดหมาย WEKA สามารถรับข้อมูลที่กระจัดกระจายได้ แต่ไม่เหมือนกับวิธีการในเอกสารที่ฉันลิงก์ด้านบน WEKA ไม่ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากมันจริง ๆ ในแง่ของการหลีกเลี่ยงวงจร CPU ที่สิ้นเปลือง
ขอบคุณล่วงหน้า!
glmnet
และe1071::svm
สนับสนุนทั้งเบาบางMatrix
วัตถุ GAMboost
และGLMboost
(จากแพ็คเกจGAMboost
) ก็เช่นกัน