ฉันยังใหม่กับวิทยาศาสตร์ข้อมูลและมีปัญหาในการค้นหากลุ่มในชุดข้อมูลที่มี 200,000 แถวและ 50 คอลัมน์ใน R
เนื่องจากข้อมูลมีทั้งตัวเลขและตัวแปรที่กำหนดวิธีการแบบ K-mean ซึ่งใช้การวัดระยะทางแบบยุคลิดจึงไม่เป็นทางเลือกที่เหมาะสม ดังนั้นฉันจึงหันไปหา PAM แอกเนสและ hclust ซึ่งยอมรับเมทริกซ์ระยะทางเป็นอินพุต
วิธีเดซี่สามารถทำงานกับข้อมูลแบบผสม แต่เมทริกซ์ระยะทางนั้นใหญ่เกินไป: 200,000 เท่า 200,000 มีขนาดใหญ่กว่า 2 ^ 31-1 มาก (ขีด จำกัด ความยาวเวกเตอร์ก่อน R 3.0.0)
R 3.0.0 ใหม่ที่เผยแพร่เมื่อวานนี้รองรับเวกเตอร์ยาวที่มีความยาวมากกว่า 2 ^ 31-1 แต่เมทริกซ์สองเท่าของ 200,000 โดย 200,000 ต้องใช้ RAM ต่อเนื่องที่มีขนาดใหญ่กว่า 16Gb ซึ่งเป็นไปไม่ได้ในเครื่องของฉัน
ฉันอ่านเกี่ยวกับการคำนวณแบบขนานและแพ็คเกจหน่วยความจำขนาดใหญ่และไม่แน่ใจว่าพวกเขาจะช่วยได้อย่างไร: ถ้าฉันใช้เดซี่มันจะสร้างเมทริกซ์ขนาดใหญ่ที่ไม่สามารถใส่หน่วยความจำได้
ฉันยังอ่านเกี่ยวกับการโพสต์เกี่ยวกับการสุ่มตัวอย่าง: การสุ่มตัวอย่างมีความเกี่ยวข้องในช่วงเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่
ดังนั้นในกรณีของฉันมันเกี่ยวข้องกับการใช้การสุ่มตัวอย่างในชุดข้อมูลคลัสเตอร์ในตัวอย่างแล้วอนุมานโครงสร้างของชุดข้อมูลทั้งหมดหรือไม่
คุณช่วยแนะนำฉันหน่อยได้ไหม? ขอขอบคุณ!
เกี่ยวกับเครื่องของฉัน:
รุ่น R 3.0.0 (2013-04-03)
แพลตฟอร์ม: x86_64-w64-mingw32 / x64 (64- บิต)
ระบบปฏิบัติการ: Windows 7 64 บิต
RAM: 16.0GB