การจัดการชุดข้อมูลขนาดใหญ่ในแบบฝึกหัดแนวปฏิบัติที่เหมาะสม ฯลฯ


11

ฉันเป็น Noob R ที่จำเป็นต้องทำการวิเคราะห์ชนิดต่าง ๆ บนชุดข้อมูลขนาดใหญ่ใน R ดังนั้นเมื่อมองไปรอบ ๆ ไซต์นี้และที่อื่น ๆ ปรากฏว่าสำหรับฉันมีปัญหาลึกลับและเป็นที่รู้จักน้อยมากที่เกี่ยวข้องกับที่นี่ - แพคเกจที่จะใช้เมื่อใดการแปลงเป็น (ไม่) ใช้กับข้อมูล ฯลฯ

ฉันแค่สงสัยว่ามีหนังสือ / กวดวิชา / คู่มือที่ demystifies ทั้งหมดนี้และนำเสนอข้อมูลอย่างเป็นระบบหรือไม่? ฉันชอบทำสิ่งนี้แทนที่จะมองไปรอบ ๆ และรวบรวมข้อมูลจากแหล่งต่าง ๆ ทางออนไลน์

ขอบคุณล่วงหน้า.


2
นี่อาจเป็นการเริ่มต้น: cran.r-project.org/web/views/HighPerformanceComputing.html
Roman Luštrik

1
มันอาจช่วยให้คุณแบ่งปันตัวอย่างของการวิเคราะห์ที่คุณต้องการทำและข้อมูลของคุณเป็นอย่างไร สถิติอย่างง่ายๆเช่นวิธีการหรือการถดถอยที่ซับซ้อน? ตัวแปร 200 ตัวมีค่าเป็นพันแถวหรือ 4 ตัวแปรและ 20 ล้านแถว?
PaulHurleyuk

1
หากคุณมีชุดข้อมูล "ใหญ่" จริง ๆ คุณอาจต้องดูฐานข้อมูลเชิงสัมพันธ์ จุดเริ่มต้นสำหรับสิ่งนี้อาจเป็นคู่มือ "การนำเข้า / ส่งออกข้อมูล R" ที่มาพร้อมกับ RNB คู่มือนี้ยังมีอยู่ในส่วน "คู่มือ" ของเว็บไซต์ R

1
ครั้งแรกคำถามสำคัญ: คุณหมายถึงอะไรขนาดใหญ่และคุณต้องการทำอะไร
Fomite

คำตอบ:


3

นี่คือโพสต์บล็อกสองสามรายการที่ฉันทำในหัวข้อชุดข้อมูลขนาดใหญ่ที่มีอาร์มีแพคเกจคู่เช่น ff และ bigmemory ที่ใช้ประโยชน์จากการแลกเปลี่ยนไฟล์และการจัดสรรหน่วยความจำ แพ็คเกจอื่นสองสามตัวใช้การเชื่อมต่อกับฐานข้อมูลเช่น sqldf, RMySQL และ RSQLite

R การอ้างอิงสำหรับการจัดการข้อมูลขนาดใหญ่

การถดถอยโลจิสติกข้อมูลขนาดใหญ่ใน R กับ ODBC

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.