ข้อ จำกัด ของหน่วยความจำของ R คืออะไร?


10

ในการตรวจสอบ“ แบบจำลองการพยากรณ์ที่ประยุกต์ใช้รัฐผู้ตรวจสอบ :

คำวิจารณ์อย่างหนึ่งที่ฉันมีเกี่ยวกับการเรียนการสอนเชิงสถิติ (SL) คือการขาดการพิจารณาประสิทธิภาพการคำนวณในการประเมินเทคนิคการสร้างแบบจำลองที่แตกต่างกัน ด้วยความมุ่งมั่นในการทำ bootstrapping และ cross-validation เพื่อปรับแต่ง / ทดสอบแบบจำลอง SL นั้นค่อนข้างใช้งานเชิงคำนวณ เพิ่มไปที่การสุ่มตัวอย่างใหม่ที่ฝังอยู่ในเทคนิคต่าง ๆ เช่นการบรรจุถุงและการเพิ่มระดับและคุณมีปีศาจแห่งการคำนวณสำหรับการเรียนรู้แบบกำกับดูแลของชุดข้อมูลขนาดใหญ่ ในความเป็นจริงข้อ จำกัด หน่วยความจำของ R กำหนดข้อ จำกัด ที่ค่อนข้างรุนแรงต่อขนาดของรุ่นที่สามารถปรับให้พอดีกับวิธีที่มีประสิทธิภาพสูงสุดเช่นฟอเรสต์แบบสุ่ม แม้ว่า SL จะทำการปรับเทียบประสิทธิภาพของแบบจำลองกับชุดข้อมูลขนาดเล็กได้ดี แต่ก็มั่นใจว่าจะเข้าใจประสิทธิภาพและค่าใช้จ่ายในการคำนวณสำหรับข้อมูลขนาดใหญ่

ข้อ จำกัด ของหน่วยความจำของ R คืออะไรและพวกเขากำหนดข้อ จำกัด ที่รุนแรงกับขนาดของแบบจำลองที่สามารถปรับให้เหมาะสมโดยวิธีการที่มีประสิทธิภาพสูงสุดเช่นป่าสุ่มหรือไม่


คำตอบ:


10

ดังที่ Konstantin ชี้ไปแล้ว R ทำการคำนวณทั้งหมดในหน่วยความจำของระบบเช่น RAM ดังนั้นความจุของแรมจึงเป็นข้อ จำกัด ที่สำคัญมากสำหรับการคำนวณการดำเนินการอย่างเข้มข้นในอาร์เอาชนะข้อ จำกัด นี้ข้อมูลจะถูกเก็บไว้ในระบบ HDFS ซึ่งข้อมูลจะไม่ถูกโหลดลงในหน่วยความจำและโปรแกรมจะทำงานแทนโปรแกรมจะไปที่ข้อมูล ทำการดำเนินการจึงเอาชนะข้อ จำกัด ของหน่วยความจำ RHadoop ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) เป็นตัวเชื่อมต่อที่คุณกำลังมองหา

มาถึงผลกระทบของอัลกอริธึมที่ใช้วิธีการคำนวณแบบเร่งรัดป่าสุ่ม / ต้นไม้ตัดสินใจ / วิธีการรวมกับข้อมูลจำนวนมาก (การสังเกตขั้นต่ำ 50,000 ครั้งในประสบการณ์ของฉัน) ใช้หน่วยความจำจำนวนมากและช้ามาก เพื่อเพิ่มความเร็วในการประมวลผลการขนานเป็นวิธีที่จะไปและการขนานจะมีอยู่ใน Hadoop! นั่นคือสิ่งที่ Hadoop มีประสิทธิภาพจริงๆ

ดังนั้นหากคุณกำลังมองหาวิธีการรวมกลุ่มที่ใช้การคำนวณอย่างเข้มข้นและช้าคุณจะต้องลองใช้ระบบ HDFS ที่ให้การปรับปรุงประสิทธิภาพอย่างมาก


1
+1 ขอบคุณที่สละเวลาเพื่อปรับปรุงคำตอบที่มีอยู่และในความเห็นของฉันคำตอบของคุณคือคำตอบที่ดีกว่าฉันได้เลือกคำตอบของคุณเป็นคำตอบ ไชโย!
ความผิดพลาด

ดีใจที่ได้ตอบ!
binga

8

R ทำการคำนวณในหน่วยความจำทั้งหมดดังนั้นคุณจึงไม่สามารถดำเนินการกับชุดข้อมูลที่มีขนาดใหญ่กว่าจำนวน RAM ที่มีอยู่ อย่างไรก็ตามมีบางไลบรารีที่อนุญาตการประมวลผลข้อมูลขนาดใหญ่โดยใช้ R และหนึ่งในห้องสมุดยอดนิยมสำหรับการประมวลผลข้อมูลขนาดใหญ่เช่น Hadoop


3

คำติชมนี้ไม่เป็นธรรมอีกต่อไป:

ในขณะที่เป็นจริงที่ไลบรารี R และมาตรฐานที่เป็นที่ยอมรับส่วนใหญ่นั้นถูก จำกัด การคำนวณในหน่วยความจำ แต่มีไลบรารีเฉพาะจำนวนมากขึ้นเพื่อจัดการกับข้อมูลที่ไม่พอดีกับหน่วยความจำ
ยกตัวอย่างเช่นป่าสุ่มชุดข้อมูลขนาดใหญ่, bigrfคุณมีห้องสมุด ข้อมูลเพิ่มเติมที่นี่: http://cran.r-project.org/web/packages/bigrf/

อีกด้านหนึ่งของการเติบโตคือการเชื่อมโยงของ R กับสภาพแวดล้อมข้อมูลขนาดใหญ่เช่น hadoop ซึ่งเปิดโลกแห่งความเป็นไปได้อื่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.