ใครใช้ R กับแพ็คเกจ multicore, SNOW หรือ CUDA สำหรับการคำนวณที่เข้มข้นของทรัพยากร


16

ใครของคุณในฟอรัมนี้ใช้ "> R กับmulticore , snow packages หรือCUDAดังนั้นสำหรับการคำนวณขั้นสูงที่ต้องใช้พลังงานมากกว่า CPU แบบเวิร์กสเตชัน? คุณใช้คอมพิวเตอร์เครื่องไหนในการคำนวณสคริปต์เหล่านี้ที่บ้าน / ที่ทำงานหรือคุณมี เข้าถึงศูนย์ข้อมูลได้ที่ไหน?

พื้นหลังของคำถามเหล่านี้มีดังต่อไปนี้: ฉันกำลังเขียน วท.ม. วิทยานิพนธ์เกี่ยวกับ R และการคำนวณที่มีประสิทธิภาพสูงและต้องการความรู้อย่างมากเกี่ยวกับผู้ที่ใช้อาร์จริงฉันอ่านว่า R มีผู้ใช้ 1 ล้านคนในปี 2008 แต่นั่นเป็นสถิติผู้ใช้เพียงอย่างเดียวที่ฉันสามารถหาได้ในหัวข้อนี้ คำตอบ!

ขอแสดงความนับถือเฮ็น


ผลอาจคำถามที่เกี่ยวข้อง, stats.stackexchange.com/questions/825/...
chl

สำเนาซ้ำกันของstat.ethz.ch/pipermail/r-help/2010-November/259921.html
Joshua Ulrich

คำตอบ:


6

ฉันเป็นนักชีววิทยาที่เป็นแบบจำลองผลกระทบของการเปลี่ยนแปลงสภาพภูมิอากาศระหว่างปีต่อการเปลี่ยนแปลงประชากรของเผ่าพันธุ์ต่างถิ่น ชุดข้อมูลของฉันมีขนาดใหญ่มาก (มีการกระจายข้อมูลแบบกระจาย) ดังนั้นฉันจึงเรียกใช้รหัส R ของฉันโดยใช้multicoreกับเซิร์ฟเวอร์ Amazon EC2 หากงานของฉันมีทรัพยากรมากเป็นพิเศษฉันจะเลือกอินสแตนซ์ High Memory Quadruple Extra Large ที่มาพร้อมกับ CPU 26 หน่วย, 8 คอร์และ 68G ของ RAM ในกรณีนี้ฉันมักจะเรียกใช้สคริปต์ 4-6 พร้อมกันซึ่งแต่ละอันทำงานผ่านชุดข้อมูลขนาดใหญ่พอสมควร สำหรับงานขนาดเล็กฉันเลือกเซิร์ฟเวอร์ที่มี 4-6 คอร์และ RAM ประมาณ 20 กิกะไบต์

ฉันเปิดใช้งานอินสแตนซ์เหล่านี้ (มักจะพบเห็นอินสแตนซ์เนื่องจากราคาถูกกว่า แต่สามารถยกเลิกได้ทุกเมื่อที่อัตราปัจจุบันเกินกว่าที่ฉันเลือกจ่าย) เรียกใช้สคริปต์เป็นเวลาหลายชั่วโมงจากนั้นยกเลิกอินสแตนซ์เมื่อสคริปต์ของฉันเสร็จ สำหรับอิมเมจของเครื่อง (อิมเมจ Machine Machine ของ Amazon) ฉันเอาคนอื่นมาติดตั้ง Ubuntu อัปเดต R ติดตั้งแพ็กเกจและบันทึกเป็น AMI ส่วนตัวของฉันบนพื้นที่เก็บข้อมูล S3 ของฉัน

เครื่องส่วนตัวของฉันเป็น macbook dualcore มืออาชีพและมีปัญหาในการรับสายหลายคอร์ อย่าลังเลที่จะส่งอีเมลหากคุณมีคำถามอื่น ๆ


คุณช่วยบอกได้ไหมว่าชุดข้อมูลของคุณมีขนาดเท่าใด
suncoolsu

แน่ใจ ชุดข้อมูลที่ฉันทำงานอยู่ในขณะนี้คือ ~ 14 gigs
Maiasaura

4

เมื่อคุณถามฉันใช้แพ็คเกจforeachกับmulticore backend ฉันใช้มันเพื่อแบ่งเวิร์กโหลดแบบขนานที่น่าอับอายในหลายคอร์ในกล่อง Nehalem เดียวที่มี RAM จำนวนมาก วิธีนี้ใช้ได้ผลดีสำหรับงานที่ทำ


ขอบคุณสำหรับคำตอบ! คุณทำการคำนวณเพื่อการทำงาน / การวิจัยทางวิชาการหรือสำหรับโครงการของตัวเองบนพีซีของตัวเองหรือไม่?
เฮ็น

สิ่งนี้ทำในการตั้งค่าเชิงพาณิชย์ สำหรับงานนี้ฉันใช้กล่อง Intel ตัวเดียวที่มี RAM ขนาด 32GB และดิสก์ RAIDed (ปัญหาหลักคือข้อมูลจำนวนมากในขณะที่การประมวลผลเองนั้นไม่ต้องการการคำนวณมาก)
NPE

เอาล่ะ @aix คุณทำการคำนวณเหล่านี้บ่อยแค่ไหน คุณเปิดกล่องตลอดทั้งวันหรือมากกว่านั้นหรือไม่?
เฮ็น

คำถามด่วนถึง @NPE: คุณเก็บข้อมูลไว้ในระบบใด คุณใช้ฐานข้อมูลแบ็คเอนด์หรือไม่
nassimhddd

3

ฉันทำงานในสถาบันการศึกษาและฉันใช้มัลติคอร์เพื่อเป็นเกณฑ์มาตรฐานขนาดใหญ่ของอัลกอริทึมการเรียนรู้ของเครื่องจักรส่วนใหญ่อยู่ที่ Sun Constellation ของ Opteron และกลุ่มเล็ก ๆ บางกลุ่ม ปัญหาเหล่านี้ค่อนข้างเป็นปัญหาคู่ขนานที่น่าอับอายดังนั้นบทบาทหลักของมัลติคอร์คือการกระจายการคำนวณบนโหนดโดยไม่ต้องคูณการใช้หน่วยความจำ


พวกเราที่นี่ในฮัมบูร์กมักจะมีปัญหาว่าเวลารอคอยสำหรับศูนย์ข้อมูลทางวิชาการนั้นนานมาก มันเหมือนกันสำหรับคุณ?
เฮ็น

@Heinrich ฉันทำงานให้กับศูนย์ข้อมูลทางวิชาการหลายแห่งดังนั้นฉันจึงไม่มีปัญหาดังกล่าว (-; อย่างจริงจังในวอร์ซอเวลาจัดหา CPU เชิงวิทยาศาสตร์มีขนาดใหญ่กว่าความต้องการดังนั้นฉันเชื่อว่ามันค่อนข้างง่ายที่จะได้รับสิทธิ์และ ฉันคิดว่าคุณควรลอง D-Grid หรือ EGEE ประสบการณ์ของฉันคือกริดโดยทั่วไปมีการใช้งานน้อยมาก

โอ้ นั่นน่าสนใจ. คุณรู้ได้อย่างไรว่าธุรกิจประเภทใดที่ R ใช้ในการขยายธุรกิจ
เฮ็น

2

ฉันใช้หิมะและหิมะตกสำหรับการทำให้ขนานของหลักสูตรบน HPC clusters และ CUDA สำหรับการประมวลผลข้อมูลแบบขนานที่ดี ฉันอยู่ที่ระบาดวิทยากำลังทำการสร้างแบบจำลองการแพร่กระจายของโรค ดังนั้นฉันจึงใช้ทั้งสองอย่าง


ขอบคุณสำหรับข้อมูลของคุณ คุณหมายถึงอะไรกับการขนานของหลักสูตร?
เฮ็น

การทำให้ขนานกันของรายวิชาจะเป็นสิ่งที่เหมือนกับการรันอิสระของการเปลี่ยนแปลง MCMC เช่น chucks ขนาดใหญ่มากที่สามารถวิ่งในแบบคู่ขนานโดยไม่ต้องซิงค์เธรด ตัวอย่างของเกรนละเอียดคำนวณความน่าจะเป็นที่สามารถทำการคำนวณบนจุดข้อมูลได้อย่างอิสระ
Andrew Redd
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.