การเขียนโปรแกรม mapreduce

9

Java8: HashMap <X, Y> ถึง HashMap <X, Z> โดยใช้ Stream / Map-Reduce / Collector

ฉันรู้วิธีการ "แปลง" Java ง่ายๆListจากY-> Zคือ: List<String> x; List<Integer> y = x.stream() .map(s -> Integer.parseInt(s)) .collect(Collectors.toList()); ตอนนี้ฉันต้องการทำแบบเดียวกันกับแผนที่กล่าวคือ: INPUT: { "key1" -> "41", // "41" and "42" "key2" -> "42 // are Strings } OUTPUT: { "key1" -> 41, // 41 and 42 "key2" -> 42 // are Integers } การแก้ปัญหาไม่ควรจะ จำกัด->String …

209 java mapreduce java-8 java-stream collectors

4

ตัวอย่าง MapReduce ที่ดี [ปิด]

ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการอภิปรายโต้แย้งโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันไม่สามารถนึกถึงตัวอย่างที่ดีอื่นใดนอกจากงาน "วิธีการนับคำในข้อความแบบยาวด้วย MapReduce" ฉันพบว่านี่ไม่ใช่ตัวอย่างที่ดีที่สุดที่จะให้ความประทับใจแก่ผู้อื่นว่าเครื่องมือนี้มีประสิทธิภาพเพียงใด ฉันไม่ได้มองหาตัวอย่างโค้ดเพียงแค่ตัวอย่างที่เป็นข้อความ

202 mapreduce

8

คำอธิบายง่ายๆของ MapReduce?

เกี่ยวข้องกับCouchDBของฉันคำถาม ใครสามารถอธิบาย MapReduce ในแง่ที่ numbnuts สามารถเข้าใจได้?

166 frameworks mapreduce glossary

3

แผนที่และลดใน. NET

สถานการณ์ใดบ้างที่รับประกันการใช้อัลกอริทึม" แผนที่และลดลง " มีการใช้. NET ของอัลกอริทึมนี้หรือไม่?

152 c# mapreduce

13

การเชื่อมโยงงาน MapReduce หลายงานใน Hadoop

ในสถานการณ์จริงหลายอย่างที่คุณใช้ MapReduce อัลกอริทึมสุดท้ายจะจบลงด้วยขั้นตอน MapReduce หลายขั้นตอน เช่น Map1, Reduce1, Map2, Reduce2 และอื่น ๆ ดังนั้นคุณจึงมีผลลัพธ์จากการลดครั้งสุดท้ายที่จำเป็นเป็นอินพุตสำหรับแผนที่ถัดไป ข้อมูลระดับกลางเป็นสิ่งที่คุณ (โดยทั่วไป) ไม่ต้องการเก็บไว้เมื่อดำเนินการไปป์ไลน์สำเร็จแล้ว เนื่องจากข้อมูลระดับกลางนี้โดยทั่วไปแล้วโครงสร้างข้อมูลบางส่วน (เช่น 'แผนที่' หรือ 'ชุด') คุณจึงไม่ต้องการใช้ความพยายามมากเกินไปในการเขียนและอ่านคู่คีย์ - ค่าเหล่านี้ วิธีที่แนะนำใน Hadoop คืออะไร? มีตัวอย่าง (ง่ายๆ) ที่แสดงวิธีจัดการข้อมูลระดับกลางนี้ด้วยวิธีที่ถูกต้องรวมถึงการล้างข้อมูลในภายหลังหรือไม่?

124 hadoop mapreduce

6

บันทึกกระบวนการ Hadoop แบ่งตามขอบเขตบล็อกอย่างไร

ให้เป็นไปตาม Hadoop - The Definitive Guide บันทึกตรรกะที่ FileInputFormats กำหนดมักจะไม่พอดีกับบล็อก HDFS อย่างเรียบร้อย ตัวอย่างเช่นระเบียนตรรกะของ TextInputFormat คือเส้นซึ่งจะข้ามขอบเขต HDFS บ่อยกว่าไม่ สิ่งนี้ไม่มีผลต่อการทำงานของโปรแกรมของคุณเช่นเส้นไม่พลาดหรือขาด แต่ก็คุ้มค่าที่จะรู้เพราะมันหมายความว่า data-local maps (นั่นคือแผนที่ที่ทำงานบนโฮสต์เดียวกันกับ ข้อมูลอินพุต) จะทำการอ่านระยะไกลบางส่วน ค่าใช้จ่ายเล็กน้อยสาเหตุนี้ไม่สำคัญตามปกติ สมมติว่าเส้นบันทึกแบ่งเป็นสองช่วงตึก (b1 และ b2) ผู้ทำแผนที่ประมวลผลบล็อกแรก (b1) จะสังเกตว่าบรรทัดสุดท้ายไม่มีตัวคั่น EOL และดึงข้อมูลที่เหลือของบรรทัดจากบล็อกข้อมูลถัดไป (b2) ผู้ทำแผนที่ประมวลผลบล็อกที่สอง (b2) ได้อย่างไรว่าเร็กคอร์ดแรกไม่สมบูรณ์และควรดำเนินการโดยเริ่มจากเร็กคอร์ดที่สองในบล็อก (b2)

119 hadoop split mapreduce block hdfs

9

วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

ในการเขียนโปรแกรมแผนที่ลดระยะการลดจะมีการสับเรียงลำดับและลดเป็นส่วนย่อย การจัดเรียงเป็นเรื่องที่มีค่าใช้จ่ายสูง วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

113 sorting hadoop mapreduce hdfs shuffle

4

อัลกอริทึมการจัดเรียง MapReduce ทำงานอย่างไร

หนึ่งในตัวอย่างที่หลักที่ใช้ในการแสดงให้เห็นถึงพลังของ MapReduce เป็นมาตรฐาน Terasort ฉันมีปัญหาในการทำความเข้าใจพื้นฐานของอัลกอริทึมการเรียงลำดับที่ใช้ในสภาพแวดล้อม MapReduce สำหรับฉันการเรียงลำดับเพียงแค่การกำหนดตำแหน่งสัมพัทธ์ขององค์ประกอบที่สัมพันธ์กับองค์ประกอบอื่น ๆ ทั้งหมด การเรียงลำดับจึงเกี่ยวข้องกับการเปรียบเทียบ "ทุกอย่าง" กับ "ทุกอย่าง" อัลกอริธึมการเรียงลำดับโดยเฉลี่ยของคุณ (ด่วนฟอง ... ) ทำสิ่งนี้ได้อย่างชาญฉลาด ในความคิดของฉันการแยกชุดข้อมูลออกเป็นหลาย ๆ ชิ้นหมายความว่าคุณสามารถจัดเรียงชิ้นส่วนเดียวได้จากนั้นคุณยังต้องรวมชิ้นส่วนเหล่านี้เข้ากับชุดข้อมูลที่จัดเรียงแบบ 'สมบูรณ์' ด้วยชุดข้อมูลเทราไบต์ที่กระจายอยู่ในระบบหลายพันระบบฉันคาดว่านี่จะเป็นงานที่ยิ่งใหญ่ แล้วสิ่งนี้ทำได้อย่างไร? อัลกอริทึมการจัดเรียง MapReduce นี้ทำงานอย่างไร ขอบคุณที่ช่วยให้ฉันเข้าใจ

110 algorithm sorting parallel-processing hadoop mapreduce

15

NET เทียบเท่ากับ Apache Hadoop หรือไม่ [ปิด]

ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ ดังนั้นฉันจึงมองHadoopด้วยความสนใจและพูดตามตรงว่าฉันหลงใหลสิ่งต่าง ๆ ไม่ได้เย็นลงมากนัก ปัญหาเล็กน้อยของฉันคือฉันเป็นนักพัฒนา C # และอยู่ใน Java มันไม่ใช่ว่าผมไม่เข้าใจ Java มากที่สุดเท่าที่ฉันมองหา Hadoop.net หรือ NHadoop หรือโครงการ .NET ที่โอบกอดGoogle MapReduceวิธี มีใครรู้บ้างไหม?

98 c# .net hadoop mapreduce

10

Apache spark ทำงานโดยไม่ใช้ hadoop ได้หรือไม่?

มีการพึ่งพาระหว่างSparkและHadoopหรือไม่? ถ้าไม่มีคุณสมบัติใดบ้างที่ฉันจะพลาดเมื่อเรียกใช้Sparkโดยไม่มีHadoop ?

93 hadoop amazon-s3 apache-spark mapreduce mesos

10

MongoDB's $ in clause รับประกันคำสั่งซื้อหรือไม่

เมื่อใช้$inประโยคของ MongoDB ลำดับของเอกสารที่ส่งคืนจะสอดคล้องกับลำดับของอาร์กิวเมนต์อาร์เรย์หรือไม่

90 mongodb mongoose mapreduce mongodb-query aggregation-framework

8

คอนเทนเนอร์ทำงานเกินขีด จำกัด หน่วยความจำ

ใน Hadoop v1 ฉันได้กำหนดตัวทำแผนที่และช่องตัวลดจำนวน 7 ช่องที่มีขนาด 1GB ตัวทำแผนที่และตัวลดขนาดของฉันทำงานได้ดี เครื่องของฉันมีหน่วยความจำ 8G โปรเซสเซอร์ 8 ตัว ตอนนี้ด้วย YARN เมื่อเรียกใช้แอปพลิเคชันเดียวกันบนเครื่องเดียวกันฉันได้รับข้อผิดพลาดเกี่ยวกับคอนเทนเนอร์ โดยค่าเริ่มต้นฉันมีการตั้งค่านี้: <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> มันทำให้ฉันมีข้อผิดพลาด: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB …

85 hadoop mapreduce yarn mrv2

7

แผนที่ / ลดคืออะไร?

ฉันได้ยินเกี่ยวกับแผนที่ / ลดจำนวนมากโดยเฉพาะอย่างยิ่งในบริบทของระบบประมวลผลคู่ขนานของ Google มันคืออะไรกันแน่?

84 language-agnostic mapreduce

คำถามติดแท็ก mapreduce