คำถามติดแท็ก mapreduce

MapReduce เป็นอัลกอริทึมสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่สำหรับปัญหาที่กระจายได้บางประเภทโดยใช้โหนดจำนวนมาก

9
Java8: HashMap <X, Y> ถึง HashMap <X, Z> โดยใช้ Stream / Map-Reduce / Collector
ฉันรู้วิธีการ "แปลง" Java ง่ายๆListจากY-&gt; Zคือ: List&lt;String&gt; x; List&lt;Integer&gt; y = x.stream() .map(s -&gt; Integer.parseInt(s)) .collect(Collectors.toList()); ตอนนี้ฉันต้องการทำแบบเดียวกันกับแผนที่กล่าวคือ: INPUT: { "key1" -&gt; "41", // "41" and "42" "key2" -&gt; "42 // are Strings } OUTPUT: { "key1" -&gt; 41, // 41 and 42 "key2" -&gt; 42 // are Integers } การแก้ปัญหาไม่ควรจะ จำกัด-&gt;String …

4
ตัวอย่าง MapReduce ที่ดี [ปิด]
ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม &amp; คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการอภิปรายโต้แย้งโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน7 ปีที่ผ่านมา ฉันไม่สามารถนึกถึงตัวอย่างที่ดีอื่นใดนอกจากงาน "วิธีการนับคำในข้อความแบบยาวด้วย MapReduce" ฉันพบว่านี่ไม่ใช่ตัวอย่างที่ดีที่สุดที่จะให้ความประทับใจแก่ผู้อื่นว่าเครื่องมือนี้มีประสิทธิภาพเพียงใด ฉันไม่ได้มองหาตัวอย่างโค้ดเพียงแค่ตัวอย่างที่เป็นข้อความ
202 mapreduce 


3
แผนที่และลดใน. NET
สถานการณ์ใดบ้างที่รับประกันการใช้อัลกอริทึม" แผนที่และลดลง " มีการใช้. NET ของอัลกอริทึมนี้หรือไม่?
152 c#  mapreduce 

13
การเชื่อมโยงงาน MapReduce หลายงานใน Hadoop
ในสถานการณ์จริงหลายอย่างที่คุณใช้ MapReduce อัลกอริทึมสุดท้ายจะจบลงด้วยขั้นตอน MapReduce หลายขั้นตอน เช่น Map1, Reduce1, Map2, Reduce2 และอื่น ๆ ดังนั้นคุณจึงมีผลลัพธ์จากการลดครั้งสุดท้ายที่จำเป็นเป็นอินพุตสำหรับแผนที่ถัดไป ข้อมูลระดับกลางเป็นสิ่งที่คุณ (โดยทั่วไป) ไม่ต้องการเก็บไว้เมื่อดำเนินการไปป์ไลน์สำเร็จแล้ว เนื่องจากข้อมูลระดับกลางนี้โดยทั่วไปแล้วโครงสร้างข้อมูลบางส่วน (เช่น 'แผนที่' หรือ 'ชุด') คุณจึงไม่ต้องการใช้ความพยายามมากเกินไปในการเขียนและอ่านคู่คีย์ - ค่าเหล่านี้ วิธีที่แนะนำใน Hadoop คืออะไร? มีตัวอย่าง (ง่ายๆ) ที่แสดงวิธีจัดการข้อมูลระดับกลางนี้ด้วยวิธีที่ถูกต้องรวมถึงการล้างข้อมูลในภายหลังหรือไม่?
124 hadoop  mapreduce 

6
บันทึกกระบวนการ Hadoop แบ่งตามขอบเขตบล็อกอย่างไร
ให้เป็นไปตาม Hadoop - The Definitive Guide บันทึกตรรกะที่ FileInputFormats กำหนดมักจะไม่พอดีกับบล็อก HDFS อย่างเรียบร้อย ตัวอย่างเช่นระเบียนตรรกะของ TextInputFormat คือเส้นซึ่งจะข้ามขอบเขต HDFS บ่อยกว่าไม่ สิ่งนี้ไม่มีผลต่อการทำงานของโปรแกรมของคุณเช่นเส้นไม่พลาดหรือขาด แต่ก็คุ้มค่าที่จะรู้เพราะมันหมายความว่า data-local maps (นั่นคือแผนที่ที่ทำงานบนโฮสต์เดียวกันกับ ข้อมูลอินพุต) จะทำการอ่านระยะไกลบางส่วน ค่าใช้จ่ายเล็กน้อยสาเหตุนี้ไม่สำคัญตามปกติ สมมติว่าเส้นบันทึกแบ่งเป็นสองช่วงตึก (b1 และ b2) ผู้ทำแผนที่ประมวลผลบล็อกแรก (b1) จะสังเกตว่าบรรทัดสุดท้ายไม่มีตัวคั่น EOL และดึงข้อมูลที่เหลือของบรรทัดจากบล็อกข้อมูลถัดไป (b2) ผู้ทำแผนที่ประมวลผลบล็อกที่สอง (b2) ได้อย่างไรว่าเร็กคอร์ดแรกไม่สมบูรณ์และควรดำเนินการโดยเริ่มจากเร็กคอร์ดที่สองในบล็อก (b2)
119 hadoop  split  mapreduce  block  hdfs 

9
วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?
ในการเขียนโปรแกรมแผนที่ลดระยะการลดจะมีการสับเรียงลำดับและลดเป็นส่วนย่อย การจัดเรียงเป็นเรื่องที่มีค่าใช้จ่ายสูง วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

4
อัลกอริทึมการจัดเรียง MapReduce ทำงานอย่างไร
หนึ่งในตัวอย่างที่หลักที่ใช้ในการแสดงให้เห็นถึงพลังของ MapReduce เป็นมาตรฐาน Terasort ฉันมีปัญหาในการทำความเข้าใจพื้นฐานของอัลกอริทึมการเรียงลำดับที่ใช้ในสภาพแวดล้อม MapReduce สำหรับฉันการเรียงลำดับเพียงแค่การกำหนดตำแหน่งสัมพัทธ์ขององค์ประกอบที่สัมพันธ์กับองค์ประกอบอื่น ๆ ทั้งหมด การเรียงลำดับจึงเกี่ยวข้องกับการเปรียบเทียบ "ทุกอย่าง" กับ "ทุกอย่าง" อัลกอริธึมการเรียงลำดับโดยเฉลี่ยของคุณ (ด่วนฟอง ... ) ทำสิ่งนี้ได้อย่างชาญฉลาด ในความคิดของฉันการแยกชุดข้อมูลออกเป็นหลาย ๆ ชิ้นหมายความว่าคุณสามารถจัดเรียงชิ้นส่วนเดียวได้จากนั้นคุณยังต้องรวมชิ้นส่วนเหล่านี้เข้ากับชุดข้อมูลที่จัดเรียงแบบ 'สมบูรณ์' ด้วยชุดข้อมูลเทราไบต์ที่กระจายอยู่ในระบบหลายพันระบบฉันคาดว่านี่จะเป็นงานที่ยิ่งใหญ่ แล้วสิ่งนี้ทำได้อย่างไร? อัลกอริทึมการจัดเรียง MapReduce นี้ทำงานอย่างไร ขอบคุณที่ช่วยให้ฉันเข้าใจ

15
NET เทียบเท่ากับ Apache Hadoop หรือไม่ [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ ดังนั้นฉันจึงมองHadoopด้วยความสนใจและพูดตามตรงว่าฉันหลงใหลสิ่งต่าง ๆ ไม่ได้เย็นลงมากนัก ปัญหาเล็กน้อยของฉันคือฉันเป็นนักพัฒนา C # และอยู่ใน Java มันไม่ใช่ว่าผมไม่เข้าใจ Java มากที่สุดเท่าที่ฉันมองหา Hadoop.net หรือ NHadoop หรือโครงการ .NET ที่โอบกอดGoogle MapReduceวิธี มีใครรู้บ้างไหม?
98 c#  .net  hadoop  mapreduce 



8
คอนเทนเนอร์ทำงานเกินขีด จำกัด หน่วยความจำ
ใน Hadoop v1 ฉันได้กำหนดตัวทำแผนที่และช่องตัวลดจำนวน 7 ช่องที่มีขนาด 1GB ตัวทำแผนที่และตัวลดขนาดของฉันทำงานได้ดี เครื่องของฉันมีหน่วยความจำ 8G โปรเซสเซอร์ 8 ตัว ตอนนี้ด้วย YARN เมื่อเรียกใช้แอปพลิเคชันเดียวกันบนเครื่องเดียวกันฉันได้รับข้อผิดพลาดเกี่ยวกับคอนเทนเนอร์ โดยค่าเริ่มต้นฉันมีการตั้งค่านี้: &lt;property&gt; &lt;name&gt;yarn.scheduler.minimum-allocation-mb&lt;/name&gt; &lt;value&gt;1024&lt;/value&gt; &lt;/property&gt; &lt;property&gt; &lt;name&gt;yarn.scheduler.maximum-allocation-mb&lt;/name&gt; &lt;value&gt;8192&lt;/value&gt; &lt;/property&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.resource.memory-mb&lt;/name&gt; &lt;value&gt;8192&lt;/value&gt; &lt;/property&gt; มันทำให้ฉันมีข้อผิดพลาด: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB …
85 hadoop  mapreduce  yarn  mrv2 

7
แผนที่ / ลดคืออะไร?
ฉันได้ยินเกี่ยวกับแผนที่ / ลดจำนวนมากโดยเฉพาะอย่างยิ่งในบริบทของระบบประมวลผลคู่ขนานของ Google มันคืออะไรกันแน่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.