การเขียนโปรแกรม hadoop

4

อัลกอริทึมการจัดเรียง MapReduce ทำงานอย่างไร

หนึ่งในตัวอย่างที่หลักที่ใช้ในการแสดงให้เห็นถึงพลังของ MapReduce เป็นมาตรฐาน Terasort ฉันมีปัญหาในการทำความเข้าใจพื้นฐานของอัลกอริทึมการเรียงลำดับที่ใช้ในสภาพแวดล้อม MapReduce สำหรับฉันการเรียงลำดับเพียงแค่การกำหนดตำแหน่งสัมพัทธ์ขององค์ประกอบที่สัมพันธ์กับองค์ประกอบอื่น ๆ ทั้งหมด การเรียงลำดับจึงเกี่ยวข้องกับการเปรียบเทียบ "ทุกอย่าง" กับ "ทุกอย่าง" อัลกอริธึมการเรียงลำดับโดยเฉลี่ยของคุณ (ด่วนฟอง ... ) ทำสิ่งนี้ได้อย่างชาญฉลาด ในความคิดของฉันการแยกชุดข้อมูลออกเป็นหลาย ๆ ชิ้นหมายความว่าคุณสามารถจัดเรียงชิ้นส่วนเดียวได้จากนั้นคุณยังต้องรวมชิ้นส่วนเหล่านี้เข้ากับชุดข้อมูลที่จัดเรียงแบบ 'สมบูรณ์' ด้วยชุดข้อมูลเทราไบต์ที่กระจายอยู่ในระบบหลายพันระบบฉันคาดว่านี่จะเป็นงานที่ยิ่งใหญ่ แล้วสิ่งนี้ทำได้อย่างไร? อัลกอริทึมการจัดเรียง MapReduce นี้ทำงานอย่างไร ขอบคุณที่ช่วยให้ฉันเข้าใจ

110 algorithm sorting parallel-processing hadoop mapreduce

15

ไม่สามารถค้นหาไบนารีของ winutils ในเส้นทางไบนารี hadoop

ฉันได้รับข้อผิดพลาดต่อไปนี้ขณะเริ่มต้น Namenode สำหรับรุ่นล่าสุดของ hadoop-2.2 ฉันไม่พบไฟล์ winutils exe ในโฟลเดอร์ hadoop bin ฉันลองคำสั่งด้านล่าง $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) at …

109 hadoop

6

อะไรคือความแตกต่างระหว่างคำสั่งเชลล์“ hadoop fs” และคำสั่งเชลล์“ hdfs dfs”

พวกเขาควรจะเท่ากันหรือไม่? แต่ทำไมhadoop fsคำสั่ง "" แสดงhdfs fileswhile hdfs dfsคำสั่ง "" แสดงไฟล์ภายในเครื่อง? นี่คือข้อมูลรุ่น hadoop: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git: //ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r เรียบเรียงโดย jenkins เมื่อจันทร์ 22 เมษายน 10:48:26 PDT 2013

109 hadoop hdfs

10

วิธีตรวจสอบขนาดไดเร็กทอรี HDFS?

ฉันรู้จักdu -shในระบบไฟล์ Linux ทั่วไป แต่จะทำอย่างไรกับ HDFS?

101 hadoop command-line directory hdfs

15

NET เทียบเท่ากับ Apache Hadoop หรือไม่ [ปิด]

ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ ดังนั้นฉันจึงมองHadoopด้วยความสนใจและพูดตามตรงว่าฉันหลงใหลสิ่งต่าง ๆ ไม่ได้เย็นลงมากนัก ปัญหาเล็กน้อยของฉันคือฉันเป็นนักพัฒนา C # และอยู่ใน Java มันไม่ใช่ว่าผมไม่เข้าใจ Java มากที่สุดเท่าที่ฉันมองหา Hadoop.net หรือ NHadoop หรือโครงการ .NET ที่โอบกอดGoogle MapReduceวิธี มีใครรู้บ้างไหม?

98 c# .net hadoop mapreduce

18

hadoop ไม่มี FileSystem สำหรับแบบแผน: ไฟล์

ฉันพยายามเรียกใช้งานง่ายๆ NaiveBayesClassiferโดยใช้ hadoop รับข้อผิดพลาดนี้ Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175) at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100) รหัส: Configuration configuration = new Configuration(); NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// error in this line.. modelPath ชี้ไปที่ NaiveBayes.binไฟล์และวัตถุการกำหนดค่ากำลังพิมพ์ -Configuration: …

97 java hadoop io

10

Apache spark ทำงานโดยไม่ใช้ hadoop ได้หรือไม่?

มีการพึ่งพาระหว่างSparkและHadoopหรือไม่? ถ้าไม่มีคุณสมบัติใดบ้างที่ฉันจะพลาดเมื่อเรียกใช้Sparkโดยไม่มีHadoop ?

93 hadoop amazon-s3 apache-spark mapreduce mesos

7

Avro เทียบกับปาร์เก้

ฉันวางแผนที่จะใช้รูปแบบไฟล์ hadoop รูปแบบหนึ่งสำหรับโครงการที่เกี่ยวข้องกับ hadoop ของฉัน ฉันเข้าใจว่าไม้ปาร์เก้มีประสิทธิภาพสำหรับการสืบค้นตามคอลัมน์และ avro สำหรับการสแกนแบบเต็มหรือเมื่อเราต้องการข้อมูลคอลัมน์ทั้งหมด! ก่อนที่ฉันจะดำเนินการต่อและเลือกรูปแบบไฟล์ฉันต้องการทำความเข้าใจว่าอะไรคือข้อเสีย / ข้อเสียของรูปแบบอื่น ใครช่วยอธิบายให้เข้าใจง่ายๆหน่อย

92 hadoop avro parquet

28

เชื่อมต่อกับโฮสต์ localhost พอร์ต 22: การเชื่อมต่อถูกปฏิเสธ

ขณะติดตั้ง hadoop ในเครื่องของฉันฉันได้รับข้อผิดพลาดดังต่อไปนี้ ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost [127.0.0.1] port 22. debug1: connect to address 127.0.0.1 port 22: Connection refused ssh: connect to host localhost port 22: Connection …

90 linux hadoop ssh

25

จะทราบเวอร์ชัน Hive และ Hadoop จาก command prompt ได้อย่างไร?

ฉันจะค้นหาเวอร์ชัน Hive ที่ฉันใช้จากพรอมต์คำสั่งได้อย่างไร ด้านล่างนี้คือรายละเอียด - ฉันใช้ Putty เพื่อเชื่อมต่อกับตารางไฮฟ์และเข้าถึงเรกคอร์ดในตาราง ดังนั้นสิ่งที่ผมทำผมเปิดล์สีโป๊วและชื่อโฮสต์ฉัน typed- แล้วฉันคลิกleo-ingesting.vip.name.com Openจากนั้นฉันก็ป้อนชื่อผู้ใช้และรหัสผ่านของฉันจากนั้นคำสั่งสองสามคำสั่งเพื่อไปที่ Hive sql ด้านล่างนี้คือรายการสิ่งที่ฉันทำ $ bash bash-3.00$ hive Hive history file=/tmp/rkost/hive_job_log_rkost_201207010451_1212680168.txt hive> set mapred.job.queue.name=hdmi-technology; hive> select * from table LIMIT 1; มีวิธีใดบ้างจากพรอมต์คำสั่งที่ฉันสามารถค้นหาเวอร์ชันรังที่ฉันใช้และเวอร์ชัน Hadoop ด้วย

89 hadoop hive

5

ปาร์เก้กับ ORC เทียบกับ ORC ด้วย Snappy

ฉันกำลังทำการทดสอบรูปแบบการจัดเก็บข้อมูลที่มีอยู่ใน Hive และใช้ Parquet และ ORC เป็นตัวเลือกหลัก ฉันรวม ORC หนึ่งครั้งด้วยการบีบอัดเริ่มต้นและอีกครั้งกับ Snappy ฉันได้อ่านเอกสารหลายฉบับที่ระบุว่าปาร์เก้มีความซับซ้อนด้านเวลา / พื้นที่ดีกว่าเมื่อเทียบกับ ORC แต่การทดสอบของฉันตรงข้ามกับเอกสารที่ฉันทำ ติดตามรายละเอียดข้อมูลของฉัน Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB ปาร์เก้แย่ที่สุดเท่าที่การบีบอัดสำหรับโต๊ะของฉันเกี่ยวข้อง การทดสอบของฉันกับตารางด้านบนให้ผลลัพธ์ดังต่อไปนี้ การดำเนินการนับแถว Text Format Cumulative …

88 hadoop hive parquet snappy orc

8

คอนเทนเนอร์ทำงานเกินขีด จำกัด หน่วยความจำ

ใน Hadoop v1 ฉันได้กำหนดตัวทำแผนที่และช่องตัวลดจำนวน 7 ช่องที่มีขนาด 1GB ตัวทำแผนที่และตัวลดขนาดของฉันทำงานได้ดี เครื่องของฉันมีหน่วยความจำ 8G โปรเซสเซอร์ 8 ตัว ตอนนี้ด้วย YARN เมื่อเรียกใช้แอปพลิเคชันเดียวกันบนเครื่องเดียวกันฉันได้รับข้อผิดพลาดเกี่ยวกับคอนเทนเนอร์ โดยค่าเริ่มต้นฉันมีการตั้งค่านี้: <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> มันทำให้ฉันมีข้อผิดพลาด: Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB …

85 hadoop mapreduce yarn mrv2

3

การประมวลผลข้อมูลขนาดใหญ่ Hbase เทียบกับ Cassandra [ปิด]

ตามที่กล่าวมาในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบถาม & ตอบของเรา เราคาดหวังว่าคำตอบจะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจก่อให้เกิดการถกเถียงโต้แย้งการสำรวจความคิดเห็นหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงได้และอาจเปิดขึ้นมาใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อรับคำแนะนำ ปิดให้บริการใน8 ปีที่ผ่านมา ฉันเกือบจะถึงที่ Cassandra หลังจากค้นคว้าเกี่ยวกับโซลูชันการจัดเก็บข้อมูลขนาดใหญ่ แต่โดยทั่วไปกล่าวว่า Hbase เป็นทางออกที่ดีกว่าสำหรับการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ ในขณะที่ทั้งสองเป็นที่เก็บคีย์ / ค่าเดียวกันและทั้งคู่ / สามารถรันได้ (Cassandra เมื่อเร็ว ๆ นี้) เลเยอร์ Hadoop สิ่งที่ทำให้ Hadoop เป็นผู้สมัครที่ดีกว่าเมื่อต้องประมวลผล / วิเคราะห์ข้อมูลขนาดใหญ่ ฉันยังพบรายละเอียดที่ดีเกี่ยวกับทั้งสองอย่างที่ http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/ แต่ฉันยังคงมองหาข้อดีที่เป็นรูปธรรมของ Hbase ในขณะที่ฉันเชื่อมั่นมากขึ้นเกี่ยวกับ Cassandra เพราะความเรียบง่ายในการเพิ่มโหนดและการจำลองแบบที่ราบรื่นและไม่มีจุดบกพร่อง และยังคงคุณสมบัติดัชนีทุติยภูมิเพื่อให้เป็นบวกที่ดี

84 nosql hadoop cassandra hbase data-processing

คำถามติดแท็ก hadoop