คำถามติดแท็ก hadoop

Hadoop เป็นโครงการโอเพนซอร์ส Apache ที่จัดหาซอฟต์แวร์สำหรับการประมวลผลแบบกระจายที่เชื่อถือได้และปรับขนาดได้ แกนกลางประกอบด้วยระบบไฟล์แบบกระจาย (HDFS) และตัวจัดการทรัพยากร (YARN) โครงการโอเพนซอร์สอื่น ๆ อีกมากมายเช่น Apache Hive ใช้ Apache Hadoop เป็นเลเยอร์การคงอยู่

21
Hadoop คำเตือน“ ไม่สามารถโหลดไลบรารี native-hadoop สำหรับแพลตฟอร์มของคุณ”
ฉันกำลังกำหนดค่า Hadoop บนเซิร์ฟเวอร์ที่ใช้CentOS เมื่อฉันเรียกใช้start-dfs.shหรือstop-dfs.shฉันได้รับข้อผิดพลาดต่อไปนี้: WARN util.NativeCodeLoader: ไม่สามารถโหลดไลบรารี native-hadoop สำหรับแพลตฟอร์มของคุณ ... โดยใช้คลาส builtin-java ในกรณีที่เกี่ยวข้อง ฉันใช้Hadoop 2.2.0 การค้นหาออนไลน์นำมาสู่ลิงก์นี้: http://balanceandbreath.blogspot.ca/2013/01/utilnativecodeloader-unable-to-load.html อย่างไรก็ตามเนื้อหาของ/native/ไดเรกทอรีบน hadoop 2.x ดูเหมือนจะแตกต่างกันดังนั้นฉันไม่แน่ใจว่าต้องทำอย่างไร ฉันได้เพิ่มตัวแปรสภาพแวดล้อมทั้งสองนี้ในhadoop-env.sh: ส่งออก HADOOP_OPTS = "$ HADOOP_OPTS -Djava.library.path = / usr / local / hadoop / lib /" ส่งออก HADOOP_COMMON_LIB_NATIVE_DIR = "/ usr / local / hadoop / lib / …

19
ความแตกต่างระหว่างหมูกับไฮฟ์? ทำไมถึงมีทั้งคู่? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ ภูมิหลังของฉัน - อายุ 4 สัปดาห์ในโลก Hadoop ตบเบา ๆ ใน Hive, Pig และ Hadoop โดยใช้ Hadoop VM ของ Cloudera อ่านกระดาษของ Google บน Map-Reduce และ GFS ( ลิงก์ PDF ) ฉันเข้าใจ- ภาษาของหมู Pig Latin เป็นการเปลี่ยนจาก (เหมาะสมกับวิธีที่โปรแกรมเมอร์คิด) SQL เช่นเดียวกับรูปแบบการประกาศของการเขียนโปรแกรมและภาษาแบบสอบถามของ Hive นั้นคล้ายกับ SQL หมูนั่งอยู่ด้านบนของ Hadoop และในหลักการก็สามารถนั่งบนนางดาด …
256 hadoop  hive  apache-pig 

8
Apache Spark: จำนวนคอร์เทียบกับจำนวนของผู้ปฏิบัติการ
ฉันพยายามที่จะเข้าใจความสัมพันธ์ของจำนวนคอร์และจำนวนผู้บริหารเมื่อทำการรันงาน Spark บน YARN สภาพแวดล้อมการทดสอบมีดังนี้: จำนวนโหนดข้อมูล: 3 ข้อมูลจำเพาะของเครื่องโหนดข้อมูล: CPU: Core i7-4790 (จำนวนแกน: 4, จำนวนเธรด: 8) RAM: 32GB (8GB x 4) HDD: 8TB (2TB x 4) เครือข่าย: 1Gb รุ่น Spark: 1.0.0 รุ่น Hadoop: 2.4.0 (Hortonworks HDP 2.1) Spark job flow: sc.textFile -> filter -> map -> filter -> mapToPair -> ลดByKey …

16
เมื่อใดที่จะใช้ Hadoop, HBase, Hive และ Pig?
ประโยชน์ของการใช้HadoopหรือHBaseหรือHiveคืออะไร จากความเข้าใจของฉันHBaseหลีกเลี่ยงการใช้แผนที่ลดและมีการจัดเก็บคอลัมน์ที่มุ่งเน้นด้านบนของ HDFS ไฮฟ์เป็นแบบ SQL อินเตอร์เฟซสำหรับHadoopและHBase ฉันต้องการทราบว่าHiveเปรียบเทียบกับPigอย่างไร
185 hadoop  hbase  hive  apache-pig 

15
จะปิดการบันทึกข้อมูลใน Spark ได้อย่างไร?
ฉันติดตั้ง Spark โดยใช้คู่มือ AWS EC2 และฉันสามารถเปิดใช้งานโปรแกรมได้อย่างดีโดยใช้bin/pysparkสคริปต์เพื่อไปที่จุดประกายประกายและยังสามารถทำ Quide Quick Start ได้สำเร็จ อย่างไรก็ตามฉันไม่สามารถใช้ชีวิตของฉันหาวิธีหยุดการบันทึก verbose ทั้งหมดINFOหลังจากแต่ละคำสั่ง ฉันได้ลองเกือบทุกสถานการณ์ที่เป็นไปได้ในรหัสด้านล่าง (ความเห็นออกการตั้งค่าปิด) ภายในlog4j.propertiesไฟล์ของฉันในconfโฟลเดอร์ที่ฉันเปิดแอปพลิเคชันจากเช่นเดียวกับในแต่ละโหนดและไม่มีอะไรทำอะไรเลย ฉันยังคงได้รับINFOข้อความสั่งพิมพ์หลังจากดำเนินการแต่ละคำสั่ง ฉันสับสนมากเกี่ยวกับวิธีการทำงานนี้ #Set everything to be logged to the console log4j.rootCategory=INFO, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO …

14
Spark - โหลดไฟล์ CSV เป็น DataFrame หรือไม่
ฉันต้องการอ่าน CSV อย่างรวดเร็วและแปลงเป็น DataFrame และเก็บไว้ใน HDFS ด้วย df.registerTempTable("table_name") ฉันเหนื่อย: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") ข้อผิดพลาดที่ฉันได้รับ: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at …

3
ข้อดีข้อเสียของรูปแบบไม้ปาร์เก้คืออะไรเมื่อเทียบกับรูปแบบอื่น ๆ ?
ลักษณะของ Apache Parquet คือ: Self-อธิบาย รูปแบบคอลัมน์ ภาษาอิสระ เมื่อเปรียบเทียบกับ Avro, Sequence Files, RC File เป็นต้นฉันต้องการภาพรวมของรูปแบบ ฉันได้อ่านแล้ว: วิธีที่ Impala ทำงานกับรูปแบบไฟล์ Hadoopจะให้ข้อมูลเชิงลึกเกี่ยวกับรูปแบบ แต่ฉันต้องการทราบว่าการเข้าถึงข้อมูลและการจัดเก็บข้อมูลทำได้อย่างไรในแต่ละรูปแบบเหล่านี้ ไม้ปาร์เก้มีข้อได้เปรียบเหนือคนอื่นอย่างไร?
137 file  hadoop  hdfs  avro  parquet 

8
วิธีคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ภายในเครื่อง
วิธีคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ภายในเครื่อง ไม่มีตำแหน่งทางกายภาพของไฟล์ภายใต้ไฟล์ไม่มีแม้แต่ไดเร็กทอรี ฉันจะย้ายพวกเขาไปยังพื้นที่ของฉันเพื่อตรวจสอบความถูกต้องเพิ่มเติมได้อย่างไรฉันกำลังพยายามผ่าน winscp
136 hadoop  copy  hdfs 

6
ความแตกต่างระหว่าง HBase และ Hadoop / HDFS
นี่เป็นคำถามที่ไร้เดียงสา แต่ฉันยังใหม่กับกระบวนทัศน์ NoSQL และไม่รู้มากเกี่ยวกับเรื่องนี้ ดังนั้นหากใครสามารถช่วยให้ฉันเข้าใจความแตกต่างระหว่าง HBase และ Hadoop ได้อย่างชัดเจนหรือให้คำชี้บางอย่างซึ่งอาจช่วยให้ฉันเข้าใจความแตกต่าง จนถึงตอนนี้ฉันได้ทำการค้นคว้าและทำตาม ตามความเข้าใจของฉัน Hadoop จัดเตรียมเฟรมเวิร์กเพื่อทำงานกับกลุ่มข้อมูลดิบ (ไฟล์) ใน HDFS และ HBase เป็นเอ็นจิ้นฐานข้อมูลที่อยู่เหนือ Hadoop ซึ่งโดยทั่วไปจะทำงานกับข้อมูลที่มีโครงสร้างแทนที่จะเป็นข้อมูลดิบ Hbase จัดเตรียมเลเยอร์ตรรกะบน HDFS เช่นเดียวกับ SQL ถูกต้องหรือไม่ กรุณาอย่าลังเลที่จะแก้ไขฉัน ขอบคุณ
130 hadoop  nosql  hbase  hdfs  difference 


13
การเชื่อมโยงงาน MapReduce หลายงานใน Hadoop
ในสถานการณ์จริงหลายอย่างที่คุณใช้ MapReduce อัลกอริทึมสุดท้ายจะจบลงด้วยขั้นตอน MapReduce หลายขั้นตอน เช่น Map1, Reduce1, Map2, Reduce2 และอื่น ๆ ดังนั้นคุณจึงมีผลลัพธ์จากการลดครั้งสุดท้ายที่จำเป็นเป็นอินพุตสำหรับแผนที่ถัดไป ข้อมูลระดับกลางเป็นสิ่งที่คุณ (โดยทั่วไป) ไม่ต้องการเก็บไว้เมื่อดำเนินการไปป์ไลน์สำเร็จแล้ว เนื่องจากข้อมูลระดับกลางนี้โดยทั่วไปแล้วโครงสร้างข้อมูลบางส่วน (เช่น 'แผนที่' หรือ 'ชุด') คุณจึงไม่ต้องการใช้ความพยายามมากเกินไปในการเขียนและอ่านคู่คีย์ - ค่าเหล่านี้ วิธีที่แนะนำใน Hadoop คืออะไร? มีตัวอย่าง (ง่ายๆ) ที่แสดงวิธีจัดการข้อมูลระดับกลางนี้ด้วยวิธีที่ถูกต้องรวมถึงการล้างข้อมูลในภายหลังหรือไม่?
124 hadoop  mapreduce 

9
โหนดชื่ออยู่ในเซฟโหมด ทิ้งไม่ได้
root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. ไม่สามารถสร้างอะไรใน hdfs ฉันทำ root# bin/hadoop fs -safemode leave แต่กำลังแสดง safemode: Unknown command อะไรคือปัญหา? สารละลาย
122 hadoop  hdfs 

6
บันทึกกระบวนการ Hadoop แบ่งตามขอบเขตบล็อกอย่างไร
ให้เป็นไปตาม Hadoop - The Definitive Guide บันทึกตรรกะที่ FileInputFormats กำหนดมักจะไม่พอดีกับบล็อก HDFS อย่างเรียบร้อย ตัวอย่างเช่นระเบียนตรรกะของ TextInputFormat คือเส้นซึ่งจะข้ามขอบเขต HDFS บ่อยกว่าไม่ สิ่งนี้ไม่มีผลต่อการทำงานของโปรแกรมของคุณเช่นเส้นไม่พลาดหรือขาด แต่ก็คุ้มค่าที่จะรู้เพราะมันหมายความว่า data-local maps (นั่นคือแผนที่ที่ทำงานบนโฮสต์เดียวกันกับ ข้อมูลอินพุต) จะทำการอ่านระยะไกลบางส่วน ค่าใช้จ่ายเล็กน้อยสาเหตุนี้ไม่สำคัญตามปกติ สมมติว่าเส้นบันทึกแบ่งเป็นสองช่วงตึก (b1 และ b2) ผู้ทำแผนที่ประมวลผลบล็อกแรก (b1) จะสังเกตว่าบรรทัดสุดท้ายไม่มีตัวคั่น EOL และดึงข้อมูลที่เหลือของบรรทัดจากบล็อกข้อมูลถัดไป (b2) ผู้ทำแผนที่ประมวลผลบล็อกที่สอง (b2) ได้อย่างไรว่าเร็กคอร์ดแรกไม่สมบูรณ์และควรดำเนินการโดยเริ่มจากเร็กคอร์ดที่สองในบล็อก (b2)
119 hadoop  split  mapreduce  block  hdfs 

9
วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?
ในการเขียนโปรแกรมแผนที่ลดระยะการลดจะมีการสับเรียงลำดับและลดเป็นส่วนย่อย การจัดเรียงเป็นเรื่องที่มีค่าใช้จ่ายสูง วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

18
ความแตกต่างระหว่างตารางภายในของ Hive และตารางภายนอก?
ใครช่วยบอกความแตกต่างระหว่างตารางภายนอกของ Hive กับตารางภายในได้ไหม ฉันรู้ว่าความแตกต่างเกิดขึ้นเมื่อวางโต๊ะ ฉันไม่เข้าใจความหมายของข้อมูลและข้อมูลเมตาถูกลบในข้อมูลเมตาภายในและมีเพียงข้อมูลเมตาเท่านั้นที่ถูกลบในตารางภายนอก ใครช่วยอธิบายฉันในแง่ของโหนดได้โปรด
110 hadoop  hive  hiveql 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.