การเขียนโปรแกรม hdfs

14

Spark - โหลดไฟล์ CSV เป็น DataFrame หรือไม่

ฉันต้องการอ่าน CSV อย่างรวดเร็วและแปลงเป็น DataFrame และเก็บไว้ใน HDFS ด้วย df.registerTempTable("table_name") ฉันเหนื่อย: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") ข้อผิดพลาดที่ฉันได้รับ: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at scala.collection.parallel.mutable.ParArray$Map.leaf(ParArray.scala:658) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:54) at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:53) at …

142 scala apache-spark hadoop apache-spark-sql hdfs

3

ข้อดีข้อเสียของรูปแบบไม้ปาร์เก้คืออะไรเมื่อเทียบกับรูปแบบอื่น ๆ ?

ลักษณะของ Apache Parquet คือ: Self-อธิบาย รูปแบบคอลัมน์ ภาษาอิสระ เมื่อเปรียบเทียบกับ Avro, Sequence Files, RC File เป็นต้นฉันต้องการภาพรวมของรูปแบบ ฉันได้อ่านแล้ว: วิธีที่ Impala ทำงานกับรูปแบบไฟล์ Hadoopจะให้ข้อมูลเชิงลึกเกี่ยวกับรูปแบบ แต่ฉันต้องการทราบว่าการเข้าถึงข้อมูลและการจัดเก็บข้อมูลทำได้อย่างไรในแต่ละรูปแบบเหล่านี้ ไม้ปาร์เก้มีข้อได้เปรียบเหนือคนอื่นอย่างไร?

137 file hadoop hdfs avro parquet

8

วิธีคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ภายในเครื่อง

วิธีคัดลอกไฟล์จาก HDFS ไปยังระบบไฟล์ภายในเครื่อง ไม่มีตำแหน่งทางกายภาพของไฟล์ภายใต้ไฟล์ไม่มีแม้แต่ไดเร็กทอรี ฉันจะย้ายพวกเขาไปยังพื้นที่ของฉันเพื่อตรวจสอบความถูกต้องเพิ่มเติมได้อย่างไรฉันกำลังพยายามผ่าน winscp

136 hadoop copy hdfs

6

ความแตกต่างระหว่าง HBase และ Hadoop / HDFS

นี่เป็นคำถามที่ไร้เดียงสา แต่ฉันยังใหม่กับกระบวนทัศน์ NoSQL และไม่รู้มากเกี่ยวกับเรื่องนี้ ดังนั้นหากใครสามารถช่วยให้ฉันเข้าใจความแตกต่างระหว่าง HBase และ Hadoop ได้อย่างชัดเจนหรือให้คำชี้บางอย่างซึ่งอาจช่วยให้ฉันเข้าใจความแตกต่าง จนถึงตอนนี้ฉันได้ทำการค้นคว้าและทำตาม ตามความเข้าใจของฉัน Hadoop จัดเตรียมเฟรมเวิร์กเพื่อทำงานกับกลุ่มข้อมูลดิบ (ไฟล์) ใน HDFS และ HBase เป็นเอ็นจิ้นฐานข้อมูลที่อยู่เหนือ Hadoop ซึ่งโดยทั่วไปจะทำงานกับข้อมูลที่มีโครงสร้างแทนที่จะเป็นข้อมูลดิบ Hbase จัดเตรียมเลเยอร์ตรรกะบน HDFS เช่นเดียวกับ SQL ถูกต้องหรือไม่ กรุณาอย่าลังเลที่จะแก้ไขฉัน ขอบคุณ

130 hadoop nosql hbase hdfs difference

9

โหนดชื่ออยู่ในเซฟโหมด ทิ้งไม่ได้

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. ไม่สามารถสร้างอะไรใน hdfs ฉันทำ root# bin/hadoop fs -safemode leave แต่กำลังแสดง safemode: Unknown command อะไรคือปัญหา? สารละลาย

122 hadoop hdfs

6

บันทึกกระบวนการ Hadoop แบ่งตามขอบเขตบล็อกอย่างไร

ให้เป็นไปตาม Hadoop - The Definitive Guide บันทึกตรรกะที่ FileInputFormats กำหนดมักจะไม่พอดีกับบล็อก HDFS อย่างเรียบร้อย ตัวอย่างเช่นระเบียนตรรกะของ TextInputFormat คือเส้นซึ่งจะข้ามขอบเขต HDFS บ่อยกว่าไม่ สิ่งนี้ไม่มีผลต่อการทำงานของโปรแกรมของคุณเช่นเส้นไม่พลาดหรือขาด แต่ก็คุ้มค่าที่จะรู้เพราะมันหมายความว่า data-local maps (นั่นคือแผนที่ที่ทำงานบนโฮสต์เดียวกันกับ ข้อมูลอินพุต) จะทำการอ่านระยะไกลบางส่วน ค่าใช้จ่ายเล็กน้อยสาเหตุนี้ไม่สำคัญตามปกติ สมมติว่าเส้นบันทึกแบ่งเป็นสองช่วงตึก (b1 และ b2) ผู้ทำแผนที่ประมวลผลบล็อกแรก (b1) จะสังเกตว่าบรรทัดสุดท้ายไม่มีตัวคั่น EOL และดึงข้อมูลที่เหลือของบรรทัดจากบล็อกข้อมูลถัดไป (b2) ผู้ทำแผนที่ประมวลผลบล็อกที่สอง (b2) ได้อย่างไรว่าเร็กคอร์ดแรกไม่สมบูรณ์และควรดำเนินการโดยเริ่มจากเร็กคอร์ดที่สองในบล็อก (b2)

119 hadoop split mapreduce block hdfs

9

วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

ในการเขียนโปรแกรมแผนที่ลดระยะการลดจะมีการสับเรียงลำดับและลดเป็นส่วนย่อย การจัดเรียงเป็นเรื่องที่มีค่าใช้จ่ายสูง วัตถุประสงค์ของการสับและเรียงลำดับเฟสในตัวลดในแผนที่ลดการเขียนโปรแกรมคืออะไร?

113 sorting hadoop mapreduce hdfs shuffle

6

อะไรคือความแตกต่างระหว่างคำสั่งเชลล์“ hadoop fs” และคำสั่งเชลล์“ hdfs dfs”

พวกเขาควรจะเท่ากันหรือไม่? แต่ทำไมhadoop fsคำสั่ง "" แสดงhdfs fileswhile hdfs dfsคำสั่ง "" แสดงไฟล์ภายในเครื่อง? นี่คือข้อมูลรุ่น hadoop: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git: //ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r เรียบเรียงโดย jenkins เมื่อจันทร์ 22 เมษายน 10:48:26 PDT 2013

109 hadoop hdfs

10

วิธีตรวจสอบขนาดไดเร็กทอรี HDFS?

ฉันรู้จักdu -shในระบบไฟล์ Linux ทั่วไป แต่จะทำอย่างไรกับ HDFS?

101 hadoop command-line directory hdfs

คำถามติดแท็ก hdfs