นี่คือเจ็ดขั้นตอนในการติดตั้ง spark บน windows 10 และเรียกใช้จาก python:
ขั้นตอนที่ 1: ดาวน์โหลดประกาย 2.2.0 น้ำมันดิน (เทป Archive) GZ ไปยังโฟลเดอร์ใด ๆ F จากลิงค์นี้ - https://spark.apache.org/downloads.html แตกไฟล์และคัดลอกโฟลเดอร์ที่คลายซิปไปยังโฟลเดอร์ที่ต้องการ A เปลี่ยนชื่อโฟลเดอร์ spark-2.2.0-bin-hadoop2.7 เพื่อจุดประกาย
ให้พา ธ ไปยังโฟลเดอร์ spark เป็น C: \ Users \ Desktop \ A \ spark
ขั้นตอนที่ 2: ดาวน์โหลดไฟล์ hardoop 2.7.3 tar gz ไปยังโฟลเดอร์ F เดียวกันจากลิงค์นี้ - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . แตกไฟล์และคัดลอกโฟลเดอร์ที่คลายซิปไปยังโฟลเดอร์เดียวกัน A เปลี่ยนชื่อโฟลเดอร์จาก Hadoop-2.7.3.tar เป็น hadoop ให้พา ธ ไปยังโฟลเดอร์ hadoop เป็น C: \ Users \ Desktop \ A \ hadoop
ขั้นตอนที่ 3: สร้างไฟล์ข้อความ notepad ใหม่ บันทึกไฟล์ notepad ที่ว่างเปล่านี้เป็น winutils.exe (ด้วย Save as type: All files) คัดลอกไฟล์ O KB winutils.exe นี้ไปยังโฟลเดอร์ bin ของคุณใน spark - C: \ Users \ Desktop \ A \ spark \ bin
ขั้นตอนที่ 4: ตอนนี้เราต้องเพิ่มโฟลเดอร์เหล่านี้ในสภาพแวดล้อมของระบบ
4a: สร้างตัวแปรระบบ (ไม่ใช่ตัวแปรผู้ใช้เนื่องจากตัวแปรผู้ใช้จะสืบทอดคุณสมบัติทั้งหมดของตัวแปรระบบ) ชื่อตัวแปร: SPARK_HOME ค่าตัวแปร: C: \ Users \ Desktop \ A \ spark
ค้นหาตัวแปรระบบเส้นทางและคลิกแก้ไข คุณจะเห็นหลายเส้นทาง อย่าลบเส้นทางใด ๆ เพิ่มค่าตัวแปรนี้ -; C: \ Users \ Desktop \ A \ spark \ bin
4b: สร้างตัวแปรระบบ
ชื่อตัวแปร: HADOOP_HOME ค่าตัวแปร: C: \ Users \ Desktop \ A \ hadoop
ค้นหาตัวแปรระบบเส้นทางและคลิกแก้ไข เพิ่มค่าตัวแปรนี้ -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: สร้างตัวแปรระบบชื่อตัวแปร: JAVA_HOME ค้นหา Java ใน windows คลิกขวาและคลิกเปิดตำแหน่งไฟล์ คุณจะต้องคลิกขวาที่ไฟล์ java ไฟล์ใดไฟล์หนึ่งและคลิกที่ตำแหน่งไฟล์ที่เปิด คุณจะใช้เส้นทางของโฟลเดอร์นี้ หรือคุณสามารถค้นหา C: \ Program Files \ Java เวอร์ชัน Java ของฉันที่ติดตั้งบนระบบคือ jre1.8.0_131 ค่าตัวแปร: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
ค้นหาตัวแปรระบบเส้นทางและคลิกแก้ไข เพิ่มค่าตัวแปรนี้ -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
ขั้นตอนที่ 5: เปิดพรอมต์คำสั่งและไปที่โฟลเดอร์ถังขยะ (พิมพ์ cd C: \ Users \ Desktop \ A \ spark \ bin) พิมพ์ spark-shell
C:\Users\Desktop\A\spark\bin>spark-shell
อาจต้องใช้เวลาและให้คำเตือนบ้าง ในที่สุดก็จะแสดงยินดีต้อนรับสู่ spark เวอร์ชัน 2.2.0
ขั้นตอนที่ 6: พิมพ์ exit () หรือรีสตาร์ทพร้อมรับคำสั่งแล้วไปที่โฟลเดอร์ spark bin อีกครั้ง พิมพ์ pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
มันจะแสดงคำเตือนและข้อผิดพลาดบางอย่าง แต่ไม่ต้องสนใจ มันได้ผล.
ขั้นตอนที่ 7: การดาวน์โหลดของคุณเสร็จสมบูรณ์ หากคุณต้องการเรียกใช้ spark โดยตรงจาก python shell ให้ไปที่ Scripts ในโฟลเดอร์ python ของคุณแล้วพิมพ์
pip install findspark
ในพรอมต์คำสั่ง
ในไพ ธ อนเชลล์
import findspark
findspark.init()
นำเข้าโมดูลที่จำเป็น
from pyspark import SparkContext
from pyspark import SparkConf
หากคุณต้องการข้ามขั้นตอนในการนำเข้า findspark และเริ่มต้นโปรดปฏิบัติตามขั้นตอนที่ระบุใน
การนำเข้า pyspark ใน python shell