ฉันจะนำเข้าไฟล์. csv ไปยัง pyspark dataframes ได้อย่างไร ฉันพยายามอ่านไฟล์ csv ใน Pandas แล้วแปลงเป็น spark dataframe โดยใช้ createDataFrame แต่ก็ยังแสดงข้อผิดพลาดอยู่ ใครสามารถแนะนำฉันผ่านสิ่งนี้? นอกจากนี้โปรดบอกฉันว่าฉันจะนำเข้าไฟล์ xlsx ได้อย่างไร ฉันกำลังพยายามที่จะนำเข้าเนื้อหา csv ลงในดาต้าดาต้าของ pandas จากนั้นแปลงเป็นเฟรมข้อมูลประกายไฟ แต่มันแสดงข้อผิดพลาด:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
รหัสของฉันคือ:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)