การเขียนโปรแกรม delta-lake

Apache Spark: ผลกระทบของการแบ่งพาร์ติชันใหม่การเรียงลำดับและการแคชกับการเข้าร่วม

ฉันกำลังสำรวจพฤติกรรมของ Spark เมื่อเข้าร่วมโต๊ะกับตัวเอง ฉันกำลังใช้ Databricks สถานการณ์จำลองของฉันคือ: อ่านตารางภายนอกเป็น dataframe A (ไฟล์อ้างอิงอยู่ในรูปแบบของเดลต้า) กำหนด dataframe B เป็น dataframe A โดยเลือกคอลัมน์บางคอลัมน์เท่านั้น เข้าร่วม dataframes A และ B ในคอลัมน์ 1 และคอลัมน์ 2 (ใช่มันไม่สมเหตุสมผลมากนักฉันแค่ทดลองทำความเข้าใจกลไกพื้นฐานของ Spark) a = spark.read.table("table") \ .select("column1", "column2", "column3", "column4") \ .withColumn("columnA", lower((concat(col("column4"), lit("_"), col("column5"))))) b = a.select("column1", "column2", "columnA") c= a.join(b, how="left", on …

10 apache-spark pyspark bigdata azure-databricks delta-lake

คำถามติดแท็ก delta-lake