วิทยาศาสตร์ข้อมูล apache-spark

3

ฉันมีเฟรม 10 ข้อมูลpyspark.sql.dataframe.DataFrameที่ได้รับจากrandomSplitเป็น(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)ตอนนี้ผมต้องการที่จะเข้าร่วม 9 td's ลงในกรอบข้อมูลเดียวว่าฉันควรทำเช่นนั้น? ฉันได้ลองไปแล้วunionAllแต่ฟังก์ชั่นนี้ยอมรับเพียงสองข้อโต้แย้งเท่านั้น td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments …

21 python apache-spark cross-validation pyspark

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

วิธีการคำนวณค่าเฉลี่ยของคอลัมน์ข้อมูลและค้นหา 10% ยอดนิยม

ฉันยังใหม่ต่อสกาล่าและสปาร์คและกำลังออกกำลังกายด้วยตัวเองโดยใช้สถิติเบสบอล ฉันใช้คลาสเคสสร้าง RDD และกำหนดสกีมาให้กับข้อมูลจากนั้นเปลี่ยนเป็น DataFrame เพื่อให้ฉันสามารถใช้ SparkSQL เพื่อเลือกกลุ่มผู้เล่นผ่านสถิติที่ตรงกับเกณฑ์ที่กำหนด เมื่อฉันมีกลุ่มย่อยของผู้เล่นที่ฉันสนใจที่จะดูเพิ่มเติมฉันต้องการค้นหาค่าเฉลี่ยของคอลัมน์ เช่น Batting Average หรือ RBIs จากที่นั่นฉันต้องการแบ่งผู้เล่นทั้งหมดออกเป็นกลุ่มเปอร์เซ็นไทล์ตามประสิทธิภาพโดยเฉลี่ยเมื่อเทียบกับผู้เล่นทุกคน 10% สูงสุด 10% ด้านล่าง 40-50% ฉันสามารถใช้ฟังก์ชัน DataFrame.describe () เพื่อส่งกลับข้อมูลสรุปของคอลัมน์ที่ต้องการ (mean, stddev, count, min และ max) ทั้งหมดเป็นสตริงได้ มีวิธีที่ดีกว่าในการรับค่าเฉลี่ยและ stddev ในฐานะ Doubles และวิธีที่ดีที่สุดในการแบ่งผู้เล่นออกเป็นกลุ่ม 10 เปอร์เซ็นต์คืออะไร จนถึงความคิดของฉันคือการหาค่าที่ bookend ช่วงเปอร์เซ็นต์และเขียนฟังก์ชั่นที่ผู้เล่นกลุ่มผ่านการเปรียบเทียบ แต่ที่รู้สึกเหมือนมันล้อมรอบในการคิดค้นล้อ ฉันมีการนำเข้าต่อไปนี้ในขณะนี้: import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} …

13 apache-spark scala

3

แทนที่ค่าตัวเลขทั้งหมดใน pyspark dataframe ด้วยค่าคงที่

พิจารณา pyspark dataframe ซึ่งประกอบด้วยองค์ประกอบ 'null' และองค์ประกอบตัวเลข โดยทั่วไปองค์ประกอบตัวเลขมีค่าแตกต่างกัน เป็นไปได้อย่างไรที่จะแทนที่ค่าตัวเลขทั้งหมดของ dataframe ด้วยค่าตัวเลขคงที่ (ตัวอย่างเช่นโดยค่า 1) ขอบคุณล่วงหน้า! ตัวอย่างสำหรับ pyspark dataframe: 123c10.04- 1n U ลิตรลิตรc21n U ลิตรลิตร1.2c31.35- 1.2n U ลิตรลิตรc1c2c310.0411.352-1nยูล.ล.-1.23nยูล.ล.1.2nยูล.ล. \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ …

12 python apache-spark

3

ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)

ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

11 python apache-spark pyspark ipython

2

วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark

ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

11 python apache-spark categorical-data pyspark

1

Spark ALS: แนะนำสำหรับผู้ใช้ใหม่

คำถาม ฉันจะทำนายอันดับสำหรับผู้ใช้ใหม่ในรุ่น ALS ที่ผ่านการฝึกอบรมใน Spark ได้อย่างไร (ใหม่ = ไม่เห็นในช่วงเวลาการฝึกอบรม) ปัญหา ฉันกำลังติดตามกวดวิชา Spark ALS อย่างเป็นทางการที่นี่: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html ฉันสามารถสร้างผู้แนะนำที่ดีด้วย MSE ที่เหมาะสม แต่ฉันกำลังดิ้นรนกับวิธีการป้อนข้อมูลใหม่ให้กับโมเดล บทช่วยสอนจะเปลี่ยนการให้คะแนนของผู้ใช้คนแรกก่อนการฝึกอบรม แต่นี่เป็นการแฮ็คจริงๆ พวกเขาให้คำแนะนำต่อไปนี้: 9.2 ปัจจัยเมทริกซ์การขยาย: ในบทช่วยสอนนี้เราเพิ่มคะแนนของคุณในชุดการฝึกอบรม วิธีที่ดีกว่าในการรับคำแนะนำสำหรับคุณคือการฝึกอบรมแบบจำลองการแยกตัวประกอบเมทริกซ์ก่อนจากนั้นจึงขยายแบบจำลองโดยใช้การจัดอันดับของคุณ หากสิ่งนี้ฟังดูน่าสนใจสำหรับคุณคุณสามารถดูการใช้งาน MatrixFactorizationModel และดูวิธีการอัพเดตโมเดลสำหรับผู้ใช้ใหม่และภาพยนตร์ใหม่ การใช้งานไม่ได้ช่วยฉันเลย เป็นการดีที่ฉันกำลังมองหาสิ่งที่ชอบ: predictions = model.predictAllNew(newinput) แต่ไม่มีวิธีการดังกล่าวอยู่ ฉันสามารถไปและดัดแปลง RDD ดั้งเดิมได้ แต่ฉันคิดว่านั่นจะทำให้ฉันต้องสั่งสอนแบบจำลองใหม่ แน่นอนว่าต้องมีวิธีที่สวยงามกว่านี้อีกไหม? ตอนนี้ฉันอยู่ไหน: ฉันคิดว่าฉันต้องหาตัวแทนแฝงของเวกเตอร์ใหม่ ตามกระดาษต้นฉบับเราสามารถคำนวณได้ดังนี้: Xยู= ( YTคยูY+ λ ฉัน)- 1YTคยูp ( …

10 apache-spark recommender-system pyspark

1

การวิเคราะห์บันทึกเซิร์ฟเวอร์โดยใช้การเรียนรู้ของเครื่อง

ฉันได้รับมอบหมายงานนี้เพื่อวิเคราะห์บันทึกเซิร์ฟเวอร์ของแอปพลิเคชันของเราซึ่งมีบันทึกข้อยกเว้นบันทึกบันทึกเหตุการณ์ฐานข้อมูล ฯลฯ ฉันยังใหม่กับการเรียนรู้ของเครื่องเราใช้ Spark พร้อมการค้นหาแบบยืดหยุ่นและ Sparks MLlib (หรือ PredictionIO) ตัวอย่างที่ต้องการ ผลลัพธ์จะสามารถทำนายตามบันทึกข้อยกเว้นที่รวบรวมเพื่อให้สามารถคาดการณ์ได้ว่าผู้ใช้คนใดมีแนวโน้มที่จะทำให้เกิดข้อยกเว้นต่อไปและคุณลักษณะใด (และสิ่งอื่น ๆ เพื่อติดตามและปรับปรุงการเพิ่มประสิทธิภาพของแอปพลิเคชัน) ฉันสามารถนำเข้าข้อมูลจาก ElasticSearch มาเป็นประกายและสร้าง DataFrames และแมปข้อมูลที่ต้องการได้สำเร็จ สิ่งที่ฉันอยากรู้คือฉันจะเข้าหาด้านการเรียนรู้ของการใช้งานเครื่องได้อย่างไร ฉันเคยผ่านบทความและเอกสารที่พูดคุยเกี่ยวกับการเตรียมข้อมูลล่วงหน้าฝึกอบรมตัวแบบข้อมูลและสร้างป้ายกำกับ คำถามที่ฉันมี ฉันจะเข้าใกล้การแปลงข้อมูลบันทึกการออกเป็นเวกเตอร์ตัวเลขซึ่งสามารถใช้กับชุดข้อมูลที่จะฝึกอบรมได้อย่างไร ฉันใช้อัลกอริทึมในการฝึกอบรมชุดข้อมูลของฉัน (ด้วยความรู้ที่ จำกัด ฉันได้รวบรวมสองสามวันที่ผ่านมาฉันกำลังคิดเกี่ยวกับการแข่งขันการถดถอยเชิงเส้นโปรดแนะนำการใช้งานที่จะดีที่สุด) เพียงมองหาข้อเสนอแนะเกี่ยวกับวิธีแก้ไขปัญหานี้ ขอบคุณ.

10 machine-learning predictive-modeling apache-spark

1

สปาร์คแยก RDD เดี่ยวออกเป็นสองส่วนอย่างเหมาะสมที่สุด

ฉันมีชุดข้อมูลขนาดใหญ่ที่ฉันจำเป็นต้องแบ่งออกเป็นกลุ่มตามพารามิเตอร์เฉพาะ ฉันต้องการให้งานดำเนินการอย่างมีประสิทธิภาพมากที่สุด ฉันจินตนาการได้สองวิธี ตัวเลือกที่ 1 - สร้างแผนที่จาก RDD ดั้งเดิมและตัวกรอง def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() ตัวเลือก 2 - กรอง RDD ดั้งเดิมโดยตรง def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = …

10 apache-spark pyspark

คำถามติดแท็ก apache-spark