คำถามติดแท็ก apache-spark

3
การผสานเฟรมข้อมูลหลายแถวใน PySpark
ฉันมีเฟรม 10 ข้อมูลpyspark.sql.dataframe.DataFrameที่ได้รับจากrandomSplitเป็น(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)ตอนนี้ผมต้องการที่จะเข้าร่วม 9 td's ลงในกรอบข้อมูลเดียวว่าฉันควรทำเช่นนั้น? ฉันได้ลองไปแล้วunionAllแต่ฟังก์ชั่นนี้ยอมรับเพียงสองข้อโต้แย้งเท่านั้น td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments …

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
วิธีการคำนวณค่าเฉลี่ยของคอลัมน์ข้อมูลและค้นหา 10% ยอดนิยม
ฉันยังใหม่ต่อสกาล่าและสปาร์คและกำลังออกกำลังกายด้วยตัวเองโดยใช้สถิติเบสบอล ฉันใช้คลาสเคสสร้าง RDD และกำหนดสกีมาให้กับข้อมูลจากนั้นเปลี่ยนเป็น DataFrame เพื่อให้ฉันสามารถใช้ SparkSQL เพื่อเลือกกลุ่มผู้เล่นผ่านสถิติที่ตรงกับเกณฑ์ที่กำหนด เมื่อฉันมีกลุ่มย่อยของผู้เล่นที่ฉันสนใจที่จะดูเพิ่มเติมฉันต้องการค้นหาค่าเฉลี่ยของคอลัมน์ เช่น Batting Average หรือ RBIs จากที่นั่นฉันต้องการแบ่งผู้เล่นทั้งหมดออกเป็นกลุ่มเปอร์เซ็นไทล์ตามประสิทธิภาพโดยเฉลี่ยเมื่อเทียบกับผู้เล่นทุกคน 10% สูงสุด 10% ด้านล่าง 40-50% ฉันสามารถใช้ฟังก์ชัน DataFrame.describe () เพื่อส่งกลับข้อมูลสรุปของคอลัมน์ที่ต้องการ (mean, stddev, count, min และ max) ทั้งหมดเป็นสตริงได้ มีวิธีที่ดีกว่าในการรับค่าเฉลี่ยและ stddev ในฐานะ Doubles และวิธีที่ดีที่สุดในการแบ่งผู้เล่นออกเป็นกลุ่ม 10 เปอร์เซ็นต์คืออะไร จนถึงความคิดของฉันคือการหาค่าที่ bookend ช่วงเปอร์เซ็นต์และเขียนฟังก์ชั่นที่ผู้เล่นกลุ่มผ่านการเปรียบเทียบ แต่ที่รู้สึกเหมือนมันล้อมรอบในการคิดค้นล้อ ฉันมีการนำเข้าต่อไปนี้ในขณะนี้: import org.apache.spark.rdd.RDD import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} …

3
แทนที่ค่าตัวเลขทั้งหมดใน pyspark dataframe ด้วยค่าคงที่
พิจารณา pyspark dataframe ซึ่งประกอบด้วยองค์ประกอบ 'null' และองค์ประกอบตัวเลข โดยทั่วไปองค์ประกอบตัวเลขมีค่าแตกต่างกัน เป็นไปได้อย่างไรที่จะแทนที่ค่าตัวเลขทั้งหมดของ dataframe ด้วยค่าตัวเลขคงที่ (ตัวอย่างเช่นโดยค่า 1) ขอบคุณล่วงหน้า! ตัวอย่างสำหรับ pyspark dataframe: 123c10.04- 1n U ลิตรลิตรc21n U ลิตรลิตร1.2c31.35- 1.2n U ลิตรลิตรc1c2c310.0411.352-1nยูล.ล.-1.23nยูล.ล.1.2nยูล.ล. \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ …

3
ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)
ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

2
วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark
ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

1
Spark ALS: แนะนำสำหรับผู้ใช้ใหม่
คำถาม ฉันจะทำนายอันดับสำหรับผู้ใช้ใหม่ในรุ่น ALS ที่ผ่านการฝึกอบรมใน Spark ได้อย่างไร (ใหม่ = ไม่เห็นในช่วงเวลาการฝึกอบรม) ปัญหา ฉันกำลังติดตามกวดวิชา Spark ALS อย่างเป็นทางการที่นี่: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html ฉันสามารถสร้างผู้แนะนำที่ดีด้วย MSE ที่เหมาะสม แต่ฉันกำลังดิ้นรนกับวิธีการป้อนข้อมูลใหม่ให้กับโมเดล บทช่วยสอนจะเปลี่ยนการให้คะแนนของผู้ใช้คนแรกก่อนการฝึกอบรม แต่นี่เป็นการแฮ็คจริงๆ พวกเขาให้คำแนะนำต่อไปนี้: 9.2 ปัจจัยเมทริกซ์การขยาย: ในบทช่วยสอนนี้เราเพิ่มคะแนนของคุณในชุดการฝึกอบรม วิธีที่ดีกว่าในการรับคำแนะนำสำหรับคุณคือการฝึกอบรมแบบจำลองการแยกตัวประกอบเมทริกซ์ก่อนจากนั้นจึงขยายแบบจำลองโดยใช้การจัดอันดับของคุณ หากสิ่งนี้ฟังดูน่าสนใจสำหรับคุณคุณสามารถดูการใช้งาน MatrixFactorizationModel และดูวิธีการอัพเดตโมเดลสำหรับผู้ใช้ใหม่และภาพยนตร์ใหม่ การใช้งานไม่ได้ช่วยฉันเลย เป็นการดีที่ฉันกำลังมองหาสิ่งที่ชอบ: predictions = model.predictAllNew(newinput) แต่ไม่มีวิธีการดังกล่าวอยู่ ฉันสามารถไปและดัดแปลง RDD ดั้งเดิมได้ แต่ฉันคิดว่านั่นจะทำให้ฉันต้องสั่งสอนแบบจำลองใหม่ แน่นอนว่าต้องมีวิธีที่สวยงามกว่านี้อีกไหม? ตอนนี้ฉันอยู่ไหน: ฉันคิดว่าฉันต้องหาตัวแทนแฝงของเวกเตอร์ใหม่ ตามกระดาษต้นฉบับเราสามารถคำนวณได้ดังนี้: Xยู= ( YTคยูY+ λ ฉัน)- 1YTคยูp ( …

1
การวิเคราะห์บันทึกเซิร์ฟเวอร์โดยใช้การเรียนรู้ของเครื่อง
ฉันได้รับมอบหมายงานนี้เพื่อวิเคราะห์บันทึกเซิร์ฟเวอร์ของแอปพลิเคชันของเราซึ่งมีบันทึกข้อยกเว้นบันทึกบันทึกเหตุการณ์ฐานข้อมูล ฯลฯ ฉันยังใหม่กับการเรียนรู้ของเครื่องเราใช้ Spark พร้อมการค้นหาแบบยืดหยุ่นและ Sparks MLlib (หรือ PredictionIO) ตัวอย่างที่ต้องการ ผลลัพธ์จะสามารถทำนายตามบันทึกข้อยกเว้นที่รวบรวมเพื่อให้สามารถคาดการณ์ได้ว่าผู้ใช้คนใดมีแนวโน้มที่จะทำให้เกิดข้อยกเว้นต่อไปและคุณลักษณะใด (และสิ่งอื่น ๆ เพื่อติดตามและปรับปรุงการเพิ่มประสิทธิภาพของแอปพลิเคชัน) ฉันสามารถนำเข้าข้อมูลจาก ElasticSearch มาเป็นประกายและสร้าง DataFrames และแมปข้อมูลที่ต้องการได้สำเร็จ สิ่งที่ฉันอยากรู้คือฉันจะเข้าหาด้านการเรียนรู้ของการใช้งานเครื่องได้อย่างไร ฉันเคยผ่านบทความและเอกสารที่พูดคุยเกี่ยวกับการเตรียมข้อมูลล่วงหน้าฝึกอบรมตัวแบบข้อมูลและสร้างป้ายกำกับ คำถามที่ฉันมี ฉันจะเข้าใกล้การแปลงข้อมูลบันทึกการออกเป็นเวกเตอร์ตัวเลขซึ่งสามารถใช้กับชุดข้อมูลที่จะฝึกอบรมได้อย่างไร ฉันใช้อัลกอริทึมในการฝึกอบรมชุดข้อมูลของฉัน (ด้วยความรู้ที่ จำกัด ฉันได้รวบรวมสองสามวันที่ผ่านมาฉันกำลังคิดเกี่ยวกับการแข่งขันการถดถอยเชิงเส้นโปรดแนะนำการใช้งานที่จะดีที่สุด) เพียงมองหาข้อเสนอแนะเกี่ยวกับวิธีแก้ไขปัญหานี้ ขอบคุณ.

1
สปาร์คแยก RDD เดี่ยวออกเป็นสองส่วนอย่างเหมาะสมที่สุด
ฉันมีชุดข้อมูลขนาดใหญ่ที่ฉันจำเป็นต้องแบ่งออกเป็นกลุ่มตามพารามิเตอร์เฉพาะ ฉันต้องการให้งานดำเนินการอย่างมีประสิทธิภาพมากที่สุด ฉันจินตนาการได้สองวิธี ตัวเลือกที่ 1 - สร้างแผนที่จาก RDD ดั้งเดิมและตัวกรอง def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() ตัวเลือก 2 - กรอง RDD ดั้งเดิมโดยตรง def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.