วิทยาศาสตร์ข้อมูล ipython

3

ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)

ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

11 python apache-spark pyspark ipython

1

หลีกเลี่ยงการโหลด DataFrame ระหว่างเมล็ดหลามที่แตกต่างกัน

มีวิธีการเก็บรักษาตัวแปร (ตารางขนาดใหญ่ / กรอบข้อมูล) ในหน่วยความจำและใช้ร่วมกันในหลาย ๆ โน๊ตบุ๊ค ipython หรือไม่? ฉันกำลังมองหาบางอย่างที่คล้ายกับแนวคิดของ MATLAB ตัวแปรถาวร มีความเป็นไปได้ที่จะเรียกฟังก์ชั่นที่กำหนดเอง / ห้องสมุดจากบรรณาธิการแต่ละคน (โน๊ตบุ๊ค) และมีฟังก์ชั่นภายนอกแคชบางผลลัพธ์ (หรือตารางขนาดใหญ่) ส่วนใหญ่ฉันต้องการหลีกเลี่ยงการโหลดตารางที่ใช้งานหนัก (ซึ่งโหลดผ่านไลบรารีแบบกำหนดเองที่เรียกจากสมุดบันทึก) เนื่องจากการอ่านจะใช้เวลาประมาณ 2-3 นาทีเมื่อใดก็ตามที่ฉันเริ่มการวิเคราะห์ใหม่

10 python bigdata matlab jupyter ipython

3

วิธีการส่งออกเซลล์หนึ่งของโน้ตบุ๊ก jupyter

ฉันกำลังทำงาน / สร้างต้นแบบในสมุดบันทึกJupyter ฉันต้องการเรียกใช้โค้ดบางส่วนบนเชลล์iPythonแบบสแตนด์อโลน ตอนนี้ฉันส่งออกรหัสiPythonของฉัน(ไฟล์ -> ดาวน์โหลดเป็น) จากนั้นเรียกใช้งานในiPythonของฉัน(ด้วย% run) ใช้งานได้ แต่ฉันต้องการส่งออกเซลล์เดียวหรือชุดเซลล์ ดังนั้นฉันสามารถทำงานได้เฉพาะสิ่งที่ฉันแก้ไขในสมุดบันทึกJupyterของฉัน

10 ipython jupyter

3

จะจัดกลุ่มค่าที่เหมือนกันและนับความถี่ใน Python อย่างไร

มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ: section: ส่วนของร้านค้า, str; prod_name: ชื่อผลิตภัณฑ์, str; ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int; แคชเชียร์จำนวนแคชเชียร์ int ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย; วันที่ในรูปแบบ MM / DD / YY, str; เวลาในรูปแบบ HH: MM: SS, a str; ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้ การทำงานกับข้อมูลใน DataFrame แพนด้า แก้ไข: นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก): section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 …

10 python statistics pandas ipython

คำถามติดแท็ก ipython