มือใหม่ในการวิเคราะห์ด้วย Python ดังนั้นโปรดใช้ความสุภาพ :-) ฉันไม่สามารถหาคำตอบสำหรับคำถามนี้ได้ - ขออภัยหากมีคำตอบอยู่แล้วในรูปแบบอื่น
ฉันมีชุดข้อมูลการทำธุรกรรมสำหรับร้านค้าปลีก ตัวแปรพร้อมคำอธิบายคือ:
- section: ส่วนของร้านค้า, str;
- prod_name: ชื่อผลิตภัณฑ์, str;
- ใบเสร็จรับเงิน: จำนวนของใบแจ้งหนี้, int;
- แคชเชียร์จำนวนแคชเชียร์ int
- ค่าใช้จ่าย: ค่าใช้จ่ายของรายการลอย;
- วันที่ในรูปแบบ MM / DD / YY, str;
- เวลาในรูปแบบ HH: MM: SS, a str;
ใบเสร็จรับเงินมีมูลค่าเท่ากันสำหรับผลิตภัณฑ์ทั้งหมดที่ซื้อในการทำธุรกรรมเดียวดังนั้นจึงสามารถใช้เพื่อกำหนดจำนวนการซื้อโดยเฉลี่ยในการทำธุรกรรมครั้งเดียว
วิธีที่ดีที่สุดที่จะไปเกี่ยวกับเรื่องนี้คืออะไร? โดยพื้นฐานแล้วฉันต้องการใช้groupby()
จัดกลุ่มตัวแปรใบเสร็จตามเหตุการณ์ที่เกิดขึ้นของตัวเองเพื่อให้สามารถสร้างฮิสโตแกรมได้
การทำงานกับข้อมูลใน DataFrame แพนด้า
แก้ไข:
นี่คือตัวอย่างข้อมูลบางส่วนที่มีส่วนหัว (prod_name เป็นเลขฐานสิบหก):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
จากชุดตัวอย่างนี้ฉันคาดหวังว่าฮิสโตแกรมของใบเสร็จที่แสดงการรับสองครั้ง 102857 (เนื่องจากบุคคลนั้นซื้อสองรายการในธุรกรรมเดียว) และการเกิดขึ้นหนึ่งครั้งตามลำดับของการรับ 102856 และใบเสร็จรับเงิน 102858 หมายเหตุ: ชุดข้อมูลของฉันไม่ใหญ่มาก 1 ล้านแถว