สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด:
- หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน)
- ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่)
เมทริกซ์จะออกมาเป็นแบบนี้:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
และ
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
เมทริกซ์ที่สองอธิบายประเภทร้านค้ากลุ่มการแบ่งประเภทของรายการแต่ละรายการขายและระยะทางจากร้านค้าคู่แข่งที่ใกล้ที่สุด
แต่ในข้อมูลการทดสอบของฉันฉันมีเพียงข้อมูลในเมทริกซ์แรกที่ไม่มีCustomers
และSales
ฟิลด์ เป้าหมายคือการคาดการณ์ยอดขายที่ได้รับ
- เก็บ
- วันในสัปดาห์
- วันที่
- เปิด (ไม่ว่าร้านค้าจะเปิด)
- โปรโมชัน (ไม่ว่าร้านค้าจะมีโปรโมชันหรือไม่)
- StateHoliday (ไม่ว่าจะเป็นวันหยุดราชการ)
ฉันสามารถฝึกตัวจําแนกตามเขตข้อมูลสัญลักษณ์ด้านบนได้อย่างง่ายดายเพื่อทำนายSales
แต่ฉันจะใช้ประโยชน์จากเมทริกซ์ที่สองในข้อมูลการฝึกอบรมของฉันที่ฉันจะไม่ได้รับข้อมูลการทดสอบได้อย่างไร
มันสมเหตุสมผลหรือไม่ที่จะสมมติว่าเมทริกซ์ที่สองเกี่ยวกับประเภท Store นั้นเป็นแบบสแตติกและฉันสามารถเข้าร่วมกับข้อมูลทดสอบได้อย่างง่ายดายหรือไม่?
จะเกิดอะไรขึ้นหากมีรูในชุดข้อมูลทดสอบของฉันสมมุติว่าบางแถวในข้อมูลทดสอบฉันไม่มีค่า "โปรโมชัน"
Customers
ข้อมูลที่เฉพาะเจาะจงมากกับการแข่งขัน หากคุณไม่แน่ใจว่าจะจัดการกับค่าที่หายไปโดยทั่วไปสำหรับ ML (เช่นPromo
ค่าว่าง) ได้อย่างไรอาจเป็นการเปลี่ยนคำถามนี้ให้เป็นเรื่องเกี่ยวกับปัญหานั้นเท่านั้น มีคำตอบบางส่วนเกี่ยวกับสิ่งนั้นในเว็บไซต์นี้เช่นdatascience.stackexchange.com/questions/8322/…