จะทำอย่างไรเมื่อการทดสอบข้อมูลมีคุณสมบัติน้อยกว่าข้อมูลการฝึกอบรม?


10

สมมติว่าเราคาดการณ์ยอดขายของร้านค้าและข้อมูลการฝึกอบรมของฉันมีคุณสมบัติสองชุด:

  • หนึ่งเกี่ยวกับยอดขายของร้านค้าที่มีวันที่ (ฟิลด์ "Store" ไม่ซ้ำกัน)
  • ประเภทหนึ่งเกี่ยวกับร้านค้า (ฟิลด์ "Store" ไม่ซ้ำกันที่นี่)

เมทริกซ์จะออกมาเป็นแบบนี้:

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

และ

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

เมทริกซ์ที่สองอธิบายประเภทร้านค้ากลุ่มการแบ่งประเภทของรายการแต่ละรายการขายและระยะทางจากร้านค้าคู่แข่งที่ใกล้ที่สุด

แต่ในข้อมูลการทดสอบของฉันฉันมีเพียงข้อมูลในเมทริกซ์แรกที่ไม่มีCustomersและSalesฟิลด์ เป้าหมายคือการคาดการณ์ยอดขายที่ได้รับ

  • เก็บ
  • วันในสัปดาห์
  • วันที่
  • เปิด (ไม่ว่าร้านค้าจะเปิด)
  • โปรโมชัน (ไม่ว่าร้านค้าจะมีโปรโมชันหรือไม่)
  • StateHoliday (ไม่ว่าจะเป็นวันหยุดราชการ)

ฉันสามารถฝึกตัวจําแนกตามเขตข้อมูลสัญลักษณ์ด้านบนได้อย่างง่ายดายเพื่อทำนายSalesแต่ฉันจะใช้ประโยชน์จากเมทริกซ์ที่สองในข้อมูลการฝึกอบรมของฉันที่ฉันจะไม่ได้รับข้อมูลการทดสอบได้อย่างไร

มันสมเหตุสมผลหรือไม่ที่จะสมมติว่าเมทริกซ์ที่สองเกี่ยวกับประเภท Store นั้นเป็นแบบสแตติกและฉันสามารถเข้าร่วมกับข้อมูลทดสอบได้อย่างง่ายดายหรือไม่?

จะเกิดอะไรขึ้นหากมีรูในชุดข้อมูลทดสอบของฉันสมมุติว่าบางแถวในข้อมูลทดสอบฉันไม่มีค่า "โปรโมชัน"


คุณรู้ว่าคุณสามารถถามสิ่งนี้ได้ในฟอรัม Kaggle และได้รับคำตอบแล้ว : kaggle.com/c/rossmann-store-sales/forums/t/17137/ …และkaggle.com/c/rossmann-store-sales/forums / t / 16730 / …
Neil Slater

Oooo ให้อภัยความยุ่งเหยิงของฉันไม่มีเสียงอึกทึก ครั้งแรกที่ kaggle โดยไม่มีใครจับมือฉัน =)
alvas

1
ไม่มีปัญหา. Customersข้อมูลที่เฉพาะเจาะจงมากกับการแข่งขัน หากคุณไม่แน่ใจว่าจะจัดการกับค่าที่หายไปโดยทั่วไปสำหรับ ML (เช่นPromoค่าว่าง) ได้อย่างไรอาจเป็นการเปลี่ยนคำถามนี้ให้เป็นเรื่องเกี่ยวกับปัญหานั้นเท่านั้น มีคำตอบบางส่วนเกี่ยวกับสิ่งนั้นในเว็บไซต์นี้เช่นdatascience.stackexchange.com/questions/8322/…
Neil Slater

คำตอบ:


6

ใช้คุณสมบัติพิเศษสำหรับการเรียนรู้ที่ไม่มีผู้ดูแล คุณอาจสนุกกับการใช้ของ Vladimir Vapnik ในบริบทของ SVM ซึ่งเขาเรียกการเรียนรู้ที่มีสิทธิพิเศษ: การเรียนรู้กับครูผู้สอนที่ชาญฉลาด: การควบคุมความเหมือนกันและการถ่ายโอนความรู้


2

ฉันคิดว่าอาจมีปัญหาในแบบที่คุณระบุปัญหา คุณบอกว่าคุณทดสอบข้อมูลไม่มีสองฟิลด์ แต่ไม่สามารถแก้ไขได้

คุณต้องใช้ข้อมูลทั้งหมดของคุณและแบ่งออกเป็น 2 กลุ่มชุดฝึกอบรมและชุดทดสอบ ในสัดส่วน 80% -20% หรือ 70% -30% จากนั้นคุณฝึกอัลกอริทึมของคุณกับข้อมูลในชุดฝึกอบรมและทดสอบความแม่นยำของโมเดลด้วยข้อมูลในชุดทดสอบ

ความแม่นยำที่คุณได้รับคือความน่าจะเป็นที่โมเดลของคุณถูกต้อง หรือพูดอีกวิธีหนึ่งในครั้งต่อไปที่คุณใช้แบบจำลองของคุณเพื่อคาดการณ์การขายความแม่นยำคือความน่าจะเป็นที่การทำนายของคุณเป็นจริง


ฉันคิดว่าคุณกำลังจมอยู่กับการใช้คำว่า "ข้อมูลการทดสอบ" ของ OP และขาดสาระสำคัญของคำถามโดยสิ้นเชิง ...
Patrick Coulombe
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.