ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร
ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย
อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น
ชุดข้อมูล
ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.)
ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)
รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" มีการคำนวณผ่านที่
- & ช่วงเวลา (วันก่อนออกเดินทาง)
- s & วันที่ของค่าโดยสาร
- c & วันที่เก็บค่าโดยสาร
นี่คือตัวอย่างของข้อมูลที่จัดกลุ่มโดย I (DaysBeforeDep.) (ข้อมูลปลอม!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
สิ่งที่ฉันเกิดขึ้นจนถึงตอนนี้
เมื่อดูที่กราฟเส้นฉันสามารถประมาณได้ว่าหลาย ๆ เส้นจะมีปัจจัยความสัมพันธ์สูง ดังนั้นฉันพยายามใช้การวิเคราะห์ความสัมพันธ์ก่อนในข้อมูลที่จัดกลุ่ม แต่นั่นเป็นวิธีที่ถูกต้องหรือไม่ โดยพื้นฐานแล้วฉันพยายามที่จะสร้างความสัมพันธ์กับค่าเฉลี่ยแทนที่จะเป็นราคาของแต่ละคนหรือไม่ มีวิธีอื่นไหม
ฉันไม่แน่ใจว่าตัวแบบการถดถอยแบบใดที่เหมาะกับที่นี่เนื่องจากราคาไม่เคลื่อนไหวในรูปแบบเชิงเส้นใด ๆ และปรากฏแบบไม่เชิงเส้น ฉันจะต้องปรับโมเดลให้เหมาะสมกับการพัฒนาราคาของสายการบินแต่ละแห่งหรือไม่
PS: นี่คือกำแพงข้อความที่มีความยาว ถ้าฉันต้องการชี้แจงอะไรให้ฉันรู้ ฉันยังใหม่กับกลุ่มย่อยนี้
เบาะแสทุกคน? :-)