วิธีสร้างแบบจำลองราคา


15

ฉันถามคำถามนี้ในเว็บไซต์ matemathics stackexchange และแนะนำให้ถามที่นี่

ฉันกำลังทำงานในโครงการงานอดิเรกและต้องการความช่วยเหลือเกี่ยวกับปัญหาต่อไปนี้

บริบทนิดหน่อย

สมมติว่ามีชุดของรายการพร้อมคำอธิบายคุณสมบัติและราคา ลองนึกภาพรายการรถยนต์และราคา รถยนต์ทุกคันมีรายการคุณสมบัติเช่นขนาดเครื่องยนต์สีพลังม้ารุ่นปี ฯลฯ สำหรับแต่ละยี่ห้อมีดังนี้:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

ยิ่งไปกว่านั้นรายการรถยนต์ที่มีราคาจะถูกเผยแพร่พร้อมช่วงเวลาหนึ่งซึ่งหมายความว่าเราสามารถเข้าถึงข้อมูลราคาในอดีตได้ อาจไม่รวมถึงรถยนต์คันเดียวกันทุกประการ

ปัญหา

ฉันต้องการที่จะเข้าใจวิธีการกำหนดราคาสำหรับรถใด ๆ ตามข้อมูลฐานนี้ที่สำคัญที่สุดคือรถยนต์ที่ไม่ได้อยู่ในรายการเริ่มต้น

Ford, v6, red, automatic, 130hp, 2009

สำหรับรถด้านบนมันเกือบจะเหมือนกันกับหนึ่งในรายการเพียงเล็กน้อยแตกต่างกันในพลังม้าและปี ราคานี้สิ่งที่จำเป็น?

สิ่งที่ฉันกำลังมองหาคือสิ่งที่ใช้งานได้จริงและเรียบง่าย แต่ฉันอยากจะได้ยินเกี่ยวกับวิธีการที่ซับซ้อนมากขึ้นในการสร้างแบบจำลองเช่นนี้

สิ่งที่ฉันได้ลอง

นี่คือสิ่งที่ฉันกำลังทดลองด้วย:

1) ใช้ข้อมูลประวัติเพื่อค้นหารถ X หากไม่พบไม่มีราคา แน่นอนว่ามีข้อ จำกัด อย่างมากและสามารถใช้ร่วมกับการสลายตัวของเวลาเพื่อแก้ไขราคารถยนต์ที่รู้จักเท่านั้น

2) การใช้รูปแบบการให้น้ำหนักคุณลักษณะของรถยนต์ร่วมกับรถตัวอย่างราคา โดยพื้นฐานแล้วมีราคาฐานและคุณสมบัติเพียงแค่เปลี่ยนแปลงด้วยปัจจัยบางอย่าง ราคานี้ขึ้นอยู่กับรถคันใด

การพิสูจน์ครั้งแรกไม่เพียงพอและการพิสูจน์ครั้งที่สองไม่ถูกต้องเสมอไปและฉันอาจไม่มีวิธีที่ดีที่สุดในการใช้ตุ้มน้ำหนัก นี่ก็ดูเหมือนว่าจะหนักในการรักษาน้ำหนักดังนั้นฉันคิดว่าอาจมีวิธีใช้ข้อมูลประวัติเป็นสถิติในบางวิธีเพื่อให้ได้น้ำหนักหรือเพื่อให้ได้สิ่งอื่น ฉันแค่ไม่รู้ว่าจะเริ่มจากตรงไหน

ประเด็นสำคัญอื่น ๆ

  • รวมเข้ากับโครงการซอฟต์แวร์บางอย่างที่ฉันมี ทั้งโดยใช้ห้องสมุดที่มีอยู่หรือเขียนอัลกอริทึมด้วยตัวเอง
  • คำนวณใหม่อย่างรวดเร็วเมื่อมีข้อมูลประวัติใหม่เข้ามา

ข้อเสนอแนะใด ๆ ว่าปัญหาเช่นนี้จะเกิดขึ้นได้อย่างไร? ความคิดทั้งหมดเป็นมากกว่าการต้อนรับ

ขอบคุณมากและหวังว่าจะได้อ่านข้อเสนอแนะของคุณ!

คำตอบ:


11

"การปฏิบัติ" และ "ง่าย" ขอแนะนำสองน้อยถดถอย ติดตั้งง่ายตั้งค่าได้ง่ายทำกับซอฟต์แวร์มากมาย (R, Excel, Mathematica, แพ็คเกจสถิติใด ๆ ) ง่ายต่อการตีความและสามารถขยายได้หลายวิธีขึ้นอยู่กับความแม่นยำที่คุณต้องการและความยากของคุณ ต้องการที่จะทำงาน.

วิธีการนี้เป็นหลัก "แผนการกำหนดน้ำหนัก" ของคุณ (2) แต่ก็พบว่าน้ำหนักได้ง่ายรับประกันความถูกต้องมากที่สุดและง่ายต่อการอัปเดต มีโหลดของห้องสมุดที่จะดำเนินการอย่างน้อยการคำนวณสี่เหลี่ยม

มันจะช่วยในการรวมไม่เพียง แต่ตัวแปรที่คุณระบุไว้ - ประเภทเครื่องยนต์พลังงาน ฯลฯ - แต่ยังรวมถึงอายุของรถยนต์ด้วย นอกจากนี้ตรวจสอบให้แน่ใจว่าได้ปรับราคาเงินเฟ้อแล้ว


ขาย! นั่นเป็นสิ่งที่ฉันกำลังมองหา! ในขณะที่ฉันยังใหม่กับสิ่งนี้ฉันมีปัญหาในการเปรียบเทียบข้อเสนอแนะดังนั้นฉันสงสัยว่าการถดถอยกำลังสองน้อยจะเปรียบเทียบกับการถดถอยแบบหลายครั้งและ "การกำหนดราคาแบบความชอบ" ได้อย่างไร เหล่านี้เป็นคำแนะนำที่ฉันได้รับในเว็บไซต์คณิตศาสตร์ที่ฉันโพสต์ครั้งแรก ฉันกำลังแก้ไขอะไรเมื่อใช้การถดถอยกำลังสองน้อยที่สุดเช่น โดยทั่วไปมีสิ่งที่ฉันต้องระวังเมื่อใช้วิธีนี้หรือไม่
murrekatt

ขอบคุณสำหรับคำแนะนำนี้ด้วย มันดูดีมาก ฉันจะต้องอ่านข้อมูลเพิ่มเติมเพื่อรับทราบวิธีการเริ่มต้นใช้งานเพื่อดูวิธีใช้งาน
murrekatt

3
ฉันต้องการรับทราบและแสดงข้อตกลงกับ caveats ที่โพสต์โดย @mpiktas และ @dimitrij celov การวิเคราะห์ราคาสามารถ - และในหลาย ๆ กรณีควรมีความซับซ้อนเท่ากับระบบเศรษฐกิจซึ่งเป็นส่วนหนึ่ง อย่างไรก็ตามเนื่องจากแอปพลิเคชั่นที่ตั้งใจ (งานอดิเรก) และข้อ จำกัด ที่ส่งสัญญาณอย่างชัดเจนในความสามารถของ OP สำหรับการสร้างแบบจำลองทางสถิติเราควรวางคุณค่าที่ยอดเยี่ยมเกี่ยวกับความเรียบง่ายใช้งานง่ายและสามารถตีความได้ เห็นได้ชัดว่าบางคนที่ยังไม่คุ้นเคยกับสี่เหลี่ยมน้อยที่สุดจะไม่กระโดดเข้าหาและเริ่มสร้างแบบจำลองเศรษฐมิติแบบเต็มรูปแบบ
whuber

5

ฉันเห็นด้วยกับ @whuber การถดถอยเชิงเส้นนั้นเป็นวิธีที่จะไป แต่ต้องระมัดระวังเมื่อตีความผลลัพธ์ ปัญหาคือในทางเศรษฐศาสตร์ราคาจะเกี่ยวข้องกับความต้องการเสมอ หากความต้องการเพิ่มขึ้นราคาก็สูงขึ้นหากอุปสงค์ลดลงราคาก็จะลดลง ดังนั้นราคาจะถูกกำหนดโดยความต้องการและในความต้องการผลตอบแทนจะถูกกำหนดโดยราคา ดังนั้นหากเราราคาโมเดลถดถอยจากคุณลักษณะบางอย่างโดยปราศจากความต้องการที่มีอันตรายจริงที่ประมาณการถดถอยจะผิดเนื่องจากการละเว้นตัวแปรอคติ


@mpiktas: ขอบคุณ ฉันเข้าใจสิ่งที่คุณหมายถึง นี่คือสิ่งที่ฉันคิด แต่ไม่ทราบว่าจะถามหรือเพิ่มคำถามอย่างไร คุณจัดการกับสิ่งที่คุณอธิบายได้อย่างไร นี่เป็นปัญหาที่แยกออกจากกันและเมื่อคุณเขียนเพื่อนำมาพิจารณาเมื่อตีความผลลัพธ์หรือมีการบูรณาการในแนวทางอื่นและไม่ใช่ส่วนหนึ่งของการถดถอยกำลังสองน้อยที่สุด ไม่แน่ใจว่าจะกำหนดตัวเองอย่างไร แต่สิ่งที่ฉันหมายถึงคือมีวิธีการที่นำสิ่งนี้มาพิจารณาและคนอื่น ๆ ที่ไม่ได้ทำ? ซึ่งหมายความว่าสำหรับ "ไม่" เราต้องตีความผลลัพธ์
murrekatt

3
@murekatt หากคุณไม่มีข้อมูลเพิ่มเติมตามต้องการ แต่คุณต้องการแบบจำลองราคาคุณต้องจัดการกับสิ่งนี้โดยการดูแลเป็นพิเศษ นี่หมายถึงการเอาใจใส่น้อยลงต่อนัยสำคัญทางสถิติของสัมประสิทธิ์ แต่ให้ความสำคัญกับการพยากรณ์ประสิทธิภาพมากกว่า สิ่งสำคัญสิ่งนี้หมายถึงการรักษาความถดถอยเป็นกล่องดำและใช้ประสิทธิภาพการพยากรณ์แบบจำลองเป็นการวัดความถูกต้องของแบบจำลอง วิธีนี้ใช้ข้ามการตรวจสอบส่วนข้อมูลตัวอย่างรถไฟและการทดสอบ ฯลฯ
mpiktas

@mpiktas: คุณหมายถึงอะไรกับ "ข้อมูลเพิ่มเติม"? คุณช่วยยกตัวอย่างสิ่งนี้ในบริบทรถยนต์ได้ไหม
murrekatt

1
@murrekatt ดูท้ายคำตอบของ Dmitrij ที่อัปเดตแล้ว ข้อมูลความต้องการเป็นสิ่งสำคัญดังนั้นหากคุณมียอดขายรถยนต์ในราคาเท่านี้จะช่วยได้มาก อีกต่อไปถ้าคุณมีข้อมูลว่าราคาเปลี่ยนแปลงสำหรับรถยนต์ที่กำหนดด้วยคุณลักษณะคงที่สิ่งนี้ควรสะท้อนให้เห็นในแบบจำลองของคุณ
mpiktas

1
@murekatt ในหลักการใช่ ฉันคิดว่าคุณต้องเริ่มต้นเล็ก ๆ และเพิ่มคุณสมบัติเพิ่มเติมในภายหลัง ผลลัพธ์เริ่มต้นจะบอกคุณว่าต้องดำเนินการต่อไปอย่างไร
mpiktas

4

สิ่งที่ฉันกำลังมองหาคือสิ่งที่ใช้งานได้จริงและเรียบง่าย แต่ฉันอยากจะได้ยินเกี่ยวกับวิธีการที่ซับซ้อนมากขึ้นในการสร้างแบบจำลองเช่นนี้

หลังจากการสนทนาบางอย่างนี่คือมุมมองที่สมบูรณ์ของสิ่งต่าง ๆ

ปัญหา

มีจุดมุ่งหมาย:เพื่อทำความเข้าใจวิธีการกำหนดราคารถยนต์ในวิธีที่ดีกว่า

บริบท:ในกระบวนการตัดสินใจของพวกเขาผู้คนแก้คำถามหลายข้อ: ฉันจำเป็นต้องมีรถไหมถ้าฉันทำสิ่งที่คุณลักษณะที่ฉันชอบมากที่สุด (รวมถึงราคาเพราะเป็นเหตุผลฉันต้องการมีรถที่มีอัตราส่วนคุณภาพ / ราคาที่ดีที่สุด) การเปรียบเทียบจำนวนของคุณลักษณะที่แตกต่างกันระหว่างรถและเลือกมูลค่าพวกเขาร่วมกัน

จากตำแหน่งผู้ขายฉันต้องการตั้งราคาให้สูงที่สุดและขายรถให้เร็วที่สุด ดังนั้นหากฉันตั้งราคาสูงเกินไปและกำลังรอหลายเดือนก็ถือว่าไม่ได้เป็นที่ต้องการในตลาดและถูกทำเครื่องหมายด้วย 0 เมื่อเทียบกับชุดแอตทริบิวต์ที่ต้องการมาก

ข้อสังเกต:ข้อเสนอจริงที่เกี่ยวข้องกับคุณลักษณะของรถเฉพาะกับราคาที่ตั้งไว้ในกระบวนการเจรจาต่อรอง (เกี่ยวกับข้อสังเกตก่อนหน้านี้เป็นสิ่งสำคัญที่ต้องทราบว่าต้องใช้เวลานานแค่ไหนในการกำหนดข้อตกลง)

ข้อดี:คุณสังเกตสิ่งต่าง ๆ ที่ซื้อจริงในตลาดดังนั้นคุณจึงไม่คาดเดาว่าจะมีคนที่มีราคาจองสูงพอที่ต้องการซื้อรถยนต์โดยเฉพาะ

จุดด้อย:

  1. สมมติฐานของคุณคือตลาดมีประสิทธิภาพหมายถึงราคาที่คุณสังเกตเห็นอยู่ใกล้กับความสมดุล
  2. คุณไม่สนใจตัวแปรของคุณลักษณะรถยนต์ที่ไม่ได้ซื้อหรือใช้เวลานานเกินไปในการกำหนดข้อตกลงหมายความว่าข้อมูลเชิงลึกของคุณนั้นมีอคติดังนั้นคุณจึงทำงานกับแบบจำลองตัวแปรแฝงจริง ๆ
  3. การสังเกตข้อมูลเป็นเวลานานคุณจำเป็นต้องยุบตัวลงแม้ว่าการรวมอายุของรถยนต์จะชดเชยสิ่งนี้

วิธีการแก้ปัญหา

คนแรกตามที่แนะนำโดย whuber เป็นแบบจำลองการถดถอยกำลังสองน้อยสุดแบบคลาสสิก

ข้อดี:

  1. แน่นอนทางออกที่ง่ายที่สุดเพราะมันเป็นงานของเศรษฐมิติ

จุดด้อย:

  1. ไม่สนใจว่าคุณสังเกตเห็นสิ่งต่าง ๆไม่สมบูรณ์ ( ตัวแปรแฝง )
  2. ทำหน้าที่เป็น regressors ที่เป็นอิสระจากกันดังนั้นโมเดลพื้นฐานจึงไม่สนใจความจริงที่ว่าคุณอาจชอบฟอร์ดสีฟ้าแตกต่างจากเมอร์เซเดสสีฟ้าแต่ก็ไม่ได้รวมอิทธิพลส่วนเพิ่มที่มาจากสีน้ำเงินและฟอร์ด

ในกรณีของการถดถอยแบบคลาสสิกเนื่องจากคุณไม่ได้ จำกัด อยู่ในองศาอิสระในการลองใช้คำศัพท์ที่ต่างกัน

ดังนั้นวิธีแก้ปัญหาที่ซับซ้อนมากขึ้นอาจเป็นแบบtobitหรือHeckmanคุณอาจต้องการปรึกษา AC Cameron และ PK Trivedi Microeconometrics: วิธีการและแอปพลิเคชันสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการหลัก

ข้อดี:

  1. คุณแยกความจริงที่ว่าคนอาจไม่ชอบชุดของคุณลักษณะบางอย่างหรือชุดของคุณลักษณะบางอย่างมีความเป็นไปได้น้อยที่จะซื้อจากการตั้งค่าราคาจริง
  2. ผลลัพธ์ของคุณจะไม่ลำเอียง (หรืออย่างน้อยก็น้อยกว่าในกรณีแรก)
  3. ในกรณีของ Heckman คุณแยกเหตุผลที่กระตุ้นให้ซื้อรถคันนั้นจากการตัดสินใจเรื่องราคาเท่าไหร่ที่ฉันต้องการจ่ายสำหรับรถคันนี้: คันแรกได้รับอิทธิพลจากความชอบส่วนบุคคลข้อที่สองตามข้อ จำกัด ด้านงบประมาณ

จุดด้อย:

  1. ทั้งสองรุ่นมีความโลภของข้อมูลมากขึ้นนั่นคือเราต้องสังเกตความยาวของเวลาระหว่างการถามและการเสนอราคาเพื่อทำให้เท่ากัน (ถ้าค่อนข้างสั้น 1, อีก 0) หรือสังเกตชุดที่ตลาดไม่สนใจ

และในที่สุดหากคุณสนใจว่าราคามีผลต่อความน่าจะเป็นที่จะซื้อคุณอาจทำงานกับรุ่นLogitบางประเภทได้อย่างไร

เราเห็นพ้องกันว่าการวิเคราะห์ร่วมกันไม่เหมาะสมที่นี่เพราะคุณมีบริบทและข้อสังเกตที่แตกต่างกัน

โชคดี.


ว่าคุณจะใช้โมเดล logom แบบหลายมิติซึ่งตัวแปรตามคือหมวดหมู่กับราคาซึ่งไม่ได้จัดหมวดหมู่อย่างไร
whuber

@Dmitrij Celov: ขอบคุณสำหรับคำแนะนำของคุณ ฉันจะพยายามตอบคำถามของคุณ 1) ไม่มีราคานี่เป็นสิ่งที่ไม่รู้จักซึ่งฉันอยากจะตอบโดยดูรถที่คล้ายกัน 2) ฉันไม่รู้ว่าตัวแปรใดที่ชั่งน้ำหนักได้มากที่สุด - ฉันหวังว่าจะได้ 3) ฉันต้องการอ้างอิงรถยนต์ที่มีคุณสมบัติและราคาตามราคารถที่มีคุณสมบัติใด ๆ
murrekatt

Kj1j10P(yi=1|yj=0)=11+eβ(XiXj)yiyj

@murrekatt: 1) ดังนั้นคุณแค่มองหาคุณลักษณะ "มีค่า" มากที่สุด? 2) Logit ประมาณพารามิเตอร์ถูกตีความอย่างดีเช่นอัตราต่อรองและอัตราต่อรอง แต่ login หลายคนมีคุณสมบัติที่อ่อนแอที่เรียกว่าเป็นอิสระจากทางเลือกที่ไม่เกี่ยวข้อง 3) คุณแน่ใจหรือไม่ว่าราคาที่ระบุไว้นั้นเกี่ยวข้องกับรถยนต์จริงหรือไม่ @whuber: การถดถอยง่าย ๆ ทำงานได้ดีที่นี่ถ้าราคาขึ้นอยู่กับใคร แต่ราคาเท่าไหร่? เผยแพร่ที่ไหน หรือเป็นธุรกรรมจริง
Dmitrij Celov

2
@Dimitrij Price ไม่ใช่ตัวแปรอิสระ: เป็นตัวแปรที่ขึ้นอยู่กับ : "ฉันต้องการทำความเข้าใจกับวิธีจำลองราคาสำหรับรถยนต์ใด ๆ โดยอิงตามข้อมูลฐานนี้" ฉันกลัวว่าด้วยความเข้าใจผิดนี้คุณอาจใช้ @murrekatt ไปไกลมาก
whuber

4

ดูเหมือนว่าปัญหาการถดถอยเชิงเส้นฉันเกินไป แต่สิ่งที่เกี่ยวกับ K เพื่อนบ้านที่ใกล้ที่สุดKNN คุณสามารถหาสูตรระยะทางระหว่างรถแต่ละคันและคำนวณราคาเป็นค่าเฉลี่ยระหว่าง K (พูด 3) ที่ใกล้ที่สุด สูตรระยะทางสามารถเป็นแบบยูคลิดตามความแตกต่างในกระบอกสูบรวมถึงความแตกต่างในประตูรวมถึงความแตกต่างในแรงม้าและอื่น ๆ

หากคุณไปกับการตรวจสอบเชิงเส้นฉันขอแนะนำสองสิ่ง:

  • เพิ่มมูลค่าเงินดอลลาร์ให้ทันสมัยจนถึงบัญชีเงินเฟ้อ
  • แบ่งข้อมูลของคุณเป็นยุค ฉันจะเดิมพันคุณจะพบว่าคุณจะต้องมีรุ่นหนึ่งสำหรับ pre ww2 และโพสต์ ww2 เช่นกัน นี่เป็นเพียงลางสังหรณ์
  • ข้ามการตรวจสอบรูปแบบของคุณเพื่อหลีกเลี่ยงการกระชับ แบ่งข้อมูลของคุณออกเป็น 5 ชิ้น ฝึกฝนเมื่อวันที่ 4 และโกศนางแบบในกลุ่มก้อนที่ 5 สรุปข้อผิดพลาดล้างซ้ำสำหรับชิ้นอื่น ๆ

อีกแนวคิดหนึ่งคือการสร้างไฮบริดระหว่างรุ่น ใช้ regresion และ KNN ทั้งสองเป็นดาต้าพอยท์และสร้างราคาสุดท้ายเป็นค่าเฉลี่ยถ่วงน้ำหนักหรือบางอย่าง


3

นอกจากนี้สิ่งที่ได้รับการกล่าวและไม่ได้จริงๆค่อนข้างแตกต่างจากบางส่วนของข้อเสนอแนะที่ทำแล้วคุณอาจต้องการที่จะมีลักษณะที่วรรณกรรมมากมายในรูปแบบการกำหนดราคาความชอบ สิ่งที่เดือดลงมาคือตัวแบบการถดถอยพยายามอธิบายราคาของคอมโพสิตที่ดีว่าเป็นฟังก์ชั่นของคุณสมบัติ

สิ่งนี้จะช่วยให้คุณสามารถกำหนดราคารถยนต์ให้ทราบถึงคุณลักษณะของมัน (พลังม้า, ขนาด, ยี่ห้อ ฯลฯ ) แม้ว่าจะไม่มีการผสมผสานคุณสมบัติที่คล้ายคลึงกันในตัวอย่างของคุณก็ตาม มันเป็นวิธีการที่นิยมมากสำหรับการประเมินมูลค่าของสินทรัพย์ที่ไม่สามารถจำลองได้เช่นทรัพย์สินของรัฐจริง หากคุณใช้ Google สำหรับ "รุ่น hedonic" คุณจะพบการอ้างอิงและตัวอย่างมากมาย


F @ Tusell: นั่นเป็นคำอธิบายที่ดี ฉันงงแล้วด้วยกันจากโพสต์อื่น ๆ แต่สิ่งนี้สรุปได้ดีสำหรับผู้เริ่มต้นเช่นฉัน
murrekatt
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.