คำถามสัมภาษณ์นักวิทยาศาสตร์ด้านข้อมูล: การถดถอยเชิงเส้นต่ำและคุณจะทำอย่างไร


10

ฉันเผชิญหน้ากับคำถามสัมภาษณ์สำหรับงานที่ผู้สัมภาษณ์ถามฉันว่าสมมติว่าของคุณต่ำมาก (ระหว่าง 5 ถึง 10%) สำหรับแบบจำลองความยืดหยุ่นราคา คุณจะแก้ไขคำถามนี้อย่างไรR2

ฉันไม่สามารถคิดอย่างอื่นนอกเหนือจากความจริงที่ว่าฉันจะทำการวินิจฉัยการถดถอยเพื่อดูว่าเกิดข้อผิดพลาดหรือควรใช้วิธีการเชิงเส้นใด ๆ อย่างใดฉันคิดว่าผู้สัมภาษณ์ไม่พอใจกับคำตอบของฉัน มีอย่างอื่นที่ทำในสถานการณ์เช่นนี้เพื่อให้พอดีกับแบบจำลองและใช้สำหรับการทำนายระดับการผลิตแม้ว่ามันจะมีค่าต่ำหรือไม่?R2

แก้ไข : ในเวลาต่อมาพวกเขาให้ข้อมูลกับฉันเพื่อจำลองปัญหาในระหว่างการสัมภาษณ์และฉันพยายามเพิ่มตัวแปรที่ล่าช้า, ผลกระทบของราคาของคู่แข่ง, หุ่นตามฤดูกาลเพื่อดูว่ามันสร้างความแตกต่างหรือไม่ ไปถึงร้อยละ 17.6 และประสิทธิภาพการทำงานในตัวอย่างที่เก็บไว้ไม่ดี โดยส่วนตัวฉันคิดว่ามันผิดจรรยาบรรณที่จะนำแบบจำลองดังกล่าวมาใช้ในการทำนายสภาพแวดล้อมจริงเพราะจะให้ผลลัพธ์ที่ผิดพลาดและทำให้ลูกค้าสูญเสีย มีอะไรอีกบ้างที่ทำในสถานการณ์เช่นนี้ซึ่งชัดเจนเกินไปที่ทุกคนต้องรู้ บางสิ่งที่ฉันไม่ทราบซึ่งฉันอยากจะพูดว่า 'กระสุนเงิน'R2

นอกจากนี้ลองนึกภาพหลังจากเพิ่มตัวแปรภายนอกปรับปรุงให้ดีขึ้นอีก 2% แล้วจะทำอะไรได้บ้างในสถานการณ์นี้ เราควรยกเลิกโครงการสร้างแบบจำลองหรือยังมีความหวังในการพัฒนาแบบจำลองคุณภาพระดับการผลิตซึ่งระบุโดยผลการดำเนินงานในตัวอย่างที่เก็บไว้?R2

แก้ไข 2 : ฉันได้โพสต์คำถามนี้ในฟอรัมeconomics.stackexchange.comเพื่อทำความเข้าใจปัญหานี้จากมุมมองของเศรษฐศาสตร์


12
"สมมติว่าคุณอยู่ในระดับต่ำมาก (ระหว่างวันที่ 5 ถึง 10%) สำหรับรุ่นความยืดหยุ่นของราคา" ไม่ใช่คำถาม การตอบสนองของฉันต่อ "สมมติว่าR 2ของคุณต่ำมาก (ระหว่าง 5 ถึง 10%) สำหรับโมเดลความยืดหยุ่นราคา" จะเป็น "โอเคทำแล้ว" ฉันสามารถสมมติได้ว่าไม่มีปัญหาดังนั้นจึงไม่มีอะไรให้ทำอีกแล้ว หากพวกเขาไม่ได้กำลังจะมาถึงฉันจะต้องถามว่าพวกเขามองว่าอะไรเป็นปัญหาในการแก้ไข คุณไม่เห็นสิ่งใดเป็นปัญหาที่นี่ R2R2
Glen_b -Reinstate Monica

1
ฉันติดแท็กเพื่อการศึกษาด้วยตนเอง @Glen_b แจ้งให้เราทราบหากฉันต้องการเพิ่มรายละเอียดเพิ่มเติม ขอบคุณ!
คนที่กระตือรือร้น

2
ขอบคุณนั่นเป็นสิ่งที่ดีที่จะทำ แต่รายละเอียดเพิ่มเติมจะรวมคำถามจริงที่คุณต้องการแก้ไข "สมมติว่า X" กำลังแสดงสถานการณ์ที่ไม่ขอให้คุณแก้ไขอะไร
Glen_b -Reinstate Monica

1
ข้ามโพสต์ที่economics.stackexchange.com/q/16617 โปรดลองตัดสินใจเลือกเว็บไซต์ที่ดีที่สุดสำหรับคำถาม: หากคุณรู้สึกว่ามันคุ้มค่าที่จะปรับให้เหมาะสมกับเว็บไซต์ที่แตกต่างกัน
Scortchi - Reinstate Monica

1
@Scortchi ฉันได้เพิ่มลิงก์เป็นการแก้ไขเพิ่มเติมในทั้งสองฟอรัม ขอบคุณ!
คนที่กระตือรือร้น

คำตอบ:


11

ถ้าเราดูปัญหาจากมุมมองนี้ ความยืดหยุ่นของราคาคือความสัมพันธ์ระหว่างอุปสงค์และราคาของผลิตภัณฑ์

เมื่อ r-square ในสถานการณ์นี้ต่ำเราอาจบอกเป็นนัยว่าความสัมพันธ์ระหว่างราคาและอุปสงค์สำหรับผลิตภัณฑ์นั้นไม่แข็งแกร่ง

จากจุดยืนการกำหนดราคาอาจหมายถึงคุณได้พบผลิตภัณฑ์ที่คุณสามารถกำหนดราคาได้เองโดยไม่มีผลกระทบต่อความต้องการหรือความต้องการนั้นค่อนข้างไม่แน่นอนแม้จะมีการกำหนดราคาที่แตกต่างกัน

หากคุณดูที่สินค้าของ Veblenพวกเขาเป็นตัวอย่างที่ความยืดหยุ่นเป็นสิ่งที่ตรงกันข้าม เมื่อราคาสูงขึ้นอุปสงค์ก็เพิ่มสูงขึ้น

หากในทางกลับกัน r-square ต่ำนั่นอาจหมายถึงประเภทของผลิตภัณฑ์ที่ราคาไม่สำคัญเมื่อพูดถึงความต้องการ เหนือศีรษะของฉันยาแก้มะเร็งอาจเป็นสิ่งที่สามารถยึดติดกับคุณสมบัตินี้ได้ ในกรณีที่ความสำคัญของยาเสพติดเมื่อเทียบกับราคาที่มันสั่งและไม่สามารถแสดงความต้องการ

และโดยสรุปฉันสมมติว่าเจตนาของผู้สัมภาษณ์อาจต้องตัดสินถ้าคุณรู้ว่านัยยะของ r-square ต่ำหมายถึงการหาวิธีสร้างแบบจำลองที่ดีกว่าด้วย r-square ที่สูงขึ้น


+1 สำหรับข้อสรุป ฉันยังคิดว่าจุดประสงค์ของคำถามนี้คือพยายามดูว่าผู้สมัครติดตามตัวชี้วัดแบบสุ่มโดยไม่เข้าใจหรือไม่
Haitao Du

5

ฉันไม่แน่ใจว่าผู้สัมภาษณ์เป็นอย่างไร แต่เมื่อเผชิญกับแบบจำลอง preforming ที่ไม่ดีสิ่งเหล่านี้เป็นสิ่งที่ฉันพิจารณาและคำตอบที่ฉันชอบฟังในฐานะผู้สัมภาษณ์ (เคยสัมภาษณ์มาสองปีแล้ว)

  1. การรับข้อมูลเพิ่มเติม : สิ่งนี้อาจไม่ได้ช่วยเสมอไป แต่มีบางสิ่งที่สามารถช่วยคุณประเมินผลกระทบของโซลูชันนี้:

    • เรียกใช้แบบจำลองด้วยขนาดตัวอย่างที่แตกต่างกัน - ถ้าผลลัพธ์ดีขึ้นด้วยข้อมูลที่มากขึ้นถ้าสมมุติว่าการรับข้อมูลมากขึ้นจะเป็นการปรับปรุงประสิทธิภาพของแบบจำลองต่อไป
    • ฟีเจอร์อัตราส่วนตัวอย่าง - หลังจากที่คุณเลือกฟีเจอร์ลองทำความเข้าใจถ้าคุณมีตัวอย่างเพียงพอต่อค่าคุณสมบัติแต่ละค่า ดูคำถามที่ตอบแล้วในหัวข้อนี้
    • ค่าเป้าหมายที่ขาดหายไป - ความยืดหยุ่นอาจไม่เหมือนกันระหว่างช่วงราคาที่ต่างกัน ในสถานการณ์ที่ข้อมูลตัวอย่างของคุณมีอคติต่อช่วงที่เฉพาะเจาะจงมีโอกาสที่คุณจะไม่สามารถพูดคุยได้ (ตัวอย่างเช่น 90% ของตัวอย่างใช้สำหรับราคาระหว่าง 0-10 และอีก 10% เป็นราคาระหว่าง 1000-10000) มีวิธีแก้ไขปัญหานี้นอกเหนือจากการรับข้อมูลเพิ่มเติม (แบ่งการฝึกอบรมแบบจำลองอย่าใช้การถดถอย)
  2. วิศวกรรมฟีเจอร์ที่ดีกว่า : หากคุณมีข้อมูลเพียงพอและคุณรู้เกี่ยวกับการเรียนรู้เชิงลึกแล้วอาจเป็นสิ่งที่ไม่เกี่ยวข้อง ในกรณีที่คุณไม่ตรงตามเกณฑ์ที่กล่าวมาให้มุ่งความสนใจไปที่สิ่งนี้ ในโมเดลพฤติกรรมผู้ใช้มีความสัมพันธ์มากมายที่สัญชาตญาณมนุษย์ของเราเข้าใจดีกว่าโมเดลที่ฝึกอบรมด้วยเครื่อง
    เช่นเดียวกับในกรณีที่คุณออกแบบคุณสมบัติเพิ่มเติมและประสิทธิภาพของรุ่นที่ปรับปรุงใหม่อย่างมาก ขั้นตอนนี้มีแนวโน้มที่จะเกิดข้อผิดพลาดเนื่องจากมักจะเกี่ยวข้องกับรหัสตามตรรกะ (ถ้าสูตร Elses / คณิตศาสตร์)

  3. การเลือกรุ่นที่ดีกว่า : ตามที่คุณแนะนำอาจเป็นโมเดลที่ไม่ใช่เชิงเส้นก็ได้ ข้อมูลของคุณเป็นเนื้อเดียวกันหรือไม่? คุณมีเหตุผลที่จะเชื่อว่าคุณสมบัติข้ามจะอธิบายความยืดหยุ่นของราคาได้ดีขึ้นหรือไม่? (ราคาตามฤดูกาล * ของคู่แข่ง)

  4. การปรับพารามิเตอร์ไฮเปอร์ : พารามิเตอร์ไฮเปอร์ของโมเดลการค้นหากริด (+ ผลลัพธ์การตรวจสอบไขว้) เป็นแนวปฏิบัติที่ดี แต่เท่าที่ประสบการณ์ของฉันมันไม่ค่อยปรับปรุงประสิทธิภาพอย่างมาก (ไม่ใช่จาก 5% ถึง 90%)

ยังมีอีกหลายสิ่งที่สามารถทำได้ แต่ประเด็นเหล่านี้เป็นเรื่องทั่วไปพอสมควร


1

นอกเหนือจากสิ่งที่แนะนำโดย @DaFanat และ @Arun ฉันต้องการเพิ่มว่าการตรวจสอบด้วยภาพบางอย่างอาจช่วยได้

R2


ขอขอบคุณสำหรับการแบ่งปันข้อมูลเฉพาะโดเมนเนื่องจากนี่เป็นปัญหาการจัดการรายได้
คนที่กระตือรือร้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.