คำถามสัมภาษณ์สถิติ


65

ฉันกำลังมองหาสถิติ (และความน่าจะเป็นฉันเดา) คำถามสัมภาษณ์จากพื้นฐานที่สุดไปจนถึงขั้นสูงกว่า ไม่จำเป็นต้องมีคำตอบ (แม้ว่าลิงก์ไปยังคำถามที่เฉพาะเจาะจงในเว็บไซต์นี้จะทำได้ดี)


ตัวอย่างหนึ่ง: stats.stackexchange.com/questions/4768/…
radek

มันจะน่าสนใจมากถ้าใครสักคนที่จะให้พวกเขาตัวอย่างที่ให้ตัวเองเมื่อให้สัมภาษณ์ ...
เคอร์วินข Halvorsen

คำตอบ:


40

ไม่แน่ใจว่างานคืออะไร แต่ฉันคิดว่า "อธิบาย x เป็นสามเณร" น่าจะดี -

a) เพราะพวกเขาอาจต้องทำสิ่งนี้ในงาน

b) มันเป็นแบบทดสอบความเข้าใจที่ดี


8
(+1): ฉันไม่สามารถนับจำนวนครั้งที่ฉันคิดว่าฉันเข้าใจบางอย่างได้ แต่แล้วฉันก็ไม่สามารถอธิบายให้คนอื่นด้วยคำพูดง่ายๆ ตัวอย่าง: p-value;)
steffen

6
"ถ้าคุณไม่สามารถอธิบายให้เด็กอายุหกขวบได้คุณอาจไม่เข้าใจตัวเอง" - Albert Einstein อาจจะไม่สุดขั้ว แต่คุณได้คะแนน ... :)
JM ไม่ใช่นักสถิติ

1
ฉันชอบ "อธิบายค่า p" โดยมีหรือไม่มีส่วน "เป็นสามเณร"
shabbychef

นี่คือเหตุผลว่าทำไมการตรวจสอบข้ามจึงยอดเยี่ยม คำถามและคำตอบ "คนธรรมดา" มากมาย
Neil McGuigan

คำแนะนำที่ดีจริง ๆ ไม่ว่าคุณจะสัมภาษณ์หรือไม่!
JMS

21

มาตรฐาน Q ที่ฉันทำงานอยู่ตามแนวของ:

ดูผลลัพธ์ของการถดถอยโลจิสติกหลายครั้งจากแพคเกจสถิติที่คุณอ้างว่าได้ใช้ (โดยเฉพาะอย่างยิ่งที่เราใช้ด้วย) XXX เป็นตัวแปรอิสระของดอกเบี้ยหลัก คุณตีความผลลัพธ์ของเพื่อนร่วมงานด้วยความรู้ในสาระสำคัญได้อย่างไร แต่ไม่มีการฝึกอบรมเชิงสถิติอย่างเป็นทางการ (หากจำเป็นต้องแจ้งให้แยกตีความการประมาณค่าจุด CI ค่า p)


15
ในบริบททางวิชาการมากขึ้นนอกจากนี้ยังอาจจะถาม: 'มีลักษณะที่เอาท์พุทแบบนี้ในบทความนี้ที่คุณ (ร่วม) บอกฉันทีว่ามันมีความหมายอย่างไร ' คำตอบที่ไม่ดีนักนั้นถึงขั้นเสียชีวิตเพราะไม่มีข้อแก้ตัวที่ไม่คุ้นเคย แต่ก็เป็นเรื่องธรรมดา
conjugateprior

4
@conjugateprior ไม่เป็นความจริง ตราบใดที่ยังมีผู้เขียนร่วมอย่างน้อยหนึ่งคนที่ไม่ได้อยู่ด้วยก็ไม่ได้เป็นพื้นที่ของผู้เขียนร่วม การใช้งานหลักของเทคนิคนี้อยู่ที่การนำเสนอการประชุม
Mark L. Stone

18

คุณอาจต้องการไตร่ตรองว่าการสัมภาษณ์นั้นเป็นสื่อที่ดีที่สุดในการวัดโครงสร้างของดอกเบี้ยหรือไม่ หากคุณต้องการวัดความรู้เกี่ยวกับความน่าจะเป็นหรือสถิติก่อนหน้านี้คุณอาจจะต้องอาศัยการทดสอบข้อเขียนมากกว่า คุณสามารถถามคำถามเพิ่มเติมและเพิ่มความน่าเชื่อถือของการวัด มันเป็นมาตรฐานมากขึ้นทั้งในการบริหารและในการให้คะแนน และเมื่อเครื่องมือได้รับการพัฒนามันอาจใช้ทรัพยากรน้อยลงเพื่อจัดการ

จากนั้นคุณสามารถใช้การสัมภาษณ์เป็นเครื่องมือเพ่งความสนใจไปที่การพิจารณาปัจจัยต่าง ๆ เช่นทักษะการพูดและการใช้มนุษยสัมพันธ์


1
นี่เป็นจุดที่ดี ฉันพบว่าในอดีตเป็นเรื่องยากมากที่จะบอกได้ว่าผู้สมัครที่ระบุจะได้ผลหรือไม่ถ้าคุณไม่ได้ทำงานกับพวกเขาในอดีต
shabbychef

15

ฉันถูกถามคำถามสองข้อ:

1) คุณพอดีกับการถดถอยหลายครั้งเพื่อตรวจสอบผลกระทบของตัวแปรเฉพาะที่ผู้ปฏิบัติงานในแผนกอื่นสนใจตัวแปรกลับมาไม่สำคัญ แต่เพื่อนร่วมงานของคุณบอกว่าสิ่งนี้เป็นไปไม่ได้เนื่องจากเป็นที่ทราบกันว่ามีผล คุณจะพูด / ทำอะไร

2) คุณมี 1,000 ตัวแปรและ 100 การสังเกต คุณต้องการค้นหาตัวแปรที่สำคัญสำหรับการตอบกลับเฉพาะ คุณจะทำอย่างไร


คุณช่วยโพสต์คำตอบได้ไหม? สำหรับ 1) ฉันคิดว่าอาจมีตัวแปรตามที่ทำให้เกิดปัญหา สำหรับ 2) ฉันอาจจะไปทดสอบสถิติχ² (ไคสแควร์)
ฤishiษี Dua

2
มีการตอบสนองที่สมเหตุสมผลทั้งสองอย่างต่อไปนี้เป็นความคิดที่รวดเร็วของฉัน: 1) แบบจำลองการถดถอยมาจากตัวอย่างตัวอย่างนี้มีการเปลี่ยนแปลงแบบสุ่มดังนั้นโมเดลนี้เป็นเพียงการประมาณและอาจส่งผลให้เกิดข้อผิดพลาดประเภท 1 หรือ 2 นอกจากนี้ยังอาจมี collinearity หนักในหมู่ผู้ทำนาย สำหรับ 2) มันเป็นปัญหาใหญ่ของ P เทียบกับ N ขนาดเล็ก มีเทคนิคมากมายในการจัดการสถานการณ์เช่นการลดขนาดและ Lasso
เกลน

2) ทำ univariate พอดีกับตัวแปรและระบุสิ่งที่สำคัญที่สุดในการลดชุดตัวแปร
adam

11

นี่คือชุดข้อมูลขนาดใหญ่ คุณมีแผนอย่างไรในการจัดการกับผู้ผิดกฎหมาย? แล้วค่าที่หายไปล่ะ? แล้วการเปลี่ยนแปลงล่ะ

พวกเขาสามารถจัดการกับข้อมูลในโลกแห่งความจริงได้หรือไม่?


เรียนผู้ใช้ที่ไม่ระบุชื่อโปรดอย่าใช้การแก้ไขสำหรับความคิดเห็น (ไม่ใช่สำหรับคุณนีล)

10

คำถาม / คำตอบมากมายในเว็บไซต์นี้อาจให้แนวคิดสำหรับคำถามที่ดี ฉันจะให้รายการพร้อมลิงก์บางอย่างที่ฉันคิดว่าดี โพสต์ที่ฉันตอบถูกนำเสนอมากกว่าเพราะฉันรู้ว่าโพสต์เหล่านั้นดีกว่าไม่ใช่เพราะจำเป็นต้องดีที่สุด! ฉันให้ความคิดเห็นสั้น ๆ กับแต่ละลิงก์เพื่อให้คุณสามารถตัดสินใจได้ว่าคุณต้องการติดตามลิงก์หรือไม่

สัญชาตญาณของ SVD คืออะไร? "คุณสามารถอธิบายให้ลูกค้าของเราฟังว่า SVD ทำงานอย่างไร?"

การประมาณความน่าจะเป็นสูงสุด (MLE) ในแง่คนธรรมดา "คุณสามารถอธิบายความคิดเกี่ยวกับการประเมินความเป็นไปได้สูงสุดในภาษาที่ไม่ใช่เทคนิคด้วยภาษาไหม?"

Taleb และ Black Swan "บอกฉันทีว่าหงส์ดำคืออะไรและทำไมจึงมีความเกี่ยวข้อง

การอนุมานเชิงสถิติเมื่อกลุ่มตัวอย่าง "คือ" ประชากร "คุณสามารถพูดอะไรเกี่ยวกับการอนุมานเชิงสถิติเมื่อกลุ่มตัวอย่างคือประชากรทั้งหมด?

ความดีของความพอดีและตัวแบบใดให้เลือกการถดถอยเชิงเส้นหรือปัวซอง "เรามีปัญหาการถดถอยที่การตอบสนองเป็นตัวแปรนับซึ่งคุณจะเลือกในบริบทนี้ธรรมดากำลังสองน้อยที่สุดหรือการถดถอยปัวซอง (หรืออาจจะเป็นอย่างอื่น) อธิบายตัวเลือกของคุณ อะไรคือความแตกต่างที่สำคัญระหว่างโมเดลเหล่านี้? "

อะไรคือความแตกต่างระหว่างความแปรปรวนอัน จำกัด และความแปรปรวนอนันต์ "คุณสามารถอธิบายได้อย่างไรในภาษาที่ง่ายที่สุดเท่าที่จะเป็นไปได้ความหมายของตัวแปรสุ่มที่มีความคาดหวังที่ไม่มีที่สิ้นสุดหรือความแปรปรวนแบบอนันต์คืออะไร ตัวอย่าง."

อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน "คุณจะสร้างตัวแบบการถดถอยที่ซับซ้อนได้อย่างไรเมื่อมีตัวแปรทำนายที่เป็นไปได้มากมายอธิบายกลยุทธ์ที่เป็นไปได้ที่แตกต่างกันและบอกเกี่ยวกับปัญหาที่เกิดขึ้นกับพวกเขาแต่ละคน"

วิธีการจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก? "ปัญหาของการแยกในการถดถอยโลจิสติกสาเหตุของอาการคืออะไรคุณสามารถทำอะไรเพื่อแก้มันถ้ามันเป็นปัญหาจริง ๆ ?"

ทำไมเมทริกซ์สหสัมพันธ์จึงต้องมีค่ากึ่งบวกแน่นอนและมันหมายความว่าอะไรเป็นค่ากึ่งบวกแน่นอน? และ
เมทริกซ์ความแปรปรวนเชิงแปรปรวนเชิงบวกที่ไม่แน่นอนบอกอะไรฉันได้บ้างเกี่ยวกับข้อมูลของฉัน "อธิบายว่าทำไมเมทริกซ์ความแปรปรวนร่วมต้องเป็นค่าบวก (กึ่ง) แน่นอนและนั่นหมายความว่าอย่างไรความจริงนั้นสามารถนำไปใช้ได้อย่างไร"

อะไรคือค่ามัธยฐานของหลายมิติ "คุณสามารถเสนอวิธีที่จะทำให้ค่าเฉลี่ยมัธยฐานเป็นข้อมูลหลายตัวแปรได้หรือไม่"

การตีความคำศัพท์การโต้ตอบในการถดถอยโลจิทด้วยตัวแปรเด็ดขาด และ แนวทางปฏิบัติที่ดีที่สุดในการระบุเอฟเฟกต์การโต้ตอบคืออะไร? และ สองผลกระทบหลักเชิงลบยังมีผลกระทบเชิงบวก? และ รวมถึงการมีปฏิสัมพันธ์ แต่ไม่ใช่ผลกระทบหลักในแบบจำลอง และ วิธีการตีความผลกระทบหลักเมื่อผลการปฏิสัมพันธ์ไม่สำคัญ? "อธิบายว่าการโต้ตอบในแบบจำลองการถดถอยหมายถึงอะไรถ้าการปฏิสัมพันธ์มีความสำคัญในขณะที่ผลหลักไม่ได้มีความหมายบางอย่างในการตีความการปฏิสัมพันธ์ระหว่างการถดถอยเชิงเส้นปกติและการถดถอยโลจิสติก"

อะไรคือสาเหตุของการใช้การแปลงแบบรูทของข้อมูล และการ แปลงข้อมูลที่เหมาะสม "เมื่อไหร่คุณจะเปลี่ยนตัวแปรตอบสนองอย่างไรในรูปแบบการถดถอย (หรือ ANOVA) และจะมีทางเลือกอื่นอีกหรือไม่?

ฉันสามารถเชื่อถือผลลัพธ์ ANOVA สำหรับ DV แบบกระจายที่ไม่ใช่แบบปกติได้หรือไม่ "คุณจะรักษา ANOVA ด้วยสารตกค้างที่ไม่ปกติได้อย่างไร?

เหตุใดสถิติจึงมีประโยชน์เมื่อมีหลายสิ่งหลายอย่างที่มีความสำคัญ

ฉันจะจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่อย่างมีประสิทธิภาพได้อย่างไร

เมื่อใดที่จะใช้สมการการประมาณแบบทั่วไปกับแบบจำลองเอฟเฟกต์แบบผสม

เกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก "ทำไมเราถึงใช้ความเป็นไปได้สูงสุดในการถดถอยโลจิสติกส์?


9

ฉันถูกถามครั้งหนึ่งว่าฉันจะอธิบายความเกี่ยวข้องของทฤษฎีบทขีด จำกัด กลางกับกลุ่มนักศึกษาใหม่ในสาขาสังคมศาสตร์ที่แทบไม่มีความรู้เกี่ยวกับสถิติ


4
ความเกี่ยวข้องของทฤษฎีขีด จำกัด กลางคือการทำให้คนคิดว่าทุกสิ่งเป็นเรื่องปกติเมื่อไม่มีอะไรเกิดขึ้น และดังนั้นจึงนำไปสู่ข้อสรุปที่ผิดพลาดมากมาย
Mark L. Stone

8

คุณจะคำนวณตัวเลขที่ไม่ใช่ตัวเลขได้อย่างไร

ตัวอย่าง"การแยกคุณสมบัติอัตโนมัติสำหรับการจำแนกข้อมูลเสียง"

เหตุผล: พวกเขาสามารถหาวิธีการวิเคราะห์บางอย่างทางสถิติที่ไม่ได้อยู่ในตารางขนาดใหญ่ได้หรือไม่?


8

คุณจะป้องกันการปรับตัวมากเกินไปเมื่อคุณสร้างแบบจำลองทางสถิติได้อย่างไร

คำตอบที่ดี: การตรวจสอบข้าม


6

ฉันมักจะถามว่า "คุณจะกำหนด / อธิบายการพยากรณ์คืออะไร"

คำตอบสำหรับคำถามทั่วไปประเภทนั้นช่วยให้ฉันเห็นว่าผู้คนเชื่อมโยงกับกรณีเฉพาะของการพยากรณ์หรือไม่ ไม่มีคำตอบที่ถูกต้อง แต่การตอบแบบสังเคราะห์ในระหว่างการสัมภาษณ์นั้นไม่ใช่เรื่องง่ายเสมอไป :)


5

สำหรับบริบทข้อมูลเชิงสังเกต:

พิจารณาโมเดลการถดถอยนี้ที่ใช้กับปัญหาที่สำคัญนี้ ถ้ามีอะไรในนั้นสามารถตีความได้อย่างมีเหตุมีผล? [การสอบสวนเพิ่มเติม] สิ่งที่คุณจะต้องเรียนรู้ที่จะเปลี่ยนความคิดเห็นของคุณ?


4

คุณจะนับจำนวนต้นไม้ที่ทำจากไม้จันทน์ในบังกาลอร์ได้อย่างไร?


1
นั่นเป็นคำถามแบบเฟอร์มี่หรือเปล่า?
Thies Heidecke

2
คำถามที่ดี. ฉันเคยใช้สิ่งนี้ในชั้นเรียน (ต้นไม้ในสวนสาธารณะ) พวกเขาได้แนวคิดในการสุ่มตัวอย่าง แต่มักจะพลาดความจำเป็นในการนิยามการปฏิบัติงาน: เมื่อใดที่คุณเริ่มเรียกมันว่าต้นไม้
zbicyclist

4

ภายใต้หัวข้อCausation vs correlation :

เป็นเรื่องปกติที่จะใช้ความผูกพันของลูกค้า / ผู้ใช้เป็นคุณลักษณะสำหรับแบบจำลองการคาดการณ์ ตัวอย่างเช่นคนที่คลิกที่ปุ่มนี้มีแนวโน้มที่จะสมัครมากกว่าคนที่ไม่ ผู้ที่ซื้อสินค้าในวันจันทร์มีแนวโน้มที่จะซื้อสินค้าอีกครั้งมากกว่าผู้ที่ซื้อสินค้าในวันอังคาร

หากเราทำสิ่งนี้ให้สุดโต่ง: ผู้ใช้ที่คลิก "ซื้อ" มีแนวโน้มที่จะซื้อผลิตภัณฑ์มากกว่าผู้ใช้ที่ไม่คลิกซื้อ

แต่เห็นได้ชัดว่าไม่ได้มีประโยชน์มากในการอธิบายว่าทำไมผู้ใช้บางคนสมัครและบางคนไม่ได้

คุณจะสร้างความสมดุลโดยใช้คุณสมบัติของลูกค้าที่อธิบายว่าทำไมพวกเขาสมัครสมาชิกกับผู้ที่มีความสัมพันธ์อย่างมากกับการสมัครสมาชิก แต่จำเป็นต้องทำงานให้สำเร็จ


3

นี่คือชุดTinkerToy แสดงให้ฉันเห็นว่าระยะทางแบบยุคลิดทำงานเป็นสามมิติได้อย่างไร ตอนนี้แสดงให้ฉันเห็นว่าการถดถอยหลายครั้งทำงานอย่างไร

พวกเขาสามารถอธิบายว่าสถิติทำงานในโลกทางกายภาพได้อย่างไร


1
การถดถอยหลายครั้งพร้อมการสังเกตแบบจำเป็นต้องตั้งค่า -dimensional TinkerToy NNN
onestop

1
ถ้าคุณต้องการกระจายพล็อตสองตัวแปรโดยมีการสังเกต 100 ครั้งคุณต้องการเพียง 2 มิติไม่ใช่ 100 :) และอื่น ๆ
Neil McGuigan

3

เรากำลังเรียกใช้ศูนย์บริการลูกค้า เราได้รับการโทร 1 ล้านครั้งต่อเดือน เราจะลดมันเป็นหมื่นได้อย่างไร


5
ลบ 99% ของโทรศัพท์ของคุณ!
shabbychef

5
หยุดจ่ายค่าโทรศัพท์
เกลน

3
มีค่าธรรมเนียมสำหรับการโทร (หมายเลข 900 ในสหรัฐอเมริกา ... )
gWaldo

7
คำถามนี้มีกฎประมาณ 80-20 ข้อ มันเป็นกฎง่ายๆในการทำธุรกิจ เช่น "80% ของยอดขายมาจาก 20% ของลูกค้า" Microsoft ระบุว่าการแก้ไขข้อผิดพลาดที่รายงานมากที่สุด 20% อันดับแรก 80% ของข้อผิดพลาดและข้อขัดข้องจะถูกกำจัด ดังนั้นจะหมายถึงการตั้งคำถามที่พบบ่อยเพื่อระบุที่อยู่ 20% ของปัญหาเหล่านี้
Rishi Dua

3

คำถามจำนวนมากที่เราถามนั้นคล้ายคลึงกับคำถามที่อธิบายไว้แล้ว แต่บางอย่างที่ฉันยังไม่ได้อ่านที่ใช้: คุณอาจถูกขอให้ร่างโปรแกรมบนไวท์บอร์ดเพื่อทำสิ่งต่อไปนี้: จำลองการหมุนของลูกเต๋าหรือปัญหาความน่าจะเป็นอื่น ๆ หรือคำนวณชุดของจำนวนเฉพาะ (เช่นทั้งหมด จำนวนเฉพาะที่น้อยกว่า 1,000,000) - คุณสามารถทำได้ในทุกภาษาที่คุณต้องการ แต่คนส่วนใหญ่เลือก R และบางคนเลือก Python (ฉันเชื่อ) แต่ฉันเดาว่าคุณสามารถเลือก Stata, SAS, SPSS Matlab และอื่น ๆ คุณอาจถูกถามคำถามเพื่อตรวจสอบความลึกของความรู้ภาษาการเขียนโปรแกรมที่คุณเลือก - ทำไมจึงใช้แทนการใช้ for for loop in R เป็นต้น

คุณอาจถูกขอให้ออกแบบการทดลองหรือการศึกษาอื่น ๆ เพื่อตรวจสอบบางอย่าง - โดยทั่วไปแล้วจะเป็นประโยชน์ - บางครั้งสิ่งนี้จะเกี่ยวข้องกับงานที่เราทำ แต่ไม่บ่อยครั้ง (คุณไม่ควรที่จะมีความรู้ในงานที่เราทำ แต่คุณควรจะสามารถเข้าใจปัญหาที่คุณไม่เคยได้ยินและคาดเดาเกี่ยวกับมันอย่างชาญฉลาดแม้ว่าจะได้รับความรู้เกี่ยวกับโดเมนที่คุณรู้ นั่นเป็นสิ่งที่ผิด - ไม่เป็นไรคุณไม่ได้คาดหวังว่าจะมีความรู้เกี่ยวกับโดเมน) คุณอาจถูกขอให้นำสิ่งต่าง ๆ เช่นพลังงานเข้าบัญชี


2

ขณะทำการวิเคราะห์ความแปรปรวนของตัวแปรเชิงปริมาณบางครั้งพบว่าความถี่ของตัวแปรนั้นสูงมาก (> 5) จากนั้นเราใช้การทดสอบที่แน่นอนของฟิชเชอร์เพื่อค้นหาความเป็นอิสระของตัวแปร


นี่อาจจะถูกวิทยภายใต้คำตอบของคริส
JM ไม่ใช่นักสถิติ

4
คำตอบที่ถูกต้องสำหรับคนนี้รวมถึงการที่รู้ว่ามีการโต้เถียงกันว่าการกำหนดระยะขอบคงที่เหมาะสมหรือไม่
Ben Bolker

1

จำนวนการเข้าร่วมโดยเฉลี่ยที่เกมแยงกี้ปีที่แล้วคือ 55,000 คุณสุ่มถามคนกลุ่มหนึ่งในนิวยอร์คว่าพวกเขาไปเล่นเกมแยงกี้เมื่อฤดูกาลที่แล้วหรือไม่ถ้าพวกเขาทำคุณบันทึกการเข้าร่วมที่จ่ายเงิน การเข้าร่วมโดยเฉลี่ยที่จ่ายสำหรับเกมที่ผู้คนที่คุณถามว่าไปร่วมเล่นเกมเป็นอย่างไร

ฉันจะให้คำแนะนำสำหรับคำตอบของฉัน (ไม่ได้ให้คำแนะนำ): การสุ่มตัวอย่างแบบเอนยาว ฉันทำแต้มวิ่งกลับบ้านได้ แต่มันก็ไม่เพียงพอที่จะชนะเกมฮ่า หมายเหตุ: ฉันพูดถึงคำเตือนมากมายที่เกี่ยวข้องกับการสุ่มตัวอย่างและผู้สัมภาษณ์บอกให้ฉันไม่สนใจพวกเขาทั้งหมด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.