นักสถิติทุกคนควรรู้ทฤษฎีอะไร


30

ฉันกำลังคิดถึงสิ่งนี้จากมุมมองความต้องการขั้นพื้นฐานที่น้อยที่สุด ทฤษฎีสำคัญที่นักสถิติอุตสาหกรรมควรรู้ทำความเข้าใจและใช้เป็นประจำคืออะไร

สิ่งสำคัญที่นึกถึงคือกฎของคนจำนวนมาก สิ่งที่สำคัญที่สุดสำหรับการประยุกต์ใช้ทฤษฎีทางสถิติกับการวิเคราะห์ข้อมูลคืออะไร?

คำตอบ:


41

ตรงไปตรงมาฉันไม่คิดว่ากฎหมายจำนวนมากมีบทบาทอย่างมากในอุตสาหกรรม มันจะเป็นประโยชน์ในการทำความเข้าใจเกี่ยวกับความเชื่อมั่นของกระบวนการทั่วไปเช่นการประเมินความเป็นไปได้สูงสุดและการทดสอบ (รวมถึง GLMs ทุกหนทุกแห่งและการถดถอยโลจิสติกโดยเฉพาะ), bootstrap แต่สิ่งเหล่านี้เป็นปัญหาด้านการกระจายมากกว่าความน่าจะเป็น .

นอกเหนือจากหัวข้อที่กล่าวถึงแล้ว (GLM, Inference, bootstrap) โมเดลทางสถิติที่พบบ่อยที่สุดคือการถดถอยเชิงเส้นดังนั้นจึงต้องมีความเข้าใจอย่างละเอียดเกี่ยวกับตัวแบบเชิงเส้น คุณอาจไม่เคยใช้ ANOVA ในชีวิตอุตสาหกรรมของคุณ แต่ถ้าคุณไม่เข้าใจคุณไม่ควรเรียกนักสถิติ

อุตสาหกรรมมีหลายประเภท ในฟาร์มาคุณไม่สามารถหาเลี้ยงชีพได้หากปราศจากการทดลองแบบสุ่มและการถดถอยโลจิสติก ในสถิติการสำรวจคุณไม่สามารถหาเลี้ยงชีพได้หากไม่มีตัวประมาณ Horvitz-Thompson และการปรับที่ไม่ตอบสนอง ในสถิติที่เกี่ยวข้องกับวิทยาศาสตร์คอมพิวเตอร์คุณไม่สามารถหาเลี้ยงชีพได้หากปราศจากการเรียนรู้เชิงสถิติและการขุดข้อมูล ในนโยบายสาธารณะคิดว่ารถถัง (และเพิ่มขึ้นเรื่อย ๆ , สถิติการศึกษา), คุณไม่สามารถทำมาหากินโดยไม่มีเหตุและการประเมินผลการรักษา (ซึ่งยิ่งเกี่ยวข้องกับการทดลองแบบสุ่ม) ในการวิจัยการตลาดคุณต้องมีพื้นฐานทางเศรษฐศาสตร์ร่วมกับทฤษฎีการวัดทางจิตวิทยา (และคุณสามารถเรียนรู้ได้ทั้งในแผนกสถิติทั่วไป) สถิติอุตสาหกรรมดำเนินงานด้วยกระบวนทัศน์ซิกซิกเฉพาะของตนเองซึ่งเชื่อมโยงกับสถิติกระแสหลัก พันธะที่แข็งแกร่งสามารถพบได้ในการออกแบบวัสดุการทดลอง วัสดุ Wall Street จะเป็นเศรษฐมิติทางการเงินไปจนถึงแคลคูลัสสุ่ม เหล่านี้เป็นทักษะที่แตกต่างกันมากและคำว่า "อุตสาหกรรม" มีการกำหนดไว้ไม่ดีกว่า "วิชาการ" ฉันไม่คิดว่าจะมีใครสามารถอ้างสิทธิ์ได้มากกว่าสองหรือสามข้อในเวลาเดียวกัน

อย่างไรก็ตามทักษะขั้นสูงสุดที่จำเป็นสำหรับการใช้ในอุตสาหกรรมคือสิ่งที่อาจหมายถึงคุณการจัดการเวลาการบริหารโครงการและการสื่อสารกับลูกค้าที่มีสถิติน้อย ดังนั้นหากคุณต้องการเตรียมตัวสำหรับอุตสาหกรรมให้เข้าเรียนในโรงเรียนธุรกิจในหัวข้อเหล่านี้

อัปเดต: โพสต์ต้นฉบับถูกเขียนในเดือนกุมภาพันธ์ 2012 วันนี้ (มีนาคม 2014) คุณอาจเรียกตัวเองว่า "นักวิทยาศาสตร์ด้านข้อมูล" มากกว่า "นักสถิติ" เพื่อหางานที่ร้อนแรงในอุตสาหกรรม ... และเรียนรู้ Hadoop ให้ดีขึ้นเพื่อตามประกาศด้วยตนเอง


1
คำตอบที่ดี ขอบคุณที่เน้นความแตกต่างที่สำคัญบางประการระหว่างนักสถิติในอุตสาหกรรม สิ่งนี้ช่วยกระตุ้นคำถามของฉันเพราะฉันเชื่อว่าหลายคนมีความคิดที่แตกต่างกันว่านักสถิติเป็นใคร ฉันเดาว่าฉันกำลังพยายามค้นหาว่าสิ่งเหล่านี้ทั้งหมดตัดกันจากความเข้าใจพื้นฐาน นอกจากนี้ฉันขอขอบคุณย่อหน้าสุดท้ายของคุณเกี่ยวกับหัวข้อธุรกิจและความจำเป็นของพวกเขา คะแนนที่ยอดเยี่ยม แต่ฉันยังต้องการดูว่าใครสามารถเพิ่มในการสนทนาก่อนที่จะยอมรับ
bnjmn

ฉันงงงวยโดย "Six Sigma กระบวนทัศน์" แปลก ๆ เหล่านี้ "เชื่อมต่อกับสถิติกระแสหลัก" ซึ่งคุณบอกว่าสถิติอุตสาหกรรมทำงานอยู่ ดูเหมือนว่าเป็นออร์โธดอกซ์ทั้งหมดของฉันโดยแยกความแตกต่างของคำศัพท์ที่พบระหว่างฟิลด์ย่อยทั้งหมดเหล่านี้
Scortchi - Reinstate Monica

4
@Scortchi ฉันไม่สามารถผ่านความแตกต่างศัพท์เหล่านี้ได้ตรงไปตรงมา ฉันรู้ด้วยว่าการประมาณปกติใกล้จะไร้ประโยชน์ในก้อยดังนั้นความน่าจะเป็นซิกม่า 6 ซิกม่าอาจถูกปิดโดยปัจจัย 100 หรือ 1,000109
StasK

ยุติธรรมเพียงพอ: ฉันได้กล่าวว่าการวิเคราะห์ระบบการวัด (ข้อตกลงระหว่างผู้ประเมินความต่อเนื่องของการวัดซ้ำและการศึกษาการทำซ้ำ) การควบคุมกระบวนการทางสถิติการวิเคราะห์ความน่าเชื่อถือ (การวิเคราะห์การรอดชีวิต) และการออกแบบการทดลอง ) เป็นลักษณะของสถิติอุตสาหกรรม
Scortchi - Reinstate Monica

12

ผมคิดว่าการทำความเข้าใจที่ดีในประเด็นที่เกี่ยวกับการถ่วงดุลอำนาจอคติแปรปรวน นักสถิติส่วนใหญ่จะสิ้นสุดลงในบางจุดการวิเคราะห์ชุดข้อมูลที่มีขนาดเล็กพอสำหรับความแปรปรวนของตัวประมาณค่าหรือพารามิเตอร์ของตัวแบบเพื่อให้มีค่าสูงพอที่อคตินั้นเป็นข้อพิจารณารอง


11

ในการชี้ให้เห็นสิ่งที่ชัดเจนที่สุด

ทฤษฎีขีด จำกัด กลาง

เนื่องจากช่วยให้ผู้ปฏิบัติงานสามารถประมาณค่าในหลาย ๆสถานการณ์ที่การรับค่าที่แน่นอนนั้นรักษาไม่ได้ ตามแนวเดียวกันผู้ปฏิบัติที่ประสบความสำเร็จใด ๆ จะได้รับการบริการที่ดีที่จะคุ้นเคยโดยทั่วไปด้วยpp

ร่วมมือ


8

ฉันจะไม่พูดแบบนี้คล้ายกับบางอย่างเช่นกฎของจำนวนมากหรือทฤษฎีบทขีด จำกัด กลาง แต่เนื่องจากการอนุมานเกี่ยวกับสาเหตุมักจะเป็นศูนย์กลางการทำความเข้าใจการทำงานของ Judea Pearl ในการใช้กราฟที่มีโครงสร้างเพื่อก่อให้เกิดแบบจำลองเป็นสิ่งที่คนควรคุ้นเคย กับ มันมีวิธีที่จะเข้าใจว่าทำไมการศึกษาเชิงทดลองและเชิงสังเกตจึงแตกต่างกันไปตามการอนุมานสาเหตุที่พวกเขาจ่ายและเสนอวิธีจัดการกับข้อมูลเชิงสังเกตการณ์ สำหรับภาพรวมที่ดีหนังสือของเขาเป็นที่นี่


2
นอกจากนี้ยังมีกรอบการต่อต้านของรูบิน นอกจากนี้ยังมีการสร้างแบบจำลองสมการโครงสร้างและเทคนิคตัวแปรเครื่องมือเชิงเศรษฐมิติ ... บางส่วนที่อธิบายไว้ในเศรษฐมิติที่ไม่เป็นอันตรายที่สุดซึ่งเป็นหนังสือสถิติที่ดีที่สุดที่เขียนโดยนักสถิติที่ไม่ใช่นักสถิติ
StasK

7

ความเข้าใจที่มั่นคงของปัญหาที่สำคัญที่จะแก้ไขมีความสำคัญเท่ากับวิธีการทางสถิติโดยเฉพาะ นักวิทยาศาสตร์ที่ดีในอุตสาหกรรมมีแนวโน้มมากกว่านักสถิติที่ไม่มีความรู้ดังกล่าวเพื่อหาวิธีการแก้ปัญหาที่สมเหตุสมผล นักสถิติที่มีความรู้อย่างมากสามารถช่วยได้


6

Delta-Method, วิธีการคำนวณความแปรปรวนของสถิติที่แปลกประหลาดและค้นหาประสิทธิภาพเชิงสัมพัทธ์ของพวกเขา, เพื่อแนะนำการเปลี่ยนแปลงของตัวแปรและอธิบายการเพิ่มประสิทธิภาพโดย "การประเมินสิ่งที่ถูกต้อง" นอกจากนั้นความไม่เท่าเทียมของเซ่นสำหรับการทำความเข้าใจ GLM และอคติชนิดแปลก ๆ ที่เกิดขึ้นในการเปลี่ยนแปลงเช่นเดียวกับข้างบน และตอนนี้ที่กล่าวถึงความเอนเอียงและความแปรปรวนแนวคิดของการแลกเปลี่ยนความแปรปรวนแบบอคติและ MSE เป็นตัวชี้วัดวัตถุประสงค์ของความแม่นยำในการทำนาย


6

ในมุมมองของฉันการอนุมานเชิงสถิติเป็นสิ่งสำคัญที่สุดสำหรับผู้ปฏิบัติงาน การอนุมานมีสองส่วน: 1) การประมาณและ 2) การทดสอบสมมติฐาน การทดสอบสมมติฐานเป็นสิ่งสำคัญ เนื่องจากในการประมาณค่าส่วนใหญ่เป็นขั้นตอนที่ไม่ซ้ำกันการประมาณค่าความน่าจะเป็นสูงสุดตามมาและมีอยู่ในแพ็คเกจสถิติส่วนใหญ่ (ดังนั้นจึงไม่มีความสับสน)

คำถามที่พบบ่อยเกี่ยวกับการปฏิบัติมีการทดสอบที่สำคัญของความแตกต่างหรือการวิเคราะห์สาเหตุ การทดสอบสมมติฐานที่สำคัญสามารถพบได้ในลิงค์นี้

จำเป็นต้องมีความรู้เกี่ยวกับตัวแบบเชิงเส้น GLM หรือการสร้างแบบจำลองทางสถิติทั่วไปสำหรับการตีความสาเหตุ ฉันถือว่าการวิเคราะห์ข้อมูลในอนาคตรวมถึงการอนุมานแบบเบย์


0

การอนุมานแบบไม่เป็นทางการจะต้อง และวิธีการจัดการปัญหาพื้นฐานคือคุณไม่สามารถย้อนเวลากลับไปและไม่ให้การรักษา อ่านบทความเกี่ยวกับ rubin, ฟิชเชอร์ผู้ก่อตั้งนักเรียนสถิติสมัยใหม่.) .... สิ่งที่ต้องเรียนรู้เพื่อแก้ไขปัญหานี้การสุ่มอย่างเหมาะสมและวิธีการที่กฎหมายของคนจำนวนมากพูดว่าสิ่งต่าง ๆ มีการสุ่มอย่างถูกต้องการทดสอบสมมติฐาน และยอดเยี่ยมกับการหายตัวไป) การจับคู่ (ที่ดีสำหรับการหายไป แต่ผลลัพธ์ที่เป็นไปได้ดีกว่าเพราะมันเป็นแบบทั่วไปมากกว่าฉันหมายถึงทำไมเรียนรู้สิ่งที่ซับซ้อนมากมายเมื่อคุณสามารถเรียนรู้สิ่งที่ซับซ้อนเพียงอย่างเดียว) Bootstrap สถิติ Bayesian การถดถอยแบบเบย์ไร้เดียงสาปัจจัยแบบเบย์) และทางเลือกที่ไม่ใช่ papmetric

โดยปกติในทางปฏิบัติเพียงทำตามขั้นตอนทั่วไปเหล่านี้

เกี่ยวกับความคิดเห็นก่อนหน้านี้คุณควรเริ่มด้วย ANOVA (เอฟเฟกต์แบบสุ่มหรือเอฟเฟกต์ถาวรและแปลงชนิดต่อเนื่องเป็นถังขยะ) จากนั้นใช้การถดถอย (ซึ่งถ้าคุณแปลงและปรับเปลี่ยนบางครั้ง เพื่อดูว่าการรักษาแบบใดที่มีความสำคัญ, (ใช้ทำการทดสอบหลายทีและใช้การแก้ไขบางอย่างเช่นโฮล์มเมธิด) ใช้การถดถอย

ในกรณีที่คุณต้องทำนายสิ่งต่าง ๆ ให้ใช้วิธีการถดถอยแบบบาเซียน

การขาดหายไปมากกว่า 5% ใช้ผลลัพธ์ที่เป็นไปได้

การวิเคราะห์ข้อมูลอีกสาขาหนึ่งคือการเรียนรู้ของเครื่องซึ่งต้องมีการกล่าวถึง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.