นักสถิติทำอะไรที่ไม่อัตโนมัติ


26

ซอฟต์แวร์ในที่สุดจะทำให้นักสถิติล้าสมัยหรือไม่? สิ่งใดที่ไม่สามารถตั้งโปรแกรมไว้ในคอมพิวเตอร์ได้


21
พวกเขาคิดว่า (เช่นนำความรู้มารับ)
gung - Reinstate Monica

10
การตีความผลลัพธ์ ;-)
ocram

5
คำถามเดียวกันสามารถถามผู้เขียนโปรแกรมโดยทั่วไปแล้ว;)
nb1

4
เราออกแบบการศึกษาและโดยเฉพาะอย่างยิ่งเราต้องจัดการกับปัญหาในชีวิตจริงที่ไม่สามารถดำเนินการออกแบบ "ดีที่สุด" ในเชิงสถิติได้ เราล้างข้อมูลที่สกปรกนำความรู้ในโลกแห่งความจริงมาใช้ นอกจากนี้เรายังตีความผลลัพธ์เป็นข้อความธรรมดา [แทรกภาษาที่เลือก]
มิเชล

13
ดื่มเบียร์! ; o)
Dikran Marsupial

คำตอบ:


28

@ อดัมถ้าคุณคิดว่านักวิจัยทางสถิติคล้ายคลึงกับผู้ที่อยู่ในสาขาอื่น - คนที่สร้างตามวิธีการและความรู้ที่มีอยู่ - มันอาจทำให้ชัดเจนขึ้นว่าคำตอบสำหรับคำถามแรกของคุณคือ 'ไม่'

นักสถิติที่มีชีวิตอยู่เพียงแค่ใช้ซอฟต์แวร์สำเร็จรูปในบรรจุภัณฑ์อาจถูกแทนที่ด้วยคอมพิวเตอร์ในทุกขั้นตอนยกเว้นการเขียนหัวข้อการอภิปรายของกระดาษที่จะต้องตีความผลลัพธ์ ดังนั้นในแง่นั้นใช่ - อาจเป็นไปโดยอัตโนมัติ (แม้ว่าจะต้องเป็นซอฟต์แวร์ที่ซับซ้อนซึ่งมีตัวประมวลผลภาษาธรรมชาติหนึ่งตัว)

อย่างไรก็ตามในขณะที่นักวิจัยส่วนใหญ่คิดออกงานประจำ "กระป๋อง" ที่ผู้คนมักจะใช้นั้นค่อนข้าง จำกัด และต้องมีการปรับเปลี่ยน (หรือต้องพัฒนาวิธีการใหม่ทั้งหมด) เพื่อตอบคำถามการวิจัยพิเศษ - นี่คือแง่มุมของสถิติมนุษย์ . หรือนักวิจัยต้องตั้งคำถามที่แตกต่างกัน แต่เกี่ยวข้องกับคำถามวิจัยที่สามารถตอบได้โดยใช้วิธีการแบบดั้งเดิม

นักสถิติส่วนใหญ่ที่ฉันรู้จักทำงานในงานวิจัย (เช่นอาจารย์นักวิทยาศาสตร์การวิจัย) ซึ่งบทบาทหลักของพวกเขาคือการพัฒนาวิธีการใหม่ หากกระบวนการนี้เป็นแบบอัตโนมัติหมายความว่าคอมพิวเตอร์สามารถกำหนดและเหวี่ยงวิธีการใหม่ ๆ ที่มีประโยชน์ออกมาฉันก็เกรงว่านักวิจัยในทุกสาขาจะล้าสมัย


2
ฉันคิดว่าย่อหน้าที่สองของคุณพลาดประเด็น: มันไม่ใช่แค่จุดจบของกระบวนการ (การตีความผลลัพธ์) มันยาก แต่ก็เป็นจุดเริ่มต้น - การทำความเข้าใจว่าวิธีใดที่จะนำไปใช้กับข้อมูลในรูปแบบใดซึ่งโดยทั่วไปแล้วต้องเข้าใจธรรมชาติ ของข้อมูลและระบบที่มาจาก
Cascabel

@Jefromi เหมือนฉันแสดงความคิดเห็นกับใครบางคนด้านล่างฉันคิดว่าความเข้าใจมาจากผู้เชี่ยวชาญในด้านการใช้งานไม่ใช่นักสถิติ
มาโคร

หากความเข้าใจเพียงแค่ "มาจาก" ผู้เชี่ยวชาญในสาขาการสมัครงานของฉันจะง่ายขึ้นมาก (& สนุกน้อยลง) มีปัญหากรอบ: สิ่งที่ผู้เชี่ยวชาญไม่คิดว่าสามารถมีความสำคัญสำหรับการวิเคราะห์ทางสถิติ ในทางปฏิบัติความร่วมมือที่มีผลมากที่สุดส่งผลให้ผู้เชี่ยวชาญเรียนรู้สถิติในระดับที่พอใช้และนักสถิติเรียนรู้ในระดับที่ยุติธรรมเกี่ยวกับการประยุกต์ใช้
Scortchi - Reinstate Monica

33

คอมพิวเตอร์จะทำให้นักสถิติล้าสมัยเมื่อ AI ที่แข็งแกร่งทำให้มนุษย์โดยรวมล้าสมัย

คำถามทำให้ฉันนึกถึงคำถามเกี่ยวกับ "หากมีวิธีการทางสถิติที่มีประสิทธิภาพทั้งหมดทำไมผู้คนยังคงใช้วิธีอื่น" คำตอบบางอย่างเป็นนิสัยและการฝึกอบรม แต่ส่วนมากเป็นคำถามที่ไร้เดียงสา: "แข็งแกร่ง" ไม่ได้หมายความว่า "คุณไม่ต้องคิดและเข้าใจในสิ่งที่คุณทำ" ตามที่บอกไว้

ฉันหมายความว่าคุณสามารถดาวน์โหลดแพ็คเกจ R ได้แล้ววันนี้และทำเทคนิคพื้นฐานทางสถิติในตอนค่ำ จากนั้นคุณสามารถดาวน์โหลดแพคเกจสองสามชุดแล้วเริ่มใช้วิธีการต่างๆเพื่อให้ลึกลับที่เราส่วนใหญ่ไม่เคยได้ยินมาก่อน คำถามคือคุณจะได้รับคำตอบที่สมเหตุสมผลหรือไม่? คำตอบคือ: อาจจะไม่

อัลกอริทึมเป็นแบบอัตโนมัติ แต่คุณยังต้องทำการตัดสินใจจำนวนมากตลอดเส้นทางการสืบสวน: จากแผนการโจมตีไปจนถึงการตัดสินขั้นสุดท้ายว่าผลลัพธ์นั้นสมเหตุสมผลหรือไม่ ในการไปถึงจุดนั้นคุณกำลังพูดถึงคอมพิวเตอร์ที่คล้ายกับ Star-Trek ที่คุณสามารถพูดได้ว่า "คอมพิวเตอร์บอกฉัน ... " โดยจุดนั้นกระแสเรียกของมนุษย์ทุกคนค่อนข้างล้าสมัย


4
+1 สำหรับ "คอมพิวเตอร์จะทำให้นักสถิติล้าสมัยเมื่อ AI ที่แข็งแกร่งทำให้มนุษย์เป็นทั้งล้าสมัย"
มาโคร

10

นักสถิติสามารถทำอะไรได้บ้างที่คอมพิวเตอร์ไม่สามารถทำได้? เขียนโปรแกรมต้นฉบับที่พวกเขาถูกแทนที่ด้วย

นอกเหนือจากคำตอบที่ค่อนข้างโง่แล้วรากของคำถามก็ไม่สนใจวิทยาศาสตร์ที่แท้จริงของสถิติในความโปรดปรานของกลไกและลดบทบาทของกระบวนการสร้างสรรค์ในการวิเคราะห์เชิงสถิติอย่างสิ้นเชิง นี่คือการใช้ตัวอย่างรถยนต์ของ Peter Flom เช่นการพูดว่ารถยนต์ถูกสร้างขึ้นโดยใช้หมุดย้ำและรอยเชื่อมดังนั้นจึงไม่มีเหตุผลที่มัสแตงใหม่ไม่สามารถออกแบบโดยการโลดโผนและเชื่อมหุ่นยนต์

จำนวนมหาศาลของการทำสถิติที่เกี่ยวข้องกับความเชี่ยวชาญเรื่องการตัดสินใจและความคิดสร้างสรรค์ การวิเคราะห์ "กระป๋อง" ที่เรียกใช้จากอัลกอริทึมมักจะไม่ได้คำตอบที่ดีที่สุดและมีตัวอย่างเอกสารมากมายที่การใช้วิธีการอัตโนมัติทำให้คุณผิดคำตอบที่หรืออย่างน้อยก็ไม่ใช่คำตอบที่คุณคิดว่าคุณได้รับ การใช้ขั้นตอนการเลือกตัวแปรตามค่า p ตามขั้นตอนและการวิเคราะห์ตามปริมาณที่กำหนดเป็นตัวเลขล้วนเป็นสองสิ่งที่ฉันคุ้นเคยมากที่สุด แต่ฉันแน่ใจว่าคุณสามารถพบคนอื่นมากมาย

แม้ว่าทั้งหมดนั้นยังคงเป็นแบบอัตโนมัติก็ตามมีเรื่องของการตีความผลลัพธ์ นักสถิติ (หรือนักวิทยาศาสตร์ที่มีความเอนเอียงทางสถิติ) จะไม่ทำงานเมื่อคุณได้รับค่าสัมประสิทธิ์การถดถอยหรือค่า p สิ่งที่ไม่ว่าการหาค่าเฉลี่ย คำเตือนคืออะไร? สิ่งนี้แสดงถึงอะไรในบริบทของสิ่งที่เกิดขึ้นก่อนหน้านี้?

ในที่สุดคุณมีการพัฒนาวิธีการใหม่ สถิติไม่ใช่สิ่งที่เกิดขึ้นเมื่อไม่นานมานี้โดยคนที่มีชื่อที่เรารู้จัก - ฟิชเชอร์คอคส์ ฯลฯ เป็นเขตข้อมูลที่มีการพัฒนาและคุณไม่สามารถตั้งโปรแกรมวิธีการใหม่ลงในคอมพิวเตอร์ได้จนกว่าจะมีคนพัฒนาวิธี


2
(+1) เนื่องจาก "การวิเคราะห์กระป๋องที่เรียกใช้จากอัลกอริทึมมักจะไม่ทำให้คุณได้คำตอบที่ดีที่สุด" เป็นเรื่องจริง นี่ไม่ได้หมายความว่าผู้ปฏิบัติงานด้านสถิติของมนุษย์ไม่ได้ทำสิ่งนี้ตลอดเวลา (หมายเหตุ: ผู้ปฏิบัติงานสถิติส่วนใหญ่ไม่ใช่นักสถิติ ... เหมือนคนที่ใช้สถิติแม้ว่าจะไม่รู้จริง ๆ ว่ากำลังทำอะไรอยู่บ่อยครั้งทำให้เกิดวิทยาศาสตร์ที่ไม่ดี)
มาโคร

10

อีกวิธีหนึ่งในการตีความคำถามนี้อาจเป็น: "มีการเพิ่มขึ้นอย่างรวดเร็วของเทคนิคทางสถิติอัตโนมัติในช่วงไม่กี่ปีที่ผ่านมาซึ่งสอดคล้องกับความต้องการที่ลดลงของงานสำหรับนักสถิติและนักวิเคราะห์ข้อมูลโดยเฉพาะ"

เราสามารถตอบคำถามนี้ได้โดยดูที่ข้อมูล ตลาดงานสำหรับตำแหน่งการวิเคราะห์ข้อมูล
ป้อนคำอธิบายรูปภาพที่นี่

ดาต้าได้รับความอนุเคราะห์จากเว็บบล็อก


+1 แม้แต่ Indeed.com ยังไม่ได้สร้าง @cboettig obselete
โทมัสเลวีน

4
ฉันไม่มั่นใจ "ความต้องการในงานสำหรับนักสถิติและนักวิเคราะห์ข้อมูลโดยเฉพาะ" มีความสัมพันธ์อย่างมากกับการใช้คำหลัก "นักวิทยาศาสตร์ข้อมูล" หรือ "ข้อมูลขนาดใหญ่" ในโฆษณางาน <- การสงสัยสมมติฐานเป็นสิ่งที่มนุษย์นำมาสู่ตาราง ;-)
Darren Cook

@ DarrenCook พูดดี!
cboettig

7

ฉันไม่เห็นด้วยอย่างสิ้นเชิงกับหลักฐานของคำถามนั่นคือฉันคิดว่าไม่มีทางที่คอมพิวเตอร์จะสามารถแทนที่นักสถิติได้ แต่จะยกตัวอย่างที่เป็นรูปธรรมว่าทำไมฉันจึงคิดว่า:

งานที่นักสถิติทำงานกับนักวิทยาศาสตร์โดยเฉพาะอย่างยิ่งในการออกแบบและการตีความการทดลองไม่เพียง แต่ต้องใช้ความคิดของมนุษย์เท่านั้น แต่ยังเป็นแนวคิดทางปรัชญาที่ไม่สามารถแสดงให้เห็นว่าคอมพิวเตอร์

นอกจากว่าเราจะสิ้นสุดในสถานการณ์ประเภท Skynet แน่นอนซึ่งในกรณีนี้ฉันคิดว่าการเดิมพันทั้งหมดอาจจะปิดไปจนถึงอนาคตของมนุษยชาติทั้งหมดไม่ต้องกังวลเกี่ยวกับนักสถิติเท่านั้น :-)


1
ยกเว้นว่าฉันมีเจ้าเหนือหัวที่เชื่อฟัง :)
มิเชล

5

คำถามแสดงให้เห็นถึงมุมมองที่ไร้เดียงสาของนักสถิติ - มันคือทั้งหมดที่เกี่ยวกับการตรวจสอบเพื่อดูว่า ap <0.05 และรายงานตัวเลขและกราฟมาตรฐาน หากนั่นคือสิ่งที่คุณหมายถึงโดยนักสถิติแล้วคุณถูกต้องในความหมายของคุณว่าส่วนใหญ่มันอาจเป็นไปโดยอัตโนมัติทั้งหมด แต่นั่นไม่ใช่ความหมายของสถิติ

กำหนดคำว่าสถิติของคุณและคุณอาจได้รับคำตอบที่ดีกว่า


3

การโหลดแพ็คเกจสถิติลงในคอมพิวเตอร์ของคุณไม่ได้ทำให้คุณเป็นนักสถิติมากไปกว่าการซื้อรถยนต์ทำให้คุณสามารถขับรถได้

แม้ว่านักสถิติจะใช้รูทีน "กระป๋อง" ก็มีคำถามมากมาย

  1. ประจำไหน กิจวัตรประจำวันอะไรจะตอบคำถามของลูกค้า?
  2. มีตัวแปรอะไรบ้าง? และพวกเขาควรจะถูกเปลี่ยน? ควรรวมระดับบางอย่าง? สิ่งใดที่ควรถูกบังคับให้เป็นแบบจำลอง?
  3. มีข้อมูลอะไรบ้าง ควรลบค่าผิดปกติหรือไม่ ตัดแต่ง? อาจเป็นวิธีที่มีประสิทธิภาพหรือไม่

และอื่น ๆ

แต่งานเริ่มต้นก่อนที่จะเปิดคอมพิวเตอร์และสิ้นสุดลงหลังจากแพคเกจสถิติถูกปิด

ก่อนหน้า: ลูกค้าต้องการทำอะไร บ่อยครั้งนี่เป็นงานจำนวนมาก! ลูกค้ามีข้อมูลอะไร Oy vey! ตัวแปรมีชื่อ V1 ถึง V828171 อันไหนกัน? วรรณคดีคืออะไร ลูกค้าคาดหวังอะไร เทคนิคควรเป็นอย่างไร

หลังจาก: ผลลัพธ์หมายถึงอะไร (และไม่ใช่แค่ "นี่หมายความว่าการถดถอยมีความสำคัญ") จะอธิบายผลลัพธ์ได้อย่างไรกับลูกค้า คำถามอื่นใดที่ทำให้เกิดผลลัพธ์

ฉันคิดว่ามันจะเป็นเวลานานก่อนที่คอมพิวเตอร์จะสามารถทำสิ่งนี้ได้


1
เพื่อให้คุณตอบคำถามที่ระบุไว้ใน (1), (2) และ (3) คุณต้องผ่านกระบวนการทางตรรกะ ในทางทฤษฎีกระบวนการทางลอจิคัลนี้อาจถูกเข้ารหัสลงในโปรแกรมคอมพิวเตอร์ หากคอมพิวเตอร์มีตัวประมวลผลภาษาธรรมชาติที่สมบูรณ์แบบและซอฟต์แวร์ที่มีซอฟต์แวร์ "กระป๋อง" ทั้งหมดและมีตรรกะตามที่ระบุไว้ข้างต้นโปรแกรมจะสามารถทำสิ่งเหล่านี้ได้ หรือคุณกำลังพูดว่ามันไม่ได้เป็นกระบวนการทางตรรกะ?
มาโคร

4
สำหรับฉันการเปรียบเทียบนั้นใกล้เคียงกับ "การซื้อรถยนต์ไม่ได้ทำให้คุณเป็นช่างหรือนักออกแบบรถยนต์"
พระคาร์ดินัล

1
@Macro เนื่องจากกระบวนการทางตรรกะไม่ได้หมายความว่าจะสามารถตั้งโปรแกรมไว้ในคอมพิวเตอร์ได้หรือไม่ "ควรรวมกันบางระดับ" ไม่ใช่การวัดเชิงตัวเลขเสมอ - ต้องพิจารณาว่าระดับที่รวมกันเหล่านี้เหมาะสมกับบริบทของตัวแปรหรือไม่
Fomite

1
การตัดสินใจว่าเหมาะสมหรือไม่ในบริบทของแอปพลิเคชันไม่ใช่คำถามสำหรับนักสถิติเช่นกัน - มันเป็นคำถามสำหรับผู้เชี่ยวชาญในสิ่งที่แอปพลิเคชันนั้นเป็น นักสถิติสามารถบอกคุณได้ว่าเป็นไปได้หรือไม่ที่จะรวมระดับต่าง ๆ โดยพิจารณาจากลักษณะที่ปรากฏว่าเป็นเนื้อเดียวกันหรือไม่ซึ่งสามารถสอนกับคอมพิวเตอร์ได้
มาโคร

4
ฉันไม่สามารถต้านทานได้ชี้ให้เห็นว่า Google ได้ก้าวหน้าไปมากในทิศทางที่การซื้อรถยนต์จะทำให้คุณสามารถขับรถได้ - มันจะทำโดยอัตโนมัติ!
whuber

2

การศึกษาเชิงวิชาการที่ดูความน่าจะเป็นของระบบอัตโนมัติของอาชีพหรืองานที่แตกต่างกันไม่คิดว่านักสถิติจะถูกแทนที่ด้วยคอมพิวเตอร์ในไม่ช้า ดูตัวอย่างการศึกษาของFrey & Osborne (2013)ซึ่งจัดอันดับอาชีพตามความน่าจะเป็นของการใช้คอมพิวเตอร์สถิติอยู่ในอันดับต่ำ 213 จาก 702 โดยมีความน่าจะเป็น 22% (ดูตารางในภาคผนวก) หากคุณมีความสนใจเพิ่มเติมดูยังบทความชนวนที่นี่

Arntz และคณะ (2016) ( นี่คือบทความนักเศรษฐศาสตร์) ดูงานมากกว่าการประกอบอาชีพให้กับสหภาพยุโรปและมาถึงข้อสรุปที่คล้ายกัน: การทำ "คณิตศาสตร์หรือสถิติที่ซับซ้อน" มีความหมายเชิงลบที่เกี่ยวข้องกับงานอัตโนมัติ (ดูตารางที่ 3)

แต่ข้อควรระวังบางอย่างแนะนำนักวิชาการและ / หรือนักเศรษฐศาสตร์ไม่ได้ดีเสมอไปในการทำนายอนาคต (ผู้ได้รับรางวัลโนเบล Robert Lucas เช่นสรุปในปี 2003 ไม่กี่ปีก่อนวิกฤตการณ์ทางการเงินว่า"ปัญหาการป้องกันภาวะซึมเศร้าเป็น ได้รับการแก้ไขเพื่อวัตถุประสงค์เชิงปฏิบัติทั้งหมดและในความเป็นจริงได้รับการแก้ไขมานานหลายทศวรรษ " ) การศึกษาทั้งสองดูเหมือนจะเป็นกระดาษทำงานซึ่งมีการพูดคุยกันอย่างกว้างขวาง แต่ยังไม่ได้ตีพิมพ์ในวารสารที่ผ่านการตรวจสอบโดยเพื่อน

เกี่ยวกับการถกเถียงทางวิชาการที่นี่คุณสามารถค้นหาบทความภาพรวมเกี่ยวกับสถานะของการวิจัยเกี่ยวกับระบบอัตโนมัติ


0

ฉันคิดว่า AI จะทำให้นักสถิติฉลาดและแข่งขันได้มากขึ้น ทำไม? เพราะนี่เป็นจุดประสงค์ของปัญญาประดิษฐ์ตั้งแต่ความคิดของพวกเขาเมื่อหลายสิบปีก่อน ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.