สถิติ 'ปัญหาใหญ่' ในสถิติคืออะไร?


77

คณิตศาสตร์มีปัญหาในสหัสวรรษที่มีชื่อเสียง(และในอดีตคือฮิลแบร์ตที่ 23 ) คำถามที่ช่วยกำหนดทิศทางของสนาม

ฉันมีความคิดเล็กน้อยว่าสถิติของ Riemann Hypotheses และ P vs. NP เป็นอย่างไร

ดังนั้นคำถามเปิดที่ครอบคลุมอยู่ในสถิติคืออะไร

แก้ไขเพื่อเพิ่ม: เป็นตัวอย่างของคำตอบทั่วไป (ถ้าไม่เจาะจง) ที่ฉันกำลังมองหาฉันพบการบรรยาย "Hilbert's 23" - บรรยายโดย David Donoho ในการประชุม "ความท้าทายทางคณิตศาสตร์ของศตวรรษที่ 21": การวิเคราะห์ข้อมูลมิติสูง: คำสาปและพรของมิติ

ดังนั้นคำตอบที่อาจเกิดขึ้นสามารถพูดคุยเกี่ยวกับข้อมูลขนาดใหญ่ได้และทำไมจึงเป็นสิ่งสำคัญประเภทของความท้าทายทางสถิติของข้อมูลมิติสูงโพสท่าและวิธีการที่จำเป็นต้องพัฒนาหรือคำถามที่ต้องตอบคำถามเพื่อช่วยแก้ปัญหา


5
ขอขอบคุณสำหรับการโพสต์นี้. เป็นการสนทนาที่สำคัญ (และอาจเป็นแรงบันดาลใจ)
whuber

คำตอบ:


48

ใหญ่คำถามควรจะเกี่ยวข้องกับประเด็นสำคัญของวิธีการทางสถิติหรือเพราะมีทั้งสถิติเกี่ยวกับการใช้มันควรกังวลว่าสถิติถูกนำมาใช้กับปัญหาที่สำคัญให้กับสังคม

การอธิบายลักษณะนี้เสนอต่อไปนี้ควรรวมอยู่ในการพิจารณาปัญหาใหญ่ ๆ :

  • วิธีที่ดีที่สุดเพื่อดำเนินการทดลองยาเสพติด ในปัจจุบันการทดสอบสมมติฐานแบบคลาสสิกต้องใช้เฟสการศึกษาอย่างเป็นทางการจำนวนมาก ในระยะต่อมา (ยืนยัน) ปัญหาเศรษฐกิจและจริยธรรมมีขนาดใหญ่มาก เราทำได้ดีกว่านี้ไหม เราต้องใส่คนป่วยเป็นร้อยเป็นพันในกลุ่มควบคุมแล้วเก็บไว้ที่นั่นจนกว่าจะสิ้นสุดการศึกษาหรือเราจะหาวิธีที่ดีกว่าในการระบุวิธีการรักษาที่ใช้งานได้จริงและส่งพวกเขาไปยังสมาชิกของการทดลอง (และ) อื่น ๆ ) ไม่ช้าก็เร็ว?

  • การรับมือกับอคติสิ่งพิมพ์ทางวิทยาศาสตร์ ผลลัพธ์เชิงลบมีการเผยแพร่น้อยมากเพียงเพราะพวกเขาไม่ได้รับค่า p มายากล ทุกสาขาของวิทยาศาสตร์ต้องการที่จะหาวิธีที่ดีกว่าที่จะนำวิทยาศาสตร์ที่สำคัญไม่เพียง แต่ทางสถิติอย่างมีนัยสำคัญผลต่อแสง (ปัญหาการเปรียบเทียบหลายรายการและการจัดการกับข้อมูลมิติสูงคือหมวดหมู่ย่อยของปัญหานี้)

  • แหย่ข้อ จำกัด ของวิธีการทางสถิติของพวกเขาและการเชื่อมต่อกับการเรียนรู้และเครื่องรู้ความเข้าใจ ความก้าวหน้าที่หลีกเลี่ยงไม่ได้ในเทคโนโลยีคอมพิวเตอร์จะช่วยให้ AI ที่แท้จริงสามารถเข้าถึงได้ในช่วงชีวิตของเรา เราจะเขียนโปรแกรมสมองเทียมอย่างไร การคิดเชิงสถิติและการเรียนรู้เชิงสถิติมีบทบาทอย่างไรในการสร้างความก้าวหน้าเหล่านี้ นักสถิติสามารถช่วยในการคิดเกี่ยวกับการรับรู้เทียมเรียนรู้ประดิษฐ์ในการสำรวจข้อ จำกัด ของพวกเขาและทำให้ก้าวหน้าได้อย่างไร

  • การพัฒนาวิธีการที่ดีในการวิเคราะห์ข้อมูลเชิงพื้นที่ มักจะอ้างว่าฐานข้อมูลส่วนใหญ่หรือส่วนใหญ่มีการอ้างอิงตำแหน่ง อีกไม่นานผู้คนและอุปกรณ์มากมายจะตั้งอยู่ในเวลาจริงด้วย GPS และเทคโนโลยีโทรศัพท์ วิธีการทางสถิติในการวิเคราะห์และใช้ประโยชน์จากข้อมูลเชิงพื้นที่นั้นอยู่ในช่วงเริ่มต้น (และดูเหมือนว่าจะถูกลดชั้นลงใน GIS และซอฟต์แวร์เชิงพื้นที่ซึ่งโดยทั่วไปแล้วจะไม่ใช่นักสถิติ)


1
ผู้คนพยายามแก้ไขปัญหาเหล่านี้มีวิธีใดบ้าง
raegtin

3
@grautur: นั่นเป็นคำถามที่ยอดเยี่ยมสี่คำถาม (และอีกมากมายเพราะการตอบสนองของคุณใช้กับทุกคำตอบในกระทู้นี้) พวกเขาสมควรได้รับคำตอบที่ซับซ้อน แต่เห็นได้ชัดว่าที่นี่ไม่มีที่ว่าง: ขอทีละคำถาม!
whuber

3
เกี่ยวกับกระสุนแรก (การทดลองยา): แม้แต่คนที่อาจไม่สนใจทดลองทางการแพทย์ก็ควรอ่านบทความ NYTimes New Drugs Stir Debate เกี่ยวกับกฎพื้นฐานของการทดลองทางคลินิก ( nytimes.com/2010/09/19/health/research/ … ) ผู้อ่านที่มีความรู้ทางสถิติจะเห็นผลกระทบที่ไม่ระบุในทันทีเกี่ยวกับการออกแบบการทดลองและการใช้ค่า p สำหรับการตัดสินใจ มีการแก้ปัญหาทางสถิติสำหรับปริศนาเกี่ยวกับชีวิตและความตายที่อธิบายไว้ในบทความนี้
whuber

26

Michael Jordan มีบทความสั้น ๆ ที่เรียกว่าOpen Problems ในสถิติของ Bayesian ซึ่งเขาสำรวจกลุ่มนักสถิติสำหรับมุมมองของพวกเขาเกี่ยวกับปัญหาแบบเปิดในสถิติ ฉันจะสรุป (aka คัดลอกและวาง) เล็กน้อยที่นี่ แต่น่าจะดีกว่าที่จะอ่านต้นฉบับ

Nonparametrics และ semiparametrics

  • สิ่งที่ไม่ใช่ค่าพารามิเตอร์แบบเบย์มีประโยชน์อย่างไรและคุ้มค่ากับปัญหาอย่างไร
  • David Dunson: "โมเดลที่ไม่ใช่พารามิเตอร์พาราเกี่ยวข้องกับพารามิเตอร์จำนวนมากและนักบวชมักจะถูกเลือกเพื่อความสะดวกด้วยชุดพารามิเตอร์ที่เหมาะสมที่ดูเหมือนว่าไม่มีเหตุผลหรือเหตุผลที่เหมาะสม"
  • "มีคนหลายคนตั้งข้อสังเกตว่าหนึ่งในแอพพลิเคชั่นที่น่าดึงดูดใจของ nonparametrics ที่พบบ่อยคือการอนุมาน semiparametric โดยที่ส่วนประกอบที่ไม่ใช่พารามิเตอร์ของโมเดลเป็นพารามิเตอร์ที่สร้างความรำคาญคนเหล่านี้รู้สึกว่ามันเป็นที่พึงปรารถนา semiparametrics แบบเบย์ "

ไพรเออร์

  • "การชักนำยังคงเป็นสาเหตุสำคัญของปัญหาเปิด"
  • 'Aad van der Vaart หันเป้าหมาย Bayes ไปที่หัวและชี้ไปที่การขาดทฤษฎีสำหรับ "สถานการณ์ที่ใคร ๆ ก็ต้องการก่อนที่จะผ่านเข้ามาทางด้านหลัง" เมื่อเทียบกับ "แค่ให้แนวทาง Bayesian ทำให้เรียบ"

ความสัมพันธ์แบบเบย์ / บ่อยครั้ง

  • "ผู้ตอบแบบสอบถามจำนวนมากแสดงความต้องการที่จะตอกย้ำความสัมพันธ์แบบเบย์ / บ่อยครั้งมากขึ้นสิ่งนี้ได้รับการเปิดเผยโดยทั่วไปในบริบทของแบบจำลองมิติและข้อมูลสูงซึ่งไม่เพียง แต่เป็นวิธีการส่วนตัว (สูง) ทำให้เข้าใจผิด "
  • 'ผู้ตอบแบบสอบถามบางคนมีส่วนร่วมในทฤษฎีที่ไม่เกี่ยวกับสิ่งเร้าที่อาจเปิดเผยข้อได้เปรียบอย่างสมบูรณ์ของวิธีการแบบเบย์ เช่น David Dunson: "บ่อยครั้งที่อัตราที่ดีที่สุดสำหรับผู้ที่พบเห็นบ่อยครั้งนั้นได้มาจากขั้นตอนที่ชัดเจนยิ่งกว่าในกลุ่มตัวอย่างที่ จำกัด กว่าวิธีการแบบเบย์"

การคำนวณและสถิติ

  • Alan Gelfand: "ถ้า MCMC ไม่สามารถใช้งานได้กับปัญหาที่ผู้คนต้องการที่อยู่อีกต่อไปแล้วบทบาทของ INLA, วิธีการแปรปรวน, วิธีการของ ABC คืออะไร"
  • "ผู้ตอบแบบสอบถามหลายคนขอให้มีการบูรณาการอย่างละเอียดยิ่งขึ้นของวิทยาศาสตร์การคำนวณและวิทยาศาสตร์ทางสถิติโดยสังเกตว่าชุดของการอนุมานที่ใคร ๆ สามารถเข้าถึงได้ในสถานการณ์ใดก็ตามนั้นเป็นการทำงานร่วมกันของแบบจำลองก่อนหน้านี้ข้อมูลและทรัพยากรการคำนวณ สำหรับการจัดการที่ชัดเจนของการแลกเปลี่ยนระหว่างปริมาณเหล่านี้แท้จริง Rob Kass ยกความเป็นไปได้ของความคิดของ "การแก้ปัญหาเชิงอนุมาน" ซึ่งปัญหาบางอย่างจะเข้าใจเกินความหวัง (เช่นการเลือกแบบจำลองในการถดถอยโดยที่“ สำหรับข้อมูลจำนวนเล็กน้อยที่มีเสียงรบกวนแบบไม่น่าจะเป็นไปได้ที่จะได้รับช่วงความเชื่อมั่นที่เป็นประโยชน์เกี่ยวกับสัมประสิทธิ์การถดถอยเมื่อมีตัวแปรจำนวนมากที่มีหรือไม่มีอยู่ในโมเดลนั้น มีปัญหาอื่น ๆ (“ ฟังก์ชั่นบางอย่างที่มีช่วงความมั่นใจที่เป็นประโยชน์”) ซึ่งมีความหวัง "
  • "ผู้ตอบแบบสอบถามหลายคนในขณะที่ขออภัยในความคลุมเครือบางอย่างแสดงความรู้สึกว่าข้อมูลจำนวนมากไม่จำเป็นต้องมีการคำนวณจำนวนมาก แต่อย่างใดความแข็งแรงเชิงอนุมานที่มีอยู่ในข้อมูลขนาดใหญ่ควรถ่ายโอนไปยังอัลกอริธึม จะทำอย่างไรกับขั้นตอนการคำนวณน้อยลงเพื่อให้ได้ผลลัพธ์ที่เป็นที่พอใจ (โดยประมาณ)

การเลือกรูปแบบและการทดสอบสมมติฐาน

  • George Casella: "ตอนนี้เราทำการเลือกแบบจำลอง แต่ Bayesians ไม่ต้องกังวลเกี่ยวกับคุณสมบัติของการอนุมานเบสในแบบจำลองที่เลือกจะเกิดอะไรขึ้นถ้ามันผิดมีอะไรบ้างผลของการตั้งค่าภูมิภาคที่น่าเชื่อถือสำหรับพารามิเตอร์เมื่อคุณ เลือกรูปแบบที่ไม่ถูกต้องเราสามารถมีขั้นตอนการรับประกันบางประเภทได้หรือไม่ "β1
  • ต้องการทำงานเพิ่มเติมเกี่ยวกับพื้นฐานการตัดสินใจเชิงทฤษฎีในการเลือกแบบจำลอง
  • David Spiegelhalter: "วิธีที่ดีที่สุดในการตรวจสอบความขัดแย้งก่อนหน้า / ข้อมูลเป็นส่วนหนึ่งของการวิเคราะห์แบบเบย์"
  • Andrew Gelman: "สำหรับการตรวจสอบแบบจำลองปัญหาแบบเปิดที่สำคัญคือการพัฒนาเครื่องมือกราฟิกสำหรับการทำความเข้าใจและการเปรียบเทียบแบบจำลองกราฟิกไม่ได้เป็นเพียงข้อมูลดิบ แต่แบบจำลอง Bayesian ที่ซับซ้อนให้โอกาสในการวิเคราะห์ข้อมูลเชิงสำรวจที่ดีขึ้นและมีประสิทธิภาพมากขึ้น"

13

ฉันไม่แน่ใจว่ามันใหญ่แค่ไหน แต่มีหน้า Wikipediaสำหรับปัญหาที่ยังไม่ได้แก้ไขในสถิติ รายการของพวกเขารวมถึง:

การอนุมานและการทดสอบ

  • ข้อผิดพลาดที่เป็นระบบ
  • การยอมรับของตัวประมาณ Graybill - Deal
  • การรวมค่า p ขึ้นอยู่กับในการวิเคราะห์ Meta
  • ปัญหา Behrens - Fisher
  • การเปรียบเทียบหลายรายการ
  • ปัญหาเปิดในสถิติแบบเบย์

การออกแบบการทดลอง

  • ปัญหาในสี่เหลี่ยมละติน

ปัญหาเกี่ยวกับธรรมชาติทางปรัชญามากขึ้น

  • การสุ่มตัวอย่างปัญหาสายพันธุ์
  • อาร์กิวเมนต์วันโลกาวินาศ
  • แลกเปลี่ยนความขัดแย้ง

6

เป็นตัวอย่างของคำตอบทั่วไปที่ฉันกำลังมองหาฉันพบการบรรยาย "Hilbert's 23" ซึ่งได้รับคำบรรยายโดย David Donoho ในการประชุม "ความท้าทายทางคณิตศาสตร์ของศตวรรษที่ 21":

การวิเคราะห์ข้อมูลมิติสูง: คำสาปและพรของมิติ


2
ฉันขอแนะนำให้คุณแก้ไขคำถามหลักเพื่อรวมข้อมูลนี้ได้ไหม
russellpierce

4

Mathoverflow มีคำถามคล้ายกันเกี่ยวกับปัญหาใหญ่ในทฤษฎีความน่าจะเป็น

มันจะปรากฏขึ้นจากหน้านั้นว่าคำถามที่ใหญ่ที่สุดจะทำอย่างไรกับการหลีกเลี่ยงการเดินสุ่มและการซึมผ่าน


1
ฉันคิดว่าสถิติเป็นส่วนที่แยกจากทฤษฎีความน่าจะเป็น
raegtin

3
@raegtin - ฉันไม่คิดว่าทฤษฎีความน่าจะเป็นแยกจากสถิติ แต่เป็นทฤษฎี "สถิติ" คือการประยุกต์ใช้ทฤษฎีความน่าจะเป็นกับปัญหาเชิงอนุมาน (เช่นการปฏิบัติ)
ความน่าจะเป็นเชิง

4

คุณอาจลองดู"ปัญหาที่ยากลำบากในการประชุมทางสังคมศาสตร์ของมหาวิทยาลัยฮาร์วาร์ดเมื่อต้นปีที่ผ่านมาการพูดคุยเหล่านี้หลายเรื่องเสนอประเด็นในการใช้สถิติและการสร้างแบบจำลองในสังคมศาสตร์


3

คำตอบของฉันคือการต่อสู้ระหว่างสถิติประจำกับ Bayesian เมื่อมีคนถามคุณซึ่งคุณ "เชื่อใน" สิ่งนี้ไม่ดี! โดยเฉพาะอย่างยิ่งสำหรับวินัยทางวิทยาศาสตร์


2
ไม่มีอะไรผิดปกติกับนักวิทยาศาสตร์ "เชื่อ" ในบางสิ่งโดยเฉพาะอย่างยิ่งเมื่อความน่าจะเป็นแบบเบย์แสดงถึงระดับของความเชื่อหรือความรู้เกี่ยวกับความจริงของข้อเสนอบางอย่าง
Dikran Marsupial

2
... ปัญหาเกิดขึ้นเฉพาะเมื่อนักวิทยาศาสตร์ไม่สามารถแยกแยะความเชื่อและข้อเท็จจริงได้ ไม่มีอะไรตามหลักวิทยาศาสตร์ในความเชื่อที่ว่าสถิติแบบเบย์หรือบ่อยครั้งนั้นเหนือกว่าเนื่องจากไม่มีการทดสอบตามวัตถุประสงค์ที่สามารถตัดสินใจคำตอบ (AFAIK) ดังนั้นการเลือกจึงเป็นเรื่องส่วนตัวและ / หรือเรื่องของ "ม้าสำหรับหลักสูตร"
Dikran Marsupial

@propofol - ฉันยอมรับว่าคำว่า "เชื่อ" ไม่ใช่ความคิดที่เหมาะสมที่จะใช้ในสถิติ - มันมีความหมายผิด ๆ หลายประการ ข้อมูลเป็นคำที่เหมาะสมมากกว่าที่ฉันคิด (เช่น "คุณมีข้อมูลอะไรบ้าง") มันไม่ได้เปลี่ยนคณิตศาสตร์หรือทฤษฎีการมองโลกในแง่ดีที่สุดของการวิเคราะห์แบบเบย์ แต่มันให้ความหมายที่ถูกต้องในแง่ของวิธีการใช้งานจริง เช่นความรู้เกี่ยวกับทฤษฎีทางกายภาพหรือกลไกเชิงสาเหตุคือข้อมูลไม่ใช่ความเชื่อ
ความเป็นไปได้ทางการเงิน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.