อะไรคือความก้าวหน้าของสถิติในช่วง 15 ปีที่ผ่านมา?


56

ฉันยังจำเอกสารพงศาวดารสถิติเกี่ยวกับการส่งเสริมโดย Friedman-Hastie-Tibshirani และความคิดเห็นในประเด็นเดียวกันโดยผู้เขียนคนอื่น ๆ (รวมถึง Freund และ Schapire) ในเวลานั้นการส่งเสริมอย่างชัดเจนถูกมองว่าเป็นความก้าวหน้าในหลาย ๆ ด้าน: ความเป็นไปได้ในการคำนวณเป็นวิธีการรวมกับประสิทธิภาพที่ยอดเยี่ยมและลึกลับ ในเวลาเดียวกัน SVM มีอายุมากขึ้นซึ่งมีกรอบการทำงานที่สนับสนุนโดยทฤษฎีที่มั่นคงและมีความหลากหลายและการใช้งานมากมาย

นั่นคือใน 90s ที่ยิ่งใหญ่ ในช่วง 15 ปีที่ผ่านมาดูเหมือนว่าสำหรับฉันแล้วสถิติจำนวนมากได้รับการทำความสะอาดและการทำรายละเอียด แต่ด้วยมุมมองใหม่ ๆ

ดังนั้นฉันจะถามสองคำถาม:

  1. ฉันพลาดบทความปฏิวัติ / น้ำเชื้อบ้างไหม?
  2. ถ้าไม่มีวิธีการใหม่ที่คุณคิดว่ามีศักยภาพในการเปลี่ยนมุมมองของการอนุมานทางสถิติหรือไม่?

กฎ:

  1. หนึ่งคำตอบต่อโพสต์;
  2. ยินดีต้อนรับการอ้างอิงหรือลิงค์

PS: ฉันมีผู้สมัครสองสามคนสำหรับการพัฒนาที่มีแนวโน้ม ฉันจะโพสต์ไว้ในภายหลัง


5
ดูstats.stackexchange.com/q/1883/159สำหรับคำถามที่คล้ายกัน (ซึ่งถูกปิดเป็นอัตนัย & โต้แย้ง)
Rob Hyndman

1
ฉันกำลังจะนำหัวข้อเดียวกันขึ้นมา มีกลิ่นเหมือนซ้ำ
Dirk Eddelbuettel

1
มันเป็นเรื่องที่แน่นอน แต่มันก็ไม่เป็นไรสำหรับ CW?
Christopher Aden

1
นั่นคือในเวลาที่นานขึ้น ฉันไม่คิดว่ามันจะซ้ำกัน สำหรับการโต้แย้งมันขึ้นอยู่กับผู้เข้าร่วม ฉันไม่ได้พยายามมอบถ้วยรางวัลที่นี่เพียงเพื่อให้ทันเอกสารน้ำเชื้อที่ฉันและคนอื่นอาจพลาด เนื่องจากไม่มีคำตอบที่ถูกต้องฉันทั้งหมดเพื่อ CW ฉันพบว่ามันน่าสนใจจนทุกคำตอบนั้นอยู่ในนวัตกรรมของเบย์
สวัสดี

2
ดูเหมือนว่าโพสต์ที่สามารถเป็นคุณปู่ได้ ฉันคิดว่านี่คงเปิดอยู่
gung - Reinstate Monica

คำตอบ:


43

คำตอบนั้นง่ายมากที่ฉันต้องเขียนคำพูดไร้สาระทั้งหมดนี้เพื่อให้ CV ให้ฉันโพสต์: R


14

ฉันไม่แน่ใจว่าคุณจะเรียกมันว่า "การพัฒนา" ต่อ se แต่การตีพิมพ์ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์โดย Edwin Jaynes และ Larry Bretthorst อาจเป็นสิ่งสำคัญ บางสิ่งที่พวกเขาทำที่นี่คือ:

1) แสดงความเท่าเทียมกันระหว่างรูปแบบ "การปรับตามฤดูกาล" ซ้ำและการรวม "พารามิเตอร์รำคาญ" แบบเบย์

2) แก้ไขที่เรียกว่า "Marginalization Paradox" - คิดว่าเป็น "การตายของ bayesianism" โดยบางคนและ "การตายของนักบวชที่ไม่เหมาะสม" โดยคนอื่น ๆ

3) ความคิดว่าน่าจะอธิบายถึงสถานะของความรู้เกี่ยวกับเรื่องที่เป็นจริงหรือเท็จเมื่อเทียบกับการอธิบายคุณสมบัติทางกายภาพของโลก

สามบทแรกของหนังสือเล่มนี้สามารถใช้ได้ฟรีที่นี่


2
น่าเสียดายที่ความละเอียดของเจย์เนสเกี่ยวกับความขัดแย้งเรื่องชายขอบไม่สมบูรณ์ ดูเควินแวนฮอร์นหมายเหตุเกี่ยวกับการรักษาเจย์นส์ของสูญ Paradoxที่มีอยู่ที่นี่
Cyan

1
@ cyan - โปรดทราบว่าในขณะที่การแก้ปัญหาของเขามีข้อบกพร่องในบางพื้นที่หลักการพื้นฐานของเขาแก้ไขได้ กฎทั่วไปของนักบวชที่เหมาะสมและข้อ จำกัด การบรรจบกันของพวกเขาหมายความว่า MP ไม่สามารถเกิดขึ้นได้ ข้อบกพร่องน่าจะเป็นเพราะหนังสือเล่มนี้ยังไม่เสร็จส่วนที่สอง ฉันชอบความละเอียด [ที่นี่] ( arxiv.org/abs/math/0310006 ) ดีกว่ารุ่น ksvh สั้นและทั่วไปมากขึ้น
ความน่าจะเป็นทางการ

14

ในฐานะนักเขียนซอฟต์แวร์เชิงสถิติและผู้เยาว์เป็นครั้งคราวฉันพูดว่า:

WinBUGS (ปล่อยตัว 1997)

มันขึ้นอยู่กับ BUGS ซึ่งเปิดตัวเมื่อกว่า 15 ปีที่แล้ว (1989) แต่ WinBUGS นั้นทำให้การวิเคราะห์แบบเบย์ของแบบจำลองที่ซับซ้อนสมจริงแนบเนียนพร้อมฐานผู้ใช้ที่กว้างขึ้น ดูเช่นLunn, Spiegelhalter, Thomas & Best (2009) (และการอภิปรายในสถิติการแพทย์ฉบับที่ 28 ฉบับที่ 25 )


2
การเปลี่ยนแปลงนี้Stanเกิดขึ้นได้อย่างไรในตอนนี้
Ari B. Friedman

13

kii


คุณเคยใช้ LARS หรือไม่? ฉันถามเพราะฉันไม่เคยได้ยินเรื่องนี้มาก่อนและฟังดูน่าสนใจจริงๆ บทความเดิมค่อนข้างยาว (93 หน้า) ดังนั้นฉันต้องการรับความเห็นก่อนที่จะลงลึกไป
Tomek Tarczynski

@Tomek Tarczynski: ฉันได้ใช้มันเล็กน้อย มีแพ็คเกจใน Matlab (ฉันแน่ใจว่ามีหนึ่งหรือมากกว่าใน R) ซึ่งฉันได้ใช้ นอกจากนี้ยังมี PCA แบบกระจัดกระจายซึ่งฉันสนใจมากขึ้นฉันยอมรับว่าฉันอ่านมันเพียงอย่างเดียว ;)
shabbychef

11

การแนะนำของ "ความแตกต่างที่แท้จริง" ฟังก์ชั่นการสูญเสียและฟังก์ชั่นการสูญเสีย "parameterisation ฟรีอื่น ๆ " ในทฤษฎีการตัดสินใจ มันมีคุณสมบัติ "ดี" อื่น ๆ อีกมากมาย แต่ฉันคิดว่าคุณสมบัติที่ดีที่สุดมีดังนี้:

θθeθg(θ)g(θe)

ฉันคิดว่ามันเจ๋งมาก! (เช่นประมาณการที่ดีที่สุดของอัตราต่อรองคือ log (p / (1-p)) การประเมินความแปรปรวนที่ดีที่สุดคือกำลังสองของค่าเบี่ยงเบนมาตรฐาน ฯลฯ ฯลฯ )

จับ? ความแตกต่างที่แท้จริงอาจเป็นเรื่องยากที่จะออกกำลังกาย! (เกี่ยวข้องกับ funcion ขั้นต่ำ () อัตราส่วนความน่าจะเป็นและอินทิกรัล!)

"ตอบโต้"? คุณสามารถ "จัดการใหม่" ปัญหาเพื่อให้ง่ายต่อการคำนวณ!

"เคาน์เตอร์เคาน์เตอร์จับ"? การหาวิธีการ "จัดการใหม่" ปัญหาอาจเป็นเรื่องยาก!

นี่คือข้อมูลอ้างอิงบางส่วนที่ฉันรู้ซึ่งใช้ฟังก์ชันการสูญเสียนี้ ในขณะที่ฉันชอบส่วน "การประมาณค่าที่แท้จริง" ของเอกสาร / สไลด์เหล่านี้ฉันมีการจองบางอย่างเกี่ยวกับวิธีการ "อ้างอิงก่อนหน้า" ที่อธิบายไว้ด้วย

การทดสอบสมมติฐานแบบเบส์: วิธีการอ้างอิง

การประมาณค่าที่แท้จริง

เปรียบเทียบวิธีปกติ: วิธีการใหม่สำหรับปัญหาเก่า

การประมาณค่าแบบเบย์แบบรวมวัตถุประสงค์และการทดสอบสมมติฐาน


11

เพียงแค่ตกอยู่ในหน้าต่าง 15 ปีผมเชื่อว่ามีขั้นตอนวิธีการในการควบคุมเท็จค้นพบอัตรา ฉันชอบวิธีการ 'ค่าคิว'


1
q

9

การเพิ่ม 5 เซ็นต์ของฉันเองฉันเชื่อว่าการค้นพบที่สำคัญที่สุดในรอบ 15 ปีที่ผ่านมาได้รับการบีบอัดการตรวจจับ LARS, LASSO และโฮสต์ของอัลกอริธึมอื่น ๆ ตกอยู่ในโดเมนนี้ในการบีบอัดการตรวจจับอธิบายว่าทำไมมันถึงทำงานและขยายไปยังโดเมนอื่น


1
ฉันดูที่การบีบอัดการรับรู้และในฐานะที่ไม่ใช่นักสถิติฉันก็ถามตัวเองอยู่เสมอว่า ฉันรู้ว่า "แค่" เป็นคำง่าย ๆ ที่จะโยนไปรอบ ๆ แต่รู้สึกว่าผู้คนกำลังละทิ้งสิ่งที่ดูเหมือนการเชื่อมต่อที่ชัดเจนระหว่างการฉายภาพแบบสุ่ม (ประมาณปี 2000) และการตรวจจับแบบกด (ประมาณปี 2004)
เวย์น

9

บางสิ่งที่มีส่วนเกี่ยวข้องกับสถิติเพียงเล็กน้อย แต่ได้รับประโยชน์อย่างมากมาย: การเพิ่มพลังของคอมพิวเตอร์ทำให้ชุดข้อมูลขนาดใหญ่ขึ้นและการวิเคราะห์ทางสถิติที่ซับซ้อนสามารถเข้าถึงได้มากขึ้นโดยเฉพาะในสาขาที่ใช้


8

อัลกอริธึมการขยายความคาดหวังสำหรับการอนุมานแบบเบย์โดยเฉพาะอย่างยิ่งในการจำแนกกระบวนการแบบเกาส์เซียนนั้นเป็นความก้าวหน้าที่สำคัญเนื่องจากมีวิธีการวิเคราะห์เชิงวิเคราะห์ที่มีประสิทธิภาพซึ่งทำงานได้ดี ดูผลงานของ Thomas Minka และคนอื่น ๆ บนแผนงานของ EP


EP ดูเท่ (แม้ว่ามันยังทำให้ฉันปวดหัว) มันยังขาดการรับประกันการบรรจบกันโดยทั่วไปหรือไม่?
conjugateprior

7

เราอาจรวมกับการพัฒนาเพิ่มเติมในปี 2554 ที่เกี่ยวข้องกับ Stochastic Partial Differential Equations Lindgren, Rue และLindström
Yves

2

ในความคิดของฉันทุกสิ่งที่ช่วยให้คุณเรียกใช้โมเดลใหม่ในวงกว้างเป็นความก้าวหน้า การแก้ไขเคอร์เนลสำหรับกระบวนการแบบเกาส์ที่มีโครงสร้างที่ปรับขนาดได้ (KISS-GP)อาจเป็นตัวเลือก (แม้ว่าแนวคิดนั้นจะเป็นเรื่องใหม่


2

ในขณะที่บิตทั่วไปมากกว่าสถิติผมคิดว่ามีความก้าวหน้าที่สำคัญในวิธีการของ R วิจัย eproducible (RR) ตัวอย่างเช่นการพัฒนาของ R knittrและSweaveแพ็คเกจและโน้ตบุ๊ก "R Markdown" การปรับปรุง LyX และ LaTeX มีส่วนสำคัญต่อการแบ่งปันข้อมูลการทำงานร่วมกันการตรวจสอบ / การตรวจสอบความถูกต้องและความก้าวหน้าทางสถิติเพิ่มเติม เอกสารอ้างอิงในวารสารสถิติการแพทย์และระบาดวิทยาไม่ค่อยอนุญาตให้ทำซ้ำผลลัพธ์ได้อย่างง่ายดายก่อนที่จะเกิดวิธีการวิจัย / เทคโนโลยีที่ทำซ้ำเหล่านี้ ตอนนี้วารสารหลายฉบับต้องการการวิจัยที่ทำซ้ำได้และนักสถิติหลายคนกำลังใช้ RR และการโพสต์โค้ดผลลัพธ์และแหล่งข้อมูลบนเว็บ สิ่งนี้ยังช่วยส่งเสริมสาขาวิชาวิทยาศาสตร์ข้อมูลและทำให้การเรียนรู้ทางสถิติเข้าถึงได้ง่ายขึ้น


1

ในความคิดของฉันกระดาษตีพิมพ์ในปี 2011 ในนิตยสารวิทยาศาสตร์ ผู้เขียนเสนอการวัดความสัมพันธ์ที่น่าสนใจมากระหว่างคู่ของตัวแปรสุ่มที่ทำงานได้ดีในหลาย ๆ สถานการณ์ที่การวัดที่คล้ายกันล้มเหลว (Pearson, Spearman, Kendall) กระดาษที่ดีจริงๆ นี่มันคือ


ดูเหมือนว่าลิงก์จะใช้งานไม่ได้
dsaxton

มันสามารถพบได้ที่นี่: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.