สิ่งที่ต้องเรียนรู้หลังจาก Casella & Berger


22

ฉันเป็นนักเรียนที่จบการศึกษาคณิตศาสตร์ที่มีพื้นฐานเล็กน้อยในวิชาคณิตศาสตร์ประยุกต์ ตั้งแต่ฤดูใบไม้ร่วงปีที่แล้วฉันได้เข้าเรียนในหนังสือของ Casella & Berger และฉันได้เสร็จสิ้นปัญหาการออกกำลังกายหลายร้อย (230+) หน้าในหนังสือ ตอนนี้ฉันอยู่ที่บทที่ 10

อย่างไรก็ตามเนื่องจากฉันไม่ได้เรียนวิชาเอกสถิติหรือวางแผนที่จะเป็นนักสถิติฉันไม่คิดว่าฉันจะสามารถใช้เวลาเป็นประจำเพื่อเรียนรู้การวิเคราะห์ข้อมูลต่อไป ประสบการณ์ของฉันจนถึงขณะนี้กำลังบอกฉันว่าการเป็นนักสถิติต้องมีการคำนวณที่น่าเบื่อมากมายที่เกี่ยวข้องกับการแจกแจงต่าง ๆ (Weibull, Cauchy, , F ... ) ฉันพบว่าในขณะที่แนวคิดพื้นฐานง่าย ๆ การใช้งาน (ตัวอย่างเช่น LRT ในการทดสอบสมมติฐาน) ยังคงเป็นเรื่องยากเนื่องจากเทคนิคเสื้อF

ความเข้าใจของฉันถูกต้องหรือไม่ มีวิธีที่ฉันสามารถเรียนรู้ความน่าจะเป็น & สถิติที่ไม่เพียง แต่ครอบคลุมเนื้อหาขั้นสูง แต่ยังสามารถช่วยในกรณีที่ฉันต้องการวิเคราะห์ข้อมูลในชีวิตจริงได้หรือไม่? ฉันจะต้องใช้จ่าย 20 ชั่วโมงต่อสัปดาห์หรือไม่กับที่เคยทำ

ในขณะที่ฉันเชื่อว่าไม่มีถนนหลวงในการเรียนรู้คณิตศาสตร์ฉันมักไม่สามารถช่วยสงสัยได้ - ส่วนใหญ่เราไม่ทราบว่าการแจกแจงนั้นเป็นข้อมูลในชีวิตจริงดังนั้นอะไรคือจุดประสงค์ของเราที่จะมุ่งเน้นเฉพาะครอบครัวของการแจกแจงแบบต่างๆ ? หากขนาดตัวอย่างมีขนาดเล็กและทฤษฎีบทขีด จำกัด กลางใช้ไม่ได้เราจะวิเคราะห์ข้อมูลอย่างถูกต้องนอกเหนือจากค่าเฉลี่ยตัวอย่างและความแปรปรวนได้อย่างไรหากการแจกแจงไม่เป็นที่รู้จัก

ภาคการศึกษาของฉันจะสิ้นสุดในหนึ่งเดือนและฉันไม่ต้องการให้ความรู้ของฉันหายไปหลังจากที่ฉันเริ่มมุ่งเน้นการวิจัยระดับปริญญาเอกของฉัน ฉันเลยตัดสินใจถาม ฉันกำลังเรียนรู้ R และฉันมีพื้นหลังการเขียนโปรแกรมบ้าง แต่ระดับของฉันใกล้เคียงกับรหัสลิง

คำตอบ:


24

ฉันไม่คิดว่าฉันจะสามารถให้การลงทุนเป็นประจำเพื่อเรียนรู้การวิเคราะห์ข้อมูลต่อไปได้

ฉันไม่คิดว่า Casella และเบอร์เกอร์เป็นสถานที่เรียนรู้ข้อมูลมากในทางของการวิเคราะห์ข้อมูล เป็นสถานที่ในการเรียนรู้เครื่องมือทางทฤษฎีทางสถิติ

ประสบการณ์ของฉันจนถึงตอนนี้บอกให้ฉันเป็นสถิติหนึ่งต้องทนกับการคำนวณที่น่าเบื่อมากมายที่เกี่ยวข้องกับการแจกแจงต่าง ๆ (Weibull, Cauchy, t, F ... )

ฉันใช้เวลาเป็นจำนวนมากในการวิเคราะห์ข้อมูลทางสถิติ มันแทบจะไม่เกี่ยวข้องกับฉันเลยในการคำนวณที่น่าเบื่อ บางครั้งมันเกี่ยวข้องกับพีชคณิตแบบง่าย ๆ เล็กน้อย แต่โดยทั่วไปปัญหาจะได้รับการแก้ไขและฉันไม่จำเป็นต้องใช้ความพยายามในการจำลองแบบนั้นในแต่ละครั้ง

คอมพิวเตอร์ทำการคำนวณที่น่าเบื่อทั้งหมด

หากฉันอยู่ในสถานการณ์ที่ฉันไม่ได้เตรียมที่จะรับกรณีมาตรฐานที่สมเหตุสมผล (เช่นไม่ได้เตรียมที่จะใช้ GLM) โดยทั่วไปฉันไม่มีข้อมูลเพียงพอที่จะรับการแจกจ่ายอื่น ๆ เช่นกันดังนั้นคำถามของการคำนวณใน LRT มักเป็นที่ถกเถียงกันอยู่ (ฉันสามารถทำได้เมื่อฉันต้องการพวกเขาอาจมีแนวโน้มที่จะได้รับการแก้ไขแล้วหรือเกิดขึ้นน้อยครั้งจนเป็นการเบี่ยงเบนที่น่าสนใจ)

ฉันมักจะทำการจำลองมากมาย ฉันมักจะลองใช้การสุ่มใหม่ในบางรูปแบบไม่ว่าจะควบคู่หรือแทนที่สมมติฐาน

ฉันจะต้องใช้เวลา 20 ชม. + ต่อสัปดาห์เหมือนที่เคยเป็นหรือไม่?

มันขึ้นอยู่กับสิ่งที่คุณต้องการจะทำและวิธีที่คุณต้องการได้ดี

การวิเคราะห์ข้อมูลเป็นทักษะและต้องฝึกฝนและเป็นฐานความรู้ขนาดใหญ่ คุณจะมีความรู้ที่คุณต้องการอยู่แล้ว

ถ้าคุณต้องการที่จะเป็นผู้ฝึกสอนที่ดีในหลาย ๆ สิ่งมันจะต้องใช้เวลามาก - แต่ในใจของฉันมันสนุกกว่าพีชคณิตและการออกกำลังกายของ Casella และ Berger

ทักษะที่ฉันสร้างขึ้นจากปัญหาการถดถอยมีประโยชน์กับอนุกรมเวลาพูด - แต่ต้องใช้ทักษะใหม่จำนวนมาก ดังนั้นการเรียนรู้ที่จะตีความแปลงที่เหลืออยู่และแผนการแปลง QQ นั้นมีประโยชน์ แต่พวกเขาไม่ได้บอกฉันว่าฉันต้องกังวลเกี่ยวกับการชนเล็กน้อยในพล็อต PACF เพียงใดและไม่ให้เครื่องมือเช่นการใช้การคาดการณ์ล่วงหน้าหนึ่งขั้น ข้อผิดพลาด

ตัวอย่างเช่นฉันไม่จำเป็นต้องใช้ความพยายามในการหาวิธีการทำ ML ที่สมเหตุสมผลสำหรับแกมม่าทั่วไปหรือโมเดล Weibullเพราะมันเป็นมาตรฐานพอที่จะแก้ไขปัญหาที่มีอยู่แล้วให้อยู่ในรูปแบบที่สะดวก

หากคุณมาทำวิจัยคุณจะต้องใช้ทักษะมากมายที่คุณเลือกในสถานที่เช่น Casella & Berger (แต่ถึงแม้จะมีทักษะแบบนั้นคุณควรอ่านหนังสือมากกว่าหนึ่งเล่ม)


บางสิ่งที่แนะนำ:

คุณควรสร้างทักษะการถดถอยอย่างแน่นอนแม้ว่าคุณจะไม่ทำอะไรเลย

มีจำนวนของหนังสือค่อนข้างดี แต่บางทีอาจจะเป็นผักและสมิ ธประยุกต์การวิเคราะห์การถดถอยบวกฟ็อกซ์และไวส์เบิร์กอา Companion เพื่อประยุกต์ถดถอย ; ฉันขอแนะนำให้คุณพิจารณาติดตามด้วยกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell

(คุณสามารถทดแทนหนังสือดี ๆ สำหรับ Draper และ Smith จำนวนใดก็ได้ - หาหนึ่งหรือสองที่เหมาะกับคุณ)

หนังสือเล่มที่สองมีจำนวนบทออนไลน์เพิ่มเติมที่มีมูลค่าการอ่านมาก (และ R-package ของตัวเอง)

-

การให้บริการที่สองที่ดีจะเป็น Venables และริบลีส์โมเดิร์นสถิติประยุกต์กับ S

นั่นคือเหตุผลบางอย่างในแนวความคิดที่ค่อนข้างกว้าง

อาจกลายเป็นว่าคุณต้องการเนื้อหาพื้นฐานเพิ่มเติมในบางหัวข้อ (ฉันไม่ทราบพื้นหลังของคุณ)

จากนั้นคุณจะต้องเริ่มคิดเกี่ยวกับพื้นที่ของสถิติที่คุณต้องการ / จำเป็น - สถิติแบบเบย์, อนุกรมเวลา, การวิเคราะห์หลายตัวแปร ฯลฯ ฯลฯ


6

คำแนะนำของฉันที่มาจากมุมมองตรงข้าม (นักเรียนปริญญาเอกสถิติ) คือการทำงานผ่านตำราเรียนการถดถอย นี่เป็นจุดเริ่มต้นที่เป็นธรรมชาติสำหรับใครบางคนที่มีพื้นฐานทางทฤษฎีที่แข็งแกร่งโดยไม่มีประสบการณ์ใด ๆ ฉันรู้ว่านักศึกษาระดับบัณฑิตศึกษาจำนวนมากจากนอกแผนกของเราเริ่มต้นในหลักสูตรการถดถอย

หนึ่งที่ดีคือฟอร์ดไวส์เบิร์กของการประยุกต์ใช้การถดถอยเชิงเส้น ฉันเชื่อว่าเป็นรุ่นที่สี่ คุณอาจพบว่ารุ่นเก่าค่อนข้างถูก

http://users.stat.umn.edu/~sandy/alr4ed/

สิ่งหนึ่งที่ดีเกี่ยวกับหนังสือเรียนเล่มนี้โดยเฉพาะอย่างยิ่งเมื่อคุณขาดประสบการณ์กับญาติ R คือไพรเมอร์ R มีให้ใช้ผ่านลิงก์ด้านบน ให้คำแนะนำที่เพียงพอในการสร้างทุกสิ่งที่ทำในหนังสือ ด้วยวิธีนี้คุณสามารถเรียนรู้การถดถอย (นอกเหนือจากพื้นฐานบางอย่างของ GLM) โดยไม่ต้องขาดการเขียนโปรแกรม R ถือคุณไว้ด้านหลัง

หากคุณต้องการคำแนะนำที่ครอบคลุมเกี่ยวกับ R คุณอาจได้รับการปฏิบัติที่ดีขึ้นผ่าน Fox และ Weisberg's An Companion เพื่อการถดถอยประยุกต์แต่ดูเหมือนว่าคุณต้องการเรียนรู้สถิติมากกว่าการเขียนโปรแกรม

เท่าที่ความกังวลเกี่ยวกับเวลาของคุณฉันไม่คิดว่าคุณจะพบว่าตำราหรือเนื้อหานี้ยากเกินไป ซึ่งแตกต่างจาก Casella-Berger ไม่มีทางพิสูจน์หรือการพิสูจน์ได้มากนัก โดยทั่วไปแล้วมันค่อนข้างตรงไปตรงมา

นอกจากนี้ดูเหมือนจะมีวิธีแก้ปัญหาที่ลอยอยู่ในโลกออนไลน์ (หรือในบางจุด) ดังนั้นคุณสามารถลองปัญหาตรวจสอบวิธีแก้ไขและความเร็วในการทำงานของคุณผ่านทางหนังสือ


4

ฉันกำลังพยายามหาทางที่จะเป็นนักสถิติมากขึ้น แต่โดยหลักแล้วฉันเป็นนักจิตวิทยาที่มีความสนใจเชิงปริมาณและระเบียบวิธี ในการทำงานไซโครเมทได้อย่างถูกต้องฉันได้ศึกษาวิธีการขั้นสูง (สำหรับนักจิตวิทยา) ที่ฉันจะไม่ใฝ่ฝันในการคำนวณด้วยตนเอง ฉันประหลาดใจที่วิธีการเหล่านี้สามารถเข้าถึงได้และสะดวกสบายได้กลายเป็นความพยายามทั้งหมดของโปรแกรมเมอร์แพคเกจ R ในช่วงทศวรรษที่ผ่านมา ฉันได้ทำการวิเคราะห์ในชีวิตจริงด้วยวิธีการใหม่ที่ฉันได้เรียนรู้ที่จะใช้ในเวลาน้อยกว่า 20 ชั่วโมงต่อวิธี ... ฉันอาจใช้เวลามากกับวิธีการใหม่ตามเวลาที่ฉันพร้อมที่จะเผยแพร่ ผลที่ได้ใช้มัน แต่ก็ไม่จำเป็นที่จะต้องทำงานนอกเวลาของการเรียนเพื่อทำให้ความก้าวหน้าเหมือนอย่างที่ฉันมี ทำสิ่งที่คุณทำได้ในขณะที่คุณหาเวลา มันไม่ใช่การแสวงหาทั้งหมดหรือไม่มีอะไรเลยถ้าคุณไม่ต้องการมัน

แน่นอนว่าฉันไม่ได้มุ่งความสนใจไปที่หัวข้อใด ๆ โดยลำพังครอบครัวแห่งการแจกแจง ฉันสงสัยว่านักสถิติที่ซื่อสัตย์กับคุณงามความดีจะต้องศึกษาอย่างแคบเช่นกัน ฉันขลุกอยู่กับการแจกแจงเชิงทฤษฎีบางทีอาจจะเป็นชั่วโมงต่อวันในบางโอกาสในสัปดาห์ที่ผ่านมา มีมากมายที่จะพิสูจน์ว่ามีประโยชน์ในแอปพลิเคชันข้อมูลจริง เท่าที่ฉันสามารถบอกได้ความคิดไม่มากนักที่จะจำแนกการกระจายอย่างเคร่งครัด เพื่อรับรู้รูปร่างการกระจายที่คล้ายกับทฤษฎีและใช้พวกมันเพื่อช่วยในการตัดสินใจการวิเคราะห์ที่เหมาะสมและเข้าใจพลวัตพื้นฐาน ฉันได้แบ่งปันความคิดที่คล้ายกันกับคำตอบล่าสุดของฉันในการ " เลือกการกระจายตามทฤษฎีพอดีหรืออย่างอื่นดีกว่าหรือไม่ "

คุณยังไม่ได้พูดว่าการวิเคราะห์ใดที่คุณต้องการดำเนินการในสิ่งที่ฉันถือว่าเป็นสถานการณ์สมมติที่เลวร้ายที่สุดของคุณ แต่มีวิธีการศึกษาความไวของการวิเคราะห์ใด ๆ กับข้อผิดพลาดในการสุ่มตัวอย่าง หาก CLT ใช้ไม่ได้ยังมีคำถามทางสถิติอีกหลายข้อที่คุณสามารถถามได้ว่าคุณรู้วิธีการอย่างไร โดยทั่วไปวิธีการแบบไม่อิงพารามิเตอร์ทำให้สมมติฐานที่ จำกัด มากเกี่ยวกับการแจกแจงดังนั้นความรู้ก่อนหน้าเกี่ยวกับรูปร่างของการกระจายตัวของประชากรจึงไม่ใช่ปัญหาใหญ่

ความรู้ทั่วไปไม่ได้ระเหยออกไปอย่างรวดเร็วหรือสมบูรณ์ แต่จริงๆแล้วถ้าคุณไม่ใช้มันคุณจะพบว่ามันยากที่จะจำได้อย่างอิสระ คุณจะยังคงได้เปรียบในการจดจำได้นานขึ้นซึ่งยังคงมีประโยชน์หากคุณจำเป็นต้องศึกษาหัวข้อที่คุณเคยศึกษามาหลายปีก่อน ... แต่ถ้าคุณต้องการพูดให้คล่องในสิ่งที่คุณได้เรียนรู้ให้ใช้มันต่อไป และเรียนรู้ต่อไป! R เป็นสถานที่ที่ดีในการลงทุนเวลาว่างที่คุณมี มันควรจะช่วยในเรื่องคณิตศาสตร์บริสุทธิ์ของคุณด้วย: ดูคำตอบล่าสุดของฉันเกี่ยวกับ " ซอฟต์แวร์สร้างภาพข้อมูลโอเพ่นซอร์สที่ดีที่สุดที่จะใช้กับ PowerPoint "


3

ฉันสะดุดกับสิ่งนี้ในปี 2562 เซ็นต์สองใบของฉัน

ฉันเป็นศาสตราจารย์ด้านสถิติที่มีความชอบที่จะทำการวิเคราะห์ข้อมูลในหลากหลายรูปแบบ (นั่นเป็นเหตุผลที่ฉันเลือกสถิติ!) เพื่อรับความรู้ที่เป็นประโยชน์ฉันขอแนะนำ James, Witten, Hastie และ Tibshirani "การเรียนรู้เชิงสถิติเบื้องต้น" พวกเขามี MOOC ด้วยเช่นกัน หนังสือเล่มนี้ใช้ตัวอย่าง "ข้อมูลจริง" จำนวนมากและใช้เป็นฐานข้อมูล


คุณมีอะไรที่จะแนะนำนอกเหนือจาก "องค์ประกอบของการเรียนรู้ทางสถิติ" หรือไม่? ฉันคิดว่าฉันคุ้นเคยกับ (ตอนพื้นฐาน) ของหนังสือเล่มนี้แล้ว
Bombyx mori

2

ตอบคำถามคนอื่นที่มาที่คำถามนี้ในภายหลัง ...


การวิเคราะห์ข้อมูลในชีวิตจริง

เรียนรู้ฐานข้อมูล (SQL), dplyr / pandas, เครื่องมือ unix (sed, grep), การขูด, การเขียนสคริปต์, การล้างข้อมูลและการทดสอบซอฟต์แวร์ การกระจายความเชี่ยวชาญพิเศษต่าง ๆ มีค่าน้อยในอุตสาหกรรม

หนังสือถดถอยประยุกต์เช่น Angrist & Pischke, Faraway หรือ Weisberg จะเป็นทฤษฎีที่ใช้งานได้จริงมากขึ้น

เวลาส่วนใหญ่เราไม่ทราบว่าการกระจายคืออะไรสำหรับข้อมูลในชีวิตจริงดังนั้นสิ่งที่เป็นจุดประสงค์สำหรับเราที่จะมุ่งเน้นเฉพาะครอบครัวของการกระจาย

ดังนั้นความสนใจในสถิติที่ไม่ใช่พารามิเตอร์ แต่ในขณะเดียวกัน nonparametric ที่ไม่มีสมมติฐานก็หลวมเกินไป เพื่อตอบคำถามของคุณครอบครัวพิเศษอาจถูกมองว่าเป็นคำตอบสำหรับคำถามง่าย ๆ ที่คุณอาจอาจเจอ ตัวอย่างเช่นฉันคิดว่าเกาส์เซียนเป็นแบบประเมิน "ราบรื่น" Poisson ตอบคำถามง่าย ๆ อีกข้อหนึ่ง เมื่อคนสร้างแบบจำลองทางคณิตศาสตร์พิเศษเหล่านี้อาจเป็นจุดศูนย์กลางที่มีประโยชน์ (แต่นักวิชาการมักจะแสวงหาการกระจายตัวของอาจารย์ในทางที่ผิด)

OP: หวังว่าคุณจะสนุกกับการวิจัยระดับปริญญาเอกของคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.