ทำความเข้าใจกับทฤษฎีสถิติและการใช้งาน


13

ฉันเพิ่งสำเร็จการศึกษาระดับปริญญาโทด้านการแพทย์และชีวภาพพร้อมกับคณิตศาสตร์วิศวกรรมเป็นพื้นหลัง แม้ว่าโปรแกรมการศึกษาของฉันจะมีหลักสูตรจำนวนมากเกี่ยวกับสถิติทางคณิตศาสตร์ (ดูด้านล่างสำหรับรายการ) ซึ่งฉันจัดการด้วยคะแนนที่ค่อนข้างสูง แต่ฉันก็จบลงด้วยการสูญเสียการจ้องมองทั้งทฤษฎีและการประยุกต์ใช้สถิติ ฉันต้องบอกว่าเมื่อเทียบกับคณิตศาสตร์ "บริสุทธิ์" สถิติจริง ๆ แล้วสมเหตุสมผลสำหรับฉัน โดยเฉพาะอย่างยิ่งสัญลักษณ์และภาษาที่ใช้โดยนักสถิติส่วนใหญ่ (รวมถึงผู้บรรยายที่ผ่านมาของฉัน) นั้นซับซ้อนและน่ารำคาญและแทบไม่มีทรัพยากรใด ๆ ที่ฉันเคยเห็นมาจนถึงตอนนี้ (รวมถึงวิกิพีเดีย) มีตัวอย่างง่าย ๆ ..

นี่คือพื้นหลัง; ฉันยังตระหนักถึงความจริงที่ขมขื่นที่ฉันไม่สามารถมีอาชีพในฐานะนักวิจัย / วิศวกรโดยที่ไม่ยึดมั่นกับสถิติโดยเฉพาะอย่างยิ่งในสาขาชีวสารสนเทศศาสตร์

ฉันหวังว่าฉันจะได้รับคำแนะนำจากนักสถิติ / นักคณิตศาสตร์ที่มีประสบการณ์มากขึ้น ฉันจะเอาชนะปัญหาที่ฉันได้กล่าวถึงข้างต้นได้อย่างไร คุณรู้จักแหล่งข้อมูลที่ดีหรือไม่ เช่นหนังสือ e-books หลักสูตรเปิด (ผ่าน iTunes หรือ OpenCourseware สำหรับอดีต) ฯลฯ

แก้ไข:ตามที่ฉันได้กล่าวถึงฉันค่อนข้างลำเอียง (ลบ) ต่อวรรณกรรมส่วนใหญ่ภายใต้ชื่อเรื่องทั่วไปของสถิติและเนื่องจากฉันไม่สามารถซื้อหนังสือเรียนขนาดใหญ่ (และแพง) จำนวนมากต่อสาขาของสถิติสิ่งที่ฉันต้องการ ในแง่ของหนังสือเป็นสิ่งที่คล้ายกับสิ่งที่Tipler & Mosca สำหรับฟิสิกส์ แต่สำหรับสถิติ

สำหรับผู้ที่ไม่รู้เกี่ยวกับ Tipler มันเป็นตำราเรียนขนาดใหญ่ที่ครอบคลุมเนื้อหาส่วนใหญ่ที่อาจพบได้ในระหว่างการศึกษาระดับสูง โดยพื้นฐานแล้วหนังสืออ้างอิงที่สมบูรณ์แบบซื้อมันในช่วงปีแรกของฉันในมหาวิทยาลัยยังคงใช้มันเป็นระยะ ๆ


หลักสูตรที่ฉันทำกับสถิติ:

  • หลักสูตรแนะนำขนาดใหญ่
  • กระบวนการสุ่มหยุดนิ่ง
  • กระบวนการมาร์คอฟ
  • วิธีการมอนติคาร์โล
  • การวิเคราะห์การอยู่รอด

คำตอบ:


4

ฉันเข้าใจสถานการณ์ของคุณได้อย่างสมบูรณ์ แม้ว่าฉันเป็นนักศึกษาปริญญาเอกฉันพบว่าบางครั้งยากกับทฤษฎีและการสมัครที่เกี่ยวข้อง หากคุณยินดีที่จะดื่มด่ำกับทฤษฎีการทำความเข้าใจมันเป็นรางวัลที่แน่นอนเมื่อคุณคิดถึงปัญหาในโลกแห่งความเป็นจริง แต่กระบวนการนี้อาจทำให้หงุดหงิด

หนึ่งของการอ้างอิงหลายอย่างที่ผมชอบคือ Gelman และฮิลล์วิเคราะห์ข้อมูลโดยใช้ลำดับชั้น / หลายรุ่น พวกเขาหลีกเลี่ยงทฤษฎีที่พวกเขาสามารถแสดงแนวคิดพื้นฐานโดยใช้แบบจำลอง มันจะเป็นประโยชน์กับคุณอย่างแน่นอนเมื่อคุณมีประสบการณ์ใน MCMC ฯลฯ อย่างที่คุณบอกว่าคุณกำลังทำงานในชีวสารสนเทศศาสตร์อาจเป็นกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell ก็เป็นตัวอ้างอิงที่ดีเช่นกัน

ฉันจะทำให้นี่เป็นวิกิชุมชนและให้ผู้อื่นเพิ่มเข้ามา


ขอขอบคุณสำหรับความสนใจของคุณในเรื่องนี้ มันดีที่ได้เห็นว่าฉันไม่ใช่คนเดียวที่สับสนกับสิ่งต่าง ๆ ที่ถูกกล่าวว่าฉันคิดว่าคุณประเมินสถานการณ์ของฉันมากเกินไป; ขณะที่ฉันเรียนหลายหลักสูตรและคุ้นเคยกับการมีอยู่ของวิธีวิเคราะห์ทางสถิติที่แตกต่างกัน พวกเขาไม่เคยยึดติดกับฉันหลังจากจบหลักสูตร สองสามเดือนหลังจากการสอบฉันพบว่าตัวเองยังสงสัยอยู่ "ฉันเคยเห็น / ได้ยินเรื่องนี้อยู่ที่ไหนสักแห่ง แต่มันทำงานอย่างไรจริง ๆ ?" สิ่งนี้สำหรับฉันแนะนำว่าฉันต้องฉีกมันทั้งหมดและเริ่มสร้างมันด้วยรากฐานที่แข็งแกร่ง
posdef

ฉันจะเพิ่ม "เห็นด้วย" ดังก้องสำหรับข้อความของ Harrell (การสะกดคำ) มันยอดเยี่ยมมากเนื่องจากเป็นรหัสสองชุดของรหัส R ที่มาพร้อมกัน ฉันยังคิดว่า "สถิติประยุกต์สมัยใหม่กับ S" โดย Venables และ Ripley น่าจะเป็นกิจการที่ดี ฉันมีภูมิหลังในระดับปริญญาโท (ที่มีระดับปริญญาตรีในสาขาฟิสิกส์) ก่อนที่จะใช้ MASS เพื่อเรียนรู้อาร์
DWIN

หนังสือถดถอยของเจลแมนนั้นวิเศษมากเขาอธิบายได้ดีมากและให้รหัส R ซึ่งมีประโยชน์มากในการตรวจสอบความเข้าใจของคุณเกี่ยวกับเนื้อหา
richiemorrisroe

2

คุณคุ้นเคยกับการวิเคราะห์ข้อมูลแบบเบย์ (โดย Gelman, Carlin, Stern และ Rubin) หรือไม่? บางทีนั่นอาจเป็นสิ่งที่คุณต้องการ


2

ปัญหาสถิติทั้งหมดจำเป็นมากที่จะต้องทำตาม 4 ขั้นตอน (ซึ่งฉันยืมจาก @whuber ตอบคำถามอื่น ):

  1. ประเมินพารามิเตอร์

  2. ประเมินคุณภาพของการประเมินนั้น

  3. สำรวจข้อมูล

  4. ประเมินความเหมาะสม

คุณสามารถแลกเปลี่ยนคำพารามิเตอร์ที่มีคำรุ่น

หนังสือสถิติมักจะนำเสนอสองจุดแรกสำหรับสถานการณ์ต่าง ๆ ปัญหาที่แต่ละแอปพลิเคชันในโลกแห่งความเป็นจริงต้องใช้วิธีการที่แตกต่างกันดังนั้นรูปแบบที่แตกต่างกันดังนั้นหนังสือส่วนใหญ่จึงมีแคตตาล็อกรุ่นต่าง ๆ เหล่านี้ สิ่งนี้มีเอฟเฟกต์ที่ไม่พึงประสงค์ซึ่งทำให้คุณสูญเสียรายละเอียดและคิดถึงภาพรวมได้ง่าย

หนังสือภาพเล่มใหญ่ที่ฉันแนะนำอย่างเต็มที่คือสถิติของซีมโทติค มันให้การรักษาอย่างเข้มงวดของหัวข้อและเป็นคณิตศาสตร์ "บริสุทธิ์" แม้ว่าชื่อของมันจะกล่าวถึงสถิติแบบซีโมติค แต่ความลับที่บอกเล่าไม่ได้ก็คือวิธีการทางสถิติแบบคลาสสิกส่วนใหญ่มีความสำคัญอยู่บนพื้นฐานของผลลัพธ์แบบอะซิมโทติค


2

ฉันคิดว่าสิ่งที่สำคัญที่สุดที่นี่คือการพัฒนาสัญชาตญาณเกี่ยวกับสถิติและแนวคิดทางสถิติทั่วไป บางทีวิธีที่ดีที่สุดในการทำเช่นนี้คือมีโดเมนที่คุณสามารถ "เป็นเจ้าของ" สิ่งนี้สามารถให้ข้อเสนอแนะในเชิงบวกที่มีความเข้าใจเกี่ยวกับโดเมนช่วยให้คุณเข้าใจเพิ่มเติมเกี่ยวกับสถิติพื้นฐานซึ่งจะช่วยให้คุณเข้าใจเพิ่มเติมเกี่ยวกับโดเมน ฯลฯ

สำหรับฉันโดเมนนั้นคือสถิติเบสบอล ฉันเข้าใจว่าการปะทะที่มีค่า 3 ต่อ 4 ในเกมนั้นไม่ใช่การตี "จริง" 0.750 สิ่งนี้จะช่วยให้เข้าใจจุดทั่วไปมากขึ้นว่าข้อมูลตัวอย่างไม่เหมือนกับการแจกแจงต้นแบบ ฉันรู้ด้วยว่าเขาอาจเข้าใกล้ผู้เล่นโดยเฉลี่ยมากกว่าคนตีฮันต์. 750 ดังนั้นสิ่งนี้จะช่วยให้เข้าใจแนวคิดต่าง ๆ เช่นการถดถอยของค่าเฉลี่ย จากตรงนั้นฉันจะได้การอนุมานแบบเบย์อย่างเต็มที่โดยที่การกระจายความน่าจะเป็นก่อนหน้านั้นมีค่าเฉลี่ยของค่าเฉลี่ยของผู้เล่นเบสบอลและตอนนี้ฉันมีตัวอย่างใหม่ 4 ตัวอย่างที่จะอัปเดตการแจกแจงหลังของฉัน

ฉันไม่รู้ว่าโดเมนนั้นมีไว้สำหรับคุณ แต่ฉันคิดว่ามันจะมีประโยชน์มากกว่าตำราเรียนเพียงอย่างเดียว ตัวอย่างช่วยให้เข้าใจทฤษฎีซึ่งช่วยให้เข้าใจตัวอย่าง หนังสือเรียนพร้อมตัวอย่างเป็นสิ่งที่ดี แต่ถ้าคุณไม่สามารถทำให้ตัวอย่างเหล่านั้นเป็น "ของคุณ" จากนั้นฉันสงสัยว่าคุณจะได้รับเพียงพอจากพวกเขา


1

ในฐานะที่เป็นทางเลือกให้กับกลยุทธ์การสร้างแบบจำลองการถดถอยและสำหรับแนวทางการปฏิบัติที่มีประโยชน์ยิ่งขึ้นตัวแบบสถิติเชิงเส้นประยุกต์นั้นดีมากจากมุมมองของฉัน


1

ทุกคนเรียนรู้ที่แตกต่างกัน แต่ฉันคิดว่ามันปลอดภัยที่จะพูดว่าตัวอย่างตัวอย่างตัวอย่างช่วยเหลือสถิติมากมาย ข้อเสนอแนะของฉันคือการเรียนรู้ R (แค่พื้นฐานก็เพียงพอที่จะช่วยเหลือได้มาก) จากนั้นคุณสามารถลองทำตัวอย่างใดก็ได้และทุกอย่างจนกระทั่งดวงตาของคุณมีเลือดออก คุณสามารถจัดเรียงมันพอดีมันแปลงมันคุณชื่อมัน และเนื่องจาก R มุ่งไปที่สถิติเมื่อคุณเรียนรู้ R คุณจะได้เรียนรู้สถิติ หนังสือเหล่านั้นที่คุณระบุไว้สามารถถูกโจมตีจากมุมมอง "แสดงให้ฉันเห็น"

เนื่องจาก R ไม่มีค่าใช้จ่ายและแหล่งข้อมูลจำนวนมากฟรีสิ่งที่คุณต้องลงทุนคือเวลาของคุณ

http://www.mayin.org/ajayshah/KB/R/index.html

http://math.illinoisstate.edu/dhkim/rstuff/rtutor.html

http://www.cyclismo.org/tutorial/R/

http://www.stat.pitt.edu/stoffer/tsa2/R_time_series_quick_fix.htm

http://www.statmethods.net/about/books.html

มีหนังสือดีๆหลายเล่มเกี่ยวกับ R ที่คุณสามารถซื้อได้นี่คือหนังสือที่ฉันเคยใช้:

http://www.amazon.com/Introductory-Statistics-R-Peter-Dalgaard/dp/0387954759

แก้ไข ============

ฉันลืมที่จะเพิ่มลิงค์ หากคุณใช้ Windows ตัวแก้ไขที่ดีในการป้อน R คือ Tinn-R (บุคคลอื่นสามารถเพิ่มลิงก์สำหรับผู้แก้ไขบน Mac หรือ Linux)

http://www.sciviews.org/Tinn-R/

http://cran.r-project.org/web/packages/TinnR/


ขอบคุณสำหรับการเชื่อมโยงฉันจะพยายามผ่านพวกเขาให้มากที่สุดเท่าที่จะทำได้ในสัปดาห์ที่ผ่านมา ... ฉันเคยได้รับ R เมื่อครั้งก่อนในหลักสูตรการวิเคราะห์การเอาชีวิตรอดซึ่งเราทำการถดถอยหลายตัวแปร (cox และ aelen) โมเดล) และอีกหลายอย่างที่ฉันจำไม่ได้จริงๆ ความประทับใจของฉันเกี่ยวกับ R ในฐานะคนที่คุ้นเคยกับ MATLAB ค่อนข้างเชิงลบ แต่ฉันก็มีหลายอย่างที่เกี่ยวข้องกับความจริงที่ว่าเราถูกโยนลงไปจนถึงจุดสิ้นสุดของสระว่ายน้ำมากขึ้นหรือน้อยลงและคาดว่าจะเรียนรู้ ว่ายน้ำด้วยตัวเองซึ่งแน่นอนทำให้ฉันเกลียดซอฟต์แวร์จากนั้นเป็นต้นมาเวลาที่ใช้ในการเปลี่ยนแปลงซึ่งอาจเกิดขึ้น
posdef

1

โดยส่วนตัวแล้วฉันชอบสิ่งนี้ซึ่งมีทั้งทฤษฎีและแอปพลิเคชันที่ดีมาก (พร้อมตัวอย่างมากมาย) มันเป็นการจับคู่ที่ดีกับ casella และ berger สำหรับวิธีการเชิงทฤษฎีมากขึ้น และสำหรับแปรงกว้างภาพรวมนี้


ดูเหมือนว่าหนังสือทั้งสองเล่มจะมีบทวิจารณ์ที่ดีเกี่ยวกับ amazon ทุกคนสามารถเพิ่มความคิดเห็น (อาจมีรายละเอียดเพิ่มเติมเล็กน้อย) ในหนังสือเหล่านี้ได้หรือไม่ BTW; โดย casella & berger คุณหมายถึง "อนุมานเชิงสถิติ" หรือไม่
posdef

ใช่ 'การอนุมานเชิงสถิติ' สำหรับฉันขั้นตอนใหญ่นั้นมาจากการทำความเข้าใจแบบจำลองความน่าจะเป็นเพื่อทำความเข้าใจวิธีใช้ข้อมูลเพื่อทดสอบแบบจำลองและประเมินพารามิเตอร์ของแบบจำลอง โดยเฉพาะอย่างยิ่งหนังสือ Davison มุ่งเน้นไปที่จุดนี้จริงๆ
alwaysean
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.