หนังสือที่ดีที่มีความเครียดเท่า ๆ กันเกี่ยวกับทฤษฎีและคณิตศาสตร์


10

ฉันมีหลักสูตรสถิติเพียงพอในช่วงปีที่เรียนและที่มหาวิทยาลัย ฉันมีความเข้าใจอย่างเป็นธรรมเกี่ยวกับแนวคิดเช่น CI ค่า p การตีความนัยสำคัญทางสถิติการทดสอบหลายแบบสหสัมพันธ์การถดถอยเชิงเส้นอย่างง่าย (ที่มีกำลังสองน้อยที่สุด) (โมเดลเชิงเส้นทั่วไป) และการทดสอบสมมติฐานทั้งหมด ฉันได้รับการแนะนำให้รู้จักกับมันมากของวันก่อนหน้านี้ส่วนใหญ่ทางคณิตศาสตร์ และเมื่อเร็ว ๆ นี้ด้วยความช่วยเหลือของหนังสือชีวสถิติที่ใช้งานง่ายฉันได้เข้าใจและไม่เคยมีมาก่อนเกี่ยวกับทฤษฎีแนวคิดจริงฉันเชื่อ

ตอนนี้สิ่งที่ฉันพบว่าขาดคือความเข้าใจในตัวแบบที่เหมาะสม (การประมาณค่าพารามิเตอร์กับตัวแบบ) และสิ่งที่คล้ายกัน โดยเฉพาะอย่างยิ่งแนวคิดต่าง ๆ เช่นการประมาณค่าความน่าจะเป็นสูงสุดแบบจำลองเชิงเส้นแบบทั่วไปวิธีการแบบเบส์เพื่อสถิติเชิงอนุมาน มีตัวอย่างหรือแบบฝึกหัดไม่เพียงพอหรือมีเนื้อหาที่เป็นแนวคิดอย่างที่ควรจะเป็นในโมเดลที่น่าจะเป็นไปได้ง่ายหรือหัวข้ออื่น ๆ (พื้นฐาน) บนอินเทอร์เน็ต

ฉันเป็นชีวสารสนเทศศาสตร์และฉันทำงานกับข้อมูล RNA-Seq ซึ่งเกี่ยวข้องกับจำนวนการอ่านดิบที่มีต่อการค้นหาสมมติว่าการแสดงออกของยีน (หรือการแสดงออกของยีนที่แตกต่างกัน) จากพื้นหลังของฉันแม้ว่าฉันจะไม่คุ้นเคยกับแบบจำลองทางสถิติฉันก็สามารถเข้าใจเหตุผลของการกระจายตัวแบบปัวซองและทวินามลบและอื่น ๆ .. แต่เอกสารบางฉบับเกี่ยวข้องกับตัวแบบเชิงเส้นทั่วไปและประมาณ MLE เป็นต้น .. ซึ่ง ฉันเชื่อว่าฉันมีพื้นฐานที่จำเป็นในการทำความเข้าใจ

ฉันเดาว่าสิ่งที่ฉันขอเป็นวิธีการที่ผู้เชี่ยวชาญบางคนในหมู่คุณเห็นว่ามีประโยชน์และ (a) หนังสือ (s) ที่ช่วยให้ฉันเข้าใจแนวคิดเหล่านี้ในวิธีที่ง่ายขึ้น (ไม่ใช่แค่คณิตศาสตร์ที่เข้มงวด แต่ทฤษฎีที่สนับสนุนคณิตศาสตร์) ในขณะที่ฉันจะนำไปใช้เป็นส่วนใหญ่ฉันจะพอใจ (ในขณะนี้) ด้วยความเข้าใจว่าอะไรคืออะไรและหลังจากนั้นฉันสามารถกลับไปที่บทพิสูจน์ทางคณิตศาสตร์ที่เข้มงวด ... ไม่มีใครมีคำแนะนำหรือไม่? ฉันไม่รังเกียจที่จะซื้อหนังสือมากกว่า 1 เล่มหากหัวข้อที่ฉันขอกระจัดกระจายอยู่ในหนังสือ

ขอบคุณมาก!


คุณช่วยแนะนำแหล่งข้อมูลที่ดีให้ฉันเพื่อเรียนรู้เกี่ยวกับข้อมูล RNA-Seq และความท้าทายทางสถิติในสาขานี้ได้ไหม
Biostat

1
biostat แน่นอนว่าเว็บไซต์seqanswers.comเป็นแหล่งข้อมูลที่ดีสำหรับ NGS คุณสามารถเริ่มต้นด้วยเทคโนโลยีที่แตกต่างกันและวิธีการทำงานจากที่นี่: goo.gl/NLuvJเอกสารเหล่านี้เป็นเอกสารที่อธิบายปัญหาทางสถิติบางอย่างเกี่ยวกับข้อมูล NGS กล่าวโดยสรุปคือการประมาณค่าความแปรปรวนเชิงเทคนิคและชีวภาพ (เกี่ยวกับการแสดงออกของยีน) 1) หนึ่งในเอกสารฉบับแรกที่ประเมินการเปลี่ยนแปลงทางเทคนิค: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: เครื่องมือสำหรับการตรวจจับการแสดงออกของยีน: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%
อรุณ

1
แปลงเป็น CW เพราะดูเหมือนว่าจะมีการเสนอคำแนะนำที่ดีและไม่มีมาตรฐานวัตถุประสงค์ที่ชัดเจนในการตัดสินใจ "ดีที่สุด" ในหมู่พวกเขา ฉันหวังว่านี่จะช่วยให้ผู้อ่านสามารถโหวตคำตอบได้ง่ายขึ้นเช่นกัน :-)
whuber

แน่นอน! มีเหตุผล. ฉันสามารถโพสต์วิกิในชุมชนได้หรือไม่ หรือต้องการสิทธิ์ผู้ดูแล
อรุณ

คำตอบ:


5

คุณจะพบทุกสิ่งที่ไม่ใช่แบบเบย์ที่คุณถามเกี่ยวกับเรื่องการถดถอยการสร้างแบบจำลองกลยุทธ์แฟรงก์ฮาร์เรลของ ฉันจะทิ้งคำแนะนำแบบเบย์ให้กับคนที่มีความรู้มากกว่า (แม้ว่าฉันจะมีGelman, Carlin, Stern และ RubinรวมถึงGilks, Richardson และ Speigelhalterบนชั้นหนังสือของฉัน) ควรมีหนังสือชีวสถิติแบบเบย์สองสามเล่มในตลาด

Update: McCullach and Nelder (1989)เป็นหนังสือคลาสสิกเกี่ยวกับ GLMs แน่นอน มันแหวกแนวสำหรับเวลา แต่ฉันคิดว่ามันค่อนข้างน่าเบื่อตรงไปตรงมา นอกจากนี้ยังไม่ครอบคลุมการเพิ่มเติมในภายหลังเช่นการวินิจฉัยที่เหลือแบบจำลองที่ไม่มีการขยายศูนย์หรือการขยายหลายระดับ / ลำดับชั้น Hardin และ Hilbe (2007)ครอบคลุมเนื้อหาใหม่ ๆ บางส่วนในรายละเอียดที่ดีพร้อมตัวอย่างการใช้งานจริงใน Stata (ซึ่งมีการใช้งาน GLMs และส่วนขยายที่ดีมาก Hardin เคยทำงานที่ Stata Corp. เขียนคำสั่งเหล่านี้จำนวนมาก ตัวประมาณแซนวิช)


สวัสดี StasK ขอบคุณมาก! ฉันพบสิ่งที่เกี่ยวกับการสร้างแบบจำลองการถดถอยจะตอบสนองความต้องการของฉัน พวกเขาครอบคลุม GLM มากแค่ไหน ฉันยังเห็นว่าการอ้างอิงของคุณในการอนุมานแบบเบย์นั้นเป็นมาตรฐานที่ฉันมักจะแนะนำเสมอ ในความเห็นของคุณพวกเขาจะปฏิบัติตามได้ง่าย / ยากเพียงใด (เหมือนในระดับที่สูงเกินไป)? นอกจากนี้คุณเคยดูหนังสือโมเดลเชิงเส้นทั่วไปหรือไม่? หนึ่งในผู้แต่งคือ JA Nelder นอกจากนี้ฉันต้องการซื้อหนังสือเล่มนี้ในแบบจำลองทางสถิติด้วย คุณมีความคิดเกี่ยวกับสิ่งนี้หรือไม่? ขอบคุณ!
อรุณ

ฉันไม่เคยเห็นหนังสือของฟรีแมน มันน่าสนใจทีเดียวแม้ว่ามันจะดูค่อนข้างเบาในแง่ของความเข้มงวดและฉันก็ไม่แน่ใจว่าฉันมีความสุขกับมัน (หนังสือที่มีน้ำหนักเบามากในวิชาคณิตศาสตร์ที่พูดถึงการถดถอยโดยไม่มีพีชคณิตเมทริกซ์ แต่ลึกมากเกี่ยวกับความเข้มงวดทางวิทยาศาสตร์เป็นเศรษฐมิติที่ไม่เป็นอันตรายโดย Angrist และ Pischke และถ้าคุณทำงานกับโมเดลเชิงสาเหตุหนังสือเล่มนี้เป็นสิ่งที่จำเป็น) ไม่ทราบภูมิหลังทางคณิตศาสตร์ / สถิติของคุณดังนั้นมันจะยากสำหรับฉันที่จะตัดสินว่าหนังสือเหล่านี้จะยากไหม หนังสือเบย์บางเล่มอาจเป็น พวกเขามักจะคิดว่าคุณรู้จัก MLE และ GLM แล้ว
StasK

1
ฉันได้อัปเดตคำตอบของฉันเพื่อรวมการอ้างอิง McCullach และ Nelder แล้ว
StasK

ฉันเป็น engr อิเล็กทรอนิกส์ หัน bioinformatician ฉันมีหลักสูตรเกี่ยวกับสถิติ (สำหรับทฤษฎีการสื่อสาร) ความน่าจะเป็นและกระบวนการแบบสุ่มสบาย ๆ กับแคลคูลัส (แม้ว่าจะเป็นสนิมเล็กน้อย) และพีชคณิตเชิงเส้น แน่นอนว่าสิ่งเหล่านี้ส่วนใหญ่จะเป็นระดับปริญญาตรี ... วัตถุประสงค์ของฉันคือให้แนวคิดที่ชัดเจน (การตีความทางเรขาคณิตมากขึ้นความเข้าใจในวิธีการและวัตถุประสงค์ที่สำคัญที่สุด) ฯลฯ ... แน่นอนฉันไม่สนใจคณิตศาสตร์ถ้ามัน มาพร้อมกับสูตรอาหารเหล่านี้ ขอบคุณอีกครั้งสำหรับคำแนะนำของคุณ!
อรุณ

3

หนังสือเหล่านี้อธิบายสิ่งที่ดี แต่ไม่ใช่สิ่งที่ OP ถาม
StasK

@StasK, คุณช่วยอธิบายสิ่งที่ไม่ได้อยู่ในหนังสือข้างต้นได้ไหม?
Biostat

ฉันสอนจาก HTF และสิ่งที่ฉันสอนจากมันเกี่ยวกับฟังก์ชั่นพื้นฐานระดับความมีประสิทธิภาพของเสรีภาพการเลือกรูปแบบการทำลูสข้ามการตรวจสอบความถูกต้องเป็นต้น MLE และ GLM ที่ OP ให้ความสนใจ มีการสันนิษฐานว่านักเรียนสถิติคุ้นเคยกับสิ่งนี้จากการฝึกอบรมทางสถิติทั่วไปหรือนักเรียน CS จะใช้ SVM มากกว่าการถดถอยโลจิสติกเป็นปฏิกิริยาเข่าสะบัดกับข้อมูลผลลัพธ์ไบนารี สิ่งที่เบย์นั้นยังกล่าวถึงเพียงว่ากฎการตัดสินใจแบบเบย์นั้นดีที่สุดในบางแง่มุม; ไม่มี MCMC หรือการผันคำพูด
StasK

คุณอ่านหนังสือ "วิธีการทางสถิติสำหรับชีวสารสนเทศศาสตร์" หรือไม่?
Biostat

@ biostat ไม่ฉันไม่มี ฉันไม่ได้ทำงานด้านชีวสารสนเทศ แต่ฉันรู้ว่ามันเป็นโลกที่แตกต่างออกไปเล็กน้อย ดังนั้นฉันไม่สามารถให้คำแนะนำที่สมเหตุสมผลได้ ในความคิดของฉันสาขาวิชาชีวสถิติที่เกี่ยวข้องกับแบบจำลองเช่น GLM, GEE, แนวยาวและแบบจำลองการเอาชีวิตรอดนั้นมีความคล้ายคลึงกับเศรษฐมิติมากกว่า (เช่นหนังสือของ Wooldridge เกี่ยวกับแบบจำลองแบบตัดขวางและแบบแผงข้อมูลอาจเป็นคำแนะนำที่ดี ด้วยโมเดลเหล่านี้) มากกว่าด้วยพันธุศาสตร์เชิงสถิติการควบคุมอัตราความผิดพลาดแบบแฟมิลี่และการขุดข้อมูลซึ่งดูเหมือนจะเป็นความเชี่ยวชาญของคุณ
StasK
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.