จะเริ่มต้นด้วยสถิติสำหรับนักพัฒนาที่มีประสบการณ์


47

ในช่วงครึ่งแรกของปี 2558 ฉันเรียนหลักสูตร Machine Learning (โดย Andrew Ng หลักสูตร GREAT) และเรียนรู้พื้นฐานของการเรียนรู้ของเครื่อง (การถดถอยเชิงเส้น, การถดถอยโลจิสติก, SVM, Neuronal Networks ... )

นอกจากนี้ฉันยังเป็นนักพัฒนาเป็นเวลา 10 ปีดังนั้นการเรียนรู้ภาษาการเขียนโปรแกรมใหม่จะไม่เป็นปัญหา

เมื่อเร็ว ๆ นี้ฉันเริ่มเรียนรู้ R เพื่อที่จะใช้อัลกอริทึมการเรียนรู้ของเครื่อง

อย่างไรก็ตามฉันได้ตระหนักว่าถ้าฉันต้องการเรียนรู้ต่อไปฉันจะต้องมีความรู้ด้านสถิติอย่างเป็นทางการมากขึ้นในปัจจุบันฉันมีความรู้นอกระบบ แต่มีข้อ จำกัด อย่างเช่นฉันไม่สามารถระบุได้ว่าแบบจำลองเชิงเส้นแบบใด จะดีกว่า (ปกติฉันมักจะใช้ R-Square สำหรับมัน แต่เห็นได้ชัดว่าไม่ใช่ความคิดที่ดีมาก)

ดังนั้นสำหรับฉันดูเหมือนว่าจะค่อนข้างชัดเจนว่าฉันต้องเรียนรู้พื้นฐานของสถิติ (ฉันศึกษาว่าในสถาบันเดียว แต่ลืมไปแล้วส่วนใหญ่) ที่ฉันควรเรียนรู้โปรดทราบว่าฉันไม่ต้องการหลักสูตรที่ครบวงจรจริง ๆ เพียงบางอย่าง ภายในหนึ่งเดือนให้ฉันรู้มากพอฉันจะกระตือรือร้นและเรียนรู้เพิ่มเติม :)

จนถึงตอนนี้ฉันได้อ่าน " สถิติไร้น้ำตา " แล้วมีคำแนะนำอื่น ๆ อีกไหม?


2
สำหรับสถิติ: Casella, G. และ RL Berger (2002): การอนุมานทางสถิติ, Duxbury สำหรับเศรษฐมิติ: ฮายาชิ, F. (2000): เศรษฐมิติ, สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน สำหรับมุมมองอื่น: stats.stackexchange.com/questions/91863/…
Guilherme Salomé

ฉันเพิ่มreferencesแท็ก คุณอาจต้องการสแกนหน้าแรกของการเข้าดูในหัวข้อนั้น
Glen_b

3
ฉันไม่เห็นว่าควรปิดสิ่งนี้ ฉันเห็นข้อโต้แย้งที่ทำให้ CW เป็นเช่นนั้น
gung - Reinstate Monica

2
จากมุมมองของฉันความรู้จะมีอคติถ้าคุณเริ่มเรียนรู้สถิติโดยไม่คุ้นเคยกับทฤษฎีความน่าจะเป็นมาก่อน
Metariat

2
ฉันต้องการเพิ่มคำเตือนหนึ่งคำ ฉันรู้สึกว่าคุณเข้าใจสิ่งนี้ไปแล้วในระดับหนึ่ง แต่ฉันแค่อยากจะบอกว่า ฉันเป็นนักเรียน MD / PhD ด้วยปริญญา MD ของฉันฉันวางแผนที่จะฝึกอายุรศาสตร์ สำหรับปริญญาเอกของฉันฉันกำลังศึกษาชีวสถิติ ฉันต้องการให้คุณรู้ว่าคุณจะไม่สามารถรับสถิติความชำนาญในอีก 1 เดือนกว่าคุณจะเป็นผู้เชี่ยวชาญด้านการแพทย์ในหนึ่งเดือน ฉันไม่ได้พยายามที่จะกีดกันคุณจากการเรียนรู้สถิติ ค่อนข้างตรงกันข้ามฉันหวังว่าคุณจะเข้าใจมันอย่างงดงาม แต่เพียงแค่เข้าใจว่ามันไม่ได้มีส่วนเกี่ยวข้องอะไรนอกจากต้องการเป็นนักพัฒนาซอฟต์แวร์
Vincent Laufer

คำตอบ:


26

ฉันขอแนะนำแผนที่ถนนพื้นฐานเกี่ยวกับการเดินทาง:

โบนัส:

ไซต์ที่ยอดเยี่ยมสำหรับแผนที่ถนนคือMetacademyซึ่งโดยส่วนตัวแล้วฉันจะรับรองว่าเป็นหนึ่งในแหล่งข้อมูลวิทยาศาสตร์ที่ดีที่สุดบนเว็บ

Gitxivเป็นอีกหนึ่งเว็บไซต์ที่สวยงามซึ่งเชื่อมโยงบทความวิจัยของ Arxiv เกี่ยวกับวิทยาศาสตร์ข้อมูลเข้ากับการใช้งาน / ไลบรารีแบบโอเพนซอร์สที่เกี่ยวข้อง


2
โอพีใช้หลักสูตรของอึ้งแล้วนั่นคือสิ่งที่กระตุ้นให้เขาถามคำถามตั้งแต่แรก
Aksakal

4
@ Aksakal ฉันได้สังเกตเห็นมัน แต่รวมมันเป็นส่วนหนึ่งของแผนที่ถนน จะไม่สร้างความแตกต่างจริง ๆ ดังนั้นฉันคิดว่าการรวมมันจะช่วยให้ผู้อื่นที่อ่านบทความนี้
Dawny33

12

คุณได้ลองใช้ Think StatsหรือThink Bayes - พวกเขาทั้งคู่ (ฟรี) เป็นหนังสือสถิติที่เหมาะสำหรับนักเขียนโปรแกรมและมีรหัส Python มากมาย

นอกจากนี้ถ้าคุณกำลังสนใจในการเรียนรู้Rแล้วCRANมีจำนวนมากของไฟล์ PDF (ฟรี) ที่คุณอาจต้องการตรวจสอบเช่นรู้เบื้องต้นเกี่ยวกับความน่าจะเป็นและสถิติการใช้ R นอกจากนี้ยังมีหลักสูตร Courseraที่ใช้Rซึ่งผู้คนจำนวนมากรักจริง ๆ(พวกเขาใช้หนังสือเล่มนี้ซึ่งคุณอาจต้องการลองดูด้วยและมีห้องทดลองในDataCampผมเชื่อว่า)

นอกจากนี้ถ้าคุณต้องการที่จะแปรงขึ้นบนหัวข้อสถิติบางอย่างที่คุณสามารถชมวิดีโอคู่บนKhan Academy


ฉันชอบ Think Stats และ Think Bayes แต่พวกเขาจงใจหลีกเลี่ยงทฤษฎีทางสถิติที่เป็นทางการจำนวนมากเพื่อหลีกเลี่ยงการทำสิ่งต่าง ๆ ผ่านโค้ด ยอดเยี่ยมสำหรับการเข้าใจอย่างถ่องแท้ในเรื่อง แต่ไม่ดีถ้าเป้าหมายของคุณคือการเข้าใจทฤษฎีพื้นฐาน
Marius

@Marius: ฉันรู้ว่าคุณหมายถึงอะไร แต่ฉันคิดว่าเพราะเขาเป็นโปรแกรมเมอร์อยู่แล้วและเพราะเขาดูเหมือนจะต้องการ "สิ่งเล็ก ๆ เรียบง่ายและรวดเร็ว" ซึ่งอาจเป็นสิ่งที่เขาต้องการมากกว่า
Steve S

8

หากคุณเคยแม้ในอดีตที่ผ่านมาสามารถแก้ปัญหาในรายการนี้ได้คุณควรพยายามศึกษาสถิติที่ใช้ "ถูกต้อง" ฉันจะให้อัลกอริทึมสองขั้นตอนง่าย ๆ แก่คุณ

ก่อนอื่นจงเร่งความเร็วด้วยทฤษฎีความน่าจะเป็น มีหนังสือดีๆมากมาย หนังสือเล่มโปรดของฉันคือหนังสือคลาสสิกโดย Feller มันเรียกว่า "บทนำ" แต่อย่าหลงกลโดยชื่อมันลึกเท่าที่คุณต้องการไป แต่ก็ยังเขียนได้ดีและเรียบง่ายถ้าคุณแค่อยากจะเรียดพื้นผิว

ขั้นตอนที่สองคือสถิติ อีกครั้งมีหนังสือดีๆมากมาย ฉันจะให้สิ่งที่ฉันใช้เป็นข้อความแนะนำที่ดีโดย Gujarati "เศรษฐมิติพื้นฐาน" รุ่นที่สี่ เศรษฐมิติคือสถิติที่ใช้กับเศรษฐศาสตร์ สำหรับการอ้างอิงผู้ชายที่ทุกคนคิดว่านักวิทยาศาสตร์ด้านข้อมูลจะเป็นงานที่เซ็กซี่ที่สุดในอีก 10 ปีข้างหน้าคือ Hal Varian นักเศรษฐศาสตร์ของ Berkeley เนื้อหาการเรียนรู้ของเครื่องส่วนใหญ่นั้นขึ้นอยู่กับสถิติพื้นฐานการถดถอยและอื่น ๆ ทั้งหมดที่กล่าวถึงในหนังสือเล่มนี้และคุณไม่จำเป็นต้องอ่านทุกอย่างมันเขียนด้วยวิธีที่คุณสามารถเลือกบทตามลำดับของคุณเอง

คุณจะประหลาดใจเมื่อเห็นว่ามีช่องว่างเหลือเท่าใดหลังจากชั้นเรียนของงะกรอกข้อมูลอย่างรวดเร็วในขณะที่อ่านข้อความเหล่านี้

ในฐานะผู้ฝึกหัดคุณไม่จำเป็นต้องมีทฤษฎีมากเกินไปหลังจากสองขั้นตอนนี้ คุณสามารถเรียนรู้เทคนิค ML โดยเฉพาะการอ่านหนังสือในสาขานี้ สิ่งสำคัญคือต้องไม่เริ่มต้นลึกเข้าไปในความน่าจะเป็นและสถิติ ให้รหัสของคุณเป็น ML ก่อนและเติมช่องว่างตามที่คุณต้องการ


4

ทุกคนแนะนำให้ใช้ Casella & Berger ซึ่งเกือบจะถูกใช้อย่างแพร่หลายในโปรแกรมสถิติระดับบัณฑิตศึกษา มันไม่ใช่หนังสืออ้างอิงที่ไม่ดี แต่ฉันไม่แน่ใจว่าฉันจะสแกนมากกว่า 4-5 บทแรกได้ไหม ฉันไม่คิดว่าคุณจำเป็นต้องมีทฤษฎีของวิธีการสร้างการทดสอบประเภท Neyman-Pearson ก่อนที่จะวิเคราะห์ "สถิติ" เช่นการวิเคราะห์ข้อมูล

ฉันจะมุ่งเน้นไปที่วิธีการเรียนรู้แทน หลักสูตรบัณฑิตศึกษาของฉันใช้วิธีการเชิงเส้นเชิงสถิติประยุกต์สำหรับการทดสอบเป็นประจำและเป็นการอ้างอิงที่ครอบคลุมดี แต่อาจไม่ใช่หนังสือที่เข้าถึงได้ง่ายที่สุดจากมุมมองการเรียนการสอนด้วยตนเอง หลักสูตรหนึ่งหรือสองวิชาจาก MIT หรือหลักสูตรอาจเป็นวิธีที่ดีกว่าในการเริ่มต้นเพราะคุณจะได้รับภาพรวมที่กว้างขึ้นพร้อมตัวอย่างเพิ่มเติมมากกว่าที่คุณอาจอ่านหนังสือ

สำหรับ Bayes หนังสือที่ฉันเคยเห็นบ่อยที่สุดคือDoing Bayesian Data Analysisซึ่งมาพร้อมกับรูปภาพลูกสุนัข (ชัดเจนทำให้หนังสือเล่มนี้เหนือกว่าตำราแบบเบส์เบื้องต้นอื่น ๆ ) ฉันไม่เคยใช้หนังสือเล่มนี้มาก่อน แต่ฉันได้อ่านผ่านมันและมันก็ค่อนข้างดี - ดีกว่าหนังสือของเจลแมนมากซึ่งฉันพบว่าหลังจากเรียนสองวิชาในสถิติของเบย์ไม่สามารถเข้าใจได้ - คำอธิบายนั้นแย่มาก


1
5 บทแรกของ C&B นั้นไม่ใช่สถิติจริง ๆ ทั้งหมดเป็นพื้นหลัง ... แนวคิดของสถิติได้รับการกล่าวถึงในตอนต้นของบทที่ 6! ยิ่งไปกว่านั้นวิธีการเรียนรู้อาจไม่ช่วยคนนี้โดยเฉพาะ มันจะช่วยให้เขาใช้สถิติไม่เข้าใจซึ่งเป็นสิ่งที่เขาต้องการ หากเขามีการฝึกอบรมทางคณิตศาสตร์ขั้นสูงเขาอาจจะข้ามไปได้บ้าง แต่คำตอบของเขาชี้ให้เห็นว่าเขาไม่สามารถเข้าใจการสนับสนุนของ ML ... ซึ่งบ่งชี้ว่าคณิตศาสตร์ของเขานั้น จำกัด (สำหรับฉันอย่างน้อย) C&B อาจไม่ใช่จุดเริ่มต้นที่ไม่ดี
Vincent Laufer

1
พวกเขาอาจไม่ใช่สถิติ แต่ความเป็นมาของการแจกแจงความน่าจะเป็นสิ่งสำคัญในการสร้างแบบจำลองใด ๆ - คุณจำเป็นต้องรู้ว่าการแจกแจงเบอโนลลีคืออะไรและคุณสมบัติของมันคืออะไรก่อนที่คุณจะเข้าใจการถดถอยโลจิสติกส์ ฉันยังคงอ้างอิง C & B เป็นครั้งคราว แต่ฉันไม่คิดว่าฉันเคยใช้อะไรนอกเหนือจากบทที่ 6 นอกชั้นเรียนที่ฉันใช้หนังสือเล่มนั้น
srvanderplas

1
ฉันค่อนข้างเห็นด้วยกับสิ่งที่คุณพูด แต่เกี่ยวข้องกับการพูดนอกเรื่องแทนที่จะเป็นประเด็นหลัก - ซึ่งเป็นความผิดของฉันในการเพิ่มการพูดนอกเรื่องในตอนแรก จุดสำคัญคือว่าอย่างที่คนอื่น ๆ ได้แนะนำสิ่งที่ OP ต้องการทำจริง ๆ คือทำความเข้าใจคณิตศาสตร์และทฤษฎีเชิงทฤษฎีได้ดีขึ้น มันไม่มีที่ไหนในโพสต์บ่งบอกว่าเขาต้องการความช่วยเหลือในการใช้การทดสอบทางสถิติเพิ่มเติม เขาสามารถทำสิ่งนั้นได้ เขาปรารถนาที่จะเข้าใจพวกเขาอย่างลึกซึ้งยิ่งขึ้น สำหรับเรื่องนี้ C & B ดีกว่าการเรียนรู้เพิ่มเติมเกี่ยวกับการเตรียมการสมัครเชิง
Vincent Laufer

3

นี่ไม่ได้เป็นคำตอบที่สมบูรณ์ แต่เป็นเพียงข้อเสนอแนะ หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับสถิติ (พื้นฐาน) คุณสามารถอ่าน:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

นี่เป็นหนังสือมาตรฐานสำหรับนักสถิติและมีผลลัพธ์ที่น่าสนใจมากมาย คุณไม่จำเป็นต้องผ่านการพิสูจน์ทฤษฎีบททั้งหมด แต่คุณอาจต้องการทำแบบฝึกหัดบางอย่างเพื่อให้รู้สึกปลอดภัยกับผลลัพธ์มากขึ้น

หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเศรษฐมิติ (แบบจำลองสำหรับข้อมูล) คุณสามารถดู:

Hayashi, F. (2000): Econometrics, Princeton University Press

คนอื่นถามจริงอย่างที่คล้ายกับสิ่งที่คุณถามและได้คำตอบที่ดี: สิ่งที่ต้องทำหลัง "Casella และเบอร์เกอร์"

นอกจากนี้หากคุณตั้งใจจะอ่านหนังสือเหล่านี้หลักสูตรวิชาเศรษฐศาสตร์จะช่วยให้คุณมีทิศทางที่ดีและรวดเร็วในการอ่าน (CB & Hayashi) และเมื่ออ่าน


ขอบคุณสำหรับคำแนะนำอย่างไรก็ตามหนังสือเล่มแรกที่คุณพูดถึงอยู่ที่ประมาณ 660 หน้า ... ฉันได้อ่านหนังสือที่มีขนาดใหญ่ขึ้น แต่มีบางสิ่งที่เล็กเรียบง่ายและรวดเร็วดังนั้นฉันจึงสามารถเข้าใจพื้นฐานได้หรือไม่
Juan Antonio Gomez Moriano

3
Casella และ Berger จะให้คุณรู้ทฤษฎีทางสถิติ แต่คุณจะได้เรียนรู้เกี่ยวกับการวิเคราะห์ข้อมูลน้อยมาก
Glen_b

1
@JuanAntonioGomezMoriano คุณตัวเล็กแค่ไหน? ฉันเป็นแฟนตัวยงของการโกหกด้วยสถิติเป็นจุดเริ่มต้นเสมอ
icc97

(-1) เสียงเหล่านั้นเป็นตัวเลือกที่สมบูรณ์แบบสำหรับคนที่ชอบวิธีการทางคณิตศาสตร์หรือทฤษฎีทางสถิติค่อนข้างตรงกันข้ามกับสิ่งที่ OP ต้องการ
งานกาลา

1
เขาบอกว่าเขาต้องการความรู้ที่เป็นทางการมากกว่าและความรู้พื้นฐานเกี่ยวกับสถิติ
Guilherme Salomé

2

ฉันขอแนะนำหนังสือเล่มใหม่ที่ออกมาตั้งแต่คำถามเดิม: การทบทวนสถิติ: หลักสูตร Bayesian พร้อมตัวอย่างใน R และ Stanโดย Richard McElreath, CRC Press

มันเขียนได้ดีมากและใช้วิธีแบบเบย์ มันมีการโต้ตอบกันมากและคุณจะต้องการแก้ไขปัญหาหรือคุณอาจผ่านไปครึ่งทางและเริ่มหลงทาง

มันเริ่มต้นขั้นพื้นฐานและจบลงด้วยโมเดลหลายระดับและมุ่งเป้าไปที่นักวิทยาศาสตร์ขั้นสูงที่มีความรู้ทางสถิติบ้าง แต่ไม่รู้สึกสบายใจกับสถิติขณะที่สอน ดังนั้นฉันไม่สามารถพูดได้อย่างแน่นอนว่าเป็นหนังสือของผู้เริ่มต้น แต่มันเริ่มต้นได้ง่ายมากและเขามีส่วนโค้งและสไตล์ที่ยอดเยี่ยม

ส่วน "สแตน" ของชื่อเป็นเครื่องมือการสุ่มตัวอย่างแบบเบย์ที่มีวัตถุประสงค์ทั่วไป โดยพื้นฐานแล้วมันเป็นภาษาการเขียนโปรแกรมที่คอมไพล์ไปที่ C ++ โดยอัตโนมัติ (การอนุมานแบบเบย์เป็นเรื่องทั่วไปซึ่งแตกต่างจากทางเลือกดังนั้นคุณสามารถมีเครื่องมือทั่วไปได้)


1

คิดว่าฉันจะโยนคำตอบนี้เพื่อลูกหลานแม้ว่ามันจะสายเกินไปที่จะเป็นประโยชน์กับคุณ สถิติทั้งหมดของ Larry Wasserman ได้ถูกสร้างขึ้นเพื่อเป็นหลักสูตรสำหรับผู้ที่มีพื้นฐานในการเรียนรู้ของเครื่องจักรการเรียนรู้ทางคณิตศาสตร์อื่น ๆ หรือคณิตศาสตร์ที่ไม่มีการฝึกอบรมทางสถิติอย่างเป็นทางการกล่าวคือผู้คนในสถานการณ์ปัจจุบันของคุณ เมื่อขาดสถิติอย่างเป็นทางการเพื่อน ๆ สองสามคนและฉันก็ตั้งกลุ่มเรียนรู้ด้วยตนเองเพื่อเรียนต่อในระดับบัณฑิตศึกษา ฉันคิดว่าฉันได้รับประโยชน์จากประสบการณ์นั้นจริงๆ

หัวข้อพิเศษที่ Wasserman กล่าวนอกเหนือจากเนื้อหาหลักสูตร "ความน่าจะเป็นและการอนุมานเชิงสถิติ" ทั่วไปเช่นโมเดลกราฟิกและการบูตสแตรปมีความเกี่ยวข้องอย่างยิ่งกับคนที่ทำงานในการเรียนรู้ของเครื่อง ฉันควรจะบอกว่าหนังสือเล่มนี้ค่อนข้างสั้นเมื่อเทียบกับ Casella & Berger ดังนั้นหากคุณต้องการรายละเอียดเพิ่มเติมหรือแรงบันดาลใจสำหรับบางส่วน (โดยเฉพาะการพิสูจน์) คุณอาจต้องเสริมด้วยวัสดุการอ่านอื่น ๆ ที่กล่าวว่าฉันยังพบว่าหนังสือเล่มนี้เขียนขึ้นอย่างชัดเจนพร้อมปัญหาการฝึกฝนจำนวนมากและเป็นการอ้างอิงด่วนที่ยอดเยี่ยม

หนึ่งเดือนไม่มีเวลามาก ถ้าคุณตั้งค่าความเร็วก้าวร้าวมากฉันคิดว่าคุณสามารถได้รับประโยชน์มากมายจากข้อความนี้ในภาคการศึกษาเดียว: เราทำการศึกษากลุ่มด้วยตนเองในช่วงฤดูร้อน โดยเฉพาะอย่างยิ่งถ้าคุณสนใจการสร้างแบบจำลองเชิงเส้นเป็นส่วนใหญ่ซึ่งคุณจะได้รับผลกระทบจาก Ch 13-14

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.