สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

28
ทำความเข้าใจกับการวิเคราะห์องค์ประกอบหลัก, ค่าเฉพาะและค่าลักษณะเฉพาะ
ในชั้นเรียนรู้รูปแบบวันนี้อาจารย์ของฉันพูดคุยเกี่ยวกับ PCA, eigenvectors และค่าลักษณะเฉพาะ ฉันเข้าใจคณิตศาสตร์ของมัน ถ้าฉันถูกขอให้หาค่าลักษณะเฉพาะ ฯลฯ ฉันจะทำอย่างถูกต้องเหมือนเครื่อง แต่ผมไม่เข้าใจมัน ฉันไม่ได้รับวัตถุประสงค์ของมัน ฉันไม่ได้รับความรู้สึกของมัน ฉันเชื่อมั่นในคำพูดต่อไปนี้: คุณไม่เข้าใจอะไรจริงๆเว้นแต่คุณจะอธิบายให้คุณยายฟัง -- Albert Einstein ฉันไม่สามารถอธิบายแนวคิดเหล่านี้กับคนธรรมดาหรือยายได้ ทำไมต้องเลือก PCA, eigenvectors & eigenvalues อะไรคือสิ่งที่จำเป็นสำหรับแนวคิดเหล่านี้ คุณจะอธิบายเรื่องนี้กับคนธรรมดาได้อย่างไร?

11
วิธีการเลือกจำนวนของเลเยอร์และโหนดที่ซ่อนอยู่ในเครือข่ายประสาทเทียมไปข้างหน้า?
มีวิธีมาตรฐานและเป็นที่ยอมรับสำหรับการเลือกจำนวนเลเยอร์และจำนวนโหนดในแต่ละเลเยอร์ในเครือข่ายนิวรัลไปข้างหน้าหรือไม่? ฉันสนใจวิธีการสร้างเครือข่ายประสาทอัตโนมัติ

10
"โอกาส" และ "โอกาส" แตกต่างกันอย่างไร?
หน้าวิกิพีเดียบอกว่าโอกาสและความน่าจะเป็นแนวความคิดที่แตกต่างกัน ในการพูดจาที่ไม่ใช่ด้านเทคนิค "ความน่าจะเป็น" มักจะเป็นคำพ้องสำหรับ "ความน่าจะเป็น" แต่ในการใช้งานทางสถิติมีความแตกต่างที่ชัดเจนในมุมมอง: หมายเลขที่เป็นความน่าจะเป็นของผลลัพธ์ที่สังเกตได้บางอย่าง ความน่าจะเป็นของชุดค่าพารามิเตอร์ที่กำหนดผลลัพธ์ที่สังเกตได้ บางคนสามารถให้คำอธิบายเกี่ยวกับสิ่งนี้ได้มากขึ้นตามความหมายของโลก? นอกจากนี้ตัวอย่างของความน่าจะเป็น "ความน่าจะเป็น" และ "ความน่าจะเป็น" ก็ดี

11
สัญชาตญาณของการกระจายเบต้าคืออะไร
ข้อจำกัดความรับผิดชอบ: ฉันไม่ใช่นักสถิติ แต่เป็นวิศวกรซอฟต์แวร์ ความรู้เกี่ยวกับสถิติส่วนใหญ่มาจากการเรียนรู้ด้วยตนเองดังนั้นฉันยังมีช่องว่างมากมายในการทำความเข้าใจแนวคิดที่อาจดูไม่สำคัญสำหรับคนอื่นที่นี่ ดังนั้นฉันจะขอบคุณมากถ้าคำตอบมีคำศัพท์เฉพาะน้อยกว่าและคำอธิบายเพิ่มเติม ลองนึกภาพว่าคุณกำลังคุยกับคุณยายอยู่ :) ฉันพยายามที่จะเข้าใจลักษณะของการแจกแจงเบต้า - สิ่งที่ควรใช้และวิธีตีความในแต่ละกรณี ถ้าเราพูดถึงการกระจายตัวแบบปกติเราสามารถอธิบายได้ว่าเป็นเวลาที่รถไฟมาถึง: บ่อยที่สุดมันมาถึงในเวลาน้อยกว่าบ่อยครั้งคือ 1 นาทีก่อนหน้าหรือ 1 นาทีและไม่ค่อยมาถึงด้วยความแตกต่าง 20 นาทีจากค่าเฉลี่ย การแจกแจงแบบสม่ำเสมอจะอธิบายโอกาสของตั๋วแต่ละใบด้วยลอตเตอรี การแจกแจงแบบทวินามอาจอธิบายได้ด้วยการโยนเหรียญและอื่น ๆ แต่มีคำอธิบายที่เข้าใจง่ายเกี่ยวกับการแจกแจงเบต้าหรือไม่ สมมติว่าα=.99α=.99\alpha=.99และ\β=.5β=.5\beta=.5การกระจายเบต้าB(α,β)B(α,β)B(\alpha, \beta)ในกรณีนี้มีลักษณะเช่นนี้ (สร้างใน R): แต่จริงๆแล้วมันหมายถึงอะไร? เห็นได้ชัดว่าแกน Y เป็นความหนาแน่นของความน่าจะเป็น แต่สิ่งที่อยู่ในแกน X? ฉันขอขอบคุณคำอธิบายใด ๆ ไม่ว่าจะด้วยตัวอย่างนี้หรืออย่างอื่น

11
ชุดทดสอบและชุดการตรวจสอบแตกต่างกันอย่างไร
ฉันพบว่าสิ่งนี้เกิดความสับสนเมื่อฉันใช้กล่องเครื่องมือโครงข่ายใยประสาทใน Matlab มันแบ่งข้อมูลดิบที่กำหนดเป็นสามส่วน: ชุดฝึกอบรม ชุดการตรวจสอบความถูกต้อง ชุดทดสอบ ฉันสังเกตเห็นในการฝึกอบรมหรืออัลกอริทึมการเรียนรู้ข้อมูลมักจะแบ่งออกเป็น 2 ส่วนชุดฝึกอบรมและชุดทดสอบ คำถามของฉันคือ: ชุดตรวจสอบความถูกต้องและชุดทดสอบแตกต่างกันอย่างไร การตรวจสอบถูกตั้งค่าเฉพาะกับเครือข่ายประสาทจริงหรือไม่ หรือมันเป็นตัวเลือก หากต้องการดำเนินการต่อไปจะมีความแตกต่างระหว่างการตรวจสอบและทดสอบในบริบทของการเรียนรู้ของเครื่องหรือไม่

20
สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?
ปีที่แล้วฉันอ่านโพสต์บล็อกจากเบรนแดนโอคอนเนอร์เรื่อง"สถิติกับการเรียนรู้ของเครื่องจักรการต่อสู้!" ที่กล่าวถึงความแตกต่างระหว่างสองฟิลด์ Andrew Gelman ตอบกลับอย่างดีในเรื่องนี้ : Simon Blomberg: จากแพคเกจโชคชะตาของ R: เพื่อถอดความยั่วโมโห 'การเรียนรู้ของเครื่องคือสถิติลบการตรวจสอบรูปแบบและสมมติฐาน' - Brian D. Ripley (เกี่ยวกับความแตกต่างระหว่างการเรียนรู้ของเครื่องและสถิติ) useR! ปี 2004 เวียนนา (พฤษภาคม 2547) :-) คำทักทายประจำฤดูกาล! Andrew Gelman: ในกรณีนั้นเราควรกำจัดการตรวจสอบตัวแบบและสมมติฐานบ่อยขึ้น ถ้าอย่างนั้นเราอาจจะสามารถแก้ปัญหาบางอย่างที่เครื่องเรียนรู้ที่ผู้คนสามารถแก้ไขได้ แต่เราทำไม่ได้! นอกจากนี้ยังมี"การสร้างแบบจำลองทางสถิติสองวัฒนธรรม"กระดาษโดยลีโอเบรแมนในปี 2001 ซึ่งเป็นที่ถกเถียงกันว่าสถิติพึ่งพาอาศัยเกินไปในการสร้างแบบจำลองข้อมูลและเทคนิคการเรียนรู้ที่เครื่องจะทำให้ความคืบหน้าโดยแทนที่จะอาศัยความถูกต้องของการคาดการณ์ของแบบจำลอง เขตข้อมูลสถิติมีการเปลี่ยนแปลงในช่วงทศวรรษที่ผ่านมาเพื่อตอบสนองต่อคำวิจารณ์เหล่านี้หรือไม่? อย่าสองวัฒนธรรมที่ยังคงอยู่หรือสถิติการเติบโตที่จะโอบกอดเทคนิคการเรียนรู้ของเครื่องเช่นเครือข่ายประสาทและเครื่องเวกเตอร์สนับสนุน?

22
ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?
ในคำจำกัดความของส่วนเบี่ยงเบนมาตรฐานทำไมเราต้องยกกำลังสองความแตกต่างจากค่าเฉลี่ยเพื่อให้ได้ค่าเฉลี่ย (E) และนำสแควร์รูทกลับมาที่จุดสิ้นสุด? เราไม่เพียงแค่เอาค่าสัมบูรณ์ของความแตกต่างมาแทนและรับค่าที่คาดหวัง (ค่าเฉลี่ย) ของสิ่งเหล่านั้นและนั่นจะไม่แสดงการแปรผันของข้อมูลหรือไม่ จำนวนจะแตกต่างจากวิธีสแควร์ (วิธีค่าสัมบูรณ์จะน้อยกว่า) แต่ก็ยังควรแสดงการแพร่กระจายของข้อมูล ไม่มีใครรู้ว่าทำไมเราถึงใช้วิธีการจตุรัสนี้เป็นมาตรฐาน? ความหมายของค่าเบี่ยงเบนมาตรฐาน: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. เราไม่สามารถใช้ค่าสัมบูรณ์แทนได้และยังเป็นการวัดที่ดีหรือไม่? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]

5
วิธีทำความเข้าใจข้อเสียของ K-mean
K-mean เป็นวิธีที่ใช้กันอย่างแพร่หลายในการวิเคราะห์กลุ่ม ในความเข้าใจของฉันวิธีนี้ไม่จำเป็นต้องมีข้อสมมติฐานใด ๆ เช่นให้ชุดข้อมูลและจำนวนกลุ่มที่กำหนดไว้ล่วงหน้าฉันและฉันเพิ่งใช้อัลกอริทึมนี้ซึ่งช่วยลดผลรวมของข้อผิดพลาดกำลังสอง (SSE) ภายในคลัสเตอร์กำลังสอง ความผิดพลาด k-mean จึงเป็นปัญหาการหาค่าเหมาะที่สุด ฉันอ่านเนื้อหาเกี่ยวกับข้อเสียของ k-mean ส่วนใหญ่พูดว่า: k- หมายถึงถือว่าความแปรปรวนของการกระจายของแต่ละคุณลักษณะ (ตัวแปร) เป็นทรงกลม; ตัวแปรทั้งหมดมีความแปรปรวนเดียวกัน ความน่าจะเป็นก่อนหน้านี้สำหรับ k k ทั้งหมดนั้นเหมือนกันกล่าวคือแต่ละกลุ่มมีจำนวนการสังเกตอย่างเท่าเทียมกัน หากมีการละเมิดสมมติฐานข้อใดข้อหนึ่งใน 3 ข้อใดข้อหนึ่งของ k-mean จะล้มเหลว ฉันไม่เข้าใจตรรกะหลังคำสั่งนี้ ฉันคิดว่าวิธี k-mean ไม่มีข้อสมมติฐานเป็นหลักมันแค่ลด SSE ลงเท่านั้นดังนั้นฉันจึงไม่สามารถเห็นลิงก์ระหว่างการลด SSE และ "สมมติฐาน" ทั้งสามนี้

25
Python เป็นโต๊ะทำงานสถิติ
ผู้คนจำนวนมากใช้เครื่องมือหลักเช่น Excel หรือสเปรดชีตอื่น SPSS, Stata หรือ R สำหรับความต้องการทางสถิติ พวกเขาอาจหันไปใช้แพคเกจเฉพาะสำหรับความต้องการพิเศษมาก แต่หลายสิ่งสามารถทำได้ด้วยสเปรดชีตอย่างง่ายหรือแพคเกจสถิติทั่วไปหรือสภาพแวดล้อมการเขียนโปรแกรมสถิติ ฉันชอบ Python เป็นภาษาการเขียนโปรแกรมเสมอและสำหรับความต้องการง่าย ๆ มันง่ายที่จะเขียนโปรแกรมสั้น ๆ ที่คำนวณสิ่งที่ฉันต้องการ Matplotlib ให้ฉันพล็อตมัน มีใครเปลี่ยนจากพูด R เป็น Python อย่างสมบูรณ์หรือไม่ R (หรือแพ็คเกจสถิติอื่น ๆ ) มีฟังก์ชันการทำงานเฉพาะสำหรับสถิติจำนวนมากและมีโครงสร้างข้อมูลที่ช่วยให้คุณคิดเกี่ยวกับสถิติที่คุณต้องการดำเนินการและน้อยกว่าเกี่ยวกับการแสดงข้อมูลภายในของคุณ Python (หรือภาษาไดนามิกอื่น ๆ ) มีประโยชน์ในการอนุญาตให้ฉันเขียนโปรแกรมในภาษาระดับสูงที่คุ้นเคยและช่วยให้ฉันโต้ตอบกับระบบในโลกแห่งความเป็นจริงซึ่งข้อมูลอยู่หรือที่ฉันสามารถทำการวัดได้ แต่ฉันไม่ได้พบแพ็คเกจ Python ใด ๆ ที่จะอนุญาตให้ฉันแสดงสิ่งต่าง ๆ ด้วย "คำศัพท์เชิงสถิติ" - จากสถิติเชิงพรรณนาอย่างง่ายไปจนถึงวิธีการหลายตัวแปรที่ซับซ้อนมากขึ้น คุณสามารถแนะนำอะไรได้ถ้าฉันต้องการใช้ Python เป็น "สถิติ workbench" เพื่อแทนที่ …
355 r  spss  stata  python 

3
ความสัมพันธ์ระหว่าง SVD และ PCA วิธีการใช้ SVD เพื่อทำ PCA
การวิเคราะห์องค์ประกอบหลัก (PCA) มักจะอธิบายผ่านการสลายตัวไอเก็นของเมทริกซ์ความแปรปรวนร่วม แต่ก็ยังสามารถดำเนินการผ่านการย่อยสลายมูลค่าเอกพจน์ (SVD) ของเมทริกซ์ข้อมูลXมันทำงานยังไง? การเชื่อมต่อระหว่างสองแนวทางนี้คืออะไร? ความสัมพันธ์ระหว่าง SVD และ PCA คืออะไร?XX\mathbf X หรือกล่าวอีกนัยหนึ่งว่าจะใช้ SVD ของ data matrix เพื่อลดมิติข้อมูลได้อย่างไร?

30
การ์ตูนเรื่อง "การวิเคราะห์ข้อมูล" ที่คุณชื่นชอบคืออะไร?
นี่คือหนึ่งในรายการโปรดของฉัน: หนึ่งรายการต่อคำตอบ (สิ่งนี้อยู่ในหลอดเลือดดำของคำถาม Stack Overflow การ์ตูน "โปรแกรมเมอร์" ที่คุณชื่นชอบคืออะไร ) PS อย่าเชื่อมโยงการ์ตูนโดยไม่ได้รับอนุญาตจากเว็บไซต์
343 humor 


11
อธิบายให้คนทั่วไปเห็นว่าทำไมการบูตสแตรปทำงานได้ดี
ฉันเพิ่งใช้ bootstrapping เพื่อประเมินช่วงความมั่นใจสำหรับโครงการ บางคนที่ไม่ทราบเกี่ยวกับสถิติมากนักเมื่อเร็ว ๆ นี้ขอให้ฉันอธิบายว่าเพราะเหตุใด bootstrapping จึงใช้งานได้เช่นเหตุใดการสุ่มตัวอย่างตัวอย่างซ้ำไปซ้ำมาจึงให้ผลลัพธ์ที่ดี ฉันรู้ว่าถึงแม้ว่าฉันจะใช้เวลามากมายในการทำความเข้าใจวิธีการใช้ แต่ฉันก็ไม่เข้าใจว่าทำไมการบูตสแตรป โดยเฉพาะ: ถ้าเราสุ่มตัวอย่างจากตัวอย่างของเรามันเป็นอย่างไรที่เรากำลังเรียนรู้บางอย่างเกี่ยวกับประชากรมากกว่าเพียงแค่ตัวอย่าง ดูเหมือนว่าจะมีการกระโดดที่นั่นซึ่งค่อนข้างเคาน์เตอร์ง่าย ฉันได้พบคำตอบของคำถามนี้ที่ฉันเข้าใจครึ่ง โดยเฉพาะอย่างยิ่งคนนี้ ฉันเป็นสถิติ "ผู้บริโภค" ไม่ใช่นักสถิติและฉันทำงานกับคนที่รู้สถิติน้อยกว่าฉันมาก ดังนั้นใครบางคนสามารถอธิบายได้โดยมีการอ้างอิงอย่างน้อยที่สุดเกี่ยวกับทฤษฎีบท ฯลฯ เหตุผลพื้นฐานที่อยู่เบื้องหลัง bootstrap? นั่นคือถ้าคุณต้องอธิบายให้เพื่อนบ้านฟังคุณจะพูดว่าอย่างไร

18
จะเกิดอะไรขึ้นถ้าตัวแปรอธิบายและการตอบสนองถูกจัดเรียงอย่างอิสระก่อนการถดถอย
สมมติว่าเรามีชุดข้อมูลมี points เราต้องการที่จะดำเนินการถดถอยเชิงเส้น แต่แรกที่เราจัดเรียงค่าและค่าเป็นอิสระจากกันสร้างชุดข้อมูลY_j) มีการตีความความหมายของการถดถอยในชุดข้อมูลใหม่หรือไม่? สิ่งนี้มีชื่อหรือไม่?(Xi,Yi)(Xi,Yi)(X_i,Y_i)nnnY i ( X i , Y j )XiXiX_iYiYiY_i( Xผม, วายJ)(Xi,Yj)(X_i,Y_j) ฉันคิดว่านี่เป็นคำถามที่งี่เง่าดังนั้นฉันขอโทษฉันไม่ได้รับการฝึกฝนอย่างเป็นทางการในสถิติ ในใจของฉันสิ่งนี้ทำลายข้อมูลของเราอย่างสมบูรณ์และการถดถอยไม่มีความหมาย แต่ผู้จัดการของฉันบอกว่าเขาได้รับ "การถดถอยที่ดีขึ้นเกือบตลอดเวลา" เมื่อเขาทำสิ่งนี้ (ที่นี่ "ดีกว่า" หมายถึงการคาดการณ์ได้มากขึ้น) ฉันมีความรู้สึกว่าเขากำลังหลอกลวงตัวเอง แก้ไข: ขอบคุณสำหรับตัวอย่างที่ดีและอดทนของคุณทั้งหมด ฉันแสดงให้เขาเห็นตัวอย่างโดย @ RUser4512 และ @gung และเขายังคงหยุดยั้ง เขากลายเป็นหงุดหงิดและฉันเหนื่อยมาก ฉันรู้สึกหงุดหงิด ฉันอาจจะเริ่มหางานอื่น ๆ เร็ว ๆ นี้

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.