สถิติและข้อมูลขนาดใหญ่

5

ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้เรียนรู้

ฉันกำลังฝึกโครงข่ายประสาท แต่การสูญเสียการฝึกไม่ลดลง ฉันจะแก้ไขสิ่งนี้ได้อย่างไร ฉันไม่ได้ถามเกี่ยวกับการบรรจุเกินหรือกำหนดมาตรฐาน ฉันขอเกี่ยวกับวิธีการแก้ปัญหาที่ประสิทธิภาพของเครือข่ายของฉันไม่ดีขึ้นในชุดฝึกอบรม คำถามนี้เป็นคำถามทั่วไปที่จงใจเพื่อให้คำถามอื่น ๆ เกี่ยวกับวิธีการฝึกอบรมโครงข่ายประสาทเทียมสามารถปิดเป็นซ้ำกับคำถามนี้ได้ด้วยทัศนคติที่ว่า "ถ้าคุณให้ปลาแก่ผู้ชายคุณให้อาหารเขาหนึ่งวัน แต่ถ้าคุณสอน คุณสามารถให้อาหารเขาตลอดชีวิตที่เหลือของเขา " ดูกระทู้ Meta สำหรับการสนทนา: วิธีที่ดีที่สุดในการตอบคำถาม "เครือข่ายประสาทของฉันใช้งานไม่ได้โปรดแก้ไข" คำถามคืออะไร? หากเครือข่ายประสาทของคุณไม่ได้พูดคุยกันดีดู: ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้พูดคุยกันดี

147 neural-networks deep-learning

7

มีคำอธิบายที่เข้าใจง่ายสำหรับทฤษฎีบทขีด จำกัด กลางคืออะไร?

ในบริบทที่แตกต่างกันเราเรียกใช้ทฤษฎีขีด จำกัด กลางเพื่อพิสูจน์ว่าวิธีการทางสถิติใดก็ตามที่เราต้องการนำมาใช้ (เช่นประมาณการแจกแจงทวินามโดยการแจกแจงแบบปกติ) ฉันเข้าใจรายละเอียดทางเทคนิคว่าทำไมทฤษฎีบทถึงเป็นจริง แต่ตอนนี้เพิ่งเกิดขึ้นกับฉันที่ฉันไม่เข้าใจสัญชาตญาณเบื้องหลังทฤษฎีขีด จำกัด กลาง ดังนั้นสัญชาตญาณที่อยู่เบื้องหลังทฤษฎีบทขีด จำกัด กลางคืออะไร? คำอธิบายของคนธรรมดาจะเหมาะ หากต้องการรายละเอียดทางเทคนิคโปรดสันนิษฐานว่าฉันเข้าใจแนวคิดของ pdf, cdf, ตัวแปรสุ่ม ฯลฯ แต่ไม่มีความรู้เกี่ยวกับแนวคิดคอนเวอร์เจนซ์ฟังก์ชั่นลักษณะหรือสิ่งใดที่เกี่ยวข้องกับทฤษฎีการวัด

144 intuition central-limit-theorem

25

R กับ SAS ทำไม SAS จึงเป็นที่ต้องการของ บริษัท เอกชน

ฉันเรียนรู้ R แต่ดูเหมือนว่า บริษัท ต่าง ๆ ให้ความสนใจกับประสบการณ์ของ SAS มากขึ้น SAS over R มีข้อดีอย่างไร

143 r sas

6

อะไรคือข้อได้เปรียบของ ReLU ผ่านฟังก์ชั่น sigmoid ในโครงข่ายประสาทเทียม?

สถานะของศิลปะของการไม่เชิงเส้นคือการใช้หน่วยเชิงเส้นแบบแก้ไข (ReLU) แทนฟังก์ชั่น sigmoid ในเครือข่ายประสาทลึก ข้อดีคืออะไร ฉันรู้ว่าการฝึกอบรมเครือข่ายเมื่อใช้ ReLU จะเร็วขึ้นและเป็นแรงบันดาลใจทางชีวภาพมากขึ้นข้อดีอื่น ๆ คืออะไร? (นั่นคือข้อเสียของการใช้ sigmoid)?

141 machine-learning neural-networks deep-learning

5

“ การควบคุมตัวแปรอื่น ๆ ” ได้อย่างไร?

นี่คือบทความที่กระตุ้นคำถามนี้: ความกระวนกระวายทำให้เราอ้วนหรือไม่? ฉันชอบบทความนี้และแสดงให้เห็นอย่างชัดเจนถึงแนวคิดของ "การควบคุมตัวแปรอื่น ๆ " (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) เพื่อแยกความสัมพันธ์ที่แท้จริงระหว่างตัวแปร 2 ตัวที่มีปัญหา คุณช่วยอธิบายให้ฉันฟังว่าคุณควบคุมตัวแปรในชุดข้อมูลทั่วไปได้อย่างไร? เช่นหากคุณมี 2 คนที่มีระดับความอดทนและ BMI เหมือนกัน แต่มีรายได้ต่างกันคุณจะจัดการกับข้อมูลเหล่านี้อย่างไร คุณแบ่งกลุ่มพวกเขาออกเป็นกลุ่มย่อยต่าง ๆ ที่มีรายได้ความอดทนและค่าดัชนีมวลกายใกล้เคียงกันหรือไม่? แต่ท้ายที่สุดก็มีตัวแปรหลายสิบตัวที่จะควบคุม (IQ, อาชีพ, รายได้, อายุ, ฯลฯ ) จากนั้นคุณจะรวมกลุ่มย่อย 100 กลุ่มเหล่านี้ได้อย่างไร ในความเป็นจริงฉันมีความรู้สึกว่าวิธีนี้กำลังเห่าต้นไม้ที่ไม่ถูกต้องตอนนี้ที่ฉันพูดด้วยวาจาแล้ว ขอบคุณที่ส่องแสงบางอย่างที่ฉันตั้งใจจะทำตอนนี้สองสามปีที่ผ่านมา ... !

141 regression causality confounding controlling-for-a-variable statistics-in-media

5

การฝึกอบรมกับชุดข้อมูลเต็มรูปแบบหลังจากการตรวจสอบข้าม?

เป็นความคิดที่ดีหรือไม่ที่จะทำการฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้าม ? นำไปทางอื่นมันก็โอเคในการฝึกอบรมกับทุกกลุ่มตัวอย่างในชุดของฉันและไม่สามารถที่จะตรวจสอบว่ามีการติดตั้งอุปกรณ์นี้โดยเฉพาะoverfits ? พื้นหลังบางส่วนเกี่ยวกับปัญหา: บอกว่าฉันมีครอบครัวของแบบจำลอง parametrized โดย\บอกฉันด้วยว่าฉันมีชุดของจุดข้อมูลและฉันทำการเลือกแบบจำลองด้วยการตรวจสอบความถูกต้องไขว้ของ k-fold เพื่อเลือกรูปแบบที่ดีที่สุดในการสรุปข้อมูล Nα⃗ α→\vec\alphaNNN สำหรับการเลือกแบบจำลองฉันสามารถทำการค้นหา (เช่นการค้นหากริด) บนโดยตัวอย่างเช่นการรันการตรวจสอบความถูกต้องไขว้กันของ k-fold สำหรับผู้สมัครแต่ละคน ในแต่ละเท่าในการตรวจสอบข้ามผมจบลงด้วยรูปแบบการเรียนรู้ \บีตาอัลฟ่าα⃗ α→\vec\alpha βαβα\beta_\alpha จุดของการตรวจสอบข้ามคือสำหรับแต่ละเท่านี้ฉันสามารถตรวจสอบว่ารูปแบบการเรียนรู้มีมากเกินไปโดยการทดสอบกับ "ข้อมูลที่มองไม่เห็น" ขึ้นอยู่กับผลลัพธ์ฉันสามารถเลือกโมเดลเรียนรู้สำหรับพารามิเตอร์ที่ได้รับการสรุปที่ดีที่สุดระหว่างการตรวจสอบข้ามในการค้นหากริด→ α bestβbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ตอนนี้บอกว่าหลังจากที่เลือกรูปแบบที่ผมต้องการที่จะใช้ทุกจุดในชุดของฉันและหวังว่าจะได้เรียนรู้รูปแบบที่ดีขึ้น สำหรับวันนี้ผมสามารถใช้พารามิเตอร์ที่สอดคล้องกับรูปแบบที่ผมเลือกระหว่างการเลือกรูปแบบแล้วหลังการฝึกอบรมในชุดข้อมูลที่เต็มผมจะได้รับใหม่ได้เรียนรู้รูปแบบ{เต็ม} ปัญหาคือว่าถ้าฉันใช้คะแนนทั้งหมดในชุดข้อมูลของฉันสำหรับการฝึกอบรม ฉันไม่สามารถตรวจสอบว่าชุดการเรียนรู้แบบใหม่ชุดนี้กับข้อมูลที่มองไม่เห็นหรือไม่ วิธีที่ถูกต้องในการคิดเกี่ยวกับปัญหานี้คืออะไร?→ α b e s t β f u l l β f u l lNNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

139 machine-learning cross-validation model-selection

14

คำถามสัมภาษณ์ของ Amazon ความน่าจะเป็นของการสัมภาษณ์ครั้งที่ 2

ฉันได้รับคำถามนี้ระหว่างการสัมภาษณ์กับ Amazon: 50% ของคนที่ได้รับการสัมภาษณ์ครั้งแรกจะได้รับการสัมภาษณ์ครั้งที่สอง 95% ของเพื่อนที่ได้รับการสัมภาษณ์ครั้งที่สองรู้สึกว่าพวกเขาได้รับการสัมภาษณ์ครั้งแรกที่ดี 75% ของเพื่อนของคุณที่ไม่ได้รับการสัมภาษณ์ครั้งที่สองรู้สึกว่าพวกเขามีการสัมภาษณ์ครั้งแรกที่ดี หากคุณรู้สึกว่าได้รับการสัมภาษณ์ครั้งแรกความน่าจะเป็นที่คุณจะได้รับการสัมภาษณ์ครั้งที่สองคือเท่าไร มีคนช่วยอธิบายวิธีแก้ปัญหานี้ได้ไหม ฉันมีปัญหาในการแยกคำปัญหาออกเป็นคณิตศาสตร์ (ตอนนี้การสัมภาษณ์นานแล้ว) ฉันเข้าใจว่าอาจไม่มีวิธีแก้ปัญหาตัวเลขจริง แต่คำอธิบายว่าคุณจะแก้ไขปัญหานี้ได้อย่างไร แก้ไข: ฉันได้รับการสัมภาษณ์ครั้งที่สอง หากใครอยากรู้อยากเห็นฉันได้อธิบายว่าเป็นการรวมกันของคำตอบด้านล่าง: ข้อมูลไม่เพียงพอเพื่อนที่ไม่ได้เป็นตัวแทนตัวอย่างและอื่น ๆ เพียงแค่พูดถึงความน่าจะเป็นบางอย่าง คำถามทำให้ฉันงงในตอนท้ายขอบคุณสำหรับคำตอบทั้งหมด

139 probability conditional-probability

8

Facebook กำลังจะสิ้นสุดหรือไม่

เมื่อเร็ว ๆนี้บทความนี้ได้รับความสนใจอย่างมาก (เช่นจากWSJ ) ผู้เขียนสรุปว่า Facebook จะสูญเสียสมาชิก 80% ภายในปี 2560 พวกเขาอ้างถึงการคาดการณ์ของแบบจำลอง SIRซึ่งเป็นแบบจำลองแบบแยกส่วนที่ใช้บ่อยในการระบาดวิทยา ข้อมูลของพวกเขามาจากการค้นหาของ Google สำหรับ "Facebook" และผู้เขียนใช้อนิจกรรมของ Myspace เพื่อตรวจสอบข้อสรุปของพวกเขา คำถาม: ผู้เขียนทำผิด "ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ" หรือไม่? รุ่นและตรรกะนี้อาจใช้งานกับ MySpace ได้ แต่มันใช้ได้กับเครือข่ายโซเชียลใด ๆ หรือไม่? อัปเดต : Facebook กลับมาอีกครั้ง เพื่อให้สอดคล้องกับหลักการทางวิทยาศาสตร์ "สหสัมพันธ์เท่ากับสาเหตุ" การวิจัยของเราแสดงให้เห็นอย่างชัดเจนว่าพรินซ์ตันอาจตกอยู่ในอันตรายจากการหายไปอย่างสิ้นเชิง เราไม่คิดว่าพรินซ์ตันหรืออากาศของโลกกำลังจะไปทุกที่เร็ว ๆ นี้ เรารักพรินซ์ตัน (และอากาศ) และเพิ่มการเตือนครั้งสุดท้ายว่า“ ไม่ใช่การวิจัยทั้งหมดที่สร้างขึ้นเท่ากัน - และวิธีการวิเคราะห์บางอย่างนำไปสู่ข้อสรุปที่บ้า

138 hypothesis-testing correlation epidemiology social-network

4

ทางเลือกของ K ในการตรวจสอบข้าม K-fold

ฉันเคยใช้การตรวจสอบความถูกต้องไขว้ของ -fold สองสามครั้งในขณะนี้เพื่อประเมินประสิทธิภาพของอัลกอริทึมการเรียนรู้บางอย่าง แต่ฉันก็ยังงงอยู่เสมอว่าฉันควรเลือกค่าอย่างไรเคKKKKKK ฉันมักจะเห็นและใช้ค่าแต่ดูเหมือนว่าจะเป็นเรื่องที่ไม่ชอบใจสำหรับฉันและตอนนี้ฉันเพิ่งใช้โดยนิสัยแทนที่จะคิดมากกว่า สำหรับฉันดูเหมือนว่าคุณจะได้รับเมล็ดพันธุ์ที่ดีขึ้นในขณะที่คุณปรับปรุงคุณค่าของดังนั้นคุณควรทำให้ของคุณใหญ่มาก แต่ก็มีความเสี่ยงที่จะลำเอียง10 K KK=10K=10K = 10101010KKKKKK ฉันต้องการทราบว่ามูลค่าของควรขึ้นอยู่กับอะไรและฉันควรคิดอย่างไรเมื่อฉันประเมินอัลกอริทึมของฉัน มันเปลี่ยนบางอย่างหรือไม่ถ้าฉันใช้การตรวจสอบข้ามรุ่นที่มีการแบ่งชั้นหรือไม่KKK

136 machine-learning classification cross-validation

15

คำอธิบายที่ใช้งานง่ายสำหรับการหารด้วย

ฉันถูกถามในชั้นเรียนวันนี้ว่าทำไมคุณหารผลรวมของความคลาดเคลื่อนกำลังสองด้วยแทนที่จะเป็นกับเมื่อคำนวณส่วนเบี่ยงเบนมาตรฐานnn - 1n−1n-1nnn ฉันบอกว่าฉันจะไม่ตอบคำถามนี้ในชั้นเรียน (เนื่องจากฉันไม่ต้องการเข้าไปในตัวประมาณค่าที่เป็นกลาง) แต่ต่อมาฉันสงสัยว่า - มีคำอธิบายที่เข้าใจง่ายสำหรับเรื่องนี้หรือไม่!

136 standard-error intuition teaching bessels-correction

7

อะไรคืออิทธิพลของ C ใน SVM ที่มีเคอร์เนลเชิงเส้น?

ขณะนี้ฉันกำลังใช้ SVM กับเคอร์เนลเชิงเส้นเพื่อจัดประเภทข้อมูลของฉัน ไม่มีข้อผิดพลาดในชุดฝึกอบรม ฉันลองหลายค่าสำหรับพารามิเตอร์ ( ) สิ่งนี้ไม่เปลี่ยนข้อผิดพลาดในชุดทดสอบ10 - 5 , … , 10 2CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 ตอนนี้ฉันสงสัยว่า: นี่เป็นข้อผิดพลาดที่เกิดจากการผูกทับทิมสำหรับlibsvmฉันที่ใช้ ( rb-libsvm ) หรือนี่เป็นการอธิบายทางทฤษฎีหรือไม่? พารามิเตอร์ควรเปลี่ยนประสิทธิภาพของตัวจําแนกเสมอ?CCC

134 machine-learning svm libsvm

2

รายการฟังก์ชันต้นทุนที่ใช้ในเครือข่ายประสาทเทียมพร้อมกับแอปพลิเคชัน

ฟังก์ชั่นค่าใช้จ่ายทั่วไปคืออะไรในการประเมินประสิทธิภาพของเครือข่ายประสาทเทียม รายละเอียด (อย่าลังเลที่จะข้ามส่วนที่เหลือของคำถามนี้ความตั้งใจของฉันที่นี่เป็นเพียงเพื่อให้ความกระจ่างเกี่ยวกับสัญกรณ์ที่อาจใช้คำตอบเพื่อช่วยให้ผู้อ่านทั่วไปเข้าใจได้มากขึ้น) ฉันคิดว่ามันจะมีประโยชน์ที่จะมีรายการฟังก์ชั่นค่าใช้จ่ายทั่วไปควบคู่ไปกับวิธีที่ใช้ในการปฏิบัติ ดังนั้นหากผู้อื่นสนใจสิ่งนี้ฉันคิดว่าวิกิชุมชนน่าจะเป็นวิธีที่ดีที่สุดหรือเราสามารถลบมันได้หากไม่อยู่ในหัวข้อ เอกสาร ดังนั้นในการเริ่มต้นฉันต้องการนิยามสัญลักษณ์ที่เราใช้เมื่ออธิบายสิ่งเหล่านี้ดังนั้นคำตอบที่เข้ากันได้ดี สัญกรณ์นี้เป็นจากหนังสือ Neilsen ของ เครือข่าย Feedforward Neural เป็นเซลล์ประสาทหลายชั้นเชื่อมต่อกัน จากนั้นก็จะใส่เข้าไปในอินพุตนั้น "เล็ดลอด" ผ่านเครือข่ายแล้วเครือข่ายประสาทจะส่งคืนเวกเตอร์เอาต์พุต อีกอย่างเป็นทางการโทรฉันเจเปิดใช้งาน (aka เอาท์พุท) ของเจทีเอชเซลล์ประสาทในฉันทีเอชชั้นที่1 Jเป็นเจทีเอชองค์ประกอบในการป้อนข้อมูลเวกเตอร์aijajia^i_jjthjthj^{th}ithithi^{th}a1jaj1a^1_jjthjthj^{th} จากนั้นเราสามารถเชื่อมโยงอินพุตของเลเยอร์ถัดไปกับก่อนหน้านี้ผ่านความสัมพันธ์ต่อไปนี้: aij=σ(∑k(wijk⋅ai−1k)+bij)aji=σ(∑k(wjki⋅aki−1)+bji)a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j) ที่ไหน เป็นฟังก์ชั่นการเปิดใช้งานσσ\sigma มีน้ำหนักจากที่ k ทีเอชเซลล์ประสาทใน ( ฉัน- 1 ) ทีเอชชั้นกับเจทีเอชเซลล์ประสาทในฉันทีเอชชั้นwijkwjkiw^i_{jk}kthkthk^{th}(i−1)th(i−1)th(i-1)^{th}jthjthj^{th}ithithi^{th} อคติของเจทีเอชเซลล์ประสาทในฉันทีเอชชั้นและbijbjib^i_jjthjthj^{th}ithithi^{th} หมายถึงค่าการเปิดใช้งานของเซลล์ประสาท j t hในเลเยอร์ i t haijajia^i_jjthjthj^{th}ithithi^th บางครั้งที่เราเขียนที่จะเป็นตัวแทนΣ …

133 machine-learning neural-networks

5

การวิเคราะห์องค์ประกอบหลักและการปรับสเกลหลายมิติแตกต่างกันอย่างไร

PCA และ MDS แบบคลาสสิคแตกต่างกันอย่างไร วิธีการเกี่ยวกับ MDS เมื่อเทียบกับที่ไม่ใช่ MDS? มีเวลาที่คุณจะชอบอีกอันไหม? การตีความต่างกันอย่างไร

133 pca multidimensional-scaling pcoa

2

วิธีการตรวจสอบการกระจายที่เหมาะกับข้อมูลของฉันที่ดีที่สุด?

ฉันมีชุดข้อมูลและต้องการทราบว่าการกระจายแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ฉันใช้fitdistr()ฟังก์ชันเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นเพื่ออธิบายการแจกแจงแบบสมมติ (เช่น Weibull, Cauchy, Normal) การใช้พารามิเตอร์เหล่านั้นฉันสามารถทำการทดสอบ Kolmogorov-Smirnov เพื่อประเมินว่าข้อมูลตัวอย่างของฉันมาจากการแจกแจงแบบเดียวกับการแจกแจงแบบสันนิษฐานของฉันหรือไม่ หากค่า p คือ> 0.05 ฉันสามารถสรุปได้ว่าข้อมูลตัวอย่างถูกดึงมาจากการแจกแจงแบบเดียวกัน แต่ค่า p ไม่ได้ให้ข้อมูลเกี่ยวกับความเหมาะสมของพระเจ้าใช่ไหม? ดังนั้นในกรณีที่ค่า p ของข้อมูลตัวอย่างของฉันคือ> 0.05 สำหรับการแจกแจงแบบปกติรวมถึงการแจกแบบไวบูลฉันจะรู้ได้อย่างไรว่าการแจกแจงแบบใดที่เหมาะกับข้อมูลของฉันดีกว่า นี่เป็นสิ่งที่ฉันทำ: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

27

เจ้าหญิงนิทรา Beauty Paradox

สถานการณ์ นักวิจัยบางคนต้องการให้คุณนอนหลับ ขึ้นอยู่กับการโยนเหรียญที่เป็นความลับพวกเขาจะปลุกคุณชั่วครู่หนึ่ง (หัว) หรือสองครั้ง (ก้อย) หลังจากตื่นแต่ละครั้งพวกเขาจะนำคุณกลับไปนอนกับยาที่ทำให้คุณลืมการตื่น เมื่อคุณตื่นขึ้นมาคุณควรเชื่อว่าผลลัพธ์ของการโยนเหรียญเป็นระดับใด (โอเคบางทีคุณอาจไม่ต้องการเป็นหัวข้อของการทดลองนี้สมมติว่าเจ้าหญิงนิทรา (SB) เห็นด้วย (โดยได้รับการอนุมัติอย่างเต็มที่จากคณะกรรมการพิจารณาสถาบันของ Magic Kingdom) เธอกำลังจะไปที่ นอนหลับเป็นเวลาหนึ่งร้อยปีแล้วอีกหนึ่งหรือสองวันจะเป็นอย่างไร?) [รายละเอียดภาพประกอบของMaxfield Parrish ] คุณเป็น Halfer หรือ Thirder หรือไม่? ตำแหน่ง Halfer Simple! เหรียญนั้นยุติธรรม - และ SB รู้ดี - ดังนั้นเธอควรเชื่อว่ามีโอกาสครึ่งหัว ตำแหน่ง Thirder การทดลองนี้ถูกทำซ้ำหลายครั้งจากนั้นเหรียญจะเป็นหัวเพียงหนึ่งในสามของเวลาที่ SB ถูกปลุกขึ้นมา ความน่าจะเป็นของเธอสำหรับหัวจะเป็นหนึ่งในสาม Thirders มีปัญหา ส่วนใหญ่ แต่ไม่ใช่ทั้งหมดคนที่เขียนเกี่ยวกับเรื่องนี้เป็นเรื่องที่สิบสาม แต่: ในเย็นวันอาทิตย์ก่อนที่ SB จะหลับเธอจะต้องเชื่อว่าโอกาสของการเป็นหัวหน้านั้นเป็นครึ่งเดียวนั่นคือความหมายของการเป็นเหรียญที่ยุติธรรม เมื่อใดก็ตามที่ SB …

133 decision-theory paradox