สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
การทำคลัสเตอร์ (k- หมายถึงหรืออย่างอื่น) ที่มีข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ
ฉันต้องการจัดกลุ่มหน่วยเป็นกลุ่มเพื่อลดผลรวมภายในกลุ่มของสี่เหลี่ยม (WSS) แต่ฉันต้องตรวจสอบให้แน่ใจว่าแต่ละกลุ่มมีหน่วยอย่างน้อยm มีความคิดใดบ้างหากฟังก์ชั่นการจัดกลุ่มของ R อนุญาตให้ทำการจัดกลุ่มเป็นkกลุ่มภายใต้ข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ? kmeans () ดูเหมือนจะไม่เสนอตัวเลือกการ จำกัด ขนาดkkkmmmkkk
14 r  clustering 

2
อะไรคือความแตกต่างระหว่างเอาต์พุต“ coef” และ“ (exp) coef” ของ coxph ใน R?
ฉันได้พยายามที่จะมองเห็นสิ่งที่เอาท์พุท "coef" และ "(exp) coef" ของ coxph มีความหมาย ดูเหมือนว่า "coef" (exp) "เป็นการเปรียบเทียบตัวแปรแรกในรูปแบบตามกลุ่มที่กำหนดไว้ในคำสั่ง ฟังก์ชัน coxph มาถึงค่าสำหรับ "coef" และ "(exp) coef" อย่างไร นอกจากนี้ coxph จะกำหนดค่าเหล่านี้เมื่อมีการเซ็นเซอร์ที่เกี่ยวข้องได้อย่างไร

3
OLS เป็นสีฟ้า แต่ถ้าฉันไม่สนใจเรื่องความเป็นกลางและความเป็นเส้นตรงล่ะ?
ทฤษฎีบทเกาส์ - มาร์คอฟบอกเราว่าตัวประมาณ OLS เป็นตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับตัวแบบการถดถอยเชิงเส้น แต่สมมติว่าฉันไม่สนใจเรื่องความเป็นเส้นตรงและความเป็นกลาง จากนั้นมีการประมาณค่าอื่น ๆ (แบบไม่เชิงเส้น / ลำเอียง) สำหรับตัวแบบการถดถอยเชิงเส้นซึ่งมีประสิทธิภาพมากที่สุดภายใต้สมมติฐาน Gauss-Markov หรือสมมติฐานทั่วไปอื่น ๆ แน่นอนว่ามีหนึ่งผลลัพธ์มาตรฐาน: OLS เป็นตัวประมาณค่าที่ดีที่สุดหากนอกเหนือไปจากสมมติฐาน Gauss-Markov เรายังสันนิษฐานว่าข้อผิดพลาดนั้นมักจะกระจายออกไป สำหรับการแจกแจงข้อผิดพลาดเฉพาะอื่น ๆ ฉันสามารถคำนวณตัวประมาณโอกาสสูงสุดที่สอดคล้องกันได้ แต่ฉันสงสัยว่ามีตัวประมาณซึ่งดีกว่า OLS ในบางสถานการณ์ที่ค่อนข้างทั่วไปหรือไม่?

6
การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง
คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

5
ทำไมเราต้องการสมมติฐานทางเลือก
เมื่อเราทำการทดสอบเราจะได้ผลลัพธ์ที่สอง 1) เราปฏิเสธสมมติฐานว่าง 2) เราไม่สามารถปฏิเสธสมมติฐานว่างได้ เราไม่พูดถึงการยอมรับสมมติฐานทางเลือก หากเราไม่พูดถึงการยอมรับสมมติฐานทางเลือกทำไมเราต้องมีสมมติฐานทางเลือกเลย นี่คือการอัปเดต: มีคนให้ฉันสองตัวอย่าง: 1) การปฏิเสธสมมติฐานว่างเท่ากับยอมรับสมมติฐานทางเลือก 2) การปฏิเสธสมมติฐานว่างไม่เท่ากับการยอมรับสมมติฐานทางเลือก

2
ค่าที่คาดหวังของลอการิทึมของการแจกแจงแกมมาคืออะไร?
หากค่าที่คาดหวังของคือค่าคาดหวังของ ? สามารถคำนวณเชิงวิเคราะห์ได้หรือไม่?Gamma(α,β)Gamma(α,β)\mathsf{Gamma}(\alpha, \beta)αβαβ\frac{\alpha}{\beta}log(Gamma(α,β))log⁡(Gamma(α,β))\log(\mathsf{Gamma}(\alpha, \beta)) การตั้งพาราเมทริกที่ฉันใช้คืออัตรารูปร่าง

3
ทำไมเครือข่ายนิวรัลจึงต้องเลือกคุณสมบัติ / วิศวกรรม
โดยเฉพาะอย่างยิ่งในบริบทของการแข่งขัน kaggle ฉันได้สังเกตเห็นว่าประสิทธิภาพของโมเดลนั้นเกี่ยวกับการเลือกคุณสมบัติ / วิศวกรรม ในขณะที่ฉันสามารถเข้าใจได้อย่างสมบูรณ์ว่าเหตุใดในกรณีที่ต้องจัดการกับอัลกอริธึม ML / แบบเก่ามากกว่าเดิมฉันไม่เห็นว่าทำไมมันถึงเป็นเช่นนี้เมื่อใช้โครงข่ายประสาทเทียมลึก อ้างถึงหนังสือการเรียนรู้ลึก: การเรียนรู้เชิงลึกแก้ปัญหาศูนย์กลางนี้ในการเรียนรู้การเป็นตัวแทนโดยการแนะนำการเป็นตัวแทนที่แสดงในแง่ของการเป็นตัวแทนอื่น ๆ ที่ง่ายกว่าการเป็นตัวแทน การเรียนรู้อย่างลึกซึ้งทำให้คอมพิวเตอร์สามารถสร้างแนวคิดที่ซับซ้อนจากแนวคิดที่เรียบง่าย ดังนั้นฉันจึงคิดเสมอว่าถ้า "ข้อมูลอยู่ในข้อมูล" เครือข่ายประสาทที่มีความลึกและมีพารามิเตอร์เพียงพอจะรับคุณสมบัติที่เหมาะสมเมื่อใช้เวลาในการฝึกอบรมเพียงพอ

2
ทำไมต้องใช้ลิงค์ logit ในการถดถอยเบต้า
เมื่อเร็ว ๆ นี้ฉันมีความสนใจในการใช้รูปแบบการถดถอยเบต้าสำหรับผลลัพธ์ที่เป็นสัดส่วน โปรดทราบว่าผลลัพธ์นี้จะไม่สอดคล้องกับบริบททวินามเนื่องจากไม่มีแนวคิดที่มีความหมายของ "ความสำเร็จ" ที่ไม่ต่อเนื่องในบริบทนี้ ในความเป็นจริงผลลัพธ์ที่ได้เป็นสัดส่วนของระยะเวลา ตัวเศษเป็นจำนวนวินาทีในขณะที่เงื่อนไขบางอย่างมีการใช้งานมากกว่าจำนวนวินาทีทั้งหมดซึ่งเงื่อนไขนั้นมีสิทธิ์ที่จะใช้งานได้ ฉันขอโทษสำหรับคนจรจัด แต่ฉันไม่ต้องการที่จะให้ความสำคัญกับบริบทที่แม่นยำนี้เพราะฉันรู้ว่ามีหลายวิธีที่กระบวนการดังกล่าวสามารถสร้างแบบจำลองนอกเหนือจากการถดถอยแบบเบต้าและตอนนี้ฉันสนใจเฉพาะทางทฤษฎีมากขึ้น คำถามที่เกิดขึ้นในความพยายามของฉันที่จะใช้รูปแบบดังกล่าว (แน่นอนว่าฉันเป็น ไม่ว่าในกรณีใดทรัพยากรทั้งหมดที่ฉันสามารถค้นหาได้ระบุว่าการถดถอยแบบเบต้ามักจะเหมาะสมกับการใช้ลิงค์ logit (หรือ probit / cloglog) และพารามิเตอร์ตีความว่าเป็นการเปลี่ยนแปลงของอัตราต่อรอง อย่างไรก็ตามฉันยังไม่พบการอ้างอิงที่ให้เหตุผลใด ๆ จริง ๆ ว่าเพราะเหตุใดจึงต้องการใช้ลิงก์นี้ กระดาษ Ferrari และ Cribari-Neto (2004) ต้นฉบับไม่ได้ให้เหตุผลอะไรเลย พวกเขาทราบเพียงว่าฟังก์ชั่น logit นั้น "มีประโยชน์อย่างยิ่ง" เนื่องจากการตีความอัตราส่วนอัตราต่อรองของพารามิเตอร์แบบเอ็กซ์โปเนนเชียล แหล่งข้อมูลอื่นอ้างถึงความปรารถนาในการแมปจากช่วงเวลา (0,1) ไปยังเส้นจริง อย่างไรก็ตามเราจำเป็นต้องมีฟังก์ชั่นลิงก์สำหรับการทำแผนที่ดังกล่าวหรือไม่เนื่องจากเราสมมติว่ามีการแจกแจงเบต้าอยู่แล้ว ฟังก์ชั่นการเชื่อมโยงมีประโยชน์อะไรบ้างที่มีให้เหนือกว่าข้อ จำกัด ที่กำหนดโดยสมมติว่าการกระจายเบต้าเริ่มต้นด้วย?ฉันใช้การจำลองอย่างรวดเร็วสองสามครั้งและไม่ได้เห็นการคาดการณ์นอกช่วง (0,1) ด้วยลิงก์ตัวตนแม้ว่าจะจำลองจากการแจกแจงแบบเบต้าซึ่งมวลความน่าจะเป็นกระจุกอยู่ใกล้กับ 0 หรือ 1 แต่บางทีแบบจำลองของฉัน ยังไม่กว้างพอที่จะตรวจพบโรคบางอย่าง ดูเหมือนว่าฉันจะขึ้นอยู่กับว่าแต่ละบุคคลในทางปฏิบัติตีความพารามิเตอร์ประมาณการจากตัวแบบการถดถอยเบต้า …

1
ความแตกต่างระหว่างตอนและยุคในการเรียนรู้ Q ลึกคืออะไร?
ฉันกำลังพยายามทำความเข้าใจกับกระดาษที่มีชื่อเสียง "Playing Atari with Deep Reinforcement Learning" ( pdf ) ผมไม่มีความชัดเจนเกี่ยวกับความแตกต่างระหว่างนั้นยุคและตอน ในขั้นตอนวิธีการ , ห่วงด้านนอกเป็นมากกว่าตอนในขณะที่ในรูปที่แกน x จะมีป้ายยุค ในบริบทของการเสริมแรงการเรียนรู้ฉันไม่ชัดเจนว่ายุคหมายถึงอะไร ยุคเป็นวงรอบนอกของลูปตอนหรือไม่ 111222

2
การตรวจสอบความถูกต้องด้วย k-fold มีความเหมาะสมกับบริบทของชุดฝึกอบรม / ตรวจสอบ / ตรวจสอบได้อย่างไร
คำถามหลักของฉันคือการพยายามเข้าใจว่าการตรวจสอบข้าม k-fold เหมาะสมกับบริบทของการมีชุดฝึกอบรม / ตรวจสอบ / ทดสอบได้อย่างไร (ถ้าเหมาะสมในบริบทดังกล่าว) โดยทั่วไปแล้วผู้คนพูดถึงการแยกข้อมูลออกเป็นชุดฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ - พูดในอัตราส่วน 60/20/20 ต่อหลักสูตรของ Andrew Ng โดยชุดการตรวจสอบจะใช้เพื่อระบุพารามิเตอร์ที่เหมาะสมสำหรับการฝึกอบรมแบบจำลอง อย่างไรก็ตามหากต้องการใช้การตรวจสอบความถูกต้องข้ามแบบพับของ k-fold โดยหวังว่าจะได้รับการวัดความแม่นยำของตัวแทนมากขึ้นเมื่อปริมาณข้อมูลมีขนาดค่อนข้างเล็กสิ่งที่การตรวจสอบความถูกต้องไขว้แบบ k-fold นั้น สถานการณ์? ตัวอย่างเช่นนั่นหมายความว่าเราจะรวมชุดการฝึกอบรมและการทดสอบจริง ๆ (80% ของข้อมูล) และทำการตรวจสอบความถูกต้องด้วย k-fold เพื่อให้ได้การวัดความถูกต้องของเรา (ทิ้งอย่างมีประสิทธิภาพด้วยชุดทดสอบ ถ้าเป็นเช่นนั้นเราใช้โมเดล a) ในการผลิตและ b) เพื่อใช้กับชุดการตรวจสอบความถูกต้องและระบุพารามิเตอร์การฝึกอบรมที่เหมาะสมที่สุด? ตัวอย่างเช่นคำตอบหนึ่งที่เป็นไปได้สำหรับ a และ b อาจใช้โมเดลที่ดีที่สุด

5
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอยหรือไม่?
ค่าใช้จ่ายข้ามเอนโทรปีทำให้รู้สึกในบริบทของการถดถอย (ตรงข้ามกับการจำแนก)? ถ้าเป็นเช่นนั้นคุณช่วยยกตัวอย่างของเล่นผ่าน TensorFlow ได้ไหม ถ้าไม่ทำไมล่ะ ฉันอ่านเกี่ยวกับ cross-entropy ในNeural Networks และ Deep Learningโดย Michael Nielsen และดูเหมือนว่าบางสิ่งบางอย่างที่สามารถใช้สำหรับการถดถอยและการจำแนกตามธรรมชาติ แต่ฉันไม่เข้าใจว่าคุณจะนำมันไปใช้อย่างมีประสิทธิภาพใน TensorFlow ตั้งแต่ ฟังก์ชั่นการสูญเสียทำบันทึก (ซึ่งฉันก็ไม่เข้าใจเหมือนกัน) และพวกมันอยู่ในหมวดหมู่ที่นี่

2
Naive Bayes ทำงานอย่างไรกับตัวแปรต่อเนื่อง
เพื่อความเข้าใจ (พื้นฐานมาก) ของฉัน Naive Bayes ประมาณการความน่าจะเป็นไปตามความถี่ของคลาสของแต่ละคุณสมบัติในข้อมูลการฝึก แต่มันคำนวณความถี่ของตัวแปรต่อเนื่องได้อย่างไร และเมื่อทำการคาดการณ์มันจะจำแนกการสังเกตใหม่ที่อาจไม่มีค่าเดียวกันของการสังเกตใด ๆ ในชุดฝึกอบรมอย่างไร มันใช้การวัดระยะทางบางอย่างหรือหา 1NN หรือไม่?

1
การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?

2
การเริ่มต้นน้ำหนักของ CNN ซาเวียร์
ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบันVar(W)Var(W)Var(W)ninninn_{in}noutnoutn_{out} มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional? ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)ดังนั้นขนาดเคอร์เนลคือการ5x5กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8แผนที่คุณลักษณะ ... จะถูก3พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3เพราะอินพุตเป็น5x5แพตช์สำหรับแต่ละช่องสี ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ

3
จะได้รับการตีความความน่าจะเป็นของ AUC อย่างไร
ทำไมพื้นที่ภายใต้ ROC โค้งความน่าจะเป็นที่ตัวจําแนกจะจัดอันดับอินสแตนซ์ "บวก" ที่เลือกแบบสุ่ม (จากการทำนายที่ดึงมา) สูงกว่าแบบสุ่ม "บวก" ที่เลือกโดยสุ่ม (จากชั้นบวกดั้งเดิม) เราจะพิสูจน์คำแถลงนี้ได้อย่างไรในเชิงคณิตศาสตร์โดยใช้อินทิกรัลโดยให้ CDFs และ PDF ของการแจกแจงคลาสที่เป็นบวกและลบจริง
14 probability  roc  auc 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.