สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
อะไรคือ "uninformative ก่อน" คืออะไร? เราสามารถมีข้อมูลที่ไม่มีข้อมูลได้จริงหรือไม่?
แรงบันดาลใจจากความคิดเห็นจากคำถามนี้ : เราคิดว่า "uninformative" ในอดีตคืออะไร - และข้อมูลใดที่ยังคงมีอยู่ใน uninformative ที่คาดคะเนมาก่อน? ฉันมักจะเห็นก่อนหน้านี้ในการวิเคราะห์ที่เป็นทั้งการวิเคราะห์แบบบ่อยครั้งที่พยายามที่จะยืมบางส่วนที่ดีจากการวิเคราะห์แบบเบย์ (ไม่ว่าจะเป็นการตีความที่ง่ายขึ้นไปจนถึง กระจายสม่ำเสมอทั่วทั้งขอบเขตของการวัดผลที่มีศูนย์กลางอยู่ที่ 0 แต่แม้กระทั่งว่าอ้างรูปร่างก่อน - มันเพิ่งเกิดขึ้นเป็นแบน มีความรู้ที่ดีกว่าก่อนใช้งานหรือไม่?
73 bayesian  prior 

8
วิธีคำนวณความแม่นยำ / การเรียกคืนสำหรับการจำแนกประเภทมัลติคลาส / มัลติลาเบล
ฉันสงสัยว่าจะคำนวณความแม่นยำและมาตรการการเรียกคืนสำหรับการจำแนกประเภทหลายคลาสแบบหลายป้ายกำกับได้อย่างไรเช่นการจำแนกที่มีป้ายกำกับมากกว่าสองป้ายและแต่ละกรณีสามารถมีป้ายกำกับได้หลายป้าย

7
กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง
ภายในบริบทของข้อเสนอการวิจัยในสังคมศาสตร์ฉันถูกถามคำถามต่อไปนี้: ฉันได้ไปตลอด 100 + m (โดย m คือจำนวนผู้ทำนาย) เมื่อพิจารณาขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง สิ่งนี้เหมาะสมหรือไม่ ฉันได้รับคำถามที่คล้ายกันบ่อยครั้งด้วยกฎง่ายๆ ฉันยังอ่านกฎของหัวแม่มืออย่างมากในตำราต่าง ๆ บางครั้งฉันสงสัยว่าความนิยมของกฎในแง่ของการอ้างอิงนั้นขึ้นอยู่กับมาตรฐานที่ตั้งไว้ต่ำเพียงใด อย่างไรก็ตามฉันยังตระหนักถึงคุณค่าของฮิวริสติกที่ดีในการทำให้การตัดสินใจง่ายขึ้น คำถาม: อะไรคือประโยชน์ของกฎง่ายๆสำหรับขนาดตัวอย่างที่เล็กที่สุดในบริบทของนักวิจัยประยุกต์ที่ออกแบบการศึกษาวิจัย? คุณจะแนะนำกฎทางเลือกแบบง่ายๆสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้งหรือไม่ อีกทางหนึ่งกลยุทธ์ทางเลือกใดที่คุณจะแนะนำสำหรับการกำหนดขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง โดยเฉพาะอย่างยิ่งมันจะดีถ้ามีการกำหนดมูลค่าให้กับระดับที่กลยุทธ์ใด ๆ สามารถนำไปใช้ได้โดยผู้ที่ไม่ใช่นักสถิติ

14
เมื่อใด (ถ้าเคย) เป็นวิธีการที่ใช้บ่อยดีกว่า Bayesian อย่างมาก?
ความเป็นมา : ฉันไม่มีการฝึกอบรมอย่างเป็นทางการในสถิติแบบเบย์ (แม้ว่าฉันสนใจที่จะเรียนรู้มากขึ้น) แต่ฉันรู้เพียงพอ - ฉันคิดว่า - ฉันจะได้รับส่วนสำคัญว่าทำไมหลายคนรู้สึกราวกับว่าพวกเขาเป็นที่นิยมมากกว่า แม้แต่นักศึกษาระดับปริญญาตรีในวิชาสถิติเบื้องต้น (ในสังคมศาสตร์) ชั้นที่ฉันกำลังสอนก็พบว่าวิธีการแบบเบส์ดึงดูดความสนใจ - "ทำไมเราถึงสนใจคำนวณความน่าจะเป็นของข้อมูลให้เป็นโมฆะเพราะเหตุใด สมมติฐานว่างเปล่าหรือสมมุติฐานทางเลือกและฉันยังได้อ่านหัวข้อเช่นนี้ซึ่งยืนยันถึงผลประโยชน์เชิงประจักษ์ของสถิติแบบเบย์ด้วยเช่นกัน แต่จากนั้นฉันก็ได้พบกับคำกล่าวของ Blasco (2001; หากผู้เพาะพันธุ์สัตว์ไม่สนใจปัญหาเชิงปรัชญาที่เกี่ยวข้องกับการชักนำ แต่ในเครื่องมือที่ใช้ในการแก้ปัญหาโรงเรียนเบส์เซียนและโรงเรียนที่มีการอนุมานเป็นประจำได้รับการจัดตั้งขึ้นมาอย่างดีและไม่จำเป็นต้องพิสูจน์ว่าทำไมโรงเรียนแห่งใดแห่งหนึ่ง ไม่ใช่ของพวกเขาในขณะนี้มีความยากลำบากในการปฏิบัติงานยกเว้นกรณีที่ซับซ้อนบางอย่าง ... ในการเลือกโรงเรียนหนึ่งหรืออื่น ๆ ควรจะเกี่ยวข้องกับว่ามีการแก้ปัญหาในโรงเรียนหนึ่งที่อื่น ๆ ที่ไม่ได้นำเสนอถึงวิธีการได้อย่างง่ายดายปัญหาจะแก้ไขได้ และเพื่อความสะดวกสบายของนักวิทยาศาสตร์ที่รู้สึกด้วยวิธีการแสดงออกโดยเฉพาะ คำถาม : คำพูดของ Blasco ดูเหมือนว่าจะแนะนำว่าอาจมีบางครั้งที่วิธีการใช้ชีวิตประจำวันเป็นวิธีที่ดีกว่า Bayesian และฉันก็อยากรู้อยากเห็น: เมื่อไรที่วิธีการของนักเล่นแร่แปรธาตุจะดีกว่าการเข้าใกล้แบบเบย์? ฉันสนใจในคำตอบที่จัดการกับคำถามทั้งแนวความคิด (เช่นเมื่อทราบถึงความน่าจะเป็นของข้อมูลที่ตั้งอยู่บนสมมติฐานว่างเปล่าโดยเฉพาะอย่างยิ่งมีประโยชน์หรือไม่) และสังเกตุ (เช่นภายใต้เงื่อนไขว่า มันจะดีกว่าถ้าคำตอบถูกสื่อถึงความเป็นไปได้ - มันดีที่จะตอบกลับไปที่ชั้นเรียนของฉันเพื่อแบ่งปันกับนักเรียนของฉัน ในที่สุดแม้ว่าจะเป็นผู้ใช้สถิติของผู้ใช้บ่อย แต่ฉันก็เปิดกว้างต่อความเป็นไปได้ที่ Bayesian เพิ่งจะชนะในกระดาน

7
ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?
ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

4
ความสัมพันธ์ระหว่างปัวส์ซองกับการแจกแจงแบบเลขชี้กำลัง
เวลาที่รอสำหรับการแจกแจงปัวซองคือการแจกแจงแบบเอ็กซ์โพเนนเชียลพร้อมพารามิเตอร์แลมบ์ดา แต่ฉันไม่เข้าใจ ปัวซองเป็นตัวอย่างจำนวนของการมาถึงต่อหน่วยเวลา สิ่งนี้เกี่ยวข้องกับการแจกแจงเอ็กซ์โปเนนเชียลอย่างไร ช่วยบอกว่าความน่าจะเป็นของการมาถึง k ในหน่วยของเวลาคือ P (k) (แบบจำลองโดยปัวซอง) และความน่าจะเป็นที่ k + 1 คือ P (k + 1), แบบจำลองการแจกแจงแบบเอ็กซ์โพเนนเชียล

10
รายการที่สมบูรณ์ของสมมติฐานปกติสำหรับการถดถอยเชิงเส้นคืออะไร?
อะไรคือสมมติฐานปกติสำหรับการถดถอยเชิงเส้น? พวกเขารวมถึง: ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม ข้อผิดพลาดอิสระ การแจกแจงปกติของข้อผิดพลาด homoscedasticity มีคนอื่นอีกไหม?

13
อะไรคือบทบาทของลอการิทึมในเอนโทรปีของแชนนอน?
เอนโทรปีของแชนนอนนั้นเป็นผลลบของผลรวมของความน่าจะเป็นของผลลัพธ์แต่ละรายการคูณด้วยลอการิทึมของความน่าจะเป็นสำหรับแต่ละผลลัพธ์ ลอการิทึมมีจุดประสงค์อะไรในสมการนี้ คำตอบที่ใช้งานง่ายหรือภาพ (ตรงข้ามกับคำตอบทางคณิตศาสตร์อย่างลึกซึ้ง) จะได้รับคะแนนโบนัส!

2
เหตุใดการถดถอยของสันจึงเรียกว่า“ สันเขา” ทำไมมันถึงต้องการและอะไรจะเกิดขึ้นเมื่อไปไม่มีที่สิ้นสุด?
การประมาณค่าสัมประสิทธิ์การถดถอยริดจ์เป็นค่าที่ลดค่าβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. คำถามของฉันคือ: หากเราจะเห็นว่านิพจน์ด้านบนลดลงเป็น RSS ปกติ เกิดอะไรขึ้นถ้า ? ฉันไม่เข้าใจคำอธิบายในตำราของพฤติกรรมของสัมประสิทธิ์λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty เพื่อช่วยในการทำความเข้าใจแนวคิดเบื้องหลังคำเฉพาะทำไมคำที่เรียกว่าการถดถอย RIDGE? (ทำไมต้องริดจ์?) และมีอะไรผิดปกติกับการถดถอยปกติ / ทั่วไปที่มีความต้องการที่จะแนะนำแนวคิดใหม่ที่เรียกว่าการถดถอยของสันเขา? ข้อมูลเชิงลึกของคุณจะดีมาก

2
การแก้หาพารามิเตอร์การถดถอยในรูปแบบปิดเทียบกับการไล่ระดับสี
ในหลักสูตรการเรียนรู้ของเครื่องแอนดรูว์เขาแนะนำการถดถอยเชิงเส้นและการถดถอยโลจิสติกส์และแสดงวิธีการปรับพารามิเตอร์โมเดลโดยใช้การไล่ระดับสีแบบลาดและวิธีของนิวตัน ฉันรู้ว่าการไล่ระดับสีจะมีประโยชน์ในบางแอปพลิเคชันของการเรียนรู้ของเครื่อง (เช่น backpropogation) แต่ในกรณีทั่วไปมากขึ้นมีเหตุผลใด ๆ ที่คุณจะไม่แก้สำหรับพารามิเตอร์ในรูปแบบปิด - เช่นโดยการหาอนุพันธ์ของ ฟังก์ชั่นค่าใช้จ่ายและการแก้ไขผ่านทางแคลคูลัส? อะไรคือข้อดีของการใช้อัลกอริทึมแบบวนซ้ำเช่นการไล่ระดับสีแบบลาดชันเหนือโซลูชันแบบปิดโดยทั่วไปเมื่อมีให้ใช้งาน?

8
ทักษะยากที่จะหาในผู้เรียนรู้เครื่องจักร?
ดูเหมือนว่าการขุดข้อมูลและการเรียนรู้ของเครื่องจักรกลายเป็นที่นิยมจนตอนนี้นักเรียน CS เกือบทุกคนรู้เรื่องตัวแยกประเภทการจัดกลุ่มการ NLP เชิงสถิติ ฯลฯ ดังนั้นดูเหมือนว่าการค้นหาตัวขุดข้อมูลไม่ใช่เรื่องยากในปัจจุบัน คำถามของฉันคืออะไรทักษะที่นักขุดข้อมูลสามารถเรียนรู้ที่จะทำให้เขาแตกต่างจากคนอื่น ๆ คืออะไร? ที่จะทำให้เขาเป็นคนที่ไม่เหมือนใครง่ายๆ



15
ทำตัวอย่างที่สำคัญของการวิจัยที่ทำซ้ำได้โดยใช้ R
คำถาม:มีตัวอย่างที่ดีของการวิจัยที่ทำซ้ำได้โดยใช้ R ที่ให้บริการออนไลน์ได้อย่างอิสระหรือไม่? ตัวอย่างในอุดมคติ: โดยเฉพาะตัวอย่างอุดมคติจะมี: ข้อมูลดิบ (และข้อมูลเมตานึกคิดอธิบายข้อมูล) รหัส R ทั้งหมดรวมถึงการนำเข้าข้อมูลการประมวลผลการวิเคราะห์และการสร้างผลลัพธ์ Sweave หรือวิธีการอื่นสำหรับเชื่อมโยงผลลัพธ์สุดท้ายไปยังเอกสารสุดท้าย ทั้งหมดอยู่ในรูปแบบที่สามารถดาวน์โหลดและคอมไพล์ได้อย่างง่ายดายบนคอมพิวเตอร์ของผู้อ่าน ตามอุดมคติแล้วตัวอย่างจะเป็นบทความในวารสารหรือวิทยานิพนธ์ที่เน้นในหัวข้อที่ประยุกต์ใช้จริงแทนที่จะเป็นตัวอย่างการสอนเชิงสถิติ เหตุผลที่ให้ความสนใจ: ฉันสนใจเป็นพิเศษในหัวข้อที่นำไปใช้ในบทความในวารสารและวิทยานิพนธ์เพราะในสถานการณ์เหล่านี้มีประเด็นเพิ่มเติมหลายประการเกิดขึ้น: ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการทำความสะอาดและการประมวลผลข้อมูล ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการจัดการข้อมูลเมตา วารสารและวิทยานิพนธ์มักจะมีความคาดหวังของคู่มือสไตล์เกี่ยวกับลักษณะและการจัดรูปแบบของตารางและตัวเลข วารสารและวิทยานิพนธ์จำนวนมากมักจะมีการวิเคราะห์ที่หลากหลายซึ่งทำให้เกิดปัญหาเกี่ยวกับเวิร์กโฟลว์ (เช่นวิธีการวิเคราะห์ลำดับ) และเวลาในการประมวลผล (เช่นปัญหาการวิเคราะห์แคชเป็นต้น) การดูตัวอย่างการทำงานที่สมบูรณ์สามารถให้วัสดุการเรียนการสอนที่ดีสำหรับนักวิจัยที่เริ่มต้นด้วยการวิจัยที่ทำซ้ำได้

4
bootstrap ถูกมองว่าเป็น“ การรักษา” สำหรับตัวอย่างขนาดเล็กหรือไม่?
คำถามนี้ถูกกระตุ้นโดยสิ่งที่ฉันอ่านในหนังสือเรียนระดับบัณฑิตศึกษานี้และยังมีการได้ยิน (อิสระ) ระหว่างการนำเสนอนี้ในงานสัมมนาทางสถิติ ในทั้งสองกรณีคำสั่งนั้นเป็นไปตามเส้นของ "เนื่องจากขนาดตัวอย่างมีขนาดค่อนข้างเล็กเราจึงตัดสินใจทำการประมาณค่าผ่าน bootstrap แทน (หรือพร้อมกับ) วิธีการพารามิเตอร์นี้ "XXX พวกเขาไม่ได้ลงรายละเอียด แต่อาจเหตุผลดังนี้วิธีถือว่าข้อมูลตามบางพารากระจายD ในความเป็นจริงการกระจายไม่ตรงDแต่ก็โอเคตราบใดที่ขนาดตัวอย่างใหญ่พอ เนื่องจากในกรณีนี้ขนาดตัวอย่างเล็กเกินไปลองเปลี่ยนเป็น bootstrap (ที่ไม่ใช่พารามิเตอร์) ที่ไม่ได้ตั้งสมมติฐานการกระจาย แก้ไขปัญหา!XXXDDDDDD ในความคิดของฉันนั่นไม่ใช่สิ่งที่ bootstrap มีไว้สำหรับ นี่คือวิธีที่ฉันเห็น: bootstrap สามารถให้ขอบเมื่อเห็นได้ชัดว่ามีข้อมูลเพียงพอหรือไม่ แต่ไม่มีวิธีแก้ปัญหาแบบปิดเพื่อรับข้อผิดพลาดมาตรฐานค่า p และสถิติที่คล้ายกัน ตัวอย่างคลาสสิกคือการได้รับ CI สำหรับค่าสัมประสิทธิ์สหสัมพันธ์ที่ได้รับตัวอย่างจากการแจกแจงปกติแบบ bivariate: การแก้ปัญหาแบบปิดมีอยู่ แต่มันซับซ้อนมากที่ bootstrapping ง่าย อย่างไรก็ตามไม่มีสิ่งใดที่บ่งบอกว่า bootstrap สามารถช่วยได้ด้วยขนาดตัวอย่างที่เล็ก การรับรู้ของฉันถูกต้องหรือไม่ หากคุณพบว่าคำถามนี้น่าสนใจมีคำถาม bootstrap ที่เฉพาะเจาะจงมากขึ้นจากฉัน: Bootstrap: ปัญหาการ overfitting ป.ล. ฉันไม่สามารถช่วยแบ่งปันหนึ่งตัวอย่างที่น่าเกรงขามของ "วิธีบูตสแตรป" ฉันไม่ได้เปิดเผยชื่อผู้แต่ง แต่เขาเป็นหนึ่งใน …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.