สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

11
มีเหตุผลใดที่จะชอบ AIC หรือ BIC มากกว่าอีก?
AIC และ BIC เป็นทั้งสองวิธีในการประเมินแบบจำลองที่ถูกลงโทษสำหรับจำนวนพารามิเตอร์โดยประมาณ ดังที่ฉันเข้าใจ BIC จะลงโทษโมเดลสำหรับพารามิเตอร์ฟรีมากกว่า AIC นอกเหนือจากการตั้งค่าตามความเข้มงวดของเกณฑ์แล้วมีเหตุผลอื่นอีกไหมที่จะชอบ AIC มากกว่า BIC หรือในทางกลับกัน?

5
ขนาดแบทช์ของ Tradeoff เทียบกับจำนวนการวนซ้ำเพื่อฝึกอบรมโครงข่ายประสาทเทียม
เมื่อฝึกฝนโครงข่ายประสาทเทียมการตั้งค่าต่างกันอย่างไร: ขนาดแบทช์และจำนวนการวนซ้ำเป็นaaabbb เทียบกับขนาดแบทช์เป็นและจำนวนการทำซ้ำเป็นcccddd ที่ ?ab=cdab=cd ab = cd หากต้องการตั้งเป็นอย่างอื่นสมมติว่าเราฝึกอบรมเครือข่ายประสาทเทียมด้วยตัวอย่างการฝึกอบรมจำนวนเท่ากันวิธีการกำหนดขนาดแบทช์ที่เหมาะสมและจำนวนการวนซ้ำที่เหมาะสม (โดยที่ขนาดแบทช์ * จำนวนการวนซ้ำ = จำนวนตัวอย่างการฝึกอบรมที่แสดงในเครือข่ายนิวรัลโดยมีตัวอย่างการฝึกอบรมเดียวกันอาจปรากฏขึ้นหลายครั้ง) ฉันทราบว่ายิ่งมีขนาดแบตช์สูงเท่าไหร่พื้นที่หน่วยความจำที่ต้องการก็จะมากขึ้นและบ่อยครั้งทำให้การคำนวณเร็วขึ้น แต่ในแง่ของประสิทธิภาพของเครือข่ายที่ผ่านการฝึกอบรมแล้วมันมีความแตกต่างอะไรบ้าง?

14
อะไรคือความแตกต่างระหว่างการวิเคราะห์ปัจจัยและการวิเคราะห์องค์ประกอบหลัก?
ดูเหมือนว่าจำนวนของแพ็กเกจสถิติที่ฉันใช้ล้อมสองแนวคิดนี้เข้าด้วยกัน อย่างไรก็ตามฉันสงสัยว่ามีสมมติฐานที่แตกต่างกันหรือ 'พิธีการ' ของข้อมูลที่จะต้องเป็นจริงในการใช้หนึ่งมากกว่าอีก ตัวอย่างจริงจะมีประโยชน์อย่างเหลือเชื่อ

12
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI?
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI? จะถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็น 4 สาขาที่พยายามแก้ไขปัญหาที่คล้ายกันมาก แต่ด้วยวิธีการที่แตกต่างกัน? พวกเขามีอะไรกันแน่และพวกเขาต่างกันอย่างไร หากมีลำดับชั้นบางอย่างระหว่างพวกเขามันจะเป็นอะไร? มีการถามคำถามที่คล้ายกันก่อนหน้านี้ แต่ฉันยังไม่เข้าใจ: การทำเหมืองข้อมูลและการวิเคราะห์ทางสถิติ สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?

3
จะรู้ได้อย่างไรว่าปัญหาการเรียนรู้เครื่องของคุณสิ้นหวัง?
ลองนึกภาพสถานการณ์การเรียนรู้ของเครื่องมาตรฐาน: คุณกำลังเผชิญหน้ากับชุดข้อมูลหลายตัวแปรขนาดใหญ่และคุณมีความเข้าใจที่ไม่ชัดเจน สิ่งที่คุณต้องทำคือการคาดเดาเกี่ยวกับตัวแปรตามสิ่งที่คุณมี ตามปกติคุณจะต้องล้างข้อมูลดูสถิติเชิงพรรณนาเรียกใช้บางรุ่นตรวจสอบความถูกต้องของข้อมูลเป็นต้น แต่หลังจากผ่านไปหลายครั้งพยายามกลับไปกลับมาและลองใช้แบบจำลองหลาย ๆ แบบซึ่งดูเหมือนว่าจะไม่มีอะไรเกิดขึ้น คุณสามารถใช้เวลาหลายชั่วโมงหลายวันหรือหลายสัปดาห์สำหรับปัญหาดังกล่าว ... คำถามคือเมื่อจะหยุด? คุณจะรู้ได้อย่างไรว่าข้อมูลของคุณสิ้นหวังจริง ๆ และโมเดลแฟนซีทั้งหมดจะไม่ทำให้คุณดีไปกว่าการคาดการณ์ผลลัพธ์เฉลี่ยสำหรับทุกกรณีหรือวิธีแก้ปัญหาเล็กน้อยอื่น ๆ แน่นอนว่านี่เป็นปัญหาการคาดการณ์ แต่เท่าที่ฉันรู้มันยากที่จะประเมินการคาดการณ์สำหรับข้อมูลหลายตัวแปรก่อนที่จะลองทำบางสิ่ง หรือฉันผิด คำเตือน:คำถามนี้ได้รับแรงบันดาลใจจากคำถามนี้ เมื่อไหร่ที่ฉันจะหยุดหานางแบบ? ที่ไม่ดึงดูดความสนใจมาก มันจะดีที่มีคำตอบรายละเอียดสำหรับคำถามดังกล่าวสำหรับการอ้างอิง

10
คุณจะอธิบายความแปรปรวนร่วมกับคนที่เข้าใจเฉพาะค่าเฉลี่ยได้อย่างไร
... สมมติว่าฉันสามารถเพิ่มพูนความรู้เกี่ยวกับความแปรปรวนในรูปแบบที่เข้าใจง่าย (การทำความเข้าใจ "ความแปรปรวน" อย่างสังหรณ์ใจ ) หรือโดยการพูดว่า: มันเป็นระยะทางเฉลี่ยของค่าข้อมูลจาก 'เฉลี่ย' - และเนื่องจากความแปรปรวนอยู่ในตาราง หน่วยเราใช้สแควร์รูทเพื่อให้หน่วยเดียวกันและที่เรียกว่าส่วนเบี่ยงเบนมาตรฐาน สมมติว่าเรื่องนี้ชัดเจนมากและหวังว่าจะเข้าใจโดย 'ผู้รับ' ทีนี้ความแปรปรวนร่วมคืออะไรและจะอธิบายได้อย่างไรในภาษาอังกฤษง่าย ๆ โดยไม่ใช้คำศัพท์ / สูตรทางคณิตศาสตร์ใด ๆ (เช่นคำอธิบายที่เข้าใจง่าย;) โปรดทราบ: ฉันรู้สูตรและคณิตศาสตร์ที่อยู่เบื้องหลังแนวคิด ฉันต้องการที่จะ 'อธิบาย' สิ่งเดียวกันในรูปแบบที่เข้าใจง่ายโดยไม่รวมคณิตศาสตร์ เช่น 'ความแปรปรวนร่วม' หมายถึงอะไร

5
ต้องการใช้และเมื่อใด
ดังนั้นเราจึงมีค่าเฉลี่ยเลขคณิต (AM), ค่าเฉลี่ยทางเรขาคณิต (GM) และค่าเฉลี่ยฮาร์มอนิก (HM) สูตรทางคณิตศาสตร์ของพวกเขาเป็นที่รู้จักกันดีพร้อมกับตัวอย่างแบบแผนที่เกี่ยวข้องของพวกเขา (เช่นค่าเฉลี่ยฮาร์มอนิกและการประยุกต์ใช้กับปัญหาที่เกี่ยวข้องกับ 'ความเร็ว') อย่างไรก็ตามคำถามที่ทำให้ฉันรู้สึกทึ่งอยู่เสมอคือ "ฉันจะตัดสินใจได้อย่างไรว่าค่าเฉลี่ยใดเหมาะสมที่สุดที่จะใช้ในบริบทที่กำหนด" อย่างน้อยจะต้องมีกฎง่ายๆที่จะช่วยให้เข้าใจการบังคับใช้และยังมีคำตอบที่พบบ่อยที่สุดที่ฉันเจอคือ: "มันขึ้นอยู่กับ" (แต่ขึ้นอยู่กับอะไร) นี่อาจดูเหมือนจะเป็นคำถามที่ค่อนข้างเล็กน้อย แต่ตำราระดับมัธยมก็ล้มเหลวในการอธิบายสิ่งนี้ - พวกมันให้คำจำกัดความทางคณิตศาสตร์เท่านั้น! ฉันชอบคำอธิบายภาษาอังกฤษมากกว่าการทดสอบทางคณิตศาสตร์อย่างใดอย่างหนึ่ง - การทดสอบอย่างง่ายจะเป็น "แม่ / ลูกของคุณจะเข้าใจหรือไม่?"
197 mean 

8
อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ
ฉันต้องการใช้อัลกอริทึมสำหรับการเลือกแบบจำลองอัตโนมัติ ฉันกำลังคิดที่จะทำการถดถอยแบบขั้นตอน แต่จะต้องทำทุกอย่าง (จะต้องเป็นไปตามการถดถอยเชิงเส้น) ปัญหาของฉันคือฉันไม่สามารถหาวิธีการหรือการใช้งานโอเพนซอร์ซ (ฉันกำลังใช้ภาษาจาวา) วิธีการที่ฉันมีในใจจะเป็นเช่น: คำนวณเมทริกซ์สหสัมพันธ์ของปัจจัยทั้งหมด เลือกปัจจัยที่มีความสัมพันธ์ต่ำกัน ลบปัจจัยที่มี t-stat ต่ำ เพิ่มปัจจัยอื่น ๆ (ยังคงขึ้นอยู่กับปัจจัยความสัมพันธ์ต่ำที่พบใน 2) ทำซ้ำหลาย ๆ ครั้งจนกว่าเกณฑ์บางอย่าง (เช่น AIC) จะเกินเกณฑ์ที่กำหนดหรือไม่สามารถทำได้หรือเราไม่สามารถหาค่าที่มากขึ้นได้ ฉันรู้ว่ามีการใช้งาน R สำหรับขั้นตอนนี้ (stepAIC) แต่ฉันพบว่ารหัสค่อนข้างเข้าใจยาก นอกจากนี้ฉันไม่สามารถค้นหาบทความที่อธิบายการถดถอยแบบขั้นตอนได้


12
ฉันจะแปลงข้อมูลที่ไม่เป็นลบรวมถึงศูนย์ได้อย่างไร
หากฉันมีข้อมูลในเชิงบวกอย่างมากฉันมักจะบันทึก แต่ฉันควรทำอย่างไรกับข้อมูลที่ไม่ใช่ค่าลบที่มีค่าเป็นศูนย์ที่เอียงอย่างมาก ฉันเห็นการเปลี่ยนแปลงสองอย่างที่ใช้: เข้าสู่ระบบ( x + 1 )log⁡(x+1)\log(x+1)ซึ่งมีคุณสมบัติเรียบร้อยที่ 0 แมปกับ 0 เข้าสู่ระบบ( x + c )log⁡(x+c)\log(x+c)โดยที่ c ถูกประมาณหรือตั้งค่าเป็นค่าบวกที่น้อยมาก มีวิธีอื่นอีกไหม? มีเหตุผลที่ดีไหมที่จะชอบวิธีการหนึ่งมากกว่าวิธีอื่น?

4
เลเยอร์ที่ซ่อนอยู่ในคอมพิวเตอร์คำนวณจากอะไร
ฉันแน่ใจว่าหลายคนจะตอบสนองด้วยลิงก์เพื่อ 'ให้ฉัน google สำหรับคุณ' ดังนั้นฉันอยากจะบอกว่าฉันพยายามที่จะคิดออกดังนั้นโปรดยกโทษให้ฉันขาดความเข้าใจที่นี่ แต่ฉันไม่สามารถหาวิธี การใช้งานจริงของเครือข่ายประสาทใช้งานได้จริง ฉันเข้าใจเลเยอร์อินพุตและวิธีทำให้ข้อมูลเป็นมาตรฐานฉันยังเข้าใจหน่วยอคติ แต่เมื่อพูดถึงเลเยอร์ที่ซ่อนอยู่การคำนวณที่แท้จริงคืออะไรในเลเยอร์นั้นและวิธีที่แมปกับเอาต์พุตเป็นเพียงหมอกเล็กน้อย ฉันเห็นไดอะแกรมที่มีเครื่องหมายคำถามในเลเยอร์ที่ซ่อนอยู่ฟังก์ชันบูลีนเช่น AND / OR / XOR ฟังก์ชั่นการเปิดใช้งานและโหนดอินพุตที่แมปไปยังหน่วยที่ซ่อนอยู่ทั้งหมดและโหนดอินพุตที่แมปหน่วยที่ซ่อนอยู่เพียงไม่กี่ตัวเท่านั้น ฉันมีคำถามสองสามข้อเกี่ยวกับการใช้งานจริง แน่นอนคำอธิบายง่ายๆเกี่ยวกับกระบวนการโครงข่ายประสาททั้งหมดเหมือนกับที่คุณจะอธิบายให้เด็กฟังจะน่ากลัว การคำนวณอะไรที่ทำในเลเยอร์ที่ซ่อนอยู่? การคำนวณเหล่านั้นถูกแม็พกับเลเยอร์เอาต์พุตอย่างไร เลเยอร์ ouput ทำงานอย่างไร ยกเลิกการทำให้ข้อมูลเป็นปกติจากเลเยอร์ที่ซ่อนอยู่หรือไม่ ทำไมบางเลเยอร์ในเลเยอร์อินพุตเชื่อมต่อกับเลเยอร์ที่ซ่อนอยู่และบางเลเยอร์ไม่ได้?


15
นักวิทยาศาสตร์ข้อมูลคืออะไร?
หลังจากเพิ่งจบการศึกษาจากหลักสูตรปริญญาเอกของฉันเป็นสถิติฉันมีช่วงสองสามเดือนสุดท้ายเริ่มหางานในสาขาสถิติ เกือบทุก บริษัท ที่ฉันคิดว่ามีงานโพสต์ด้วยชื่องานของ " นักวิทยาศาสตร์ข้อมูล " ในความเป็นจริงมันรู้สึกเหมือนหายไปนานเป็นวันของการมองเห็นตำแหน่งงานของสถิตินักวิทยาศาสตร์หรือนักสถิติ การเป็นนักวิทยาศาสตร์ด้านข้อมูลแทนที่สิ่งที่นักสถิติเป็นหรือมีชื่อตรงกันฉันสงสัย? คุณสมบัติส่วนใหญ่สำหรับงานรู้สึกเหมือนสิ่งที่จะมีคุณสมบัติภายใต้ชื่อของนักสถิติ งานส่วนใหญ่ต้องการปริญญาเอกด้านสถิติ ( ), ความเข้าใจในการออกแบบการทดลองที่ต้องการ ( ), การถดถอยเชิงเส้นและอโนวา ( ), โมเดลเชิงเส้นทั่วไป ( ) และวิธีหลายตัวแปรอื่น ๆ เช่น PCA ( ) เช่นเดียวกับความรู้ในสภาพแวดล้อมการคำนวณทางสถิติเช่น R หรือ SAS ( ) เสียงเหมือนนักวิทยาศาสตร์ด้านข้อมูลเป็นเพียงชื่อรหัสสำหรับนักสถิติ✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark อย่างไรก็ตามการสัมภาษณ์ทุกครั้งที่ฉันเริ่มด้วยคำถาม: "คุณคุ้นเคยกับขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่" บ่อยครั้งที่ฉันพบว่าตัวเองต้องลองตอบคำถามเกี่ยวกับข้อมูลขนาดใหญ่การคำนวณประสิทธิภาพสูงและหัวข้อเกี่ยวกับเครือข่ายประสาท, CART, การสนับสนุนเวกเตอร์แมชชีน, การส่งเสริมต้นไม้, การส่งเสริมต้นไม้, โมเดลที่ไม่ได้รับการยืนยันเป็นต้น คำถามเชิงสถิติที่หัวใจ แต่ในตอนท้ายของการสัมภาษณ์ทุกครั้งฉันไม่สามารถช่วยได้ แต่ให้ความรู้สึกเหมือนฉันรู้น้อยลงเกี่ยวกับสิ่งที่นักวิทยาศาสตร์ด้านข้อมูลคือ …

4
ขนาดแบทช์ในเครือข่ายประสาทเทียมคืออะไร
ฉันใช้Python Keras packageสำหรับเครือข่ายประสาท นี่คือการเชื่อมโยง มีbatch_sizeเท่ากับจำนวนตัวอย่างทดสอบ? จาก Wikipedia เรามีข้อมูลนี้ : อย่างไรก็ตามในกรณีอื่น ๆ การประเมินผลรวมของการไล่ระดับสีอาจต้องมีการประเมินราคาแพงของการไล่ระดับสีจากฟังก์ชั่นการสรุปทั้งหมด เมื่อชุดฝึกอบรมมีขนาดใหญ่และไม่มีสูตรง่าย ๆ อยู่การประเมินผลรวมของการไล่ระดับสีจะมีราคาแพงมากเนื่องจากการประเมินการไล่ระดับสีนั้นจำเป็นต้องประเมินการไล่ระดับสีของฟังก์ชันสรุปทั้งหมด เพื่อประหยัดค่าใช้จ่ายในการคำนวณทุกการทำซ้ำการไล่ระดับสีแบบสุ่มสุ่มตัวอย่างของฟังก์ชั่นการสรุปในทุกขั้นตอน สิ่งนี้มีประสิทธิภาพมากในกรณีที่เกิดปัญหาการเรียนรู้ของเครื่องขนาดใหญ่ ข้อมูลข้างต้นอธิบายถึงข้อมูลการทดสอบหรือไม่ เหมือนกับbatch_sizeใน keras (จำนวนตัวอย่างต่อการไล่ระดับสี) หรือไม่

2
เมื่อใด (และทำไม) คุณควรบันทึกการกระจาย (ของตัวเลข)?
สมมติว่าฉันมีข้อมูลในอดีตเช่นราคาหุ้นที่ผ่านมาความผันผวนของราคาตั๋วเครื่องบินข้อมูลทางการเงินในอดีตของ บริษัท ... ตอนนี้มีใครบางคน (หรือบางสูตร) มาพร้อมและกล่าวว่า "ขอใช้เวลา / ใช้เข้าสู่ระบบของการกระจาย" และนี่คือที่ที่ผมไปทำไม ? คำถาม: ทำไมคนเราควรจดบันทึกการกระจายสินค้าตั้งแต่แรก? บันทึกของการแจกแจง 'ให้ / ลดความซับซ้อน' ที่การกระจายดั้งเดิมไม่สามารถทำได้ / ไม่ได้? การเปลี่ยนแปลงบันทึกเป็น 'ไม่สูญเสีย' หรือไม่? คือเมื่อเปลี่ยนเป็น log-space และวิเคราะห์ข้อมูลข้อสรุปเดียวกันนี้มีไว้สำหรับการแจกแจงดั้งเดิมหรือไม่? มาทำไม และในที่สุดเมื่อไหร่ที่จะบันทึกการกระจาย? ภายใต้เงื่อนไขใดบ้างที่ตัดสินใจทำเช่นนี้ ฉันต้องการเข้าใจการแจกแจงแบบอิงบันทึก (เช่น lognormal) แต่ฉันไม่เคยเข้าใจแง่มุมว่าเมื่อใด / ทำไม - นั่นคือบันทึกการแจกแจงเป็นการแจกแจงแบบปกติดังนั้นจะเป็นอย่างไร สิ่งนั้นบอกอะไรกับฉันและทำไมตื๊อ ดังนั้นคำถาม! UPDATE : ตามความเห็นของ @ whuber ฉันดูที่โพสต์และด้วยเหตุผลบางอย่างฉันเข้าใจการใช้ log แปรรูปและการประยุกต์ในการถดถอยเชิงเส้นเนื่องจากคุณสามารถวาดความสัมพันธ์ระหว่างตัวแปรอิสระและบันทึกของตัวแปรตาม อย่างไรก็ตามคำถามของฉันเป็นเรื่องทั่วไปในแง่ของการวิเคราะห์การกระจายตัวเอง - ไม่มีความสัมพันธ์ต่อกันที่ฉันสามารถสรุปได้เพื่อช่วยให้เข้าใจเหตุผลของการบันทึกเพื่อวิเคราะห์การกระจาย …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.