คำถามติดแท็ก terminology

การใช้และความหมายของคำศัพท์ / แนวคิดทางเทคนิคที่เฉพาะเจาะจงในสถิติ

15
นักวิทยาศาสตร์ข้อมูลคืออะไร?
หลังจากเพิ่งจบการศึกษาจากหลักสูตรปริญญาเอกของฉันเป็นสถิติฉันมีช่วงสองสามเดือนสุดท้ายเริ่มหางานในสาขาสถิติ เกือบทุก บริษัท ที่ฉันคิดว่ามีงานโพสต์ด้วยชื่องานของ " นักวิทยาศาสตร์ข้อมูล " ในความเป็นจริงมันรู้สึกเหมือนหายไปนานเป็นวันของการมองเห็นตำแหน่งงานของสถิตินักวิทยาศาสตร์หรือนักสถิติ การเป็นนักวิทยาศาสตร์ด้านข้อมูลแทนที่สิ่งที่นักสถิติเป็นหรือมีชื่อตรงกันฉันสงสัย? คุณสมบัติส่วนใหญ่สำหรับงานรู้สึกเหมือนสิ่งที่จะมีคุณสมบัติภายใต้ชื่อของนักสถิติ งานส่วนใหญ่ต้องการปริญญาเอกด้านสถิติ ( ), ความเข้าใจในการออกแบบการทดลองที่ต้องการ ( ), การถดถอยเชิงเส้นและอโนวา ( ), โมเดลเชิงเส้นทั่วไป ( ) และวิธีหลายตัวแปรอื่น ๆ เช่น PCA ( ) เช่นเดียวกับความรู้ในสภาพแวดล้อมการคำนวณทางสถิติเช่น R หรือ SAS ( ) เสียงเหมือนนักวิทยาศาสตร์ด้านข้อมูลเป็นเพียงชื่อรหัสสำหรับนักสถิติ✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark อย่างไรก็ตามการสัมภาษณ์ทุกครั้งที่ฉันเริ่มด้วยคำถาม: "คุณคุ้นเคยกับขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่" บ่อยครั้งที่ฉันพบว่าตัวเองต้องลองตอบคำถามเกี่ยวกับข้อมูลขนาดใหญ่การคำนวณประสิทธิภาพสูงและหัวข้อเกี่ยวกับเครือข่ายประสาท, CART, การสนับสนุนเวกเตอร์แมชชีน, การส่งเสริมต้นไม้, การส่งเสริมต้นไม้, โมเดลที่ไม่ได้รับการยืนยันเป็นต้น คำถามเชิงสถิติที่หัวใจ แต่ในตอนท้ายของการสัมภาษณ์ทุกครั้งฉันไม่สามารถช่วยได้ แต่ให้ความรู้สึกเหมือนฉันรู้น้อยลงเกี่ยวกับสิ่งที่นักวิทยาศาสตร์ด้านข้อมูลคือ …

4
ขนาดแบทช์ในเครือข่ายประสาทเทียมคืออะไร
ฉันใช้Python Keras packageสำหรับเครือข่ายประสาท นี่คือการเชื่อมโยง มีbatch_sizeเท่ากับจำนวนตัวอย่างทดสอบ? จาก Wikipedia เรามีข้อมูลนี้ : อย่างไรก็ตามในกรณีอื่น ๆ การประเมินผลรวมของการไล่ระดับสีอาจต้องมีการประเมินราคาแพงของการไล่ระดับสีจากฟังก์ชั่นการสรุปทั้งหมด เมื่อชุดฝึกอบรมมีขนาดใหญ่และไม่มีสูตรง่าย ๆ อยู่การประเมินผลรวมของการไล่ระดับสีจะมีราคาแพงมากเนื่องจากการประเมินการไล่ระดับสีนั้นจำเป็นต้องประเมินการไล่ระดับสีของฟังก์ชันสรุปทั้งหมด เพื่อประหยัดค่าใช้จ่ายในการคำนวณทุกการทำซ้ำการไล่ระดับสีแบบสุ่มสุ่มตัวอย่างของฟังก์ชั่นการสรุปในทุกขั้นตอน สิ่งนี้มีประสิทธิภาพมากในกรณีที่เกิดปัญหาการเรียนรู้ของเครื่องขนาดใหญ่ ข้อมูลข้างต้นอธิบายถึงข้อมูลการทดสอบหรือไม่ เหมือนกับbatch_sizeใน keras (จำนวนตัวอย่างต่อการไล่ระดับสี) หรือไม่

16
ข้อกำหนดทางสถิติที่ใช้ผิดประเภทใดที่ควรแก้ไข
สถิติมีอยู่ทุกที่ อย่างไรก็ตามการใช้คำศัพท์ทางสถิติทั่วไปมักไม่ชัดเจน ความน่าจะเป็นของคำศัพท์และอัตราต่อรองนั้นใช้แทนกันได้ในการเขียนภาษาอังกฤษแม้จะมีการแสดงออกทางคณิตศาสตร์ที่ชัดเจนและแตกต่างกัน การไม่แยกคำที่น่าจะเป็นจากความน่าจะเป็นเป็นประจำทำให้แพทย์สับสนพยายามหาปริมาณความน่าจะเป็นของมะเร็งเต้านมเนื่องจากการตรวจเต้านมด้วยวิธีบวก“ โอ้ช่างเป็นเรื่องไร้สาระ ฉันทำสิ่งนี้ไม่ได้ คุณควรทดสอบลูกสาวของฉัน เธอกำลังศึกษาเรื่องยา” การแพร่กระจายอย่างเท่าเทียมกันคือการใช้ความสัมพันธ์แทนสมาคม หรือความสัมพันธ์หมายความสาเหตุ ในสารคดีที่โด่งดังของอัลกอร์An Invenvenient Truthสไลด์แสดงความสัมพันธ์ของแกนน้ำแข็งและอุณหภูมิออกจากงานทางเทคนิคเพื่อพิสูจน์สาเหตุของการอภิปราย:CO2CO2\small \text{CO}_2 คำถาม:เงื่อนไขทางสถิติใดที่ทำให้เกิดปัญหาในการตีความเมื่อใช้งานโดยไม่ต้องใช้ความรุนแรงทางคณิตศาสตร์และควรแก้ไขอย่างไร
103 terminology 


2
ความแปรปรวนร่วมในภาษาธรรมดาคืออะไร?
ความแปรปรวนในภาษาธรรมดาคืออะไรและวิธีการที่จะเชื่อมโยงกับเงื่อนไขการพึ่งพาอาศัยกัน , ความสัมพันธ์และโครงสร้างความแปรปรวนความแปรปรวนที่เกี่ยวกับการออกแบบซ้ำมาตรการ?

11
การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด
ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่) ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม ชี้แจง ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)

30
มีวิธีในการจดจำคำจำกัดความของข้อผิดพลาด Type I และ Type II หรือไม่
ฉันไม่ใช่นักสถิติด้วยการศึกษาฉันเป็นวิศวกรซอฟต์แวร์ แต่สถิติเกิดขึ้นมากมาย ในความเป็นจริงคำถามที่เฉพาะเจาะจงเกี่ยวกับข้อผิดพลาดของ Type I และ Type II นั้นกำลังเกิดขึ้นมากมายในระหว่างการศึกษาของฉันสำหรับการสอบเพื่อการพัฒนาซอฟท์แวร์รองที่ได้รับการรับรอง (คณิตศาสตร์และสถิติคือ 10% ของการสอบ) ฉันมีปัญหาเกิดขึ้นเสมอกับคำจำกัดความที่ถูกต้องสำหรับข้อผิดพลาด Type I และ Type II - แม้ว่าฉันจะจำได้ตอนนี้ (และสามารถจดจำได้เกือบตลอดเวลา) แต่ฉันไม่ต้องการหยุดการสอบนี้ พยายามจดจำสิ่งที่แตกต่าง ฉันรู้ว่าข้อผิดพลาดประเภทที่ 1 นั้นเป็นค่าบวกเท็จหรือเมื่อคุณปฏิเสธสมมติฐานว่างเปล่าและมันเป็นจริงและข้อผิดพลาด Type II นั้นเป็นค่าลบที่ผิดพลาดหรือเมื่อคุณยอมรับสมมติฐานว่างและมันก็เป็นเท็จ มีวิธีง่าย ๆ ในการจดจำความแตกต่างเช่นตัวช่วยจำหรือไม่? นักสถิติมืออาชีพทำมันได้อย่างไร - มันเป็นแค่สิ่งที่พวกเขารู้จากการใช้หรือถกเถียงกันบ่อยๆ? (หมายเหตุด้านข้าง: คำถามนี้อาจใช้แท็กที่ดีกว่าได้สิ่งหนึ่งที่ฉันต้องการสร้างคือ "คำศัพท์" แต่ฉันไม่มีชื่อเสียงพอที่จะทำหากใครบางคนสามารถเพิ่มได้มันจะดีมากขอบคุณ)

5
“ โซลูชั่นแบบปิด” หมายความว่าอย่างไร
ฉันเจอคำว่า "วิธีแก้ปัญหาแบบปิด" ค่อนข้างบ่อย โซลูชันแบบปิดหมายความว่าอย่างไร วิธีการหนึ่งที่กำหนดว่ามีวิธีการแก้ปัญหาแบบปิดสำหรับปัญหาที่กำหนด? การค้นหาออนไลน์ฉันพบข้อมูลบางอย่าง แต่ไม่มีสิ่งใดในบริบทของการพัฒนาตัวแบบ / วิธีแก้ปัญหาเชิงสถิติหรือความน่าจะเป็น ฉันเข้าใจความถดถอยเป็นอย่างดีดังนั้นหากมีใครสามารถอธิบายแนวคิดโดยอ้างอิงจากการถดถอยหรือการปรับตัวแบบมันจะง่ายต่อการบริโภค :)

8
ฟังก์ชั่นวัตถุประสงค์ฟังก์ชั่นค่าใช้จ่ายฟังก์ชั่นการสูญเสีย: พวกเขาเหมือนกันหรือไม่?
ในการเรียนรู้ของเครื่องจักรผู้คนพูดถึงฟังก์ชั่นวัตถุประสงค์ฟังก์ชั่นค่าใช้จ่ายฟังก์ชั่นการสูญเสีย พวกเขาต่างชื่อกันในสิ่งเดียวกันหรือไม่? ควรใช้เมื่อใด หากพวกเขาไม่ได้อ้างถึงสิ่งเดียวกันเสมอไปความแตกต่างคืออะไร?

3
เหตุใดการถดถอยแบบลอจิสติกจึงไม่เรียกว่าการจำแนกแบบลอจิสติก
ตั้งแต่ถดถอยโลจิสติเป็นสถิติรูปแบบการจัดหมวดหมู่การจัดการกับตัวแปรตามเด็ดขาดทำไมไม่ได้เรียกว่าโลจิสติกการจัดประเภท ? ไม่ควรจองชื่อ "การถดถอย" กับตัวแบบที่เกี่ยวข้องกับตัวแปรตามแบบต่อเนื่อง

9
อะไรคือความแตกต่างทางปรัชญาที่สำคัญวิธีการและคำศัพท์ระหว่างสาขาเศรษฐศาสตร์และสาขาสถิติอื่น ๆ
เศรษฐมิติซ้อนทับกันอย่างมากกับสถิติแบบดั้งเดิม แต่มักใช้ศัพท์แสงของตนเองเกี่ยวกับหัวข้อที่หลากหลาย ("การระบุ" "ภายนอก" ฯลฯ ) ฉันเคยได้ยินอาจารย์สถิติที่นำไปใช้ในการแสดงความคิดเห็นในฟิลด์อื่นว่าบ่อยครั้งคำศัพท์ที่แตกต่างกัน แต่แนวคิดเหมือนกัน แต่มันก็มีวิธีการของตัวเองและความแตกต่างทางปรัชญา (เรียงความที่โด่งดังของ Heckman อยู่ในใจ) คำศัพท์ใดที่มีความแตกต่างระหว่างเศรษฐมิติและสถิติกระแสหลักและสาขาต่าง ๆ แตกต่างกันมากไปกว่าคำศัพท์เพียงใด?

4
'ช่วงเวลา' เกี่ยวกับ 'ช่วงเวลา' ของการแจกแจงความน่าจะเป็นอย่างไร
ฉันรู้ว่าช่วงเวลาใดและวิธีการคำนวณและวิธีการใช้ฟังก์ชั่นสร้างช่วงเวลาเพื่อให้ได้ช่วงเวลาที่ดีขึ้น ใช่ฉันรู้คณิตศาสตร์ ตอนนี้ฉันต้องได้รับความรู้สถิติของฉันหล่อลื่นสำหรับการทำงานฉันคิดว่าฉันก็อาจจะถามคำถามนี้ - มันเป็นเรื่องที่จู้จี้ฉันประมาณสองสามปีที่ผ่านมาและในวิทยาลัยกลับไม่มีอาจารย์รู้คำตอบหรือจะเลิกคำถาม . ดังนั้นคำว่า "ช่วงเวลา" หมายถึงอะไรในกรณีนี้ ทำไมต้องเลือกคำนี้ มันฟังดูไม่ง่ายสำหรับฉัน (หรือฉันไม่เคยได้ยินมาก่อนเลยในมหาวิทยาลัย :) ลองคิดดูสิฉันก็อยากรู้อยากเห็นด้วยการใช้งานใน "โมเมนต์ความเฉื่อย";) แต่ตอนนี้เราไม่ได้สนใจเรื่องนี้ ดังนั้น "ชั่วขณะ" ของการกระจายหมายถึงอะไรและมันพยายามทำอะไรและทำไมคำนั้น! :) ทำไมไม่มีใครสนใจช่วงเวลา ในขณะนี้ฉันรู้สึกอย่างอื่นเกี่ยวกับช่วงเวลานั้น) PS: ใช่ฉันอาจถามคำถามที่คล้ายกันเกี่ยวกับความแปรปรวน แต่ฉันให้คุณค่าความเข้าใจที่เข้าใจง่ายกว่า 'ดูในหนังสือเพื่อค้นหา' :)

5
อธิบายความแตกต่างระหว่างการถดถอยหลายครั้งและการถดถอยหลายตัวแปรโดยใช้สัญลักษณ์ / คณิตศาสตร์น้อยที่สุด
การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?

6
อะไรคือความแตกต่างระหว่าง“ แบบซ้อน” และแบบ“ ไม่ซ้อนกัน”?
ในวรรณคดีเกี่ยวกับตัวแบบลำดับชั้น / หลายระดับฉันมักจะอ่านเกี่ยวกับ "แบบจำลองซ้อน" และ "แบบจำลองที่ไม่ซ้อนกัน" แต่สิ่งนี้หมายความว่าอย่างไร ใครบ้างที่อาจให้ฉันตัวอย่างหรือบอกฉันเกี่ยวกับความหมายทางคณิตศาสตร์ของคำนี้

3
อะไรคือความแตกต่างระหว่างเครือข่ายฟีดไปข้างหน้าและเกิดขึ้นอีก?
อะไรคือความแตกต่างระหว่างเครือข่ายการส่งต่อและการเกิดซ้ำของเส้นประสาท? ทำไมคุณถึงใช้อันอื่น? ทอพอโลยีเครือข่ายอื่นมีอยู่จริงหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.