คำถามติดแท็ก definition

แท็กนี้ระบุคำถามเกี่ยวกับคำจำกัดความของคำศัพท์ทางสถิติ ใช้แท็กทั่วไป [คำศัพท์] สำหรับคำถามเกี่ยวกับการพูดจาเชิงสถิติที่ไม่เฉพาะเจาะจงเกี่ยวกับคำจำกัดความ

22
ทำไมต้องแตกต่างยกกำลังสองแทนที่จะรับค่าสัมบูรณ์ในส่วนเบี่ยงเบนมาตรฐาน?
ในคำจำกัดความของส่วนเบี่ยงเบนมาตรฐานทำไมเราต้องยกกำลังสองความแตกต่างจากค่าเฉลี่ยเพื่อให้ได้ค่าเฉลี่ย (E) และนำสแควร์รูทกลับมาที่จุดสิ้นสุด? เราไม่เพียงแค่เอาค่าสัมบูรณ์ของความแตกต่างมาแทนและรับค่าที่คาดหวัง (ค่าเฉลี่ย) ของสิ่งเหล่านั้นและนั่นจะไม่แสดงการแปรผันของข้อมูลหรือไม่ จำนวนจะแตกต่างจากวิธีสแควร์ (วิธีค่าสัมบูรณ์จะน้อยกว่า) แต่ก็ยังควรแสดงการแพร่กระจายของข้อมูล ไม่มีใครรู้ว่าทำไมเราถึงใช้วิธีการจตุรัสนี้เป็นมาตรฐาน? ความหมายของค่าเบี่ยงเบนมาตรฐาน: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. เราไม่สามารถใช้ค่าสัมบูรณ์แทนได้และยังเป็นการวัดที่ดีหรือไม่? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]

9
อะไรคือความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์สุ่มและโมเดลเอฟเฟกต์ผสม?
ในแง่ง่ายคุณจะอธิบายความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมได้อย่างไร

15
นักวิทยาศาสตร์ข้อมูลคืออะไร?
หลังจากเพิ่งจบการศึกษาจากหลักสูตรปริญญาเอกของฉันเป็นสถิติฉันมีช่วงสองสามเดือนสุดท้ายเริ่มหางานในสาขาสถิติ เกือบทุก บริษัท ที่ฉันคิดว่ามีงานโพสต์ด้วยชื่องานของ " นักวิทยาศาสตร์ข้อมูล " ในความเป็นจริงมันรู้สึกเหมือนหายไปนานเป็นวันของการมองเห็นตำแหน่งงานของสถิตินักวิทยาศาสตร์หรือนักสถิติ การเป็นนักวิทยาศาสตร์ด้านข้อมูลแทนที่สิ่งที่นักสถิติเป็นหรือมีชื่อตรงกันฉันสงสัย? คุณสมบัติส่วนใหญ่สำหรับงานรู้สึกเหมือนสิ่งที่จะมีคุณสมบัติภายใต้ชื่อของนักสถิติ งานส่วนใหญ่ต้องการปริญญาเอกด้านสถิติ ( ), ความเข้าใจในการออกแบบการทดลองที่ต้องการ ( ), การถดถอยเชิงเส้นและอโนวา ( ), โมเดลเชิงเส้นทั่วไป ( ) และวิธีหลายตัวแปรอื่น ๆ เช่น PCA ( ) เช่นเดียวกับความรู้ในสภาพแวดล้อมการคำนวณทางสถิติเช่น R หรือ SAS ( ) เสียงเหมือนนักวิทยาศาสตร์ด้านข้อมูลเป็นเพียงชื่อรหัสสำหรับนักสถิติ✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark อย่างไรก็ตามการสัมภาษณ์ทุกครั้งที่ฉันเริ่มด้วยคำถาม: "คุณคุ้นเคยกับขั้นตอนวิธีการเรียนรู้ของเครื่องหรือไม่" บ่อยครั้งที่ฉันพบว่าตัวเองต้องลองตอบคำถามเกี่ยวกับข้อมูลขนาดใหญ่การคำนวณประสิทธิภาพสูงและหัวข้อเกี่ยวกับเครือข่ายประสาท, CART, การสนับสนุนเวกเตอร์แมชชีน, การส่งเสริมต้นไม้, การส่งเสริมต้นไม้, โมเดลที่ไม่ได้รับการยืนยันเป็นต้น คำถามเชิงสถิติที่หัวใจ แต่ในตอนท้ายของการสัมภาษณ์ทุกครั้งฉันไม่สามารถช่วยได้ แต่ให้ความรู้สึกเหมือนฉันรู้น้อยลงเกี่ยวกับสิ่งที่นักวิทยาศาสตร์ด้านข้อมูลคือ …

11
การประมาณความน่าจะเป็นสูงสุด (MLE) ในแง่คนธรรมดา
ใครสามารถอธิบายให้ฉันอย่างละเอียดเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุด (MLE) ในแง่ของคนธรรมดา ฉันต้องการทราบแนวคิดพื้นฐานก่อนที่จะเข้ามาทางคณิตศาสตร์หรือสมการ

11
การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด
ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่) ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม ชี้แจง ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)

9
ช่วงเวลาของความมั่นใจคืออะไร
ฉันรู้ว่าช่วงความมั่นใจคืออะไรและอย่างไม่เป็นทางการ อย่างไรก็ตามฉันไม่สามารถคาดศีรษะรายละเอียดสำคัญ ๆ ไว้ได้: อ้างอิงจาก Wikipedia: ช่วงความเชื่อมั่นไม่ได้คาดการณ์ว่ามูลค่าที่แท้จริงของพารามิเตอร์มีความน่าจะเป็นโดยเฉพาะอย่างยิ่งที่จะอยู่ในช่วงความเชื่อมั่นที่ได้รับข้อมูลจริง ฉันเคยเห็นจุดที่คล้ายกันที่เกิดขึ้นในหลายแห่งบนเว็บไซต์นี้ คำจำกัดความที่ถูกต้องมากขึ้นจาก Wikipedia ก็คือ: หากช่วงความมั่นใจถูกสร้างขึ้นในการวิเคราะห์ข้อมูลที่แยกจากกันหลายครั้งของการทดลองซ้ำ (และอาจแตกต่างกัน) การทดลองสัดส่วนของช่วงเวลาดังกล่าวที่มีค่าจริงของพารามิเตอร์จะตรงกับระดับความเชื่อมั่นโดยประมาณ อีกครั้งฉันได้เห็นจุดที่คล้ายกันที่เกิดขึ้นในหลายแห่งบนเว็บไซต์นี้ ฉันไม่เข้าใจ ถ้าภายใต้การทดลองซ้ำส่วนของช่วงความเชื่อมั่นการคำนวณที่มีความจริงพารามิเตอร์คือแล้วว่าน่าจะเป็นที่สามารถอยู่ในช่วงความเชื่อมั่นคำนวณสำหรับการทดลองที่เกิดขึ้นจริงเป็นอะไรอื่นนอกจาก ? ฉันกำลังมองหาคำตอบต่อไปนี้:( 1 - α ) θ ( 1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) ชี้แจงความแตกต่างระหว่างคำจำกัดความที่ไม่ถูกต้องและคำนิยามที่ถูกต้องด้านบน คำจำกัดความที่เป็นทางการและแม่นยำของช่วงความมั่นใจที่แสดงให้เห็นอย่างชัดเจนว่าเหตุใดคำจำกัดความแรกจึงไม่ถูกต้อง ตัวอย่างที่ชัดเจนของกรณีที่คำจำกัดความแรกผิดอย่างน่าทึ่งแม้ว่าโมเดลต้นแบบนั้นจะถูกต้อง



4
เมทริกซ์ตัดกันคืออะไร?
สิ่งที่ว่าคือความคมชัดเมทริกซ์ (คำที่เกี่ยวข้องกับการวิเคราะห์ทำนายเด็ดขาดเป็นพิเศษ) และวิธีการว่าจะตรงกันข้ามเมทริกซ์ที่ระบุ? คือคอลัมน์คืออะไรแถวคืออะไรข้อ จำกัด ของเมทริกซ์นั้นคืออะไรและจำนวนในคอลัมน์jและแถวiหมายถึงอะไร ฉันพยายามตรวจสอบเอกสารและเว็บ แต่ดูเหมือนว่าทุกคนใช้มัน แต่ก็ไม่มีการต่อต้านใด ๆ ฉันสามารถย้อนกลับ - วิศวกรความคมชัดที่กำหนดไว้ล่วงหน้าที่มีอยู่ แต่ฉันคิดว่าคำนิยามควรจะใช้ได้โดยไม่ว่า > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 …

8
คำจำกัดความที่เข้มงวดของค่าผิดปกติ?
ผู้คนมักพูดคุยเกี่ยวกับการจัดการกับค่าผิดปกติในสถิติ สิ่งที่รบกวนจิตใจฉันเกี่ยวกับเรื่องนี้คือเท่าที่ฉันสามารถบอกได้นิยามของค่าผิดปกตินั้นเป็นไปโดยสิ้นเชิง ตัวอย่างเช่นหากการแจกแจงที่แท้จริงของตัวแปรสุ่มบางตัวนั้นมีความหนามากหรือ bimodal การสร้างภาพมาตรฐานหรือสถิติสรุปใด ๆ สำหรับการตรวจจับค่าผิดปกติจะลบส่วนต่าง ๆ ของการแจกแจงที่คุณต้องการสุ่มตัวอย่างออกอย่างไม่ถูกต้อง อะไรคือคำจำกัดความที่เข้มงวดของค่าผิดปกติถ้ามีอยู่และค่าผิดปกติสามารถจัดการได้อย่างไร

3
อะไรคือความแตกต่างระหว่างการกระจายการทำนายหลังและการสะท้อนกลับ?
ฉันเข้าใจว่า Posterior คืออะไร แต่ฉันไม่แน่ใจว่าอันหลังหมายถึงอะไร 2 แตกต่างกันอย่างไร เควินเมอร์ฟี่ย์ P ระบุไว้ในตำราเรียนของเขา: การเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น , นั่นคือ "รัฐความเชื่อภายใน" นั่นหมายความว่าอย่างไร ฉันอยู่ภายใต้การแสดงผลที่ว่าก่อนหน้านี้แสดงถึงความเชื่อหรืออคติภายในของคุณฉันจะไปไหน

9
ความแตกต่างระหว่างตัวประมาณและสถิติคืออะไร?
ฉันได้เรียนรู้ว่าสถิติเป็นคุณลักษณะที่คุณสามารถหาได้จากกลุ่มตัวอย่างจากการทดลองขนาดที่มีขนาดเดียวกันจำนวนมากการคำนวณคุณลักษณะนี้สำหรับพวกเขาทั้งหมดและพล็อตไฟล์ pdf เราได้การกระจายของแอตทริบิวต์ที่เกี่ยวข้องหรือการกระจายของสถิติที่เกี่ยวข้อง ฉันยังได้ยินด้วยว่าสถิติถูกสร้างขึ้นเพื่อเป็นตัวประมาณสองแนวคิดนี้แตกต่างกันอย่างไร

2
การเปลี่ยนแปลงเหมือนกับความแปรปรวนหรือไม่
นี่เป็นคำถามแรกของฉันในการตรวจสอบความถูกต้องของ Cross ที่นี่ดังนั้นโปรดช่วยฉันแม้ว่ามันจะดูเล็กน้อย :-) ก่อนอื่นคำถามอาจเป็นผลลัพธ์ของความแตกต่างทางภาษาหรือบางทีฉันมีข้อบกพร่องทางสถิติที่แท้จริง อย่างไรก็ตามนี่คือ: ในสถิติประชากรการแปรปรวนและความแปรปรวนเป็นคำเดียวกันหรือไม่ ถ้าไม่ความแตกต่างระหว่างสองคืออะไร ฉันรู้ว่าความแปรปรวนเป็นกำลังสองของค่าเบี่ยงเบนมาตรฐาน ฉันรู้ด้วยเช่นกันว่ามันเป็นการวัดว่าข้อมูลกระจัดกระจายแค่ไหนและฉันรู้วิธีการคำนวณ อย่างไรก็ตามฉันได้ติดตามหลักสูตร Coursera.org ที่เรียกว่า "การคิดแบบจำลอง" และผู้บรรยายอธิบายความแปรปรวนอย่างชัดเจน นั่นทำให้ฉันสับสนเล็กน้อย เพื่อความเป็นธรรมเขามักจะพูดคุยเกี่ยวกับการเปลี่ยนแปลงของอินสแตนซ์บางอย่างในประชากร ใครช่วยอธิบายให้ฉันได้ไหมถ้าคนเหล่านั้นใช้แทนกันได้หรือบางทีฉันอาจจะพลาดอะไรบางอย่างไป?

5
อนุกรมเวลาเหมือนกับกระบวนการสุ่มหรือไม่
กระบวนการสุ่มเป็นกระบวนการที่วิวัฒนาการไปตามกาลเวลาดังนั้นมันจึงเป็นวิธีที่ดีกว่าในการพูดว่า "อนุกรมเวลา" หรือไม่?

17
จะอธิบายสถิติในหนึ่งประโยคได้อย่างไร
เมื่อฉันเริ่มเรียนรู้สถิติขั้นตอนต่าง ๆ เช่น t-test, ANOVA, chi-squared และการถดถอยเชิงเส้นแต่ละครั้งดูเหมือนจะเป็นสิ่งมีชีวิตที่แตกต่างกันมาก แต่ตอนนี้ฉันตระหนักถึงขั้นตอนเหล่านี้แล้วแต่ละคนก็ทำสิ่งเดียวกันไม่มากก็น้อย และเช่นเดียวกันค่าต่างๆเช่นความแปรปรวนส่วนที่เหลือข้อผิดพลาดมาตรฐานและค่าเฉลี่ยก็วัดสิ่งเดียวกันไม่มากก็น้อย ดังนั้นฉันจึงคิดขั้นตอนและค่านิยมเหล่านี้ทั้งหมดและแน่นอนว่าสถิติทั้งหมดสามารถอธิบายได้ในประโยคเดียวง่ายๆ: ค่าที่คาดหวังคืออะไรและความแปรปรวนรอบค่านี้คืออะไร คำที่คาดว่าจะถูกแทนที่ด้วยคำเหล่านี้ใด ๆ : ตั้งสมมติฐานทำนายหรือกลาง คนอื่นจะอธิบายสถิติในหนึ่งประโยคได้อย่างไร
27 definition 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.