คำถามติดแท็ก terminology

การใช้และความหมายของคำศัพท์ / แนวคิดทางเทคนิคที่เฉพาะเจาะจงในสถิติ

1
อะไรคือองค์ประกอบหลัก“ ที่หมุน” และ“ ไม่ได้รับการป้องกัน” เนื่องจาก PCA จะหมุนแกนพิกัดเสมอ
เท่าที่ฉันเข้าใจส่วนประกอบหลักจะได้รับโดยการหมุนแกนพิกัดเพื่อจัดเรียงพวกเขากับทิศทางของความแปรปรวนสูงสุด อย่างไรก็ตามฉันยังคงอ่านเกี่ยวกับ "ส่วนประกอบหลักที่ไม่ได้ทำการหมุน" และซอฟต์แวร์สถิติของฉัน (SAS) ให้ส่วนประกอบหลักที่หมุนรอบตัวได้แบบแปรปรวนตลอดจนส่วนประกอบที่ไม่ได้หมุน ที่นี่ฉันสับสน: เมื่อเราคำนวณส่วนประกอบหลักแกนจะหมุนไปแล้ว เหตุใดจึงต้องมีการหมุนอีกครั้ง และ "องค์ประกอบหลักที่ยังไม่ได้ประมวลผล" หมายความว่าอย่างไร

1
ชุมชนการเรียนรู้ของเครื่องใช้กำลัง“ ละเมิดเงื่อนไข” และ“ ถูก จำกัด โดย” หรือไม่?
กล่าวว่าจะขึ้นอยู่กับα พูดอย่างจริงจังXXXαα\alpha ถ้าและαเป็นทั้งตัวแปรสุ่มเราสามารถเขียนp ( X ∣ α ) ;XXXαα\alphap ( X)∣ α )p(X∣α)p(X\mid\alpha) แต่ถ้าเป็นตัวแปรสุ่มและαเป็นพารามิเตอร์ที่เราต้องเขียนP ( X ; α )XXXαα\alphap ( X); α )p(X;α)p(X; \alpha) ฉันสังเกตเห็นหลายครั้งว่าชุมชนการเรียนรู้ของเครื่องดูเหมือนจะเพิกเฉยต่อความแตกต่างและใช้ข้อกำหนดในทางที่ผิด ตัวอย่างเช่นในโมเดล LDA ที่มีชื่อเสียงโดยที่คือพารามิเตอร์ Dirichlet แทนที่จะเป็นตัวแปรสุ่มαα\alpha ไม่ควรจะเป็น ? ฉันเห็นผู้คนจำนวนมากรวมทั้งเขียนต้นฉบับกระดาษ LDA ที่เขียนเป็นP ( θ | อัลฟ่า )p ( θ ; α )p(θ;α)p(\theta;\alpha)p ( θ ∣ α )p(θ∣α)p(\theta\mid\alpha)

2
ทำไมการกระจายเรขาคณิตและการกระจาย hypergeometric เรียกเช่นนี้?
ทำไมการกระจายเชิงเรขาคณิตและการกระจายhypergeometricเรียกว่า "เรขาคณิต" และ "hypergoemetric" ตามลำดับ? เป็นเพราะ pmfs ของพวกเขามีรูปแบบพิเศษหรือไม่? ขอบคุณ!

4
ความหมายของ“ การออกแบบ” ในเมทริกซ์การออกแบบ?
ในการถดถอยเชิงเส้นทำไมเรียกว่าเมทริกซ์การออกแบบ สามารถได้รับการออกแบบหรือสร้างโดยพลการในระดับหนึ่งเช่นเดียวกับในศิลปะ?Y=XβY=XβY= X\betaXXXXXX

2
“ การอนุมาน” รวมถึงการประมาณค่าหรือการทดสอบเท่านั้นหรือไม่?
คำว่า "อนุมานเชิงสถิติ" มีเพียงการทดสอบสมมติฐานหรือรวมถึงการประมาณจุดการประมาณช่วงเวลาเป็นต้น การอ้างอิงที่เชื่อถือได้จะได้รับการชื่นชมอย่างมาก

4
ทรัพย์สินเชิงปริมาณของประชากรเป็น“ พารามิเตอร์” หรือไม่?
ฉันค่อนข้างคุ้นเคยกับความแตกต่างระหว่างสถิติของคำและพารามิเตอร์ ฉันเห็นสถิติเป็นค่าที่ได้จากการใช้ฟังก์ชั่นกับข้อมูลตัวอย่าง อย่างไรก็ตามตัวอย่างส่วนใหญ่ของพารามิเตอร์เกี่ยวข้องกับการกำหนดการกระจายพารามิเตอร์ ตัวอย่างทั่วไปคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อกำหนดพารามิเตอร์การแจกแจงปกติหรือสัมประสิทธิ์และความแปรปรวนข้อผิดพลาดในการกำหนดพารามิเตอร์เป็นการถดถอยเชิงเส้น อย่างไรก็ตามมีค่าอื่น ๆ อีกมากมายของการกระจายตัวของประชากรที่น้อยกว่าต้นแบบ (เช่น, ต่ำสุด, สูงสุด, r-Square ในการถดถอยหลายครั้ง, .25 quantile, ค่ามัธยฐาน, จำนวนของตัวทำนายที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์, ความเบ้, จำนวน ของความสัมพันธ์ในเมทริกซ์สหสัมพันธ์มากกว่า. 3 เป็นต้น) ดังนั้นคำถามของฉันคือ: ทรัพย์สินเชิงปริมาณของประชากรควรมีป้ายกำกับว่า "พารามิเตอร์" หรือไม่? ถ้าใช่แล้วทำไม หากไม่มีคุณลักษณะใดที่ไม่ควรระบุพารามิเตอร์ พวกเขาควรติดป้ายอะไร และทำไม? อธิบายรายละเอียดเกี่ยวกับความสับสน บทความ Wikipedia เกี่ยวกับตัวประมาณค่า: "ตัวประมาณค่า" หรือ "การประมาณค่าจุด" คือสถิติ (นั่นคือฟังก์ชันของข้อมูล) ที่ใช้เพื่ออนุมานค่าของพารามิเตอร์ที่ไม่รู้จักในแบบจำลองทางสถิติ แต่ฉันสามารถกำหนดค่าที่ไม่รู้จักเป็น. 25 quantile และฉันสามารถพัฒนาตัวประมาณค่าสำหรับค่าที่ไม่รู้จักนั้น คือคุณสมบัติเชิงปริมาณของประชากรทั้งหมดไม่ใช่พารามิเตอร์ในลักษณะเดียวกับที่บอกว่าค่าเฉลี่ยและ sd เป็นพารามิเตอร์ของการแจกแจงแบบปกติทว่ามันถูกต้องตามกฎหมายที่จะพยายามประเมินคุณสมบัติเชิงปริมาณของประชากร

1
สิ่งที่อาจเกิดขึ้นในตารางฉุกเฉิน?
Merriam-Websterพจนานุกรมกำหนดผูกพันเหตุการณ์หรือสถานการณ์ 1 : likely but not certain to happen : possible 2 : not logically necessary; especially : empirical 3 a : happening by chance or unforeseen causes b : subject to chance or unseen effects : unpredictable c : intended for use in circumstances not completely foreseen 4 : …

3
เคอร์เนลคืออะไรและอะไรที่ทำให้แตกต่างจากฟังก์ชั่นอื่น ๆ
ดูเหมือนว่าจะมีอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากที่อาศัยฟังก์ชั่นเคอร์เนล SVMs และ NNs เป็นชื่อ แต่มีสองอย่าง ดังนั้นความหมายของฟังก์ชั่นเคอร์เนลคืออะไรและข้อกำหนดสำหรับมันที่จะถูกต้องคืออะไร?


2
“ กำลังสองน้อยที่สุด” และ“ การถดถอยเชิงเส้น” เป็นคำพ้องความหมายหรือไม่?
ความแตกต่างระหว่างกำลังสองน้อยที่สุดกับการถดถอยเชิงเส้นคืออะไร มันเป็นสิ่งเดียวกันหรือไม่?

7
มาตรฐานทองคำมีความหมายอย่างไร?
ในขณะที่อ่านเอกสารไม่กี่ฉันเจอคำว่า "ชุดทองคำ" หรือ "มาตรฐานทองคำ" สิ่งที่ฉันไม่เข้าใจคือสิ่งที่ทำให้ชุดข้อมูลมาตรฐานทองคำ? การยอมรับจากคนรอบข้างการอ้างอิงและหากเสรีภาพของนักวิจัยและความเกี่ยวข้องกับปัญหาเขากำลังโจมตี?

2
ความแตกต่างระหว่างตัวแปรสุ่มและตัวอย่างสุ่มคืออะไร?
การแสดงออกสองอย่างนี้ทำให้ฉันสับสนมากเมื่อฉันเรียนรู้สถิติ ดูเหมือนว่าพวกเขาจะแตกต่างกันโดยสิ้นเชิง ตัวอย่างสุ่มคือการสุ่มเก็บตัวอย่างจากประชากรในขณะที่ตัวแปรสุ่มเป็นเหมือนฟังก์ชั่นที่แมปชุดของผลลัพธ์ที่เป็นไปได้ทั้งหมดของการทดสอบเป็นจำนวนจริง อย่างไรก็ตามพูดว่าถ้าฉันวาดตัวอย่าง , ,และ , โดยที่และไม่เป็นที่รู้จักคือ , ,ตัวอย่างสุ่มหรือตัวแปรสุ่ม?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3

2
ระเบียบและการทำให้เป็นมาตรฐานคืออะไร
ฉันได้ยินคำเหล่านี้มากขึ้นเรื่อย ๆ เมื่อฉันเรียนรู้การเรียนรู้ด้วยเครื่อง ในความเป็นจริงบางคนได้รับรางวัลเหรียญฟิลด์จากการทำงานเป็นปกติของสมการ ดังนั้นฉันคิดว่านี่เป็นคำที่นำตัวเองจากฟิสิกส์เชิงสถิติ / คณิตศาสตร์ไปสู่การเรียนรู้ของเครื่อง โดยธรรมชาติแล้วคนจำนวนมากที่ฉันถามก็ไม่สามารถอธิบายได้โดยสัญชาตญาณ ฉันรู้ว่าวิธีการต่าง ๆ เช่นความช่วยเหลือแบบดรอปเอาท์ในการทำให้เป็นมาตรฐาน (=> พวกเขาบอกว่ามันลดการ overfitting แต่ฉันไม่เข้าใจว่ามันคืออะไร: ถ้ามันลดการ overfitting เท่านั้นทำไมไม่เพียงเรียกมันว่า anti-overfitting method => ฉันคิดอะไรมากกว่านี้ดังนั้นคำถามนี้) ฉันจะขอบคุณจริงๆ (ฉันเดาว่าชุมชน ML ไร้เดียงสาก็คงจะเหมือนกัน!) ถ้าคุณสามารถอธิบายได้: คุณจะกำหนดความสม่ำเสมอได้อย่างไร ระเบียบคืออะไร การทำให้เป็นมาตรฐานเป็นวิธีที่ทำให้มั่นใจได้ว่าเป็นเรื่องปกติหรือไม่? คือการจับภาพของระเบียบ? เหตุใดวิธีการรวมกลุ่มเช่นการออกกลางคันวิธีการทำให้เป็นมาตรฐานทั้งหมดจึงอ้างว่ากำลังทำให้เป็นมาตรฐาน ทำไม (ความสม่ำเสมอ / การทำให้เป็นมาตรฐาน) เหล่านี้เกิดขึ้นในการเรียนรู้ของเครื่อง? ขอบคุณมาก ๆ สำหรับความช่วยเหลือของคุณ.

3
สิ่งที่มีคุณสมบัติเป็นประจำที่ดีหมายถึงอะไร
ฉันมักจะได้ยินวลีนี้ แต่ไม่เคยเข้าใจความหมายทั้งหมด วลีที่ว่า "คุณสมบัติ frequentist ดี" มี ~ 2750 ฮิตใน google ในปัจจุบัน 536 ใน scholar.google.com และ4 stats.stackexchange.com สิ่งที่ใกล้เคียงที่สุดที่ฉันพบกับคำจำกัดความที่ชัดเจนมาจากสไลด์สุดท้ายในการนำเสนอของมหาวิทยาลัยสแตนฟอร์ดซึ่งกล่าวถึง [T] เขาหมายถึงการรายงานช่วงเวลาความมั่นใจ 95% คือคุณ“ ดักจับ” พารามิเตอร์ที่แท้จริงใน 95% ของการอ้างสิทธิ์ที่คุณทำแม้กระทั่งกับปัญหาการประมาณการที่แตกต่างกัน นี่คือลักษณะที่กำหนดของขั้นตอนการประมาณค่าซึ่งมีคุณสมบัติของนักสะสมประจำที่ดีพวกเขาสามารถตรวจสอบได้เมื่อใช้ซ้ำ ๆ สะท้อนให้เห็นถึงเรื่องนี้ฉันคิดว่าวลี "คุณสมบัติบ่อย ๆ ดี" หมายถึงการประเมินของวิธีเบย์บางและโดยเฉพาะอย่างยิ่งวิธีเบส์ในการก่อสร้างช่วงเวลา ผมเข้าใจว่าช่วงเวลาแบบเบย์จะหมายถึงการมีค่าที่แท้จริงของพารามิเตอร์ที่มีความน่าจะเป็นพีช่วงเวลาที่พบบ่อยจะหมายถึงการสร้างเช่นว่าหากกระบวนการของการก่อสร้างช่วงเวลาซ้ำหลายครั้งเกี่ยวกับของช่วงเวลาจะมีค่าที่แท้จริงของพารามิเตอร์ ช่วงเวลาแบบเบย์โดยทั่วไปไม่ได้ให้สัญญาใด ๆ เกี่ยวกับสิ่งที่% ของช่วงเวลาจะครอบคลุมถึงมูลค่าที่แท้จริงของพารามิเตอร์ อย่างไรก็ตามวิธีการแบบเบย์บางครั้งก็มีคุณสมบัติที่ถ้าทำซ้ำหลายครั้งพวกเขาครอบคลุมมูลค่าที่แท้จริงเกี่ยวกับp ∗ 100 % p ∗ 100 %pppp∗100%p∗100%p*100\%p∗100%p∗100%p*100\%ของเวลา เมื่อพวกเขามีคุณสมบัตินั้นเราบอกว่าพวกเขามี "คุณสมบัติที่ดีเป็นประจำ" นั่นถูกต้องใช่ไหม? รูปผมว่าต้องมีมากขึ้นไปกว่านั้นเนื่องจากวลีหมายถึง …

1
อะไรคือความแตกต่างระหว่าง "สัดส่วนที่นับ" และ "สัดส่วนต่อเนื่อง"
ในความคิดเห็นเกี่ยวกับคำถามอื่นการชี้แจงถูกถามว่าหัวข้อภายใต้การอภิปรายคือ "การนับสัดส่วน" หรือ "สัดส่วนต่อเนื่อง" และการติดตามระบุว่าความแตกต่างเป็นข้อมูลที่สำคัญ (ในหัวข้อของการถดถอยโลจิสติก / ความแตกต่างระหว่างทั้งสองคืออะไรและความแตกต่างที่สำคัญ? สิ่งสำคัญที่ควรคำนึงถึงเมื่อทำงานกับ "สัดส่วนที่นับได้" กับเมื่อทำงานกับ "สัดส่วนที่ต่อเนื่อง" คืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.