คำถามติดแท็ก terminology

การใช้และความหมายของคำศัพท์ / แนวคิดทางเทคนิคที่เฉพาะเจาะจงในสถิติ

1
อะไรคือความแตกต่างระหว่าง "การบรรทุก" และ "การโหลดความสัมพันธ์" ใน PCA และ PLS
สิ่งหนึ่งที่ต้องทำเมื่อทำการวิเคราะห์ส่วนประกอบหลัก (PCA) คือการพล็อตการโหลดสองครั้งต่อกันเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปร ในกระดาษที่มาพร้อมกับแพคเกจ PLS Rสำหรับการทำส่วนประกอบหลักการถดถอยและการถดถอย PLS มีพล็อตที่แตกต่างกันที่เรียกว่าพล็อตโหลดความสัมพันธ์ (ดูรูปที่ 7 และหน้า 15 ในกระดาษ) การโหลดความสัมพันธ์ตามที่อธิบายไว้คือความสัมพันธ์ระหว่างคะแนน (จาก PCA หรือ PLS) และข้อมูลที่สังเกตได้จริง สำหรับฉันแล้วการโหลดและความสัมพันธ์มีความคล้ายคลึงกันยกเว้นว่าอัตราส่วนจะถูกปรับให้แตกต่างกันเล็กน้อย ตัวอย่างที่ทำซ้ำได้ใน R พร้อมกับชุดข้อมูล mtcars ในตัวมีดังนี้: data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], …

2
p-values“ เสรี”
คำถามของฉันค่อนข้างมีความหมาย เมื่อเมธอดสร้างค่า p สูงเป็นประจำจะเรียกว่าการอนุรักษ์ คุณจะเรียกสิ่งที่ตรงกันข้ามนั่นคือวิธีการที่มีอัตราการพิมพ์ผิดพลาดสูงหรือไม่?

2
ทำไมเนย์แมน - เพียร์สันบทแทรกบทแทรกและไม่ใช่ทฤษฎีบท?
นี่เป็นคำถามประวัติมากกว่าคำถามทางเทคนิค ทำไมเนย์แมน - เพียร์สันบทแทรกบทเล็มม่าไม่ใช่ทฤษฎีบท ลิงก์ไปยังวิกิ: https://en.wikipedia.org/wiki/Neyman%E2%80%93Pearson_lemma หมายเหตุ : คำถามไม่ได้เกี่ยวกับบทแทรกคืออะไรและวิธีใช้บทแทรกเพื่อพิสูจน์ทฤษฎีบท แต่เกี่ยวกับประวัติของบทแทรกของ Neyman-Pearson มันใช้เพื่อพิสูจน์ทฤษฎีบทแล้วมันเกิดประโยชน์มากขึ้นหรือไม่? มีหลักฐานใด ๆ เกี่ยวกับเรื่องนี้นอกเหนือจากความสงสัยว่าเป็นกรณีนี้หรือไม่?

4
“ การฉายแบบสุ่ม” ไม่ใช่การฉายอย่างเคร่งครัดหรือไม่?
การใช้งานปัจจุบันของอัลกอริธึมการฉายแบบสุ่มลดมิติข้อมูลตัวอย่างโดยการแมปจากถึงโดยใช้เมทริกซ์การฉายซึ่งรายการนั้นมีการกระจายที่เหมาะสม (เช่นจาก ):RdRd\mathbb R^dRkRk\mathbb R^kd× kd×kd\times kRRRยังไม่มีข้อความ( 0 , 1 )N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR สะดวกพิสูจน์หลักฐานทางทฤษฎีที่มีอยู่แสดงให้เห็นว่าการทำแผนที่นี้ประมาณรักษาระยะทางคู่ อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันพบบันทึกเหล่านี้ที่ผู้เขียนอ้างว่าการแมปนี้ด้วยเมทริกซ์แบบสุ่มไม่ใช่การฉายภาพในความหมายเชิงพีชคณิตเชิงเส้นที่เข้มงวดของคำ (หน้า 6) จากคำอธิบายที่ให้มีนี้เป็นเพราะคอลัมน์ของไม่ได้ฉากอย่างเคร่งครัดเมื่อรายการของตนได้รับการแต่งตั้งเป็นอิสระจาก(0,1) ดังนั้นรุ่นก่อนหน้าของ RP ที่มีการบังคับใช้มุมฉากของคอลัมน์ถูกบังคับให้ถือเป็นเส้นโครงRRRN(0,1)N(0,1)\mathcal N(0,1)RRR คุณสามารถให้คำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับ (1) คำจำกัดความของการฉายภาพในแง่ที่เข้มงวดนี้คืออะไรและ (2) เหตุใด RP จึงไม่ฉายภายใต้คำจำกัดความนี้

6
"หนึ่งร้อน" การเข้ารหัสที่เรียกว่าในวรรณคดีวิทยาศาสตร์คืออะไร?
อะไรคือชื่อของโอเปอเรเตอร์ที่นำเวกเตอร์ที่มีหมวดหมู่และแปลงให้เป็นตัวแทนแบบไบนารี่โดยใช้การเข้ารหัสแบบร้อนแรง ฉันสงสัยเพราะฉันกำลังเขียนบทความทางวิทยาศาสตร์และต้องการชื่อที่เหมาะสมสำหรับสิ่งนั้น

4
"ชุดข้อมูล" มีความหมายอะไรกันแน่?
มันเป็นเพียงการรวมจุดข้อมูล? หรือมันคือการเป็นตัวแทนของจุดข้อมูลสำหรับองค์ประกอบที่แตกต่างกันในรูปแบบตารางจัดเรียงกับค่าของตัวแปรที่แตกต่างกันอย่างไร มันแตกต่างจากข้อมูลดิบอย่างไร

2
อคติเป็นทรัพย์สินของผู้ประมาณค่าหรือจากการประมาณค่าโดยเฉพาะหรือไม่?
เป็นตัวอย่างที่ผมมักจะพบนักเรียนที่รู้ว่าสังเกตเป็นประมาณการลำเอียงของประชากร 2 จากนั้นเมื่อเขียนรายงานพวกเขาพูดเช่น:R2R2R^2R2R2R^2 "ฉันคำนวณ Observedและ Adjustedและพวกมันก็ค่อนข้างคล้ายกันโดยแนะนำอคติเพียงเล็กน้อยในค่า Observedเราได้รับ"R2R2R^2R2R2R^2R2R2R^2 ฉันได้รับโดยทั่วไปเมื่อเราพูดถึงอคติเรามักพูดถึงคุณสมบัติของตัวประมาณมากกว่าการประมาณโดยเฉพาะ อย่างไรก็ตามข้อความที่ยกมานั้นเป็นคำที่ใช้ผิดวัตถุประสงค์หรือไม่

1
ชื่อลำดับที่สูงขึ้นและโมเมนต์ที่เกินความแปรปรวนความเบ้และความโด่ง
ในฟิสิกส์หรือคณิตศาสตร์กลเริ่มจากตำแหน่งตามเวลา , หนึ่งได้รับอัตราการเปลี่ยนแปลงผ่านอนุพันธ์ที่เกี่ยวกับเวลา: ความเร็ว, การเร่ง, เหวี่ยง (ลำดับที่ 3), jounce (ลำดับที่ 4)x ( t )x(เสื้อ)x(t) มีบางคนเสนอ snap, crackle, popสำหรับอนุพันธ์ถึงลำดับที่เจ็ด ช่วงเวลาที่ได้รับแรงบันดาลใจจากฟิสิกส์เชิงกลและทฤษฎีความยืดหยุ่นนั้นมีความสำคัญในสถิติเช่นกันดู'ช่วงเวลา' เกี่ยวกับ 'ช่วงเวลา' ของการแจกแจงความน่าจะเป็นอย่างไร สำหรับการกล่าวถึงต้นในงานของคุณเพียร์สัน -lag cumulants แรกซึ่งบางครั้งเป็นมาตรฐานหรือกึ่งกลางเป็นความแปรปรวนชื่อคลาสสิก(คำสั่งที่ 2) ความเบ้ (คำสั่งที่ 3) และkurtosis หรือความเรียบ (ลำดับที่ 4)000 มีการยอมรับกันโดยทั่วไปหรือชื่อที่เป็นที่ยอมรับสำหรับลำดับที่ 5 หรือลำดับที่ 6 หรือมากกว่าและนอกเหนือจาก (นอกเหนือจาก "ช่วงเวลาที่สูงขึ้นของคำสั่งซื้อ") ถึงแม้ว่าการประมาณของพวกเขาจะมีปัญหาในตัวอย่าง จำกัด การอ้างอิงจากสูตรอาหารเชิงตัวเลขรุ่นที่ 3: ศิลปะการคำนวณทางวิทยาศาสตร์หน้า 723 : ควรใช้ความเบ้ (หรือช่วงเวลาที่สาม) …

3
คำว่า "เรียนรู้แบบจำลอง" มาจากที่ใด
บ่อยครั้งที่ฉันเคยได้ยินว่าผู้ขุดข้อมูลใช้คำนี้ ในฐานะนักสถิติที่ทำงานเกี่ยวกับการจำแนกปัญหาฉันคุ้นเคยกับคำว่า "ฝึกฝนลักษณนาม" และฉันถือว่า "เรียนรู้ตัวแบบ" หมายถึงสิ่งเดียวกัน ฉันไม่สนใจคำว่า "ฝึกฝนลักษณนาม" ที่ดูเหมือนจะแสดงให้เห็นถึงแนวคิดของการปรับโมเดลให้เหมาะสมเนื่องจากข้อมูลการฝึกอบรมใช้เพื่อให้ได้ค่าประมาณที่ดีขึ้นหรือ "ดีขึ้น" ของพารามิเตอร์โมเดล แต่การเรียนรู้จะหมายถึงการได้รับความรู้ ในภาษาอังกฤษธรรมดา "เรียนรู้แบบจำลอง" จะหมายถึงการรู้ว่ามันคืออะไร แต่ในความเป็นจริงเราไม่เคย "รู้" โมเดล แบบจำลองความเป็นจริงโดยประมาณ แต่ไม่มีแบบจำลองที่ถูกต้อง มันเหมือนที่ Box บอกว่า "ไม่มีรุ่นที่ถูกต้อง แต่บางรุ่นก็มีประโยชน์" ฉันสนใจที่จะฟังการตอบสนองของผู้ปฏิบัติข้อมูล คำนี้มาอย่างไร ถ้าคุณใช้มันคุณชอบมันทำไม

1
ระบบการตั้งชื่อทางซ้ายและทางขวาในโมเดลการถดถอย
Y=β0+β1x1+ε0y=β0+β1x1+ε0y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0} ภาษาที่ใช้อธิบายแบบจำลองการถดถอยเช่นการถดถอยเชิงเส้นอย่างง่ายที่ระบุไว้ข้างต้นมักจะแตกต่างกันไปและรูปแบบดังกล่าวมักจะมีการเปลี่ยนแปลงเล็กน้อยในความหมาย ตัวอย่างเช่นส่วนหนึ่งของแบบจำลองทางด้านซ้ายมือของสมการอาจถูกเรียก (ในหมู่คนอื่นที่ฉันไม่รู้) ด้วยความหมายและ denotations ในวงเล็บ: ตัวแปรที่ขึ้นอยู่กับ (คำแนะนำที่การพึ่งพาสาเหตุ) ตัวแปรที่คาดการณ์ (หมายถึงตัวแบบการคาดการณ์ / ทำการคาดการณ์) ตัวแปรตอบสนอง (หมายถึงเวรกรรมหรืออย่างน้อยที่สุดลำดับเวลา) ตัวแปรผลลัพธ์ (บอกถึงสาเหตุ) การเปลี่ยนแปลงในระบบการตั้งชื่อก็เป็นจริงเช่นกันที่ด้านขวามือของสมการ (ข้อจำกัดความรับผิดชอบเดียวกับที่ฉันเป็นผู้เพิกเฉยเกี่ยวกับเงื่อนไขอื่น ๆ ): ตัวแปรอิสระ (หมายถึงลำดับความสำคัญเชิงสาเหตุคำแนะนำในการออกแบบการทดลอง) ตัวแปร Predictor (บอกเป็นนัยถึงการคาดการณ์หมายถึงว่าตัวแปรนั้นมีการประมาณค่าพารามิเตอร์ที่ไม่เป็นศูนย์ซึ่งเกี่ยวข้องกับมัน) ในหลักสูตรของการเสนอ vetting หรือการสื่อสารการวิจัยฉันมีโอกาสที่จะไม่เพียง แต่เรียกว่าการใช้หนึ่งคำหรืออื่น แต่ต่อมาจะเรียกในระยะที่ฉันเลือกที่จะแทนที่ด้วย ในขณะที่ผู้คนที่โทรเข้ามานั้นดูเหมือนว่าเป็นคนช่างพูด (NB: ฉันเป็นคนอวดรู้มืออาชีพดังนั้นฉันก็เห็นอกเห็นใจ) เพราะแน่นอนว่าพวกเราทุกคนเข้าใจในสิ่งที่กำลังสื่อสารกันอยู่ฉันก็ยังสงสัยว่า: มีคำศัพท์ที่ใช้กันทั่วไปสำหรับตัวแปรทางซ้ายและมือขวาในตัวแบบการถดถอยที่ไม่เชื่อเรื่องพระเจ้าที่เกี่ยวกับ (a) การใช้ภายนอกของแบบจำลอง (b) ความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรและ (c) แง่มุมของการศึกษา การออกแบบที่ใช้ในการผลิตตัวแปรตัวเอง? หมายเหตุ: …


1
เป็นค่าเศษซากที่นักเรียนได้รับ v / s ที่เหลือเป็นค่ามาตรฐานในรูปแบบ lm
"เศษเหลือของนักเรียน" และ "เศษซากมาตรฐาน" เหมือนกันในแบบจำลองการถดถอยหรือไม่ ฉันสร้างแบบจำลองการถดถอยเชิงเส้นใน R และต้องการพล็อตกราฟของค่าติดตั้ง Studentized v / s ที่ติดตั้งไว้ แต่ไม่พบวิธีอัตโนมัติในการทำเช่นนี้ใน R สมมติว่าฉันมีรูปแบบ library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) จากนั้นการใช้plot(lm.fit)ไม่ได้ให้พล็อตใด ๆ ของค่าเศษ Studentized เทียบกับค่าติดตั้ง แต่ยังให้ค่าพล็อตค่ามาตรฐานกับค่าที่ติดตั้ง ฉันใช้plot(lm.fit$fitted.values,studres(lm.fit)แล้วมันจะพล็อตกราฟที่ต้องการดังนั้นเพียงแค่ต้องการยืนยันว่าฉันกำลังไปทางที่ถูกต้องและส่วนที่เหลือเป็นนักเรียนและมาตรฐานไม่ใช่สิ่งเดียวกัน หากพวกเขาแตกต่างกันโปรดให้คำแนะนำในการคำนวณพวกเขาและคำจำกัดความของพวกเขา ฉันค้นหาผ่านเน็ตและพบว่ามันสับสนเล็กน้อย

3
การคำนวณ“ ความน่าจะเป็นของการครอบคลุมจริง” นั้นเหมือนกับการคำนวณ“ ช่วงเวลาที่น่าเชื่อถือ” หรือไม่
ฉันอ่านตำราสถิติระดับเริ่มต้น ในบทที่เกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดของสัดส่วนความสำเร็จของข้อมูลที่มีการแจกแจงแบบทวินามมันเป็นสูตรสำหรับการคำนวณช่วงความเชื่อมั่น พิจารณาความน่าจะเป็นที่ครอบคลุมจริงของมันนั่นคือความน่าจะเป็นที่วิธีการสร้างช่วงเวลาที่จับค่าพารามิเตอร์ที่แท้จริง นี่อาจจะน้อยกว่าค่าเล็กน้อย และดำเนินต่อไปพร้อมกับข้อเสนอแนะในการสร้างทางเลือก "ช่วงความมั่นใจ" ซึ่งน่าจะมีความน่าจะเป็นที่ครอบคลุม ฉันเผชิญหน้ากับความคิดของความน่าจะเป็นที่ครอบคลุมและตามจริงเป็นครั้งแรก ทำทางของฉันผ่านคำถามเก่า ๆ ที่นี่ฉันคิดว่าฉันเข้าใจมัน: มีแนวคิดที่แตกต่างกันสองอย่างที่เราเรียกว่าความน่าจะเป็นสิ่งแรกที่เป็นไปได้ที่จะเป็นไปได้ว่าเหตุการณ์ที่ยังไม่เกิดขึ้นจะให้ผลลัพธ์ที่กำหนด เป็นไปได้อย่างไรที่ตัวแทนของผู้สังเกตการณ์คาดเดาผลของเหตุการณ์ที่เกิดขึ้นแล้วนั้นเป็นจริง ดูเหมือนว่าช่วงความเชื่อมั่นจะวัดความน่าจะเป็นประเภทแรกเท่านั้นและสิ่งที่เรียกว่า "ช่วงเวลาที่น่าเชื่อถือ" วัดความน่าจะเป็นประเภทที่สอง ฉันสรุปโดยสรุปว่าความมั่นใจเป็นช่วงเวลาที่คำนวณ "ความน่าจะเป็นความครอบคลุมเล็กน้อย" และช่วงเวลาที่น่าเชื่อถือคือช่วงเวลาที่ครอบคลุม "ความน่าจะเป็นความคุ้มครองตามจริง" แต่บางทีฉันอาจตีความหนังสือผิดไป (ไม่ชัดเจนเลยว่าวิธีการคำนวณที่แตกต่างกันนั้นมีให้สำหรับช่วงความมั่นใจและช่วงเวลาที่น่าเชื่อถือหรือช่วงความเชื่อมั่นสองประเภท) หรือแหล่งข้อมูลอื่นที่ฉันเคยมา ความเข้าใจปัจจุบันของฉัน โดยเฉพาะความคิดเห็นที่ฉันได้จากคำถามอื่น ช่วงความเชื่อมั่นสำหรับผู้ถี่ประจำเชื่อถือได้สำหรับ Bayesian ทำให้ฉันสงสัยในข้อสรุปของฉันเนื่องจากหนังสือเล่มนี้ไม่ได้อธิบายวิธีการแบบเบย์ในบทนั้น ดังนั้นโปรดอธิบายหากความเข้าใจของฉันถูกต้องหรือถ้าฉันทำผิดพลาดทางตรรกะ


2
การย่อยสลายความแปรปรวนแบบอคติ: คำที่คาดการณ์ข้อผิดพลาดกำลังสองน้อยกว่าข้อผิดพลาดลดลง
Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ" (2009) พิจารณากระบวนการสร้างข้อมูล กับและvarepsilon}Y= f( X) + εY=f(X)+ε Y = f(X) + \varepsilon E (ε)=0E(ε)=0\mathbb{E}(\varepsilon)=0Var ( ε ) =σ2εVar(ε)=σε2\text{Var}(\varepsilon)=\sigma^2_{\varepsilon} พวกเขานำเสนอการสลายตัวอคติ - แปรปรวนต่อไปนี้ของข้อผิดพลาดคาดการณ์กำลังสองที่จุด (หน้า 223 สูตร 7.9): ในของฉัน งานของตัวเองฉันไม่ได้ระบุแต่รับการคาดการณ์แบบสุ่มแทน (ถ้าเกี่ยวข้อง) คำถาม:ฉันกำลังมองหาคำว่า หรือแม่นยำยิ่งขึ้น x0x0x_0ข้อผิดพลาด(x0)= E ( [ y-ฉ^(x0)]2|X=x0)= ...=σ2ε+อคติ2(ฉ^(x0) ) + Var (ฉ^(x0) )= ข้อผิดพลาดลดลง +อคติ2+ แปรปรวนErr(x0)=E([y−f^(x0)]2|X=x0)=…=σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.\begin{aligned} \text{Err}(x_0) &= …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.