สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เหตุใดเราจึงใช้การทดสอบ F-test แบบหางเดียวในการวิเคราะห์ความแปรปรวน (ANOVA)
คุณสามารถให้เหตุผลในการใช้การทดสอบแบบหางเดียวในการวิเคราะห์การทดสอบความแปรปรวนได้หรือไม่? เหตุใดเราจึงใช้การทดสอบแบบหางเดียว - การทดสอบ F - ใน ANOVA

4
ความหมายของ“ การออกแบบ” ในเมทริกซ์การออกแบบ?
ในการถดถอยเชิงเส้นทำไมเรียกว่าเมทริกซ์การออกแบบ สามารถได้รับการออกแบบหรือสร้างโดยพลการในระดับหนึ่งเช่นเดียวกับในศิลปะ?Y=XβY=XβY= X\betaXXXXXX

2
กระบวนการ AR (1) ที่มีข้อผิดพลาดในการวัดที่ต่างกัน
1. ปัญหา ฉันมีการวัดตัวแปรโดยที่ซึ่งฉันมีการแจกแจงได้รับผ่าน MCMC ซึ่งสำหรับความเรียบง่ายฉันจะถือว่าเป็น gaussian ของค่าเฉลี่ยและความแปรปรวน 2 T = 1 , 2 , . , n f y t ( y t ) μ t σ 2 tytyty_tt=1,2,..,nt=1,2,..,nt=1,2,..,nfyt(yt)fyt(yt)f_{y_t}(y_t)μtμt\mu_tσ2tσt2\sigma_t^2 ฉันมีแบบจำลองทางกายภาพสำหรับการสังเกตเหล่านั้นพูดแต่ส่วนที่เหลือดูเหมือนจะมีความสัมพันธ์; โดยเฉพาะอย่างยิ่งผมมีเหตุผลทางกายภาพที่จะคิดว่าขั้นตอนจะพอเพียงที่จะคำนึงถึงความสัมพันธ์และผมวางแผนที่จะได้รับค่าสัมประสิทธิ์ของความพอดีผ่าน MCMC ซึ่งฉันต้องการโอกาส ฉันคิดว่าวิธีการแก้ปัญหาค่อนข้างง่าย แต่ฉันไม่แน่ใจ (ดูเหมือนง่ายมากที่ฉันคิดว่าฉันขาดอะไรไป)r t = μ t - g ( t ) A R ( 1 )g(t)g(t)g(t)rt=μt−g(t)rt=μt−g(t)r_t …

2
“ การอนุมาน” รวมถึงการประมาณค่าหรือการทดสอบเท่านั้นหรือไม่?
คำว่า "อนุมานเชิงสถิติ" มีเพียงการทดสอบสมมติฐานหรือรวมถึงการประมาณจุดการประมาณช่วงเวลาเป็นต้น การอ้างอิงที่เชื่อถือได้จะได้รับการชื่นชมอย่างมาก

2
multiclass perceptron ทำงานอย่างไร
ฉันไม่มีพื้นหลังในวิชาคณิตศาสตร์ แต่ฉันเข้าใจว่า Perceptron ง่าย ๆ ทำงานอย่างไรและฉันคิดว่าฉันเข้าใจแนวคิดของไฮเปอร์เพลน (ฉันจินตนาการว่ามันเป็นเรขาคณิตในระนาบในอวกาศ 3 มิติซึ่งแยกเมฆสองจุดออกเป็นเส้นแยกกัน เมฆสองจุดในพื้นที่ 2 มิติ) แต่ฉันไม่เข้าใจว่าระนาบหนึ่งเส้นหรือหนึ่งเส้นสามารถแยกเมฆจุดแตกต่างกันสามจุดในพื้นที่ 3 มิติหรือในพื้นที่ 2 มิติตามลำดับ - นี่เป็นไปไม่ได้ทางเรขาคณิตใช่ไหม? ฉันพยายามเข้าใจส่วนที่เกี่ยวข้องในบทความ Wikipediaแต่ล้มเหลวอย่างน่าสมเพชในประโยค“ ที่นี่อินพุต x และผลลัพธ์ y ถูกดึงออกมาจากชุดที่กำหนดเอง” ใครบางคนสามารถอธิบาย perceptron แบบหลายคลาสให้ฉันและมันเป็นไปตามแนวคิดของไฮเปอร์เพลนหรืออาจชี้ให้ฉันไปที่คำอธิบายที่ไม่เกี่ยวกับคณิตศาสตร์?

3
ต้องการอัลกอริทึมในการคำนวณความน่าจะเป็นที่ข้อมูลนั้นเป็นตัวอย่างจากการแจกแจงแบบปกติเทียบกับการเข้าสู่ระบบแบบปกติ
สมมติว่าคุณมีชุดของค่าและคุณต้องการที่จะทราบว่ามีแนวโน้มที่พวกเขาถูกสุ่มตัวอย่างจากการแจกแจงแบบเกาส์ (ปกติ) หรือสุ่มตัวอย่างจากการแจกแจงแบบล็อกนอร์มหรือไม่? แน่นอนว่าคุณควรจะรู้อะไรบางอย่างเกี่ยวกับประชากรหรือเกี่ยวกับแหล่งที่มาของข้อผิดพลาดการทดลองดังนั้นจะมีข้อมูลเพิ่มเติมที่เป็นประโยชน์ในการตอบคำถาม แต่ที่นี่สมมติว่าเรามีเพียงชุดของตัวเลขและไม่มีข้อมูลอื่น ๆ ซึ่งมีแนวโน้มมากขึ้น: การสุ่มตัวอย่างจากเกาส์เซียนหรือการสุ่มตัวอย่างจากการแจกแจงแบบปกติ มีโอกาสมากแค่ไหน? สิ่งที่ฉันหวังคืออัลกอริธึมที่จะเลือกระหว่างสองรุ่นและหวังว่าจะได้ปริมาณเชิงปริมาณของแต่ละรุ่น

4
ทรัพย์สินเชิงปริมาณของประชากรเป็น“ พารามิเตอร์” หรือไม่?
ฉันค่อนข้างคุ้นเคยกับความแตกต่างระหว่างสถิติของคำและพารามิเตอร์ ฉันเห็นสถิติเป็นค่าที่ได้จากการใช้ฟังก์ชั่นกับข้อมูลตัวอย่าง อย่างไรก็ตามตัวอย่างส่วนใหญ่ของพารามิเตอร์เกี่ยวข้องกับการกำหนดการกระจายพารามิเตอร์ ตัวอย่างทั่วไปคือค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อกำหนดพารามิเตอร์การแจกแจงปกติหรือสัมประสิทธิ์และความแปรปรวนข้อผิดพลาดในการกำหนดพารามิเตอร์เป็นการถดถอยเชิงเส้น อย่างไรก็ตามมีค่าอื่น ๆ อีกมากมายของการกระจายตัวของประชากรที่น้อยกว่าต้นแบบ (เช่น, ต่ำสุด, สูงสุด, r-Square ในการถดถอยหลายครั้ง, .25 quantile, ค่ามัธยฐาน, จำนวนของตัวทำนายที่มีค่าสัมประสิทธิ์ไม่ใช่ศูนย์, ความเบ้, จำนวน ของความสัมพันธ์ในเมทริกซ์สหสัมพันธ์มากกว่า. 3 เป็นต้น) ดังนั้นคำถามของฉันคือ: ทรัพย์สินเชิงปริมาณของประชากรควรมีป้ายกำกับว่า "พารามิเตอร์" หรือไม่? ถ้าใช่แล้วทำไม หากไม่มีคุณลักษณะใดที่ไม่ควรระบุพารามิเตอร์ พวกเขาควรติดป้ายอะไร และทำไม? อธิบายรายละเอียดเกี่ยวกับความสับสน บทความ Wikipedia เกี่ยวกับตัวประมาณค่า: "ตัวประมาณค่า" หรือ "การประมาณค่าจุด" คือสถิติ (นั่นคือฟังก์ชันของข้อมูล) ที่ใช้เพื่ออนุมานค่าของพารามิเตอร์ที่ไม่รู้จักในแบบจำลองทางสถิติ แต่ฉันสามารถกำหนดค่าที่ไม่รู้จักเป็น. 25 quantile และฉันสามารถพัฒนาตัวประมาณค่าสำหรับค่าที่ไม่รู้จักนั้น คือคุณสมบัติเชิงปริมาณของประชากรทั้งหมดไม่ใช่พารามิเตอร์ในลักษณะเดียวกับที่บอกว่าค่าเฉลี่ยและ sd เป็นพารามิเตอร์ของการแจกแจงแบบปกติทว่ามันถูกต้องตามกฎหมายที่จะพยายามประเมินคุณสมบัติเชิงปริมาณของประชากร

1
ด้วยการตรวจสอบความถูกต้องข้ามของ k-fold คุณเฉลี่ยโมเดล
เมื่อดำเนินการตรวจสอบความถูกต้องของ k-fold ฉันเข้าใจว่าคุณได้รับเมตริกความถูกต้องโดยการชี้ทั้งหมดในโฟลด์ยกเว้นที่หนึ่งในนั้นและทำการคาดคะเนแล้วทำการทำซ้ำขั้นตอนนี้ครั้ง จากนั้นคุณสามารถเรียกใช้ตัวชี้วัดความถูกต้องในทุกอินสแตนซ์ของคุณ (ความแม่นยำการเรียกคืนการจำแนก% อย่างถูกต้อง) ซึ่งควรจะเหมือนกับว่าคุณคำนวณแต่ละครั้งแล้วเฉลี่ยผลลัพธ์ (แก้ไขฉันถ้าฉันผิด)kkk ผลลัพธ์สุดท้ายที่คุณต้องการคือรุ่นสุดท้าย คุณเฉลี่ยโมเดลที่ได้รับเพื่อทำให้ชุดการทำนายของคุณจบลงด้วยโมเดลที่มีการวัดความแม่นยำที่ได้จากวิธีการข้างต้นหรือไม่kkk

4
Boxplot เทียบเท่ากับการแจกของหนัก
สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

1
การคำนวณ ICC สำหรับการถดถอยโลจิสติกส์แบบสุ่มผลกระทบ
ฉันใช้รูปแบบการถดถอยโลจิสติกในรูปแบบ: lmer(response~1+(1|site), family=binomial, REML = FALSE) โดยปกติฉันจะคำนวณ ICC จากการสกัดกั้นและผลต่างที่เหลือ แต่การสรุปของโมเดลไม่รวมความแปรปรวนที่เหลือ ฉันจะคำนวณสิ่งนี้ได้อย่างไร

3
เมื่อใดการแปลง z ของฟิชเชอร์จึงเหมาะสม?
ฉันต้องการทดสอบความสัมพันธ์ตัวอย่างเพื่อความสำคัญโดยใช้ค่า p นั่นคือRrr H0: ρ = 0 ,H1: ρ ≠ 0H0:ρ=0,H1:ρ≠0.H_0: \rho = 0, \; H_1: \rho \neq 0. ฉันเข้าใจว่าฉันสามารถใช้การแปลง z ของฟิชเชอร์เพื่อคำนวณสิ่งนี้ด้วย Zo b s= n - 3-----√2LN( 1 + r1 - ร)zobs=n−32ln⁡(1+r1−r)z_{obs}= \displaystyle\frac{\sqrt{n-3}}{2}\ln\left(\displaystyle\frac{1+r}{1-r}\right) และหาค่า p โดย p = 2 P( Z> zo b s)p=2P(Z>zobs)p = 2P\left(Z>z_{obs}\right) ใช้การแจกแจงแบบปกติมาตรฐาน คำถามของฉันคือวิธีที่มีขนาดใหญ่ควรจะให้นี้จะมีการเปลี่ยนแปลงที่เหมาะสมหรือไม่ เห็นได้ชัดว่าจะต้องมีขนาดใหญ่กว่า …

2
การถดถอยเชิงเส้นและไม่เชิงเส้น
ฉันมีชุดของค่าและที่เกี่ยวข้องในทางทฤษฎีชี้แจง:xxxyyy y=axby=axby = ax^b วิธีหนึ่งในการรับค่าสัมประสิทธิ์คือการใช้ลอการิทึมธรรมชาติทั้งสองด้านและปรับโมเดลเชิงเส้นให้เหมาะสม: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] อีกวิธีหนึ่งในการได้มาซึ่งสิ่งนี้คือการใช้การถดถอยแบบไม่เชิงเส้นโดยกำหนดค่าเริ่มต้นตามทฤษฎี: > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) การทดสอบของฉันแสดงผลลัพธ์ที่เกี่ยวข้องกับทฤษฎีได้ดีขึ้นและมากขึ้นถ้าฉันใช้อัลกอริทึมที่สอง อย่างไรก็ตามฉันต้องการทราบความหมายทางสถิติและความหมายของแต่ละวิธี อันไหนดีกว่ากัน?

1
เมื่อสร้างแบบจำลองการถดถอยโดยใช้ชุดการสร้างแบบจำลอง / การตรวจสอบความถูกต้องแยกเป็นสัดส่วนแล้วมันเหมาะสมหรือไม่ที่จะ "หมุนเวียน" ข้อมูลการตรวจสอบความถูกต้อง?
สมมติว่าฉันมีการแบ่ง 80/20 ระหว่างการสร้างแบบจำลอง / การตรวจสอบความถูกต้อง ฉันพอดีกับแบบจำลองกับชุดข้อมูลการสร้างแบบจำลองและฉันพอใจกับข้อผิดพลาดที่ฉันเห็นในชุดข้อมูลการตรวจสอบความถูกต้อง ก่อนที่ฉันจะนำเสนอโมเดลของฉันสำหรับการทำคะแนนการสังเกตการณ์ในอนาคตมีความเหมาะสมหรือไม่ที่จะรวมการตรวจสอบกลับกับข้อมูลการสร้างแบบจำลองเพื่อรับการประมาณค่าพารามิเตอร์ที่อัปเดตกับข้อมูล 100% ฉันได้ยินสองมุมมองเกี่ยวกับเรื่องนี้: การตรวจสอบความถูกต้องที่ฉันดำเนินการคือการตรวจสอบความถูกต้องของโครงสร้างแบบจำลองนั่นคือชุดของตัวทำนายและการแปลงที่ฉันใช้ มันไม่สมเหตุสมผลเลยที่จะทิ้งข้อมูล 20% ของฉันไว้ในตารางเมื่อฉันสามารถใช้เพื่อปรับปรุงการประมาณของฉัน การตรวจสอบความถูกต้องที่ฉันดำเนินการส่วนหนึ่งเป็นการตรวจสอบความถูกต้องของพารามิเตอร์ประมาณการที่ฉันคำนวณในชุดข้อมูลการสร้างแบบจำลองของฉัน หากฉันอัปเดตโมเดลพอดีฉันได้เปลี่ยนค่าประมาณและฉันไม่มีวิธีที่มีวัตถุประสงค์เพื่อทดสอบประสิทธิภาพของโมเดลที่อัปเดตแล้ว ฉันเคยตามอาร์กิวเมนต์ # 1 เสมอ แต่ไม่นานมานี้ฉันได้ยินคนหลายคนโต้แย้ง # 2 ฉันต้องการที่จะเห็นสิ่งที่คนอื่นคิดเกี่ยวกับเรื่องนี้ คุณเคยเห็นการสนทนาที่ดีในวรรณคดีหรือที่อื่น ๆ ในหัวข้อนี้หรือไม่?

3
การเลือกการทดสอบทางสถิติตามผลลัพธ์ของการทดสอบอื่น (เช่นปกติ)
ดังนั้นฉันได้ยินมาว่ามันไม่ใช่ความคิดที่ดีที่จะเลือกการทดสอบทางสถิติหนึ่งอันจากผลการทดสอบอื่น นี่มันดูแปลกสำหรับฉัน ตัวอย่างเช่นคนมักเลือกที่จะใช้การทดสอบแบบไม่มีพารามิเตอร์เมื่อการทดสอบอื่น ๆ แสดงให้เห็นว่าส่วนที่เหลือจะไม่กระจายตามปกติ วิธีการนี้ดูเหมือนจะได้รับการยอมรับอย่างกว้างขวาง แต่ดูเหมือนจะไม่เห็นด้วยกับประโยคแรกในวรรคนี้ ฉันแค่หวังที่จะได้รับการชี้แจงเกี่ยวกับปัญหานี้

4
จับคู่คะแนนความน่าเชื่อถือกับข้อมูลพาเนล
ฉันมีชุดข้อมูลระยะยาวของแต่ละบุคคลและบางคนก็อยู่ภายใต้การรักษาและคนอื่นไม่ได้ บุคคลทุกคนอยู่ในกลุ่มตัวอย่างตั้งแต่แรกเกิดจนถึงอายุ 18 ปีและการรักษาเกิดขึ้นในบางช่วงอายุ อายุของการรักษาอาจแตกต่างกันในแต่ละกรณี การใช้การจับคู่คะแนนความชอบฉันต้องการจับคู่หน่วยที่ได้รับการรักษาและควบคุมเป็นคู่กับการจับคู่ที่แน่นอนในปีเกิดซึ่งฉันสามารถติดตามแต่ละคู่ตั้งแต่วันเกิดของพวกเขาจนถึงอายุ 18 ทั้งหมดมีทั้งหมด 150 คนและ 4000 คนที่ไม่ผ่านการรักษา หลังจากการจับคู่ความคิดคือการใช้กลยุทธ์ที่แตกต่างในความแตกต่างในการประเมินผลของการรักษา ปัญหาที่ฉันเผชิญในขณะนี้คือทำการจับคู่กับข้อมูลพาเนล ฉันกำลังใช้psmatch2คำสั่งของ Stata และฉันจับคู่กับลักษณะครัวเรือนและส่วนบุคคลโดยใช้การจับคู่คะแนนความชอบ โดยทั่วไปกับข้อมูลพาเนลจะมีการจับคู่ที่เหมาะสมที่สุดในแต่ละช่วงอายุ เป็นตัวอย่าง: ถ้าได้รับการปฏิบัติ B และ C เป็นตัวควบคุมและพวกเขาทั้งหมดเกิดในปี 1980 ดังนั้น A และ B อาจถูกจับคู่ในปี 1980 ที่อายุ 0 ขณะที่ A และ C ถูกจับคู่ในปี 1981 ที่อายุ 1 และอื่น ๆ . นอกจากนี้ A อาจถูกจับคู่กับค่าการรักษาล่วงหน้าของตัวเองจากปีก่อนหน้า เพื่อที่จะแก้ไขปัญหานี้ฉันใช้ค่าเฉลี่ยของตัวแปรที่แปรผันตามเวลาทั้งหมดซึ่งการจับคู่สามารถระบุบุคคลที่มีค่าเฉลี่ยที่คล้ายกันมากที่สุดในช่วงระยะเวลาของตัวอย่างและฉันทำการจับคู่แยกต่างหากสำหรับแต่ละกลุ่มอายุ 0 ถึง …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.