สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เหตุใดการถดถอยของสันเขา glmnet จึงให้คำตอบที่แตกต่างจากการคำนวณด้วยตนเอง
ฉันใช้ glmnet เพื่อคำนวณการถดถอยของสันเขา ฉันได้ผลลัพธ์บางอย่างที่ทำให้ฉันสงสัยว่า glmnet นั้นกำลังทำสิ่งที่ฉันคิด เพื่อตรวจสอบนี้ฉันเขียนสคริปต์ R ง่าย ๆ ที่ฉันเปรียบเทียบผลลัพธ์ของการถดถอยของสันที่กระทำโดยแก้และหนึ่งใน glmnet ความแตกต่างสำคัญ: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 บรรทัดฐานของความแตกต่างมักจะอยู่ที่ประมาณ 20 ซึ่งไม่สามารถเกิดขึ้นได้เนื่องจากอัลกอริทึมที่แตกต่างกันเชิงตัวเลขฉันต้องทำอะไรผิดพลาด การตั้งค่าใดที่ฉันต้องตั้งค่าglmnetเพื่อให้ได้ผลลัพธ์เช่นเดียวกับสันเขา

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงที่ถูกตัดทอน
พิจารณากลุ่มที่เป็นอิสระที่ได้รับจากตัวแปรสุ่มที่จะถือว่าเป็นไปตามการกระจายตัดทอน (เช่นตัดทอนกระจายปกติ ) รู้จักขั้นต่ำ ( จำกัด ) และค่าสูงสุดและแต่ของพารามิเตอร์ที่ไม่รู้จักและ 2 ถ้าตามการกระจายที่ไม่ถูกตัดทอนตัวประมาณค่าความน่าจะเป็นสูงสุดและสำหรับและจากจะเป็นค่าเฉลี่ยตัวอย่างNNNSSSXXXaaabbbμμ\mu X μ σ 2 μ σ 2 S μ = 1σ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSS σ 2=1μˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iและตัวอย่างแปรปรวน 2 อย่างไรก็ตามสำหรับการแจกแจงที่ถูกตัดทอนตัวอย่างความแปรปรวนที่กำหนดในลักษณะนี้จะถูก จำกัด ด้วยดังนั้นจึงไม่ใช่ตัวประมาณที่สอดคล้องกันเสมอ: สำหรับมันไม่สามารถรวมกันในความน่าจะเป็นเมื่อไปที่อนันต์ ดังนั้นดูเหมือนว่าและไม่ใช่ตัวประมาณโอกาสสูงสุดของและสำหรับการแจกแจงที่ถูกตัดทอน แน่นอนว่าต้องมีการคาดการณ์ตั้งแต่และ(ข-)2σ2>(ข-)2σ2N μ σ 2μσ2μσ2σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 พารามิเตอร์ของการแจกแจงแบบปกติที่ถูกตัดทอนไม่ได้เป็นค่าเฉลี่ยและความแปรปรวน ดังนั้นตัวประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์และของการแจกแจงแบบตัดทอนของค่าต่ำสุดและค่าสูงสุดที่ทราบคืออะไรσμμ\muσσ\sigma

3
“ การสังเกตอย่างอิสระ” หมายความว่าอะไร
ฉันพยายามที่จะเข้าใจว่าสมมติฐานของการสังเกตอิสระหมายถึง คำจำกัดความบางประการคือ: "สองเหตุการณ์ไม่ขึ้นต่อกันหาก " ( พจนานุกรมศัพท์ทางสถิติ )P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) "การเกิดเหตุการณ์หนึ่งจะไม่เปลี่ยนความน่าจะเป็นสำหรับเหตุการณ์อื่น" ( Wikipedia ) "การสุ่มตัวอย่างจากการสังเกตหนึ่งครั้งไม่ส่งผลต่อการเลือกการสังเกตครั้งที่สอง" ( David M. Lane ) ตัวอย่างของการสังเกตที่ขึ้นอยู่กับที่มักได้รับคือนักเรียนซ้อนกันภายในครูดังต่อไปนี้ สมมติว่าครูมีอิทธิพลต่อนักเรียน แต่นักเรียนไม่ได้มีอิทธิพลซึ่งกันและกัน ดังนั้นคำจำกัดความเหล่านี้ละเมิดข้อมูลเหล่านี้อย่างไร การสุ่มตัวอย่าง [เกรด = 7] สำหรับ [นักเรียน = 1] ไม่ส่งผลกระทบต่อการแจกแจงความน่าจะเป็นสำหรับเกรดที่จะถูกสุ่มตัวอย่างต่อไป (หรือเป็นอย่างนั้นและถ้าเป็นเช่นนั้นการสังเกต 1 จะทำนายอะไรเกี่ยวกับการสังเกตครั้งต่อไป) ทำไมการสังเกตจึงเป็นอิสระถ้าฉันวัดได้ gender แทนที่จะเป็น teacher_id? พวกเขาไม่ส่งผลกระทบต่อการสังเกตในลักษณะเดียวกันหรือไม่ teacher_id student_id grade 1 1 7 …

3
วิธีรับค่า p โดยรวมและขนาดเอฟเฟกต์สำหรับปัจจัยเชิงหมวดหมู่ในโมเดลผสม (lme4)
ฉันต้องการรับค่า p และขนาดผลกระทบของตัวแปรเด็ดขาดแบบอิสระ (มีหลายระดับ) - นั่นคือ "โดยรวม" และไม่ใช่สำหรับแต่ละระดับแยกกันเช่นเดียวกับเอาต์พุตปกติจากlme4ในอาร์มันเป็นเหมือน สิ่งที่ผู้คนรายงานเมื่อใช้ ANOVA ฉันจะได้รับสิ่งนี้ได้อย่างไร

7
ทำไมและเมื่อสร้างแพ็คเกจ R
ฉันเข้าใจคำถามนี้ค่อนข้างกว้าง แต่ฉันสงสัยว่าอะไรควรเป็นจุดเด็ดขาดในการตัดสินใจสร้างแพคเกจใหม่สำหรับอาร์ (เฉพาะเจาะจง) ฉันจะเพิ่มเติมว่าคำถามไม่เกี่ยวกับเหตุผลที่ ใช้ R ในตัวเองเพิ่มเติมเกี่ยวกับการตัดสินใจรวบรวมสคริปต์ต่างๆและรวมเข้ากับแพ็คเกจใหม่ ในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจเหล่านี้ฉันได้นึกถึง: การไม่มีอยู่ของแพ็กเกจอื่นในฟิลด์ย่อยเดียวกัน ความจำเป็นในการแลกเปลี่ยนกับนักวิจัยคนอื่นและอนุญาตให้ทำซ้ำการทดลอง; และในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจที่ตรงกันข้าม: ส่วนหนึ่งของวิธีการที่ใช้ในแพ็คเกจอื่นแล้ว; จำนวนฟังก์ชั่นใหม่ไม่เพียงพอที่จะปรับให้เหมาะสมเพื่อสร้างแพ็คเกจอิสระใหม่ ฉันอาจลืมจุดต่าง ๆ ที่อาจไปในรายการใดรายการหนึ่งและเกณฑ์เหล่านี้ดูเหมือนเป็นส่วนตัว ดังนั้นสิ่งที่คุณจะพูดควรปรับและ ณ จุดที่จะเริ่มรวบรวมฟังก์ชั่นต่างๆและข้อมูลในแพคเกจใหม่เอกสารและกว้างใช้ได้?
28 r  software 

3
ถ้าตัวอย่างแบบสุ่มของคุณไม่ได้เป็นตัวแทนอย่างชัดเจนล่ะ
เกิดอะไรขึ้นถ้าคุณใช้ตัวอย่างที่สุ่มและคุณสามารถเห็นมันได้อย่างชัดเจนไม่ได้เป็นตัวแทนเช่นเดียวกับในคำถามที่ผ่านมา ตัวอย่างเช่นถ้าการกระจายตัวของประชากรควรมีความสมมาตรประมาณ 0 และตัวอย่างที่คุณวาดแบบสุ่มนั้นมีการสังเกตเชิงบวกและลบที่ไม่สมดุลและความไม่สมดุลนั้นมีนัยสำคัญทางสถิตินั่นจะทำให้คุณอยู่ที่ไหน คุณสามารถสร้างประโยคที่สมเหตุสมผลเกี่ยวกับประชากรจากกลุ่มตัวอย่างที่มีอคติได้อย่างไร การกระทำที่เหมาะสมในสถานการณ์เช่นนี้คืออะไร? การวิจัยของเรามีความสำคัญเมื่อเราสังเกตเห็นความไม่สมดุลนี้หรือไม่?

5
ตัวอย่างชีวิตจริงของการแจกแจงทั่วไป
ฉันเป็นนักเรียนที่จบการศึกษาที่สนใจเรื่องสถิติ ฉันชอบเนื้อหาที่มากเกินไป แต่บางครั้งฉันก็รู้สึกลำบากกับการใช้งานกับชีวิตจริง โดยเฉพาะคำถามของฉันเกี่ยวกับการแจกแจงเชิงสถิติที่ใช้กันทั่วไป (ปกติ - เบต้า - แกมม่า ฯลฯ ) ฉันเดาว่าในบางกรณีฉันได้รับคุณสมบัติเฉพาะที่ทำให้การแจกแจงค่อนข้างดี - ตัวอย่างเช่นคุณสมบัติไร้ความจำของเลขชี้กำลัง แต่สำหรับอีกหลายกรณีฉันไม่ได้มีสัญชาตญาณเกี่ยวกับความสำคัญและพื้นที่การใช้งานของการแจกแจงทั่วไปที่เราเห็นในตำราเรียน อาจมีแหล่งข้อมูลที่ดีมากมายที่จัดการกับข้อกังวลของฉันฉันจะดีใจถ้าคุณสามารถแบ่งปันสิ่งเหล่านั้น ฉันจะมีแรงจูงใจมากขึ้นในเนื้อหาถ้าฉันสามารถเชื่อมโยงกับตัวอย่างในชีวิตจริง


5
หนังสือสถิติที่อธิบายการใช้ภาพมากกว่าสมการ
ฉันสนใจในสถิติ แต่ฉันต้องยอมรับว่ามันใช้เวลานานแล้วตั้งแต่ฉันใช้คณิตศาสตร์อย่างจริงจัง บางครั้งฉันเข้าใจความหมายของสมการ แต่บางครั้งฉันไม่สามารถทำตามได้ ผมชอบคำตอบให้ที่นี่ที่ใช้ภาพที่มีลูกศร: ความเข้าใจแนวคิดของรากคลาดเคลื่อนกำลังสองเฉลี่ยและค่าเบี่ยงเบนอคติเฉลี่ย คุณมีคำแนะนำเกี่ยวกับหนังสือสถิติที่จริงจังเกี่ยวกับการสร้างแบบจำลอง PCA การจำลอง ฯลฯ ที่ใช้ตัวเลขมากกว่าสมการหรือไม่ ฉันหวังว่าจะมีอะไรบางอย่างเหมือนหนังสือ 'สถิติสำหรับหุ่น' หนังสือที่จะทำให้ทุกคนสามารถเข้าถึงสถิติได้หรือไม่
28 references 

3
การกระจายตัวแบบเกาส์อัตราส่วน: อนุพันธ์ wrt ต้นแบบ 's และ s
ผมทำงานกับสองการแจกแจงปรกติอิสระและYมีวิธี\ mu_xและ\ mu_yและความแปรปรวน\ ^ ซิก 2_xและ\ ^ ซิก 2_yY μ x μ y σ 2 x σ 2 yXXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y ฉันสนใจในการกระจายของอัตราส่วนของพวกเขาZ=X/YZ=X/YZ=X/Y Y ทั้งXXXหรือYYYมีค่าเฉลี่ยอยู่ที่ศูนย์ดังนั้นZZZไม่ได้กระจายเป็น Cauchy ฉันต้องการหา CDF ของZZZ , และจากนั้นใช้อนุพันธ์ของ CDF ด้วยความเคารพμxμx\mu_x , μyμy\mu_y , σ2xσx2\sigma^2_xและ\σ2yσy2\sigma^2_y ใครบ้างที่รู้กระดาษที่คำนวณเหล่านี้แล้ว? หรือจะทำสิ่งนี้ด้วยตัวเองได้อย่างไร? ฉันค้นพบสูตรสำหรับ CDF ในเอกสารปี 1969แต่การจดอนุพันธ์เหล่านี้จะเป็นความเจ็บปวดอย่างมาก อาจมีบางคนทำไปแล้วหรือรู้วิธีที่จะทำได้ง่าย ๆ ? ฉันต้องการทราบสัญญาณของตราสารอนุพันธ์เป็นส่วนใหญ่ กระดาษนี้ยังมีการประมาณที่ง่ายขึ้นในการวิเคราะห์ถ้าYYYเป็นบวกส่วนใหญ่ ฉันไม่มีข้อ จำกัด อย่างไรก็ตามการประมาณอาจมีสัญลักษณ์เดียวกับอนุพันธ์ที่แท้จริงแม้จะอยู่นอกช่วงพารามิเตอร์

1
จะตีความความแปรปรวนและสหสัมพันธ์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมผลกระทบได้อย่างไร
ฉันหวังว่าคุณคงไม่สนใจคำถามนี้ แต่ฉันต้องการความช่วยเหลือในการตีความเอาต์พุตสำหรับโมเดลเอฟเฟกต์แบบผสมเชิงเส้นฉันพยายามเรียนรู้ที่จะทำในอาร์ฉันยังใหม่กับการวิเคราะห์ข้อมูลตามยาวและการถดถอยเชิงเส้นผสม ฉันมีโมเดลที่เหมาะกับสัปดาห์เป็นตัวทำนายเวลาและให้คะแนนในหลักสูตรการจ้างงานตามผลลัพธ์ของฉัน ฉันทำแบบจำลองคะแนนด้วยสัปดาห์ (เวลา) และผลกระทบคงที่หลายเพศและการแข่งขัน โมเดลของฉันมีเอฟเฟกต์แบบสุ่ม ฉันต้องการความช่วยเหลือในการทำความเข้าใจความหมายของความแปรปรวนและสหสัมพันธ์ ผลลัพธ์มีดังต่อไปนี้: Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 correlaton คือ. 311 ฉันสามารถตีความความสัมพันธ์เนื่องจากมีความสัมพันธ์เชิงบวกระหว่างสัปดาห์และคะแนน แต่ฉันต้องการที่จะสามารถพูดได้ในแง่ของ "23% ของ ... " ฉันขอขอบคุณความช่วยเหลือ ขอบคุณ "แขก" และมาโครที่ตอบกลับ ขออภัยที่ไม่ตอบกลับฉันออกไปประชุมและฉันกำลังติดตาม นี่คือผลลัพธ์และบริบท นี่คือสรุปสำหรับรุ่น LMER ที่ฉันวิ่ง >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ …

3
ทำไมผู้เรียนถึงอ่อนแอ?
ดูเพิ่มเติมคำถามที่คล้ายกันใน stats.SE ในการเพิ่มอัลกอริทึมเช่นAdaBoostและLPBoostเป็นที่รู้กันว่าผู้เรียนที่ "อ่อนแอ" ที่จะรวมกันนั้นต้องทำงานได้ดีกว่าโอกาสที่จะเป็นประโยชน์จากวิกิพีเดีย: ตัวแยกประเภทที่ใช้อาจอ่อนแอ (เช่นแสดงอัตราข้อผิดพลาดที่สำคัญ) แต่ตราบใดที่ประสิทธิภาพไม่ได้สุ่ม (ทำให้เกิดข้อผิดพลาดที่อัตรา 0.5 สำหรับการจำแนกแบบไบนารี) พวกเขาจะปรับปรุงตัวแบบสุดท้าย แม้แต่ตัวแยกประเภทที่มีอัตราความผิดพลาดสูงกว่าที่คาดไว้จากตัวจําแนกแบบสุ่มจะมีประโยชน์เนื่องจากจะมีสัมประสิทธิ์เชิงลบในการรวมกันเชิงเส้นสุดท้ายของตัวจําแนกประเภท อะไรคือประโยชน์ของการใช้ความอ่อนแอเมื่อเทียบกับผู้เรียนที่แข็งแกร่ง? (เช่นทำไมไม่ส่งเสริมด้วยวิธีการเรียนรู้ "แข็งแรง" - เรามีแนวโน้มที่จะมีน้ำหนักเกินหรือไม่) มีความแข็งแรง "ดีที่สุด" สำหรับผู้เรียนที่อ่อนแอหรือไม่? และสิ่งนี้เกี่ยวข้องกับจำนวนผู้เรียนในวงดนตรีหรือไม่? มีทฤษฎีใดบ้างที่จะสำรองคำตอบสำหรับคำถามเหล่านี้

4
การศึกษาด้วยตนเองเทียบกับการศึกษาที่สอนแล้ว?
มีคำถามที่มีเจตนาคล้ายกันในโปรแกรมเมอร์คือ. คำถามนั้นมีคำตอบที่ดี แต่ชุดรูปแบบทั่วไปดูเหมือนว่าจะไม่มีการศึกษาด้วยตนเองคุณจะไม่ไปไหน เห็นได้ชัดว่ามีความแตกต่างที่สำคัญระหว่างการเขียนโปรแกรมและสถิติ - ด้วยการเขียนโปรแกรมคุณเพียงแค่เรียนรู้ตรรกะพื้นฐานบางอย่างแล้วใช้มันซ้ำ ๆ ภาษาใหม่ทั้งหมดใช้แนวคิดพื้นฐานเดียวกัน การศึกษาด้วยตนเองช่วยให้คุณเรียนรู้แนวคิดขั้นสูงมากขึ้นและมีประสิทธิภาพมากขึ้น สิ่งประเภทนี้ค่อนข้างยากที่จะสอน สถิติค่อนข้างแตกต่างกัน มันง่ายที่จะใช้ตรรกะที่เกี่ยวข้อง - เพราะคนอื่นมักจะวางวิธีการ อันที่จริงวิธีการมักจะเป็นสิ่งที่สอนในมหาวิทยาลัยส่วนใหญ่ แต่สถิตินั้นลึกกว่านั้นมากและเกี่ยวข้องกับแนวคิดระดับสูงจริงๆ มันยากที่จะมองหาแนวคิดเหล่านั้นถ้าสิ่งที่คุณได้รับการสอนคือสถิติประยุกต์ให้เข้าใจ แต่เพียงอย่างเดียว (แม้ว่าฉันจะสงสัยว่ามันอาจเกิดจากศัพท์แสงในสนาม) นอกจากนี้ฉันพบว่าการเรียนรู้ด้วยตนเองในการเขียนโปรแกรมเกี่ยวข้องกับการอ่านบทความสั้น ๆ / บล็อกจำนวนมากเพื่อแนะนำตัวคุณเองกับแนวคิดใหม่ในขณะที่บทความเกี่ยวกับสถิติที่เข้าถึงได้นั้นมักจะมุ่งไปที่ผู้เริ่มต้นโดยรวม ตนเอง ดังนั้นคำถามคือ: การศึกษาด้วยตนเองมีความเหมาะสมมากกว่าหรือน้อยกว่าการศึกษาในมหาวิทยาลัยสำหรับสถิติหรือไม่ มีวิธีการอะไรบ้างในการเรียนรู้ด้วยตนเอง ตัวอย่างใด ๆ ของสิ่งที่ได้ผลกับคนก่อนจะได้รับการต้อนรับ (นี่น่าจะเป็นวิกิชุมชน แต่ฉันไม่เห็นช่องทำเครื่องหมาย)

3
ตัวอย่างข้อผิดพลาดในอัลกอริทึม MCMC
ฉันกำลังตรวจสอบวิธีการตรวจสอบอัตโนมัติของวิธีมาร์คอฟโซ่มอนติคาร์โลและฉันต้องการตัวอย่างข้อผิดพลาดที่อาจเกิดขึ้นเมื่อสร้างหรือใช้อัลกอริทึมดังกล่าว คะแนนโบนัสหากใช้วิธีการที่ไม่ถูกต้องในเอกสารเผยแพร่ ฉันสนใจโดยเฉพาะอย่างยิ่งในกรณีที่ข้อผิดพลาดหมายความว่า chain มีการกระจายตัวที่ไม่ถูกต้องถึงแม้ว่าข้อผิดพลาดประเภทอื่น (เช่น chain ไม่ใช่ ergodic) ก็น่าสนใจเช่นกัน ตัวอย่างของข้อผิดพลาดดังกล่าวจะล้มเหลวในการส่งออกค่าเมื่อ Metropolis-Hastings ปฏิเสธการย้ายที่เสนอ
28 mcmc 

1
API การทำนายของ Google คืออะไร
Google Prediction APIเป็นบริการคลาวด์ที่ผู้ใช้สามารถส่งข้อมูลการฝึกอบรมเพื่ออบรมตัวจําแนกลึกลับและต่อมาขอให้จัดประเภทข้อมูลที่เข้ามาเช่นการใช้ตัวกรองสแปมหรือทำนายการตั้งค่าของผู้ใช้ แต่เบื้องหลังคืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.