สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
วัตถุประสงค์ของฟังก์ชั่นลิงค์ในโมเดลเชิงเส้นทั่วไป
จุดประสงค์ของฟังก์ชั่นลิงค์ในฐานะที่เป็นองค์ประกอบของโมเดลเชิงเส้นตรงทั่วไปคืออะไร? ทำไมเราต้องการมัน? รัฐ Wikipedia: สะดวกในการจับคู่โดเมนของฟังก์ชันลิงก์กับช่วงของค่าเฉลี่ยของฟังก์ชันการแจกแจง อะไรคือข้อดีของการทำเช่นนี้?

2
สูตร R-squared ที่ปรับแล้วใน lm ใน R คืออะไรและควรตีความอย่างไร
สูตรที่แน่นอนที่ใช้ใน R lm() สำหรับการปรับ R-squared คืออะไร? ฉันจะตีความมันได้อย่างไร ปรับสูตร r-squared ดูเหมือนจะมีสูตรอยู่หลายสูตรในการคำนวณการปรับ R-squared สูตรของ Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} สูตรของ McNemar: 1 - ( 1 - R2) ( n - 1 )( n - v - 1 )1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} สูตรของลอร์ด: 1 - …

3
วิธีการตีความ OOB และเมทริกซ์ความสับสนสำหรับป่าสุ่ม?
ฉันได้สคริปต์ R จากบางคนเพื่อใช้โมเดลฟอเรสต์แบบสุ่ม ฉันแก้ไขและรันด้วยข้อมูลพนักงานบางส่วน เราพยายามทำนายการแยกโดยสมัครใจ นี่คือข้อมูลเพิ่มเติม: นี่คือรูปแบบการจัดหมวดหมู่คือ 0 = พนักงานยังคงอยู่ 1 = พนักงานถูกยกเลิกตอนนี้เรากำลังดูตัวแปรทำนายโหลเพียงอย่างเดียวข้อมูลคือ "ไม่สมดุล" ในคำว่าระเบียนทำขึ้นประมาณ 7 % ของชุดระเบียนทั้งหมด ฉันรันโมเดลด้วยการเลือก mtry และ ntree ที่หลากหลาย แต่ตัดสินที่ด้านล่าง OOB คือ 6.8% ซึ่งฉันคิดว่าดี แต่เมทริกซ์ความสับสนดูเหมือนจะบอกเล่าเรื่องราวที่แตกต่างกันสำหรับการทำนายเงื่อนไขเนื่องจากอัตราความผิดพลาดค่อนข้างสูงที่ 92.79% ฉันคิดถูกว่าฉันไม่สามารถพึ่งพาและใช้โมเดลนี้ได้เพราะ อัตราความผิดพลาดสูงสำหรับการทำนายคำศัพท์คืออะไร? หรือมีบางอย่างที่ฉันสามารถทำได้เพื่อใช้ RF และได้รับอัตราความผิดพลาดน้อยลงสำหรับการทำนายคำศัพท์? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% …

3
จะหาอนุพันธ์ของความหนาแน่นปกติหลายตัวแปรได้อย่างไร
สมมติว่าฉันมีความหนาแน่นหลายตัวแปรปกติฉันต้องการที่จะได้รับที่สอง (บางส่วน) WRT อนุพันธ์\ไม่แน่ใจว่าจะหาอนุพันธ์ของเมทริกซ์ได้อย่างไรN(μ,Σ)N(μ,Σ)N(\mu, \Sigma)μμ\mu Wiki กล่าวว่านำองค์ประกอบอนุพันธ์โดยองค์ประกอบภายในเมทริกซ์ ฉันกำลังทำงานกับ Laplace ประมาณ โหมดคือ\θ = μlogPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.θ^=μθ^=μ\hat\theta=\mu ฉันได้รับสิ่งนี้เกิดขึ้นได้อย่างไร?Σ−1=−∂2∂θ2logp(θ^|y),Σ−1=−∂2∂θ2log⁡p(θ^|y),{\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y), สิ่งที่ฉันได้ทำ: logP(θ|y)=−k2log2π−12log|Σ|−12(θ−θ^)TΣ−1(θ−θ^)log⁡P(θ|y)=−k2log⁡2π−12log⁡|Σ|−12(θ−θ^)TΣ−1(θ−θ^)\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta) ดังนั้นฉันเอาอนุพันธ์ wrt มาที่ก่อนอื่นมีการแปลงที่สองคือเมทริกซ์ ดังนั้นฉันติดอยู่θθ\theta หมายเหตุ: หากอาจารย์ของฉันพบสิ่งนี้ฉันหมายถึงการบรรยาย

7
การเลือกตัวแปรที่จะรวมไว้ในโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังทำงานเพื่อสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้นหลายครั้ง หลังจากเล่นซอกับโมเดลของฉันฉันไม่แน่ใจว่าจะกำหนดตัวแปรที่จะเก็บได้ดีที่สุดและควรลบอย่างไร แบบจำลองของฉันเริ่มต้นด้วยตัวพยากรณ์ 10 ตัวสำหรับ DV เมื่อใช้ตัวทำนายทั้ง 10 ตัวสี่คนถือว่ามีนัยสำคัญ หากฉันลบตัวพยากรณ์ที่ไม่ถูกต้องออกไปบางตัวเท่านั้นตัวพยากรณ์บางตัวที่ไม่ได้มีนัยสำคัญในตอนแรกจะกลายเป็นสิ่งสำคัญ สิ่งใดทำให้ฉันมีคำถามของฉัน: ใครจะไปพิจารณาตัวทำนายที่จะรวมในแบบจำลอง สำหรับฉันแล้วคุณควรใช้แบบจำลองนี้กับผู้ทำนายทุกคนเอาสิ่งที่ไม่สำคัญออกแล้วจึงรันใหม่อีกครั้ง แต่ถ้าการลบตัวพยากรณ์เหล่านี้ออกไปทำให้ผู้อื่นมีความสำคัญฉันก็ยังสงสัยว่าฉันกำลังใช้วิธีการที่ผิดทั้งหมดหรือไม่ ผมเชื่อว่านี้ด้ายคล้ายกับคำถามของฉัน แต่ฉันไม่แน่ใจว่าฉันกำลังตีความอภิปรายได้อย่างถูกต้อง บางทีนี่อาจเป็นหัวข้อการออกแบบเชิงทดลอง แต่อาจมีบางคนมีประสบการณ์ที่พวกเขาสามารถแบ่งปันได้

2
สมมาตรแบบผสมในภาษาอังกฤษธรรมดาคืออะไร
ฉันเพิ่งตระหนักว่าโมเดลผสมที่มีหัวเรื่องเป็นปัจจัยสุ่มเท่านั้นและปัจจัยอื่น ๆ ที่เป็นปัจจัยคงที่เทียบเท่ากับ ANOVA เมื่อตั้งค่าโครงสร้างสหสัมพันธ์ของโมเดลผสมกับสมมาตรผสม ดังนั้นฉันอยากจะรู้ว่าสมมาตรผสมหมายถึงอะไรในบริบทของ ANOVA แบบผสม (เช่นการแบ่งส่วนย่อย) ที่อธิบายได้ดีที่สุดในภาษาอังกฤษแบบธรรมดา นอกจากนี้สมมาตรแบบผสมlmeยังมีโครงสร้างความสัมพันธ์ประเภทอื่นเช่น corSymm เมทริกซ์สหสัมพันธ์ทั่วไปที่ไม่มีโครงสร้างเพิ่มเติม หรือความแตกต่างของความสัมพันธ์เชิงพื้นที่ ดังนั้นฉันมีคำถามที่เกี่ยวข้องกับโครงสร้างความสัมพันธ์ประเภทอื่น ๆ ที่อาจจะแนะนำให้ใช้ในบริบทของการทดลองออกแบบ (กับปัจจัยระหว่างและภายในเรื่อง)? มันจะดีถ้าคำตอบสามารถชี้ไปที่การอ้างอิงบางอย่างสำหรับโครงสร้างความสัมพันธ์ที่แตกต่างกัน

5
แนวปฏิบัติที่ดีที่สุดในการระบุเอฟเฟกต์การโต้ตอบคืออะไร?
นอกเหนือจากการทดสอบตัวอักษรที่เป็นไปได้รวมกันในแบบจำลอง ( x1:x2หรือx1*x2 ... xn-1 * xn) คุณจะระบุได้อย่างไรว่าการโต้ตอบควรมีอยู่ระหว่างตัวแปรอิสระ (หวังว่า) ของคุณหรือไม่ แนวปฏิบัติที่ดีที่สุดในการพยายามระบุการโต้ตอบคืออะไร มีเทคนิคกราฟิกที่คุณสามารถใช้หรือไม่?

4
การทดสอบสมมติฐานด้วยเหตุผลเดียว
ฉันเข้าใจการทดสอบสมมติฐานแบบสองด้าน คุณมี (เทียบกับ ) -value คือน่าจะเป็นที่สร้างข้อมูลอย่างน้อยเป็นอย่างมากกับสิ่งที่เป็นข้อสังเกตH 1 = ¬ H 0 : θ ≠ θ 0 p θH0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta ฉันไม่เข้าใจการทดสอบสมมติฐานแบบเดียว ที่นี่ (เทียบกับ ) คำจำกัดความของ p-value ไม่ควรเปลี่ยนแปลงจากด้านบน: มันควรเป็นความน่าจะเป็นที่สร้างข้อมูลอย่างน้อยที่สุดเท่าที่จะสังเกตได้ แต่เราไม่ได้รู้ว่าเพียงว่ามันบนล้อมรอบด้วย\H 1 = ¬ H 0 : θ > θ 0 θ θ …

5
การใช้ฟังก์ชั่น 'comment' ใน R คืออะไรดี?
ฉันเพิ่งค้นพบcommentฟังก์ชั่นในอาร์ตัวอย่าง: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) นี่เป็นครั้งแรกที่ฉันมาด้วยฟังก์ชั่นนี้และสงสัยว่าการใช้งานทั่วไป / มีประโยชน์คืออะไร เนื่องจากเป็นการยากที่จะค้นหา "ความคิดเห็น R" ใน google และค้นหาผลลัพธ์ที่เกี่ยวข้องฉันจึงหวังว่าจะมีใครบางคนที่นี่อาจแชร์ด้วยประสบการณ์ของเขา
35 r 


3
การเรียนรู้ของเครื่อง: ฉันควรใช้เอนโทรปีของการแยกประเภทเอนโทรปีหรือการสูญเสียเอนโทรปีในการทำนายแบบไบนารี
ก่อนอื่นฉันรู้ว่าฉันต้องทำการคาดคะเนไบนารีฉันต้องสร้างคลาสอย่างน้อยสองคลาสผ่านการเข้ารหัสหนึ่งครั้ง ถูกต้องหรือไม่ อย่างไรก็ตามเอนโทรปีของไบนารีไขว้สำหรับการทำนายด้วยคลาสเดียวเท่านั้น? หากฉันต้องใช้การสูญเสียเอนโทรปีของการจำแนกอย่างเป็นหมวดหมู่ซึ่งมักพบในห้องสมุดส่วนใหญ่ (เช่น TensorFlow) จะมีความแตกต่างที่สำคัญหรือไม่ ในความเป็นจริงอะไรคือความแตกต่างที่แน่นอนระหว่างเอนโทรปีของการแบ่งประเภทและการข้ามแบบไบนารี? ฉันไม่เคยเห็นการใช้งานของเอนโทรปีของการข้ามเลขฐานสองใน TensorFlow ดังนั้นฉันคิดว่าบางทีหมวดหมู่อาจใช้ได้ดี

2
หลักฐานของภาวะโลกร้อนที่มนุษย์สร้างขึ้นได้มาถึง 'มาตรฐานทองคำ': พวกเขาทำเช่นนี้ได้อย่างไร?
ข้อความนี้ในบทความของ Reuter จาก 25.02.2019 ขณะนี้มีอยู่ทั่วข่าว: หลักฐานของภาวะโลกร้อนที่มนุษย์สร้างขึ้นได้รับความนิยม 'มาตรฐานทองคำ' [นักวิทยาศาสตร์] กล่าวว่าความมั่นใจว่ากิจกรรมของมนุษย์กำลังเพิ่มความร้อนที่พื้นผิวโลกได้ถึงระดับ "ห้าซิกม่า" ซึ่งเป็นมาตรวัดทางสถิติซึ่งหมายความว่ามีโอกาสเพียงหนึ่งในล้านเท่านั้นที่สัญญาณจะปรากฏขึ้นหากมี ไม่มีภาวะโลกร้อน ฉันเชื่อว่านี่หมายถึงบทความนี้"ฉลองครบรอบสามเหตุการณ์สำคัญในวิทยาศาสตร์การเปลี่ยนแปลงสภาพภูมิอากาศ"ซึ่งมีพล็อตซึ่งแสดงแผนผังด้านล่าง (เป็นภาพร่างเพราะฉันไม่สามารถหาภาพโอเพนซอร์สสำหรับต้นฉบับที่คล้ายกัน พบรูปภาพฟรีที่นี่ ) บทความอื่นจากกลุ่มการวิจัยเดียวกันซึ่งดูเหมือนว่าจะเป็นแหล่งต้นฉบับมากกว่าอยู่ที่นี่ (แต่ใช้นัยสำคัญ 1% แทน5 σ5σ5\sigma ) พล็อตนำเสนอการวัดจากกลุ่มวิจัยที่แตกต่างกันสามกลุ่ม ได้แก่ ระบบตรวจจับระยะไกล, ศูนย์สำหรับการใช้งานและการวิจัยดาวเทียมและมหาวิทยาลัยอลาบามาที่ Huntsville พล็อตแสดงเส้นโค้งสัญญาณที่เพิ่มขึ้นสามเส้นต่ออัตราส่วนสัญญาณรบกวนเป็นฟังก์ชันของแนวโน้มความยาว 5 σ5σ5\sigma ††^{\dagger}5 σ5σ5\sigma 5 σ5σ5 \sigma ††^\dagger

3
มีการรวมกำไรเลเยอร์ก่อนหรือหลังเลเยอร์การออกกลางคันหรือไม่
ฉันกำลังสร้างโครงข่ายประสาทเทียม (CNN) ที่ฉันมีเลเยอร์คู่ตามด้วยชั้นรวมกำไรและฉันต้องการใช้การออกกลางคันเพื่อลดการล้น ฉันมีความรู้สึกเช่นนี้ว่าควรจะใช้เลเยอร์การออกกลางคันหลังจากเลเยอร์รวม แต่ฉันไม่มีอะไรที่จะสำรอง สถานที่ที่เหมาะสมในการเพิ่มเลเยอร์กลางคันคืออะไร ก่อนหรือหลังเลเยอร์ร่วมกัน?

5
ทำไมการเพิ่มขนาดตัวอย่างจึงทำให้ความแปรปรวน (การสุ่มตัวอย่าง) ต่ำลง?
ภาพใหญ่: ฉันพยายามที่จะเข้าใจว่าการเพิ่มขนาดตัวอย่างเพิ่มพลังของการทดสอบอย่างไร สไลด์อาจารย์ของฉันอธิบายสิ่งนี้ด้วยภาพของการแจกแจงปกติ 2 อันหนึ่งอันสำหรับสมมติฐานว่างและอีกอันสำหรับสมมุติฐานทางเลือกและเกณฑ์การตัดสินใจคระหว่างพวกเขา พวกเขายืนยันว่าการเพิ่มขนาดตัวอย่างจะลดความแปรปรวนและทำให้เกิดความรุนแรงสูงขึ้นลดพื้นที่ที่ใช้ร่วมกันภายใต้ส่วนโค้งและความน่าจะเป็นของข้อผิดพลาดประเภท II ภาพเล็ก: ฉันไม่เข้าใจว่าขนาดตัวอย่างที่ใหญ่กว่าจะลดความแปรปรวนได้อย่างไร ฉันสมมติว่าคุณคำนวณความแปรปรวนตัวอย่างและใช้มันเป็นพารามิเตอร์ในการแจกแจงแบบปกติ ฉันเหนื่อย: googlingแต่คำตอบที่ยอมรับมากที่สุดมี 0 upvotes หรือเป็นเพียงตัวอย่าง การคิด : ตามกฎของตัวเลขขนาดใหญ่ทุกค่าในที่สุดควรทำให้มีเสถียรภาพรอบค่าที่เป็นไปได้ตามการแจกแจงปกติที่เราสมมติ และความแปรปรวนจึงควรมาบรรจบกับความแปรปรวนของการกระจายตัวปกติที่เราสมมุติ แต่ความแปรปรวนของการแจกแจงแบบปกตินั้นคืออะไรและมันคือค่าต่ำสุดนั่นคือเราจะแน่ใจได้ว่าความแปรปรวนตัวอย่างของเราลดลงหรือไม่

4
ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร
การเข้ารหัสแบบเบาบางหมายถึงการเรียนรู้ชุดเวกเตอร์พื้นฐานที่ครบวงจรเพื่อเป็นตัวแทนเวกเตอร์อินพุต (<- ทำไมเราต้องการสิ่งนี้) ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร เมื่อใดที่เราจะใช้การเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.