สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การรวมโมเดลการเรียนรู้ของเครื่อง
ฉันยังใหม่กับการเรียนรู้ข้อมูล / การเรียนรู้ของเครื่อง / ฯลฯ และได้อ่านเกี่ยวกับวิธีการรวมแบบจำลองหลายแบบและแบบจำลองเดียวกันเพื่อปรับปรุงการทำนาย ความประทับใจของฉันจากการอ่านบทความสองเล่ม (ซึ่งมักจะน่าสนใจและยอดเยี่ยมเกี่ยวกับทฤษฎีและตัวอักษรกรีก แต่สั้น ๆ เกี่ยวกับรหัสและตัวอย่างจริง) คือมันควรจะเป็นเช่นนี้: ฉันใช้แบบจำลอง ( knn, RFและอื่น ๆ ) และรับรายการตัวแยกประเภทระหว่าง 0 และ 1 คำถามของฉันคือวิธีรวมรายการตัวแยกประเภทแต่ละรายการเหล่านี้หรือไม่ ฉันใช้โมเดลเดียวกันกับชุดการฝึกอบรมของฉันหรือไม่เพื่อให้จำนวนคอลัมน์ที่เข้าสู่โมเดลสุดท้ายเหมือนกันหรือมีเคล็ดลับอื่น ๆ อีกหรือไม่ มันจะดีถ้าคำแนะนำ / ตัวอย่างรวมถึงรหัส R หมายเหตุ: สำหรับชุดข้อมูลที่มีเส้น 100k ในชุดฝึกอบรมและ 70k ในชุดทดสอบและ 10 คอลัมน์

2
การตรวจสอบความถูกต้องเทียบกับเบย์เชิงประจักษ์สำหรับการประมาณค่าพารามิเตอร์
ด้วยรูปแบบลำดับชั้นฉันต้องการกระบวนการสองขั้นตอนเพื่อให้พอดีกับแบบจำลอง ครั้งแรกที่แก้ไขกำมือของ hyperparametersแล้วดำเนินการอนุมานแบบเบย์ในส่วนที่เหลือของพารามิเตอร์\สำหรับการแก้ไขพารามิเตอร์หลายมิติฉันกำลังพิจารณาสองตัวเลือกp(x|ϕ,θ)p(x|ϕ,θ)p(x|\phi,\theta)θθ\thetaϕϕ\phi ใช้Empirical Bayes (EB)และเพิ่มความเป็นไปได้ที่จะเกิด (รวมส่วนที่เหลือของตัวแบบซึ่งมีพารามิเตอร์มิติสูง)p(all data|θ)p(all data|θ)p(\mbox{all data}|\theta) ใช้ข้ามการตรวจสอบ (CV)เทคนิคเช่นเท่าการตรวจสอบข้ามให้เลือกที่เพิ่มโอกาสtheta)kkkθθ\thetap(test data|training data,θ)p(test data|training data,θ)p(\mbox{test data}|\mbox{training data}, \theta) ข้อได้เปรียบของ EB คือว่าผมสามารถใช้ข้อมูลทั้งหมดในครั้งเดียวในขณะที่สำหรับ CV ผมจำเป็นที่จะต้อง (อาจ) คำนวณความน่าจะเป็นรูปแบบหลายครั้งและค้นหา\ประสิทธิภาพของ EB และ CV นั้นเทียบเคียงได้ในหลายกรณี (*) และบ่อยครั้งที่ EB นั้นจะประเมินได้เร็วกว่าθθ\theta คำถาม: มีรากฐานทางทฤษฎีที่เชื่อมโยงทั้งสอง (พูด EB และ CV เหมือนกันในขีด จำกัด ของข้อมูลขนาดใหญ่)? หรือเชื่อมโยง EB กับเกณฑ์ทั่วไปบางอย่างเช่นความเสี่ยงเชิงประจักษ์? ใครบางคนสามารถชี้ไปที่วัสดุอ้างอิงที่ดี? (*) ตามภาพประกอบนี่คือภาพจาก Murphy's …

2
AdaBoost น้อยลงหรือคว่ำง่ายกว่า
ฉันได้อ่านข้อความที่ขัดแย้งกัน (ดูเหมือน) หลายฉบับว่า AdaBoost (หรือเทคนิคการส่งเสริมอื่น ๆ ) นั้นมีความเป็นไปได้น้อยหรือมีแนวโน้มที่จะมีน้ำหนักเกินกว่าวิธีการเรียนรู้อื่น ๆ มีเหตุผลที่ดีที่จะเชื่ออย่างใดอย่างหนึ่งหรือไม่? ถ้ามันขึ้นอยู่กับว่ามันขึ้นอยู่กับอะไร? อะไรคือสาเหตุที่ AdaBoost มีแนวโน้มน้อยลง / มากขึ้นที่จะทำให้อ้วนมากเกินไป?

5
บล็อกในการออกแบบการทดลองคืออะไร
ฉันมีคำถามสองข้อเกี่ยวกับแนวคิดของบล็อกในการออกแบบการทดลอง: (1) ความแตกต่างระหว่างบล็อกและปัจจัยคืออะไร (2) ฉันพยายามอ่านหนังสือบางเล่ม แต่มีบางอย่างที่ไม่ชัดเจน: ดูเหมือนว่าผู้แต่งมักจะคิดว่าไม่มีการโต้ตอบระหว่าง "block factor" กับปัจจัยอื่น ๆ มันถูกต้องหรือไม่และถ้าเป็นเพราะอะไร

2
อะไรคือเหตุผลในการตัดสินใจเชิงทฤษฎีสำหรับขั้นตอนช่วงเวลาที่น่าเชื่อถือแบบเบย์?
(เพื่อดูว่าทำไมฉันถึงเขียนสิ่งนี้ให้ตรวจสอบความคิดเห็นด้านล่างคำตอบของคำถามนี้ ) ข้อผิดพลาดประเภท III และทฤษฎีการตัดสินใจเชิงสถิติ การให้คำตอบที่ถูกต้องกับคำถามที่ผิดนั้นบางครั้งเรียกว่าข้อผิดพลาด Type III ทฤษฎีการตัดสินใจเชิงสถิติเป็นรูปแบบของการตัดสินใจภายใต้ความไม่แน่นอน มันมีกรอบแนวคิดที่สามารถช่วยหนึ่งหลีกเลี่ยงข้อผิดพลาดประเภทที่สาม องค์ประกอบสำคัญของกรอบที่เรียกว่าฟังก์ชั่นการสูญเสีย มันต้องใช้สองข้อโต้แย้ง: ครั้งแรกคือ (ส่วนย่อยที่เกี่ยวข้องของ) สถานะที่แท้จริงของโลก (เช่นในปัญหาการประมาณค่าพารามิเตอร์ค่าพารามิเตอร์จริง ); ที่สองคือองค์ประกอบในชุดของการกระทำที่เป็นไปได้ (เช่นในปัญหาการประมาณค่าพารามิเตอร์การประมาณθ )θθ\thetaθ^)θ^)\hat{\theta}). เอาท์พุทแบบจำลองการสูญเสียที่เกี่ยวข้องกับทุกการกระทำที่เป็นไปได้เกี่ยวกับทุกสถานะที่แท้จริงที่เป็นไปได้ของโลก ตัวอย่างเช่นในปัญหาการประมาณค่าพารามิเตอร์ฟังก์ชันการสูญเสียที่รู้จักกันดีคือ: การสูญเสียข้อผิดพลาดแบบสัมบูรณ์L(θ,θ^)=|θ−θ^|L(θ,θ^)=|θ−θ^|L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| การสูญเสียข้อผิดพลาดกำลังสองL(θ,θ^)=(θ−θ^)2L(θ,θ^)=(θ−θ^)2L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 การสูญเสีย LINEX ของHal VarianL(θ,θ^;k)=exp(k(θ−θ^))−k(θ−θ^)−1, k≠0L(θ,θ^;k)=exp⁡(k(θ−θ^))−k(θ−θ^)−1, k≠0L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) …

4
การเปรียบเทียบค่า p กับแต่ละรายการมีความหมายอย่างไร
ฉันมีประชากรสองคน (ชายและหญิง) แต่ละคนมีตัวอย่าง สำหรับตัวอย่างแต่ละตัวอย่างฉันมีคุณสมบัติ A & B สองรายการ (เกรดเฉลี่ยปีแรกและคะแนน SAT) ฉันใช้การทดสอบแบบแยกต่างหากสำหรับ A & B: ทั้งคู่พบความแตกต่างอย่างมีนัยสำคัญระหว่างทั้งสองกลุ่ม A กับP = 0.008และ B กับP = 0.002100010001000p =0.008p=0.008p=0.008p=0.002p=0.002p=0.002 การอ้างว่าทรัพย์สิน B นั้นเป็นการเลือกปฏิบัติที่ดีกว่า (สำคัญกว่า) คือคุณสมบัติ A หรือไม่? หรือว่าการทดสอบ t เป็นเพียงการวัดใช่หรือไม่ (สำคัญหรือไม่สำคัญ)? ปรับปรุง : ตามความเห็นที่นี่และกับสิ่งที่ผมได้อ่านในวิกิพีเดียผมคิดว่าคำตอบที่ควรจะวางความหมาย p-value และรายงานของคุณขนาดของผล ความคิดใด ๆ

2
แคเร็ตวิธีการสุ่มตัวอย่างอีกครั้ง
ฉันใช้ไลบรารีcaretใน R เพื่อทดสอบขั้นตอนการสร้างแบบจำลองต่างๆ trainControlวัตถุช่วยให้หนึ่งเพื่อระบุวิธีการใหม่การสุ่มตัวอย่าง วิธีการที่อธิบายไว้ในเอกสารส่วน 2.3 และรวมถึง: boot, boot632, cv, LOOCV, LGOCV, และrepeatedcv oobถึงแม้ว่าสิ่งเหล่านี้บางอย่างจะอนุมานได้ง่าย แต่วิธีการเหล่านี้ไม่ได้มีการกำหนดไว้อย่างชัดเจน อะไรคือขั้นตอนที่สอดคล้องกับวิธีการสุ่มตัวอย่างใหม่เหล่านี้?
20 r  resampling  caret 

8
แนวคิดสำหรับซอฟต์แวร์“ แล็บบุ๊คโน้ตบุ๊ค” หรือไม่
นี่เป็นสิ่งที่แปลก แต่จริง ๆ แล้วฉันคิดว่ามันเป็นสิ่งที่แปลกสำหรับเว็บไซต์ใด ๆ ดังนั้นฉันคิดว่าฉันจะลองที่นี่ในบรรดาพี่น้องของฉัน ฉันมาที่ระบาดวิทยาและชีวสถิติจากชีววิทยาและยังคงมีนิสัยบางอย่างจากสาขานั้น หนึ่งในนั้นคือการรักษาสมุดบันทึกในห้องปฏิบัติการ มันมีประโยชน์สำหรับการบันทึกความคิดการตัดสินใจดนตรีเกี่ยวกับการวิเคราะห์ ฯลฯ ในที่เดียวทุกอย่างที่ทำไว้เพื่อให้ฉันสามารถมองย้อนกลับไปในการวิเคราะห์ในภายหลังและมีเงื่อนงำสิ่งที่ฉันทำ แต่มันจะเป็นการดีที่จะย้ายเข้าไปในศตวรรษที่ 21 โดยเฉพาะอย่างยิ่งเพราะแม้ว่าระบบโน้ตบุ๊กในห้องปฏิบัติการจะมีความเหมาะสมเพียงพอสำหรับการตัดสินใจของบุคคลหนึ่งคนและเอกสาร แต่ก็เป็นเรื่องดีที่สามารถแนบพล็อตจาก EDA อีเมลจากผู้จัดการข้อมูลที่พูดถึงชุดข้อมูลเฉพาะ ฯลฯ ฉันเดาว่าสิ่งนี้จะเกี่ยวข้องกับการเพิ่มระบบของฉันเองจากสหภาพที่ไม่บริสุทธิ์ของบิตที่แตกต่างกันหลายคน แต่ในปัจจุบันมีใครบ้างที่ใช้ระบบและมีคำแนะนำใด ๆ

2
อนุญาตการเปรียบเทียบโมเดลเอฟเฟกต์แบบผสม (เอฟเฟกต์แบบสุ่มเป็นหลัก)
ฉันได้ดูการสร้างเอฟเฟ็กต์แบบผสมโดยใช้แพ็คเกจ lme4 ในอาร์ฉันใช้lmerคำสั่งเป็นหลักดังนั้นฉันจะถามคำถามของฉันผ่านรหัสที่ใช้ไวยากรณ์นั้น ฉันคิดว่าคำถามง่าย ๆ ทั่วไปอาจจะใช่ไหมที่จะเปรียบเทียบสองโมเดลที่สร้างขึ้นในการlmerใช้อัตราส่วนความน่าจะเป็นตามชุดข้อมูลที่เหมือนกันหรือไม่ ฉันเชื่อว่าคำตอบนั้นต้องเป็น "ไม่" แต่ฉันไม่ถูกต้อง ฉันได้อ่านข้อมูลที่ขัดแย้งกันว่าเอฟเฟกต์แบบสุ่มจะต้องเหมือนกันหรือไม่และองค์ประกอบของเอฟเฟกต์แบบสุ่มนั้นมีความหมายอย่างไร ดังนั้นฉันจะนำเสนอตัวอย่างเล็ก ๆ น้อย ๆ ฉันจะนำพวกเขาจากข้อมูลการวัดซ้ำ ๆ โดยใช้การกระตุ้นคำบางทีบางอย่างเช่นBaayen (2008)น่าจะมีประโยชน์ในการตีความ สมมติว่าฉันมีแบบจำลองที่มีตัวทำนายเอฟเฟกต์คงที่สองตัวเราจะเรียกพวกมันว่า A และ B และเอฟเฟกต์สุ่มบางอย่าง ... คำศัพท์และวิชาที่มองเห็นพวกมัน ฉันอาจสร้างแบบจำลองดังต่อไปนี้ m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) (โปรดทราบว่าฉันตั้งใจออกไปdata =และเราจะถือว่าฉันหมายถึงREML = FALSEเพื่อความชัดเจนเสมอ) ทีนี้จากแบบจำลองต่อไปนี้ซึ่งเป็นสิ่งที่โอเคที่จะเปรียบเทียบกับอัตราส่วนความน่าจะเป็นกับแบบจำลองข้างบนและแบบใด? m1 <- lmer( y ~ A …

4
สรุปผลลัพธ์“ ใหญ่ p, เล็ก n”
ใครช่วยชี้ให้ฉันไปที่รายงานผลการสำรวจ "ใหญ่ , เล็ก "? ฉันสนใจในวิธีการแก้ปัญหานี้ปรากฏตัวในบริบทของการวิจัยที่แตกต่างกันเช่นการถดถอยการจำแนกการทดสอบ Hotelling ของฯลฯpพีpnnn

2
การทดสอบความสำคัญหรือการตรวจสอบความถูกต้องข้าม?
วิธีการทั่วไปสองวิธีในการเลือกตัวแปรที่เกี่ยวข้องคือการทดสอบที่สำคัญและการตรวจสอบความถูกต้องข้าม แต่ละปัญหาพยายามแก้ปัญหาอย่างไรและเมื่อใดที่ฉันจะเลือกใช้อีกอันหนึ่ง

6
เมื่อใดที่จะวางเทอมจากตัวแบบการถดถอย
ใครสามารถให้คำแนะนำถ้าต่อไปนี้ทำให้รู้สึก: ฉันกำลังจัดการกับตัวแบบเชิงเส้นธรรมดาที่มีตัวทำนาย 4 ตัว ฉันอยู่ในใจทั้งสองว่าจะทิ้งคำที่สำคัญน้อยที่สุดหรือไม่ มันคือมากกว่า 0.05 เล็กน้อย ฉันโต้เถียงในความโปรดปรานของการปล่อยมันไปตามบรรทัดเหล่านี้: คูณการประมาณของคำนี้โดย (ตัวอย่าง) ช่วง interquartile ของข้อมูลตัวอย่างสำหรับตัวแปรนี้ให้ความหมายบางอย่างกับผลทางคลินิกที่ทำให้คำนี้มีรูปแบบโดยรวม . เนื่องจากตัวเลขนี้ต่ำมากโดยประมาณเท่ากับค่าทั่วไปภายในช่วงเวลาที่ตัวแปรสามารถใช้เมื่อทำการวัดในการตั้งค่าทางคลินิกฉันจึงเห็นว่ามันไม่ได้มีนัยสำคัญทางคลินิกและอาจถูกทิ้งเพื่อให้แบบจำลองที่น่าเชื่อถือยิ่งขึ้น แม้ว่าการดร็อปจะเป็นการลดการปรับpppเล็กน้อยR2R2R^2

4
มีการทดสอบสถิติใด ๆ ที่เป็นพารามิเตอร์และไม่ใช่พารามิเตอร์
มีการทดสอบสถิติใด ๆ ที่เป็นพารามิเตอร์และไม่ใช่พารามิเตอร์ คำถามนี้ถูกถามโดยคณะผู้สัมภาษณ์ เป็นคำถามที่ถูกต้องหรือไม่

2
การถดถอยแบบทวินามและการถดถอยโลจิสติกต่างกันอย่างไร
ฉันคิดเสมอว่าการถดถอยแบบลอจิสติกเป็นเพียงกรณีพิเศษของการถดถอยแบบทวินามที่ฟังก์ชันลิงก์เป็นฟังก์ชันลอจิสติก (แทนที่จะพูดฟังก์ชั่น probit) จากการอ่านคำตอบสำหรับคำถามอื่นที่ฉันมีดูเหมือนว่าฉันอาจจะสับสนและมีความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยแบบทวินามด้วยการเชื่อมโยงโลจิสติก ความแตกต่างคืออะไร?

3
การทดสอบความสำคัญของยอดเขาในความหนาแน่นสเปกตรัม
บางครั้งเราใช้พล็อตความหนาแน่นสเปกตรัมเพื่อวิเคราะห์ช่วงเวลาในอนุกรมเวลา โดยปกติเราวิเคราะห์พล็อตโดยการตรวจสอบด้วยสายตาและจากนั้นพยายามวาดข้อสรุปเกี่ยวกับช่วงเวลา แต่นักสถิติได้ทำการพัฒนาการทดสอบเพื่อตรวจสอบว่าสไปค์ใด ๆ ในพล็อตนั้นแตกต่างจากเสียงสีขาวหรือไม่? ผู้เชี่ยวชาญด้าน R ได้พัฒนาแพ็คเกจใด ๆ สำหรับการวิเคราะห์ความหนาแน่นสเปกตรัมและสำหรับการทำแบบทดสอบนั้นหรือไม่? ดีมากถ้ามีคนช่วยได้ ขอแสดงความนับถือ, P.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.