สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
วิธีการคำนวณค่าสัมประสิทธิ์ของกฎหมายของ Zipf จากชุดของความถี่สูงสุด?
ฉันมีความถี่ในการสืบค้นหลายครั้งและฉันจำเป็นต้องประเมินค่าสัมประสิทธิ์ของกฎหมายของ Zipf นี่คือความถี่สูงสุด: 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039

3
อะไรคือข้อดีของการวัด Wasserstein เมื่อเทียบกับ Kullback-Leibler divergence?
อะไรคือความแตกต่างระหว่างWasserstein metricและKullback-Leibler divergence ? Wasserstein metric เรียกอีกอย่างหนึ่งว่าระยะทางของผู้มีอิทธิพลของโลก จากวิกิพีเดีย: Wasserstein (หรือ Vaserstein) เมตริกเป็นฟังก์ชันระยะทางที่กำหนดระหว่างการแจกแจงความน่าจะเป็นในพื้นที่เมตริกที่กำหนด M และ Kullback – Leibler divergence เป็นการวัดว่าการแจกแจงความน่าจะเป็นหนึ่งแยกจากการแจกแจงความน่าจะเป็นที่สองอย่างไร ฉันเคยเห็น KL ถูกใช้ในการเรียนรู้การใช้งานเครื่อง แต่เมื่อเร็ว ๆ นี้ฉันได้พบกับตัวชี้วัดของ Wasserstein มีแนวทางที่ดีเมื่อใช้อย่างใดอย่างหนึ่งหรือไม่? (ฉันมีชื่อเสียงไม่เพียงพอที่จะสร้างแท็กใหม่ด้วยWassersteinหรือEarth mover's distance.)

2
การถดถอยแบบควอไทล์อย่างไร“ ทำงาน”?
ฉันหวังว่าจะได้คำอธิบายที่เข้าใจง่ายและเข้าถึงได้ของการถดถอยเชิงปริมาณ สมมติว่าฉันมีชุดข้อมูลผลลัพธ์และตัวทำนายอย่างง่ายYYYX1,X2X1,X2X_1, X_2 ตัวอย่างเช่นถ้าฉันใช้การถดถอยแบบควอไทล์ที่. 25, .5, .75 และกลับมา .β0,.25,β1,.25...β2,.75β0,.25,β1,.25...β2,.75\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75} เป็นค่าพบโดยเพียงแค่สั่งค่านิยมและการดำเนินการถดถอยเชิงเส้นขึ้นอยู่กับตัวอย่างซึ่งอยู่ที่ใกล้ / quantile ที่กำหนดหรือไม่ββ\betayyy หรือตัวอย่างทั้งหมดมีส่วนร่วมในการประมาณโดยมีน้ำหนักจากมากไปหาน้อยเมื่อระยะห่างจากควอนไทล์เพิ่มขึ้น?ββ\beta หรือมันเป็นสิ่งที่แตกต่างอย่างสิ้นเชิง? ฉันยังไม่พบคำอธิบายที่สามารถเข้าถึงได้

1
การระบุเอฟเฟกต์แบบสุ่ม (แยก) หลายรายการใน lme [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 เดือนที่ผ่านมา ฉันทำงานในแพ็คเกจ R nlmeและlme4พยายามระบุรุ่นที่มีเอฟเฟกต์แบบสุ่มหลายอัน ฉันพบว่ามีเพียงnlmeเท่านั้นที่อนุญาตให้ระบุโครงสร้างที่แตกต่างกันของความแปรปรวน ดังนั้นฉันได้แบบจำลองโดยที่อุณหภูมิ (Y) ขึ้นอยู่กับเวลา (เป็นชั่วโมง) การสกัดกั้นจะแตกต่างกันตามวันที่และปีและความแปรปรวนก็แตกต่างกันไปตามปี: fit1 <- lme(Y ~ time, random=~1|year/date, data=X, weights=varIdent(form=~1|year)) อย่างไรก็ตามหากฉันต้องการเพิ่มคำแบบสุ่มอื่น (เวลาแปรผันตามวันที่) และระบุรูปแบบดังนี้: fit2 <- lme(Y ~ time, random=list(~1|year, ~time-1|date, ~1|date), data=X, weights=varIdent(form=~1|year)) เอฟเฟกต์แบบสุ่มซ้อนกันใน: วันที่ในปี; แล้ววันที่ในวันที่และในปี ฉันก็ลอง one <- rep(1, length(Y)) fit3 <- lme(Y ~ time, …

3
การตีความคำศัพท์โต้ตอบในการถดถอยโลจิทด้วยตัวแปรเด็ดขาด
ฉันมีข้อมูลจากการทดสอบการสำรวจซึ่งผู้ตอบถูกสุ่มให้กับหนึ่งในสี่กลุ่ม: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 ในขณะที่กลุ่มการรักษาทั้งสามแตกต่างกันเล็กน้อยในการกระตุ้นที่ใช้ความแตกต่างหลักที่ฉันสนใจคือระหว่างกลุ่มควบคุมและกลุ่มการรักษา ดังนั้นฉันจึงกำหนดตัวแปรหุ่นจำลองControl: > summary(df$Control) TRUE FALSE 59 191 ในการสำรวจผู้ตอบแบบสอบถามถูกถาม (เหนือสิ่งอื่นใด) เพื่อเลือกสิ่งที่พวกเขาต้องการสองสิ่ง: > summary(df$Prefer) A B NA's 152 93 5 จากนั้นหลังจากได้รับการกระตุ้นตามที่กำหนดโดยกลุ่มการรักษาของพวกเขา (และไม่มีถ้าพวกเขาอยู่ในกลุ่มควบคุม) ผู้ตอบแบบสอบถามถูกขอให้เลือกระหว่างสองสิ่งเดียวกัน: > summary(df$Choice) A B 149 101 ฉันต้องการทราบว่าการอยู่ในหนึ่งในสามกลุ่มการรักษามีผลต่อการเลือกของผู้ตอบแบบสอบถามในคำถามสุดท้ายนี้หรือไม่ สมมติฐานของฉันคือว่าผู้ตอบแบบสอบถามที่ได้รับการรักษาที่มีแนวโน้มที่จะเลือกกว่า AB เนื่องจากฉันทำงานกับข้อมูลที่เป็นหมวดหมู่ฉันได้ตัดสินใจใช้การถดถอยแบบ logit (อย่าลังเลที่จะพูดสอดหากคุณคิดว่าไม่ถูกต้อง) เนื่องจากผู้ตอบถูกสุ่มเลือกฉันอยู่ภายใต้การแสดงผลที่ฉันไม่ควรจำเป็นต้องควบคุมตัวแปรอื่น ๆ (เช่นข้อมูลประชากร) ดังนั้นฉันจึงทิ้งคำถามเหล่านี้ไว้ รุ่นแรกของฉันเป็นเพียงต่อไปนี้: …

5
การวิเคราะห์เชิงสาเหตุเบื้องต้น
หนังสือดีอะไรที่แนะนำการวิเคราะห์เชิงสาเหตุ ฉันคิดถึงการแนะนำที่ทั้งสองอธิบายหลักการของการวิเคราะห์เชิงสาเหตุและแสดงให้เห็นว่าวิธีการทางสถิติที่แตกต่างกันสามารถนำมาใช้ในการประยุกต์ใช้หลักการเหล่านี้ได้อย่างไร

5
ขั้นตอนการทำคลัสเตอร์ที่แต่ละกลุ่มมีจำนวนคะแนนเท่ากันหรือไม่
ฉันมีบางจุดในR pและฉันต้องการจัดกลุ่มคะแนนเพื่อให้:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RพีRพีR^p แต่ละคลัสเตอร์มีจำนวนเท่ากันขององค์ประกอบของX(สมมติว่าจำนวนกลุ่มหารn )XXXnnn แต่ละกลุ่มมี "ความสัมพันธ์เชิงพื้นที่" ในบางกรณีเช่นกลุ่มจาก -meanskkk เป็นเรื่องง่ายที่จะนึกถึงกระบวนการจัดกลุ่มจำนวนมากที่ตอบสนองความต้องการอย่างใดอย่างหนึ่ง แต่ไม่มีใครรู้วิธีที่จะทำให้ทั้งสองอย่างพร้อมกันได้หรือไม่

3
การวัดความถูกต้องของข้อมูลมัลติมิเตอร์มีอะไรบ้าง
พิจารณาสถานการณ์ที่คุณได้รับเมทริกซ์ KnownLabel และเมทริกซ์ PredictedLabel ฉันต้องการวัดความดีของเมทริกซ์ PredictedLabel เทียบกับเมทริกซ์ KnownLabel แต่ความท้าทายในที่นี้คือ KnownLabel Matrix มีเพียงไม่กี่แถวเท่านั้นที่มี 1 แถวและอีกสองสามแถวที่มีจำนวนมาก 1 แถว (อินสแตนซ์เหล่านั้นมีป้ายกำกับหลายรายการ) ตัวอย่างของ KnownLabel Matrix ได้รับด้านล่าง A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] ในเมทริกซ์ข้างต้นอินสแตนซ์ข้อมูล 1 และ 2 เป็นข้อมูลเลเบลเดียวอินสแตนซ์ข้อมูล 3 และ 4 …

4
ตัวแปรอิสระ = ตัวแปรสุ่ม?
ฉันสับสนเล็กน้อยหากตัวแปรอิสระ (เรียกอีกอย่างว่าตัวทำนายหรือคุณสมบัติ) ในแบบจำลองทางสถิติตัวอย่างเช่นในการถดถอยเชิงเส้นเป็นตัวแปรสุ่มหรือไม่?XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X

2
เหตุใดความแปรปรวนของตัวอย่างจึงเปลี่ยนไปถ้าการสังเกตซ้ำกัน
ความแปรปรวนกล่าวกันว่าเป็นมาตรวัดการแพร่กระจาย ดังนั้นฉันจึงคิดว่าความแปรปรวนของ3,5เท่ากับความแปรปรวน3,3,5,5เนื่องจากจำนวนนั้นกระจายเท่ากัน แต่นี่ไม่ใช่กรณีที่ความแปรปรวนของ3,5คือ2ในขณะที่ความแปรปรวนของการเป็น3,3,5,51 1/3 ปริศนานี้ทำให้ฉันได้รับคำอธิบายว่าความแปรปรวนควรจะเป็นตัวชี้วัดการแพร่กระจาย ดังนั้นในบริบทนั้นการวัดการแพร่กระจายหมายถึงอะไร
25 variance 

2
เวกเตอร์สนับสนุนการถดถอยทำงานอย่างไรโดยสังหรณ์ใจ?
ตัวอย่างทั้งหมดของ SVM เกี่ยวข้องกับการจำแนกประเภท ฉันไม่เข้าใจว่า SVM สำหรับการถดถอย (สนับสนุน vector regressor) สามารถใช้ในการถดถอยได้อย่างไร จากความเข้าใจของฉัน SVM เพิ่มระยะห่างระหว่างสองคลาสให้มากที่สุดเพื่อหาไฮเปอร์เพลนที่เหมาะสม สิ่งนี้จะทำงานในปัญหาการถดถอยได้อย่างไร
25 regression  svm 

2
การตรวจสอบความถูกต้องไขว้ 10 เท่าเทียบกับการตรวจสอบความถูกต้องข้ามแบบครั้งเดียว
ฉันกำลังทำการตรวจสอบข้ามแบบซ้อนกัน ฉันได้อ่านแล้วว่าการตรวจสอบไขว้แบบลาออกหนึ่งครั้งสามารถมีอคติได้ (จำไม่ได้ว่าทำไม) จะเป็นการดีกว่าหรือไม่ที่จะใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าหรือการตรวจสอบความถูกต้องแบบ cross-one-out นอกเหนือจากการรันไทม์ที่นานขึ้นสำหรับการตรวจสอบความถูกต้องแบบ cross-one-out?

4
การ oversampling, undersampling และ SMOTE มีปัญหาอะไรบ้าง
ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว [... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!

1
empirical Bayes ใช้ได้อย่างไร?
ดังนั้นฉันเพิ่งเสร็จสิ้นการอ่านหนังสือที่ดีรู้เบื้องต้นเกี่ยวกับเชิงประจักษ์เบส์ ฉันคิดว่าหนังสือเล่มนี้ยอดเยี่ยม แต่การสร้างนักบวชจากข้อมูลรู้สึกผิด ฉันได้รับการฝึกฝนว่าคุณเกิดแผนการวิเคราะห์จากนั้นรวบรวมข้อมูลจากนั้นคุณทดสอบสมมติฐานที่คุณได้กำหนดไว้ก่อนหน้านี้ในแผนการวิเคราะห์ของคุณ เมื่อคุณทำเช่นการวิเคราะห์ข้อมูลที่เก็บรวบรวมไว้แล้วทำให้คุณเข้าสู่การอนุมานโพสต์เลือกที่คุณจะต้องมีความเข้มงวดมากขึ้นในสิ่งที่คุณเรียกว่า "อย่างมีนัยสำคัญ" ดูที่นี่ ฉันคิดว่าการเรียนรู้ด้วยเครื่องมีบางสิ่งที่คล้ายคลึงกันซึ่งเรียกว่า "การเก็บเชอร์รี่" ซึ่งหมายถึงการเลือกตัวทำนายล่วงหน้าก่อนตั้งค่าชุดการทดสอบและการฝึกอบรม ( รู้เบื้องต้นเกี่ยวกับสถิติ ) จากสิ่งที่ฉันได้เรียนรู้มาก่อนหน้านี้ดูเหมือนว่าสำหรับฉันแล้วเบย์เชิงประจักษ์ตั้งอยู่บนรากฐานที่อ่อนแอ ผู้คนใช้งานในการตั้งค่าที่ข้อมูลถูกสร้างขึ้นเฉยๆหรือไม่? ถ้าเป็นเช่นนั้นอาจเป็นเหตุผล แต่ดูเหมือนจะไม่ถูกต้องที่จะใช้เมื่อทำการออกแบบการทดลองอย่างเข้มงวด แต่ฉันรู้ว่าแบรด Efron ใช้เบย์เชิงประจักษ์โดยเฉพาะสำหรับชีวสถิติโดยทั่วไปเป็นเขต NHST มาก คำถามของฉันคือ: empirical Bayes ใช้ได้อย่างไร? ใช้ในสถานการณ์อะไร คุณควรหลีกเลี่ยงสถานการณ์ใดในการใช้วิธีทดลองเบย์และทำไม? ผู้คนใช้งานในสาขาอื่นนอกเหนือจากชีวสถิติและหากเป็นเช่นนั้นในสถานการณ์ใดที่พวกเขาใช้งานอยู่

1
ระบบเข้ารหัสอัตโนมัติแบบแปรปรวนคืออะไรและใช้งานการเรียนรู้อะไรบ้าง
ตามนี้และนี้คำตอบ autoencoders ดูเหมือนจะเป็นเทคนิคที่ใช้โครงข่ายประสาทเทียมสำหรับการลดมิติ ฉันต้องการทราบเพิ่มเติมว่าautoencoder แบบแปรผันคืออะไร(ความแตกต่าง / ประโยชน์หลัก ๆ ของมันมากกว่า autoencoders แบบดั้งเดิม) และสิ่งที่เป็นหน้าที่การเรียนรู้หลักที่อัลกอริทึมเหล่านี้ใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.