สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การถดถอยแบบขั้นตอนใน R - มันทำงานอย่างไร
ฉันพยายามที่จะเข้าใจความแตกต่างพื้นฐานระหว่างการถดถอยแบบขั้นตอนและย้อนกลับใน R โดยใช้ฟังก์ชั่นขั้นตอน สำหรับการถดถอยแบบขั้นตอนฉันใช้คำสั่งต่อไปนี้ step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") ฉันได้ผลลัพธ์ด้านล่างสำหรับโค้ดด้านบน สำหรับการเลือกตัวแปรย้อนหลังฉันใช้คำสั่งต่อไปนี้ step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") และฉันได้ผลลัพธ์ด้านล่างสำหรับย้อนหลัง มากที่สุดเท่าที่ฉันเข้าใจเมื่อไม่มีการระบุพารามิเตอร์การเลือกแบบขั้นตอนทำหน้าที่ย้อนหลังเว้นแต่จะระบุพารามิเตอร์ "upper" และ "lower" ใน R แต่ในเอาต์พุตของการเลือกแบบ stepwise มี + disp ที่เพิ่มเข้ามา ขั้นตอนที่ 2 ฟังก์ชั่นพยายามทำอะไรโดยเพิ่มเครื่องหมาย + อีกครั้งในการเลือกแบบขั้นตอน? ทำไม R เพิ่ม + disp ในขั้นตอนที่ 2 ในขณะที่ผลลัพธ์เหมือนกัน (ค่า AIC และค่าการเลือกแบบจำลอง) เป็นการเลือกแบบย้อนหลัง R ทำงานอย่างไรในการเลือกแบบขั้นตอน ฉันต้องการเข้าใจจริงๆว่าฟังก์ชั่นนี้ทำงานอย่างไรใน R. ขอบคุณล่วงหน้าสำหรับความช่วยเหลือ!
15 r  regression 

3
เราจำเป็นต้องรวม“ ตัวทำนายที่เกี่ยวข้องทั้งหมดหรือไม่”
สมมติฐานพื้นฐานของการใช้แบบจำลองการถดถอยสำหรับการอนุมานคือ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ได้รวมอยู่ในสมการทำนาย เหตุผลก็คือความล้มเหลวในการรวมปัจจัยที่สำคัญในโลกแห่งความจริงนำไปสู่ค่าสัมประสิทธิ์ความเอนเอียงและการอนุมานที่ไม่ถูกต้อง แต่ในการปฏิบัติงานวิจัยฉันไม่เคยเห็นใครเลยรวมทั้งสิ่งที่คล้ายคลึงกับ "ตัวทำนายที่เกี่ยวข้องทั้งหมด" ปรากฏการณ์หลายอย่างมีสาเหตุสำคัญมากมายและมันคงเป็นเรื่องยากมากที่จะรวมพวกเขาทั้งหมดเข้าด้วยกัน ตัวอย่างนอกข้อมือคือการสร้างแบบจำลองภาวะซึมเศร้าเป็นผลลัพธ์: ไม่มีใครสร้างอะไรที่ใกล้เคียงกับแบบจำลองซึ่งรวมถึง "ตัวแปรที่เกี่ยวข้องทั้งหมด": เช่นประวัติผู้ปกครองลักษณะบุคลิกภาพการสนับสนุนทางสังคมรายได้ปฏิสัมพันธ์ของพวกเขา ฯลฯ ฯลฯ ... ยิ่งไปกว่านั้นการติดตั้งแบบจำลองที่ซับซ้อนเช่นนี้จะนำไปสู่การประมาณค่าที่ไม่เสถียรสูงเว้นแต่ว่ามีตัวอย่างขนาดใหญ่ คำถามของฉันง่ายมาก: สมมติฐาน / คำแนะนำในการ "รวมตัวทำนายที่เกี่ยวข้องทั้งหมด" เป็นเพียงแค่สิ่งที่เรา "พูด" แต่ไม่เคยหมายความว่าจริงหรือ? ถ้าไม่เช่นนั้นทำไมเราจึงให้คำแนะนำในการสร้างแบบจำลองจริง? และนี่หมายความว่าสัมประสิทธิ์ส่วนใหญ่อาจทำให้เข้าใจผิด? (เช่นการศึกษาปัจจัยบุคลิกภาพและภาวะซึมเศร้าที่ใช้ตัวทำนายหลายตัวเท่านั้น) พูดอีกอย่างคือปัญหาใหญ่แค่ไหนสำหรับข้อสรุปของวิทยาศาสตร์ของเรา?

3
การถดถอยโลจิสติก: Scikit Learn vs glmnet
ฉันพยายามทำซ้ำผลลัพธ์จากsklearnไลบรารีถดถอยโลจิสติกโดยใช้glmnetแพคเกจใน R จากเอกสารsklearnการถดถอยโลจิสติกพยายามลดฟังก์ชั่นค่าใช้จ่ายภายใต้บทลงโทษ l2 ขั้นต่ำw , c 1minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw + c ) ) + 1)minw,ค12wTW+คΣผม=1ยังไม่มีข้อความเข้าสู่ระบบ⁡(ประสบการณ์⁡(-Yผม(XผมTW+ค))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) จากสะเปะสะปะของglmnetการดำเนินงานของฟังก์ชั่นช่วยลดค่าใช้จ่ายแตกต่างกันเล็กน้อย นาทีβ, β0- [ 1ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความYผม( β0+ xTผมβ) - บันทึก( 1 + e( β0+ xTผมβ)) ] + λ [ ( α - 1 ) | | β| |22/ …

5
ปัญหาเอกฐานในรูปแบบการผสมแบบเกาส์เซียน
ในบทที่ 9 ของการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่องมีส่วนนี้เกี่ยวกับแบบผสมแบบเกาส์: บอกตามตรงฉันไม่เข้าใจจริง ๆ ว่าทำไมสิ่งนี้จึงสร้างความแปลกประหลาด ใครสามารถอธิบายสิ่งนี้ให้ฉันได้บ้าง ฉันขอโทษ แต่ฉันเป็นแค่ระดับปริญญาตรีและเป็นสามเณรในการเรียนรู้ของเครื่องดังนั้นคำถามของฉันอาจฟังดูไร้สาระ แต่โปรดช่วยฉันด้วย ขอบคุณมาก

2
2 ตัวอย่าง Kolmogorov-Smirnov กับ Anderson-Darling กับ Cramer-von-Mises
ฉันสงสัยว่าเกณฑ์การใช้ Kolmogorov-Smirnov, Cramer-von-Mises และ Anderson-Darling คืออะไรเมื่อเปรียบเทียบ 2 ECDFS ฉันรู้คณิตศาสตร์ว่าแต่ละวิธีแตกต่างกันอย่างไร แต่ถ้าฉันมีข้อมูล ECDF บางอย่างฉันจะรู้ได้อย่างไรว่าการทดสอบใดที่เหมาะสมที่จะใช้

3
สำหรับตัวแยกประเภทแบบเชิงเส้นสัมประสิทธิ์ขนาดใหญ่แสดงถึงคุณสมบัติที่สำคัญกว่านี้ไหม
ฉันเป็นวิศวกรซอฟต์แวร์ที่ทำงานเกี่ยวกับการเรียนรู้ของเครื่อง จากความเข้าใจของฉันการถดถอยเชิงเส้น (เช่น OLS) และการ จำแนกเชิงเส้น (เช่นการถดถอยโลจิสติกและ SVM) ทำให้การคาดการณ์ขึ้นอยู่กับผลิตภัณฑ์ภายในระหว่างค่าสัมประสิทธิ์การฝึกอบรม และตัวแปรคุณลักษณะ→ x :W⃗ W→\vec{w}x⃗ x→\vec{x} Y^= f( ด้วย⃗ ⋅ x⃗ ) = f( ∑ผมWผมxผม)Y^=ฉ(W→⋅x→)=ฉ(ΣผมWผมxผม) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) คำถามของฉันคือ: หลังจากแบบจำลองได้รับการฝึกอบรม (นั่นคือหลังจากสัมประสิทธิ์คำนวณแล้ว) เป็นกรณีที่สัมประสิทธิ์จะมีขนาดใหญ่กว่าสำหรับตัวแปรคุณลักษณะที่สำคัญกว่าสำหรับแบบจำลองที่จะทำนายได้แม่นยำกว่าหรือไม่WผมWผมw_i ในคำอื่น ๆ ฉันถามว่าขนาดสัมพัทธ์ของสัมประสิทธิ์สามารถใช้สำหรับการเลือกคุณสมบัติโดยเพียงแค่สั่งตัวแปรตามค่าสัมประสิทธิ์แล้วเลือกคุณสมบัติที่มีสัมประสิทธิ์สูงสุดหรือไม่ หากวิธีการนี้ถูกต้องแล้วทำไมถึงไม่กล่าวถึงการเลือกคุณสมบัติ (รวมถึงวิธีการหุ้มและตัวกรอง ฯลฯ ) เหตุผลที่ฉันถามสิ่งนี้เพราะฉันได้พบกับการอภิปรายเกี่ยวกับการทำให้เป็นมาตรฐานL1 กับ L2 มีการประกาศแจ้งความว่า: การเลือกคุณสมบัติในตัวถูกกล่าวถึงบ่อยครั้งว่าเป็นคุณสมบัติที่มีประโยชน์ของ L1-norm ซึ่ง …

1
ผลรวมหรือค่าเฉลี่ยของการไล่ระดับสีในชุดการไล่ระดับสีแบบย่อส่วน
เมื่อฉันใช้การไล่ระดับสีแบบย่อส่วนที่เหมาะสมฉันเพิ่งเฉลี่ยการไล่ระดับสีของตัวอย่างทั้งหมดในชุดการฝึกอบรม อย่างไรก็ตามฉันสังเกตเห็นว่าตอนนี้อัตราการเรียนรู้ที่ดีที่สุดนั้นสูงกว่าการไล่ระดับสีออนไลน์อย่างมาก สัญชาตญาณของฉันคือสิ่งนี้เป็นเพราะการไล่ระดับสีเฉลี่ยนั้นมีเสียงดังน้อยกว่าและสามารถติดตามได้เร็วขึ้น ดังนั้นมันอาจจะสมเหตุสมผลที่จะสรุปการไล่ระดับสีของแบทช์ ค่าสามารถเป็นบวกและลบได้อยู่ดี ฉันรู้ว่ามันเป็นเพียงปัจจัยคงที่ที่สามารถทำให้สมดุลโดยใช้อัตราการเรียนรู้ แต่ฉันสงสัยว่าคำนิยามใดที่นักวิทยาศาสตร์ได้ตกลงกันเพื่อที่ฉันจะสามารถทำซ้ำผลลัพธ์จากเอกสารโครงข่ายประสาท โดยทั่วไปแล้วจะแบ่งการไล่ระดับสีแบบรวมของแบทช์ด้วยขนาดแบทช์หรือไม่

2
ความแปรปรวนสูงของการตรวจสอบความถูกต้องแบบลาข้ามครั้งเดียว
ฉันอ่านซ้ำแล้วซ้ำอีกว่าการตรวจสอบความถูกต้องแบบ "ปล่อยให้ออกมาหนึ่งครั้ง" นั้นมีความแปรปรวนสูงเนื่องจากการทับซ้อนขนาดใหญ่ของการฝึกอบรม อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมจึงเป็นเช่นนั้น: ประสิทธิภาพการตรวจสอบข้ามไม่ควรมีเสถียรภาพมาก (ความแปรปรวนต่ำ) เพราะชุดการฝึกอบรมเกือบเหมือนกันหรือไม่ หรือฉันมีความเข้าใจผิดเกี่ยวกับแนวคิดเรื่อง "ความแปรปรวน" โดยสิ้นเชิง? ฉันยังไม่เข้าใจอย่างชัดเจนว่า LOO สามารถเป็นกลางได้อย่างไร แต่มีความแปรปรวนสูง หากการประมาณค่า LOO เท่ากับค่าตัวประมาณที่แท้จริงในความคาดหมาย - จะมีความแปรปรวนสูงได้อย่างไร หมายเหตุ: ฉันรู้ว่ามีคำถามที่คล้ายกันที่นี่: เหตุใดความแปรปรวนการตรวจสอบความถูกต้องแบบข้ามครั้งต่อวัน (LOOCV) เกี่ยวกับการประมาณค่าเฉลี่ยสำหรับข้อผิดพลาดสูง อย่างไรก็ตามคนที่ตอบว่าต่อมาในความเห็นว่าแม้ upvotes เขาได้ตระหนักว่าคำตอบของเขาผิด

2
ทำความเข้าใจเกี่ยวกับการคำนวณความสัมพันธ์ระยะทาง
เท่าที่ฉันเข้าใจความสัมพันธ์ของระยะทางเป็นวิธีที่มีประสิทธิภาพและเป็นสากลในการตรวจสอบว่ามีความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวหรือไม่ ตัวอย่างเช่นหากเรามีชุดจำนวนคู่: (x1, y1) (x2, y2) ... (xn, yn) เราสามารถใช้ความสัมพันธ์ของระยะทางเพื่อตรวจสอบว่ามีความสัมพันธ์ใด ๆ (ไม่จำเป็นต้องเป็นเชิงเส้น) ระหว่างตัวแปรสองตัว ( xและy) ยิ่งกว่านั้นxและyสามารถเป็นเวกเตอร์ที่มีขนาดต่างกัน มันค่อนข้างง่ายในการคำนวณความสัมพันธ์ของระยะทาง ก่อนอื่นเราใช้xixผมx_iในการคำนวณระยะทางเมทริกซ์ จากนั้นเราจะคำนวณเมทริกซ์ระยะทางโดยใช้yผมyผมy_iฉัน เมทริกซ์ระยะทางทั้งสองจะมีขนาดเท่ากันเนื่องจากจำนวนxผมxผมx_iและYผมyผมy_iเท่ากัน (เพราะมาเป็นคู่) ตอนนี้เรามีระยะทางมากมายที่สามารถจับคู่ได้ ตัวอย่างเช่นองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางแรกถูกจับคู่กับองค์ประกอบ(2,3)จากเมทริกซ์ระยะทางที่สอง ดังนั้นเรามีชุดของระยะทางคู่หนึ่งและเราสามารถใช้มันเพื่อคำนวณความสัมพันธ์ (ความสัมพันธ์ระหว่างระยะทาง) หากระยะทางสองประเภทนั้นมีความสัมพันธ์กันมากกว่าที่หมายความว่า close Xs มักจะหมายถึง close Ys ตัวอย่างเช่นถ้าใกล้เคียงกับx 13มากกว่านั่นหมายความว่าy 7น่าจะใกล้เคียงกับy 13x7x7x_7x13x13x_{13}Y7Y7y_7Y13Y13y_{13} 13ดังนั้นเราสามารถสรุปได้ว่า Xs และ Ys ขึ้นอยู่กับ ฟังดูสมเหตุสมผล แต่มีสองด้านที่ผมไม่เข้าใจ อันดับแรกเพื่อคำนวณความสัมพันธ์ของระยะทางเราไม่ได้ใช้เมทริกซ์ระยะทางสองตัวโดยตรง เราใช้กับพวกเขาสองขั้นตอนกลาง (เพื่อให้ผลรวมขององค์ประกอบทั้งหมดในแถวใด ๆ (หรือคอลัมน์) เท่ากับศูนย์) ฉันไม่เข้าใจว่าทำไมเราต้องทำ ตรรกะ …

2
การเชื่อมต่อระหว่างห่วงโซ่มาร์คอฟกับมาร์คอฟโซ่มอนเต้คาร์โลคืออะไร
ฉันพยายามทำความเข้าใจกับ Markov chains โดยใช้ SAS ฉันเข้าใจว่ากระบวนการมาร์คอฟเป็นสิ่งที่รัฐในอนาคตขึ้นอยู่กับสถานะปัจจุบันเท่านั้นและไม่ได้อยู่ในสถานะที่ผ่านมาและมีเมทริกซ์การเปลี่ยนแปลงที่จับความน่าจะเป็นการเปลี่ยนแปลงจากรัฐหนึ่งไปยังอีกรัฐหนึ่ง แต่ฉันเจอคำนี้: มาร์คอฟเชนมอนติคาร์โล สิ่งที่ฉันอยากรู้คือถ้ามาร์คอฟเชนมอนติคาร์โลนั้นเกี่ยวข้องกับกระบวนการมาร์คอฟที่ฉันอธิบายไว้ข้างต้นหรือไม่

3
แบบจำลองสำหรับข้อมูลที่ไม่เป็นลบพร้อมการจับกลุ่มที่ศูนย์ (Tweedie GLM, GLM ที่ไม่ทำให้เป็นศูนย์เป็นต้น) สามารถทำนายค่าศูนย์ที่แน่นอนได้หรือไม่
การแจกแจงแบบทวีคูณสามารถสร้างแบบจำลองข้อมูลเอียงด้วยมวลจุดที่ศูนย์เมื่อพารามิเตอร์ (เลขชี้กำลังในความสัมพันธ์ความแปรปรวนเฉลี่ย) อยู่ระหว่าง 1 ถึง 2ppp ในทำนองเดียวกันรูปแบบศูนย์ที่พองเกิน (ไม่ว่าจะเป็นแบบต่อเนื่องหรือไม่ต่อเนื่อง) อาจมีเลขศูนย์จำนวนมาก ฉันมีปัญหาในการทำความเข้าใจว่าทำไมเมื่อฉันทำการทำนายหรือคำนวณค่าติดตั้งกับโมเดลเหล่านี้ค่าที่ทำนายทั้งหมดจะไม่เป็นศูนย์ แบบจำลองเหล่านี้สามารถทำนายค่าศูนย์ที่แน่นอนได้จริงหรือ ตัวอย่างเช่น library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ …

2
ข้อผิดพลาดของการฝึกอบรมที่ต้องรายงานสำหรับป่าสุ่มคืออะไร
ขณะนี้ฉันกำลังปรับฟอเรสต์แบบสุ่มสำหรับปัญหาการจำแนกประเภทโดยใช้randomForestแพ็คเกจใน R และไม่แน่ใจเกี่ยวกับวิธีรายงานข้อผิดพลาดในการฝึกอบรมสำหรับโมเดลเหล่านี้ ข้อผิดพลาดในการฝึกอบรมของฉันใกล้เคียงกับ 0% เมื่อฉันคำนวณโดยใช้การคาดการณ์ที่ฉันได้รับจากคำสั่ง: predict(model, data=X_train) ที่X_trainเป็นข้อมูลการฝึกอบรม ในคำตอบของคำถามที่เกี่ยวข้องฉันอ่านว่าควรใช้ข้อผิดพลาดการฝึกอบรมนอกกระเป๋า (OOB) เป็นตัวชี้วัดข้อผิดพลาดการฝึกอบรมสำหรับฟอเรสต์แบบสุ่ม ปริมาณนี้คำนวณจากการทำนายที่ได้จากคำสั่ง: predict(model) ในกรณีนี้ข้อผิดพลาดในการฝึกอบรมของ OOB นั้นใกล้กับข้อผิดพลาดในการทดสอบ 10-CV เฉลี่ยซึ่งมากถึง 11% ฉันสงสัย: เป็นที่ยอมรับกันโดยทั่วไปในการรายงานข้อผิดพลาดการฝึกอบรมของ OOB ว่าเป็นข้อผิดพลาดในการฝึกอบรมสำหรับป่าสุ่มหรือไม่? ความจริงที่ว่าข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมนั้นต่ำเกินจริงหรือไม่? หากข้อผิดพลาดในการฝึกอบรมแบบดั้งเดิมอยู่ในระดับต่ำมาก ๆ ฉันจะเปรียบเทียบได้สองวิธีเพื่อตรวจสอบว่า RF กำลังเกินขนาดหรือไม่

5
เคอร์เนล SVM: ฉันต้องการความเข้าใจที่เข้าใจง่ายเกี่ยวกับการแมปไปยังพื้นที่คุณลักษณะมิติที่สูงขึ้นและวิธีนี้ทำให้การแยกเชิงเส้นเป็นไปได้
ฉันพยายามที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังเคอร์เนล SVM ตอนนี้ฉันเข้าใจวิธีการทำงานของ SVM แบบเส้นตรงโดยที่บรรทัดการตัดสินใจจะแยกข้อมูลออกมาให้ดีที่สุดเท่าที่จะทำได้ ฉันยังเข้าใจหลักการที่อยู่เบื้องหลังการย้ายข้อมูลไปยังพื้นที่มิติที่สูงขึ้นและวิธีนี้จะทำให้การค้นหาเส้นการตัดสินใจเชิงเส้นในพื้นที่ใหม่นี้ง่ายขึ้น สิ่งที่ฉันไม่เข้าใจก็คือวิธีที่เคอร์เนลใช้ในการฉายจุดข้อมูลไปยังพื้นที่ใหม่นี้ สิ่งที่ฉันรู้เกี่ยวกับเคอร์เนลคือมันแสดงถึง "ความคล้ายคลึงกัน" ได้อย่างมีประสิทธิภาพระหว่างจุดข้อมูลสองจุด แต่สิ่งนี้เกี่ยวข้องกับการฉายภาพอย่างไร

1
ความสำคัญของความแตกต่างระหว่างการนับสองครั้ง
มีวิธีการตรวจสอบหรือไม่ว่าความแตกต่างระหว่างการนับอุบัติเหตุทางถนน ณ เวลา 1 นั้นแตกต่างจากการนับครั้งที่ 2 หรือไม่? ฉันได้พบวิธีการที่แตกต่างกันในการกำหนดความแตกต่างระหว่างกลุ่มการสังเกตในเวลาที่ต่างกัน (เช่นการเปรียบเทียบปัวซองหมายถึง) แต่ไม่ใช่สำหรับการเปรียบเทียบการนับเพียงสองครั้ง หรือจะลองใช้ไม่ได้? คำแนะนำหรือทิศทางใด ๆ ที่จะได้รับการชื่นชม ฉันมีความสุขที่จะนำไปสู่การติดตามตัวเอง

1
ฉันมีแนวที่ดีที่สุด ฉันต้องการจุดข้อมูลที่จะไม่เปลี่ยนแนวที่ดีที่สุดของฉัน
ฉันกำลังนำเสนอเกี่ยวกับเส้นสายที่กระชับ ฉันมีฟังก์ชั่นเชิงเส้นอย่างง่าย, ข ฉันกำลังพยายามหาจุดข้อมูลที่กระจัดกระจายที่ฉันสามารถใส่ในพล็อตกระจายที่จะทำให้แถวของฉันเหมาะสมที่สุดสมการเดียวกันy=1x+by=1x+by=1x+b ฉันชอบที่จะเรียนรู้เทคนิคนี้ใน R หรือ Excel - แล้วแต่ว่าจะง่ายกว่ากัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.