สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ทำไมตัวประมาณ James-Stein จึงเรียกตัวประมาณว่า
ฉันได้อ่านเกี่ยวกับตัวประมาณ James-Stein มันถูกกำหนดไว้ในบันทึกนี้เป็น θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X ฉันได้อ่านหลักฐานแล้ว แต่ฉันไม่เข้าใจข้อความต่อไปนี้: ตัวประเมินเจมส์ - สไตน์ย่อตัวส่วนประกอบแต่ละส่วนของเข้าหาจุดกำเนิด ...XXX "ย่อส่วนแต่ละส่วนของไปทางต้นกำเนิด" หมายความว่าอย่างไร ฉันกำลังคิดว่าจะชอบ ซึ่งเป็นจริงในกรณีนี้ตราบใดที่ตั้งแต่ ‖ θ - 0 ‖ 2 < ‖ X - 0 ‖ 2 , ( P + 2 ) < ‖ X ‖ 2 ‖ θ ‖ = ‖ X ‖ 2 - …

5
สัญชาตญาณ (เรขาคณิตหรืออื่น ๆ ) ของ
พิจารณาตัวตนเบื้องต้นของความแปรปรวน: Var(X)===E[(X−E[X])2]...E[X2]−(E[X])2Var(X)=E[(X−E[X])2]=...=E[X2]−(E[X])2 \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} มันเป็นการจัดการเชิงพีชคณิตอย่างง่าย ๆ ของการนิยามของโมเมนต์ศูนย์กลางในช่วงเวลาที่ไม่เกี่ยวข้อง ช่วยให้การจัดการในบริบทอื่น ๆ สะดวกขึ้น นอกจากนี้ยังช่วยให้การคำนวณความแปรปรวนผ่านการส่งผ่านข้อมูลครั้งเดียวมากกว่าการส่งผ่านสองครั้งแรกเพื่อคำนวณค่าเฉลี่ยแล้วทำการคำนวณความแปรปรวนVar(X)Var(X)Var(X) แต่มันหมายความว่าอะไร? สำหรับฉันไม่มีสัญชาตญาณทางเรขาคณิตทันทีที่เกี่ยวข้องกับการแพร่กระจายเกี่ยวกับค่าเฉลี่ยในการแพร่กระจายประมาณ 0 เป็นเป็นชุดในมิติเดียวคุณจะดูการแพร่กระจายรอบค่าเฉลี่ยเป็นความแตกต่างระหว่างการแพร่กระจายรอบต้นกำเนิดและสี่เหลี่ยมจัตุรัส หมายความว่าอย่างไรXXX มีการตีความพีชคณิตเชิงเส้นที่ดีหรือการตีความทางกายภาพหรืออื่น ๆ ที่จะให้ข้อมูลเชิงลึกเกี่ยวกับตัวตนนี้หรือไม่?


6
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ในตัวอย่างของชุดข้อมูลเป็นแนวคิดที่ไม่ดีหรือไม่?
ฉันมีชุดข้อมูลของตัวอย่าง 140000 ตัวอย่างและคุณลักษณะ 30 อย่างที่ฉันกำลังฝึกอบรมตัวแยกประเภทหลายตัวสำหรับการจำแนกเลขฐานสอง (SVM, การถดถอยโลจิสติก, การสุ่มป่า ฯลฯ ) ในหลายกรณีการปรับพารามิเตอร์แบบหลายมิติบนชุดข้อมูลทั้งหมดโดยใช้การค้นหาแบบกริดหรือแบบสุ่มนั้นใช้เวลานานเกินไป ฉันเริ่มใช้เทคนิคต่อไปนี้ ตัวอย่างชุดย่อยของฉัน ใช้เศษส่วนที่ได้รับเพื่อปรับพารามิเตอร์หลายมิติบน ใช้พารามิเตอร์ที่ได้รับเพื่อฝึกฝนโมเดลโดยใช้ชุดข้อมูลทั้งหมด เพื่อประเมินชุดของพารามิเตอร์แต่ละเกี่ยวกับการใช้ขั้นตอนที่สองผมsklearn's GridSearchCVกับพันธุ์ = 10 เพื่อประเมินรุ่นสุดท้ายที่ฉันจะสร้างในขั้นตอนที่สามผมใช้'ssklearn cross_val_predictในแง่นั้นฉันประเมินแบบจำลองของฉันที่ทิ้งข้อมูล 10% ของข้อมูลออกไปฉันทำการฝึกอบรมส่วนที่เหลือและวัดความแม่นยำในการทำนาย 10% หรือ 10 เท่าแล้วจึงเฉลี่ยคะแนน สิ่งที่ทำให้ฉันกังวลคือความแม่นยำในการทำนายที่ฉันได้รับจากการฝึกอบรมในชุดข้อมูลทั้งหมดของฉันใกล้เคียงกับการประเมินที่ฉันได้รับเมื่อทำการปรับพารามิเตอร์สำหรับชุดของพารามิเตอร์ที่ดีที่สุด (ชุดทดสอบแต่ละชุด ผลการตรวจสอบแบบพับข้าม) เกือบทุกครั้งที่ความแม่นยำที่cross_val_predictวัดได้โดยใช้ตัวอย่างการฝึกอบรมทั้งหมด (ชุดข้อมูลทั้งหมด) นั้นสูงกว่าการประเมินผลพารามิเตอร์ที่ดีที่สุดเล็กน้อย เพื่ออธิบายสิ่งนี้นี่คือการประเมินชุดของพารามิเตอร์ (ในชุดข้อมูลขนาดเล็กกว่าที่ฉันอธิบายไว้ข้างต้น แต่ผลเหมือนกัน) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores …

2
วิธีการพยากรณ์ VAR
ฉันกำลังสร้างแบบจำลอง VAR เพื่อคาดการณ์ราคาของสินทรัพย์และต้องการทราบว่าวิธีการของฉันดีขึ้นหรือไม่ไม่ว่าการทดสอบที่ฉันได้รวมไว้นั้นมีความเกี่ยวข้องหรือไม่และจำเป็นต้องมีอีกหรือไม่ ด้านล่างนี้เป็นกระบวนการปัจจุบันของฉันเพื่อตรวจสอบหาสาเหตุของเกรนเจอร์และคาดการณ์รูปแบบ VAR ที่เลือก require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference …
19 r  forecasting  modeling  var 

2
เลเยอร์ที่เชื่อมต่ออย่างเต็มที่ทำอะไรใน CNNs
ฉันเข้าใจเลเยอร์ convolutional และ pooling แต่ฉันไม่เห็นเหตุผลของเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ใน CNNs ทำไมเลเยอร์ก่อนหน้าไม่เชื่อมต่อโดยตรงกับเลเยอร์เอาท์พุท

11
เหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าอัลกอริทึมการเรียนรู้ของเครื่อง?
ถ้าฉันเข้าใจถูกต้องในอัลกอริทึมการเรียนรู้ของเครื่องโมเดลต้องเรียนรู้จากประสบการณ์ของมันเช่นเมื่อแบบจำลองให้การทำนายผิดสำหรับกรณีใหม่มันจะต้องปรับให้เข้ากับการสังเกตใหม่และในเวลานั้นแบบจำลองจะยิ่งดีขึ้น . ฉันไม่เห็นว่าการถดถอยโลจิสติกมีคุณสมบัตินี้ เหตุใดจึงยังถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่อง? ความแตกต่างระหว่างการถดถอยโลจิสติกกับการถดถอยปกติในแง่ของ "การเรียนรู้" คืออะไร? ฉันมีคำถามเดียวกันสำหรับป่าสุ่ม! และคำจำกัดความของ "การเรียนรู้ของเครื่อง" คืออะไร?


1
ความดีของความพอดีและแบบจำลองที่เลือกการถดถอยเชิงเส้นหรือปัวซอง
ฉันต้องการคำแนะนำเกี่ยวกับประเด็นขัดแย้งหลักสองประการในการวิจัยของฉันซึ่งเป็นกรณีศึกษาของ 3 ยาและนวัตกรรมขนาดใหญ่ จำนวนสิทธิบัตรต่อปีเป็นตัวแปรตาม คำถามของฉันคือ เกณฑ์ที่สำคัญที่สุดสำหรับแบบจำลองที่ดีคืออะไร มีความสำคัญอะไรมาก / น้อย? มันคือตัวแปรส่วนใหญ่หรือทั้งหมดจะมีความหมาย? มันเป็นปัญหาของ "สถิติ F" หรือไม่? มันคือค่าของ "Adjusted R squared" หรือไม่? ประการที่สองฉันจะตัดสินใจรูปแบบที่เหมาะสมที่สุดสำหรับการวิจัยได้อย่างไร นอกจากสิทธิบัตรซึ่งเป็นตัวแปรนับ (ดังนั้นอาจเป็นจำนวนปัวซง) ฉันมีตัวแปรอธิบายเช่นผลตอบแทนจากสินทรัพย์งบประมาณการวิจัยและพัฒนาพันธมิตรซ้ำ (% ไม่ใช่ตัวแปรไบนารี) ขนาด บริษัท (พนักงาน) และอีกสองคน ฉันควรทำการถดถอยเชิงเส้นหรือปัวซอง

4
วิธีที่ดีที่สุดในการจัดการกับ heteroscedasticity?
ฉันมีพล็อตของค่าที่เหลืออยู่ของตัวแบบเชิงเส้นในการทำงานของค่าติดตั้งที่ความแตกต่างแบบเฮเทอโรเซสติกมีความชัดเจนมาก อย่างไรก็ตามฉันไม่แน่ใจว่าฉันควรทำอย่างไรต่อไปเพราะเท่าที่ฉันเข้าใจความแตกต่างแบบนี้ทำให้โมเดลเชิงเส้นของฉันไม่ถูกต้อง (นั่นถูกต้องใช่ไหม?) ใช้การติดตั้งเชิงเส้นที่มีประสิทธิภาพโดยใช้rlm()ฟังก์ชั่นของMASSแพคเกจเพราะเห็นได้ชัดว่ามีความทนทานต่อความแข็งแรงที่ต่างกัน ในฐานะที่เป็นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ของฉันผิดเนื่องจากความแตกต่างแบบ heteroscedasticity ฉันสามารถปรับข้อผิดพลาดมาตรฐานให้มีความทนทานต่อความแตกต่างแบบ heteroscedasticity ได้หรือไม่ ใช้วิธีการโพสต์ใน Stack Overflow ที่นี่: การถดถอยด้วย Heteroskedasticity แก้ไขข้อผิดพลาดมาตรฐาน วิธีใดดีที่สุดที่จะใช้เพื่อจัดการกับปัญหาของฉัน หากฉันใช้โซลูชันที่ 2 ความสามารถในการทำนายรุ่นของฉันไร้ประโยชน์อย่างสมบูรณ์หรือไม่ การทดสอบ Breusch-Pagan ยืนยันว่าความแปรปรวนไม่คงที่ ค่าคงที่ของฉันในฟังก์ชันของค่าติดตั้งมีลักษณะดังนี้: (รุ่นใหญ่กว่า)

3
จะมีคำตอบที่ดีที่สุดในท้องถิ่นหลายอย่างเมื่อเราแก้ปัญหาการถดถอยเชิงเส้นหรือไม่?
ฉันอ่านข้อความนี้ในการสอบจริง / เท็จหนึ่งครั้ง: เราสามารถหาวิธีแก้ปัญหาที่เหมาะสมในท้องถิ่นได้หลายอย่างหากเราแก้ปัญหาการถดถอยเชิงเส้นโดยการลดผลรวมของข้อผิดพลาดกำลังสองโดยใช้การไล่ระดับสี วิธีแก้ปัญหา: เท็จ คำถามของฉันคือส่วนใดของคำถามนี้ผิด ทำไมข้อความนี้ถึงเป็นเท็จ?

3
เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม
ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …

5
วิธีการ Recode ตัวแปรเด็ดขาดเป็นตัวแปรตัวเลขเมื่อใช้ SVM หรือ Neural Network
หากต้องการใช้ SVM หรือ Neural Network จะต้องแปลง (เข้ารหัส) ตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขวิธีปกติในกรณีนี้คือใช้ค่าไบนารี 0-1 กับค่าหมวดหมู่ k-th ที่แปลงเป็น (0,0, .. ., 1,0, ... 0) (1 อยู่ในตำแหน่ง k-th) มีวิธีการอื่นในการทำเช่นนี้หรือไม่โดยเฉพาะอย่างยิ่งเมื่อมีค่าหมวดหมู่จำนวนมาก (เช่น 100,000) เช่นนั้นการเป็นตัวแทน 0-1 จะแนะนำมิติเพิ่มเติมเพิ่มเติมจำนวนมาก (อินพุตยูนิต) ใน Neural Network ซึ่งไม่ต้องการหรือคาดหวัง ? ฉันถามเกี่ยวกับกลยุทธ์ทั่วไป

3
ทำไมการแจกแจงแบบ t จึงปกติมากกว่าเมื่อขนาดตัวอย่างเพิ่มขึ้น?
ตามวิกิพีเดียฉันเข้าใจว่าการแจกแจงแบบ t เป็นการกระจายตัวตัวอย่างของค่า t เมื่อตัวอย่างเป็นการสังเกตแบบ iid จากประชากรที่กระจายตัวตามปกติ อย่างไรก็ตามฉันไม่เข้าใจโดยสัญชาตญาณว่าทำไมทำให้รูปร่างของการแจกแจงแบบ t เปลี่ยนจากไขมันหางเป็นปกติเกือบสมบูรณ์ ฉันได้ว่าถ้าคุณสุ่มตัวอย่างจากการแจกแจงแบบปกติแล้วถ้าคุณลองสุ่มกลุ่มใหญ่มันจะคล้ายกับการกระจายตัวนั้น แต่ฉันไม่เข้าใจว่าทำไมมันเริ่มต้นด้วยรูปร่างอ้วนท้วน

2
แบบจำลองสมการโครงสร้าง (SEMs) กับ Bayesian Networks (BNs)
คำศัพท์ที่นี่เป็นระเบียบ "สมการโครงสร้าง" เป็นเรื่องที่คลุมเครือว่า "สถาปัตยกรรมสะพาน" และ "เครือข่ายแบบเบย์" คือไม่ได้ภายในแบบเบย์ ยิ่งกว่านั้น God-of-causality Judea Pearl กล่าวว่าโรงเรียนทั้งสองแห่งมีรูปแบบเหมือนกันเกือบจะเหมือนกัน ดังนั้นอะไรคือความแตกต่างที่สำคัญ? (น่าประหลาดใจสำหรับฉันหน้า Wikipedia สำหรับ SEM ไม่ได้รวมคำว่า "เครือข่าย" ไว้ในการเขียนนี้)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.