สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
มีความแตกต่างระหว่างการฝึกอบรม autoencoder ที่ซ้อนกันและเครือข่ายประสาท 2 ชั้นหรือไม่?
สมมติว่าฉันกำลังเขียนอัลกอริทึมสำหรับการสร้าง autoencoder 2 ชั้นซ้อนกันและเครือข่ายประสาท 2 ชั้น พวกเขาเป็นสิ่งเดียวกันหรือแตกต่างกันอย่างไร สิ่งที่ฉันเข้าใจคือเมื่อฉันสร้างตัวเข้ารหัสอัตโนมัติแบบซ้อนกันฉันจะสร้างเลเยอร์ทีละชั้น สำหรับเครือข่ายประสาทฉันจะเริ่มต้นพารามิเตอร์ทั้งหมดใน netowork และจากนั้นสำหรับแต่ละจุดข้อมูลฉันผ่านมันผ่านเครือข่ายและคำนวณการสูญเสีย (เช่นระยะห่างจากนิวเคลียส) และทำการ backpropagation

1
จาก exp (สัมประสิทธิ์) ถึงอัตราต่อรองและการตีความใน Logistic Regression พร้อมปัจจัย
ฉันใช้การถดถอยเชิงเส้นตรงของการยอมรับเข้าเรียนในวิทยาลัยกับคะแนน SAT และภูมิหลังของครอบครัว / ชาติพันธุ์ ข้อมูลเป็นตัวละคร นี่คือการติดตามคำถามก่อนหน้านี้ตอบแล้ว คำถามที่มุ่งเน้นในการรวบรวมและการตีความอัตราส่วนอัตราต่อรองเมื่อออกจาก SAT คะแนนกันเพื่อความเรียบง่าย ตัวแปรคือAccepted(0 หรือ 1) และBackground("red" หรือ "blue") ฉันตั้งค่าข้อมูลเพื่อให้ผู้คนในพื้นหลัง "สีแดง" มีแนวโน้มที่จะเข้าไป: fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 คำถาม: 0.7 เป็นอัตราส่วนที่ผิดปกติของบุคคลที่มีพื้นหลังเป็น "สีน้ำเงิน" หรือไม่? ฉันถามสิ่งนี้เพราะฉันได้รับ 0.7 " Backgroundblue" ถ้าฉันเรียกใช้รหัสต่อไปนี้แทน: fit …
14 r  regression  logistic 

1
ค่าเฉลี่ยเดียวกัน, ความแปรปรวนต่างกัน
สมมติว่าคุณมีนักวิ่งแปดคนวิ่งแข่ง การกระจายตัวของเวลาทำงานส่วนตัวของพวกเขาคือปกติและแต่ละช่วงเวลามีความยาว111111วินาที ค่าเบี่ยงเบนมาตรฐานของรองชนะเลิศอันดับหนึ่งคือค่าที่เล็กที่สุดสองค่าที่สองที่เล็กที่สุดค่าที่สามน้อยที่สุดและแปดค่าที่ใหญ่ที่สุด คำถามสองข้อทำให้ฉันสับสน: (1) ความน่าจะเป็นที่ผู้ชนะคนสุดท้ายคืออะไรและ (2) ใครที่มีแนวโน้มจะชนะการแข่งขันมากที่สุด? คำตอบของฉันมี1/21/21/2และ888ตามลำดับ เนื่องจากพวกเขาแบ่งปันค่าเฉลี่ยเท่ากันน่าจะเป็นที่x¯1−x¯8<0x¯1−x¯8<0\bar x_1-\bar x_8\lt 0เป็นเพียง1/21/21/2ไม่? ฉันจะแสดงให้เห็นถึงส่วนที่สองอย่างจริงจังและสามารถคำนวณความน่าจะเป็นที่แน่นอนได้อย่างไร ขอบคุณล่วงหน้า.

2
Dirichlet กระบวนการสำหรับการทำคลัสเตอร์: วิธีจัดการกับป้ายกำกับ?
Q:วิธีมาตรฐานในการจัดกลุ่มข้อมูลโดยใช้กระบวนการ Dirichlet คืออะไร เมื่อใช้กลุ่มการสุ่มตัวอย่างของกิ๊บส์จะปรากฏขึ้นและหายไประหว่างการสุ่มตัวอย่าง นอกจากนี้เรามีปัญหาในการระบุตัวตนเนื่องจากการกระจายหลังนั้นไม่แปรเปลี่ยนไปจากการจัดกลุ่มใหม่ ดังนั้นเราไม่สามารถพูดได้ว่าเป็นกลุ่มของผู้ใช้ แต่ที่ผู้ใช้สองคนที่อยู่ในกลุ่มเดียวกัน (นั่นคือp(ci=cj)p(ci=cj)p(c_i=c_j) ) เราสามารถสรุปข้อมูลที่ได้รับมอบหมายในชั้นเรียนเพื่อที่ว่าถ้าคือการกำหนดกลุ่มของจุดฉันตอนนี้เราไม่เพียง แต่ที่คฉัน = คเจแต่ที่คฉัน = คJ = คJ = . . = ccicic_iiiici=cjci=cjc_i=c_j ?ci=cj=cj=...=czci=cj=cj=...=czc_i=c_j=c_j=...=c_z นี่เป็นทางเลือกที่ฉันพบและทำไมฉันจึงคิดว่าสิ่งเหล่านี้ไม่สมบูรณ์หรือเข้าใจผิด (1) DP-GMM + การสุ่มตัวอย่าง Gibbs + เมทริกซ์ความสับสนตามคู่ หากต้องการใช้แบบจำลองส่วนผสมของกระบวนการ Dirichlet แบบเกาส์ (DP-GMM) สำหรับการจัดกลุ่มฉันได้นำบทความนี้ไปใช้โดยผู้เขียนเสนอ DP-GMM สำหรับการประเมินความหนาแน่นโดยใช้การสุ่มตัวอย่างแบบกิ๊บส์ เพื่อสำรวจประสิทธิภาพการจัดกลุ่มพวกเขาพูดว่า: เนื่องจากจำนวนของส่วนประกอบเปลี่ยนแปลงไปตลอดห่วงโซ่ [MCMC] เราจะต้องสร้างเมทริกซ์ความสับสนซึ่งแสดงความถี่ของคู่ข้อมูลแต่ละคู่ที่ได้รับมอบหมายให้เป็นองค์ประกอบเดียวกันสำหรับทั้งห่วงโซ่ดูรูปที่ 6 ข้อด้อย : นี่ไม่ใช่การจัดกลุ่มแบบ "สมบูรณ์" จริง แต่เป็นการทำคลัสเตอร์แบบคู่ที่ชาญฉลาด รูปดูดีมากเพราะเรารู้ว่ากลุ่มจริงและจัดเมทริกซ์ตามนั้น …

2
หนังสือแนะนำที่ดีที่สุดเกี่ยวกับการสุ่มตัวอย่าง Bootstrap ใหม่?
ฉันแค่อยากจะถามว่าหนังสือที่ดีที่สุดใน bootstrap นั้นในความคิดของคุณ โดยสิ่งนี้ฉันไม่ได้หมายถึงเฉพาะสิ่งที่นักเขียนเขียน คุณช่วยกรุณาระบุว่าหนังสือเล่มใดที่ดีที่สุดสำหรับคุณสำหรับ bootstrap ที่ครอบคลุมเกณฑ์ต่อไปนี้ พื้นฐานทางปรัชญา / ญาณวิทยาสำหรับเทคนิคที่แสดงโดเมนของการบังคับใช้จุดแข็งและจุดอ่อนสำคัญสำหรับการเลือกแบบจำลองหรือไม่ ชุดตัวอย่างง่ายๆที่แสดงการใช้งานการวางรากฐานทางปรัชญาโดยเฉพาะกับ Matlab?

2
คำถามเกี่ยวกับ Q-Learning โดยใช้ Neural Networks
ฉันใช้ Q-Learning ตามที่อธิบายไว้ใน http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf เพื่อที่จะประมาณ Q (S, A) ฉันใช้โครงสร้างเครือข่ายประสาทดังต่อไปนี้ การเปิดใช้งาน sigmoid อินพุตจำนวนอินพุต + 1 สำหรับเซลล์ประสาทการกระทำ (อินพุตทั้งหมดปรับสัดส่วน 0-1) เอาท์พุทเอาท์พุทเดียว Q-Value จำนวน M ของเลเยอร์ที่ซ่อนอยู่ วิธีการสำรวจสุ่ม 0 <rand () <propExplore ในแต่ละการเรียนรู้ซ้ำโดยใช้สูตรต่อไปนี้ ฉันคำนวณค่า Q-Target แล้วคำนวณข้อผิดพลาดโดยใช้ error = QTarget - LastQValueReturnedFromNN และเผยแพร่กลับข้อผิดพลาดผ่านเครือข่ายประสาท Q1, ฉันอยู่ในเส้นทางที่ถูกต้องหรือไม่? ฉันได้เห็นเอกสารบางส่วนที่ใช้ NN กับเซลล์ประสาทขาออกหนึ่งอันสำหรับแต่ละการกระทำ Q2, ฟังก์ชั่นรางวัลของฉันจะส่งคืนตัวเลขระหว่าง -1 ถึง 1 หรือไม่จะส่งกลับตัวเลขระหว่าง -1 ถึง …


1
"ทฤษฎีบทการวิเคราะห์ปัจจัยพื้นฐาน" นำไปใช้กับ PCA อย่างไรหรือมีการกำหนดโหลด PCA อย่างไร
ขณะนี้ฉันกำลังผ่านชุดภาพนิ่งที่ฉันมีสำหรับ "การวิเคราะห์ปัจจัย" (PCA เท่าที่ฉันจะบอกได้) "ทฤษฎีบทพื้นฐานของการวิเคราะห์ปัจจัย" ซึ่งอ้างว่าเมทริกซ์สหสัมพันธ์ของข้อมูลที่เข้าสู่การวิเคราะห์ ( ) สามารถกู้คืนได้โดยใช้เมทริกซ์ของปัจจัยการโหลด ( ):RR\bf RAA\bf A R = A A⊤R=AA⊤\bf R = AA^\top อย่างไรก็ตามเรื่องนี้ทำให้ฉันสับสน ใน PCA เมทริกซ์ของ "factor loadings" นั้นได้รับจากเมทริกซ์ของ eigenvector ของความแปรปรวนร่วม / เมทริกซ์สหสัมพันธ์ของข้อมูล (เนื่องจากเราสมมติว่าข้อมูลนั้นได้มาตรฐานพวกมันเหมือนกัน) โดยแต่ละ eigenvector จะถูกปรับ ความยาวหนึ่ง เมทริกซ์นี้เป็นมุมฉากจึงซึ่งเป็นโดยทั่วไปไม่เท่ากับ\ BF RA A⊤= ฉันAA⊤=ผม\bf AA^\top = IRR\bf R

3
อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1
คะแนน F1 คือค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืน แกน y ของการเรียกคืนเป็นอัตราบวกจริง (ซึ่งก็เรียกคืนเช่นกัน) ดังนั้นตัวแยกประเภทบางครั้งสามารถเรียกคืนได้ต่ำ แต่ AUC สูงมากนั่นหมายความว่าอย่างไร อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1

1
เหตุใดคำจำกัดความของตัวประมาณที่สอดคล้องกันจึงเป็นเช่นนั้น แล้วนิยามทางเลือกของความสอดคล้องล่ะ
อ้างอิงจากวิกิพีเดีย: ในสถิติการประมาณการที่สอดคล้องกันหรือประมาณการสอดคล้อง asymptotically เป็นประมาณการ-กฎสำหรับการประมาณการของพารามิเตอร์การคำนวณθ∗θ∗θ^* -having ทรัพย์สินที่เป็นจำนวนจุดข้อมูลที่ใช้เพิ่มขึ้นเรื่อย ๆ ตามลำดับที่เกิดจากลู่ประมาณการในความน่าจะเป็นθ∗θ∗θ^* . ที่จะทำให้คำสั่งนี้ช่วยให้แม่นยำθ∗θ∗\theta^*เป็นค่าของพารามิเตอร์ที่แท้จริงคุณต้องการที่จะประเมินและให้θ ( S n )เป็นกฎสำหรับการประเมินพารามิเตอร์นี้เป็นหน้าที่ของข้อมูล จากนั้นคำจำกัดความของความสอดคล้องของตัวประมาณสามารถแสดงด้วยวิธีต่อไปนี้:θ^(Sn)θ^(Sn)\hat\theta(S_n) limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 คำถามของฉันดูเหมือนผิวเผินตั้งแต่แรกเห็น แต่เป็น: ทำไมคำว่า "ความสอดคล้อง / สอดคล้องกัน" ใช้เพื่ออธิบายพฤติกรรมของตัวประมาณนี้ เหตุผลที่ฉันสนใจเรื่องนี้ก็เพราะว่าสำหรับฉันโดยสังหรณ์ใจคำที่สอดคล้องกันหมายถึงสิ่งที่แตกต่าง (หรืออย่างน้อยก็ดูเหมือนจะแตกต่างจากฉันบางทีพวกเขาอาจจะแสดงให้เห็นว่าเท่ากัน) ให้ฉันบอกความหมายของตัวอย่างด้วย พูดว่า "คุณ" มีความสม่ำเสมอ "ดี" (สำหรับคำนิยามบางอย่างของความดี) จากนั้นก็หมายความว่าทุกครั้งที่คุณมีโอกาสที่จะพิสูจน์ / แสดงให้ฉันเห็นว่าคุณเป็นคนดีจริง ๆ คุณพิสูจน์ฉันว่าคุณเป็นคนดีทุกครั้ง (หรืออย่างน้อยก็ในเวลาส่วนใหญ่) ให้ใช้สัญชาตญาณของฉันเพื่อกำหนดความสอดคล้องของตัวประมาณ ขอให้ "คุณ" เป็นฟังก์ชั่นการคำนวณθและปล่อยให้ "ดี" หมายถึงวิธีการที่คุณจะห่างไกลจากการประมาณการจริงθ …

2
รายงานองศาอิสระสำหรับ Welch t-test
เวลช์ t-test การแปรปรวนไม่เท่ากัน (หรือเรียกว่าเวลช์-Satterthwaite หรือเวลช์-Aspin) โดยทั่วไปมีองศาที่ไม่ใช่จำนวนเต็มของเสรีภาพ องศาความอิสระเหล่านี้จะถูกอ้างเมื่อรายงานผลการทดสอบได้อย่างไร? "มันเป็นเรื่องธรรมดาที่จะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดก่อนที่จะปรึกษาตารางมาตรฐาน t" ตามแหล่งต่าง ๆ * - ซึ่งสมเหตุสมผลตามทิศทางของการปัดเศษนี้เป็นแบบอนุรักษ์นิยม ** ซอฟต์แวร์ทางสถิติที่เก่ากว่าจะทำเช่นนี้เช่นกัน 6 ) และบางเครื่องคิดเลขออนไลน์ยังคงทำ หากมีการใช้ขั้นตอนนี้การรายงานระดับความอิสระที่โค้งมนจะเหมาะสม (แม้ว่าการใช้ซอฟต์แวร์ที่ดีกว่านั้นอาจเหมาะสมกว่า!) แต่แพ็คเกจที่ทันสมัยส่วนใหญ่ใช้ประโยชน์จากส่วนที่เป็นเศษส่วนดังนั้นในกรณีนี้ดูเหมือนว่าควรจะอ้างถึงส่วนที่เป็นเศษส่วน ฉันไม่เห็นว่าการอ้างถึงทศนิยมมากกว่าสองตำแหน่งนั้นเหมาะสมหรือไม่เนื่องจากการมีอิสระในระดับหนึ่งพันครั้งจะส่งผลกระทบเพียงเล็กน้อยต่อค่าp เมื่อมองไปรอบ ๆ Google scholar ฉันสามารถดูเอกสารที่อ้างถึง df เป็นจำนวนเต็มทศนิยมหนึ่งตำแหน่งหรือทศนิยมสองตำแหน่ง มีแนวทางใดบ้างเกี่ยวกับความแม่นยำในการใช้งาน? นอกจากนี้หากซอฟต์แวร์ใช้ส่วนที่เป็นเศษส่วนแบบเต็มควร df ที่ยกมาจะถูกปัดเศษลงตามจำนวนตัวเลขที่ต้องการ (เช่นถึง 1 dp หรือ→ 7เป็นจำนวนทั้งหมด) ตามความเหมาะสมกับการคำนวณแบบอนุรักษ์นิยม หรือตามที่ฉันคิดว่าเหมาะสมกว่าฉันปัดเศษตามอัตภาพ ( ใกล้ที่สุด ) ดังนั้น7.5845 ... → 7.6ถึง 1 dp …

2
Support Vector Machine รองรับชุดข้อมูลที่ไม่สมดุลหรือไม่?
SVM จัดการชุดข้อมูลที่ไม่สมดุลหรือไม่ นั่นคือพารามิเตอร์ใด ๆ (เช่น C หรือค่าการแบ่งประเภท) การจัดการชุดข้อมูลที่ไม่สมดุล

1
วิธีใช้ Delta Method ในขณะที่อนุพันธ์ลำดับที่หนึ่งมีค่าเป็นศูนย์
http://en.wikipedia.org/wiki/Delta_method ในบทความ Wikipedia สันนิษฐานว่าต้องมีอยู่และg ′ ( θ )นั้นไม่มีค่าเป็นศูนย์ เป็นไปได้หรือไม่ที่จะหาการแจกแจงเชิงเส้นกำกับสำหรับ√ก.'( θ )ก.'(θ)g'(\theta)ก.'( θ )ก.'(θ)g'(\theta) เนื่องจากg′(θ)อาจเป็นศูนย์และ √n--√( กรัม( Xn) - g( θ ) )n(ก.(Xn)-ก.(θ))\sqrt{n}(g(X_n)-g(\theta)) ก.'( θ )ก.'(θ)g'(\theta)?n--√( Xn- θ ) →dยังไม่มีข้อความ( 0 , σ2)n(Xn-θ)→dยังไม่มีข้อความ(0,σ2)\sqrt{n}(X_n-\theta) \stackrel{d}{\rightarrow} N(0,\sigma^2)

5
ความแตกต่างระหว่างเศรษฐมิติอนุกรมเวลาและเศรษฐมิติข้อมูลแบบแผงคืออะไร
คำถามนี้อาจไร้เดียงสามาก แต่วิธีที่ฉันสอนเกี่ยวกับเศรษฐมิติฉันสับสนมากหากมีความแตกต่างระหว่างอนุกรมเวลาและวิธีการคำนวณข้อมูล เกี่ยวกับอนุกรมเวลาฉันได้กล่าวถึงหัวข้อต่าง ๆ เช่นความแปรปรวนแบบคงที่, AR, MA และอื่น ๆ เกี่ยวกับข้อมูลพาเนลฉันได้เห็นการอภิปรายในรูปแบบของเอฟเฟกต์คงที่เทียบกับเอฟเฟ็กต์แบบสุ่มเท่านั้น ในความแตกต่าง ฯลฯ หัวข้อเหล่านี้เกี่ยวข้องกันในบางวิธีหรือไม่? เนื่องจากข้อมูลพาเนลยังมีมิติเวลาเหตุใดจึงไม่มีการอภิปราย AR, MA และอื่น ๆ อีกด้วย หากคำตอบคือการศึกษาของฉันเกี่ยวกับวิธีการสอนไม่เพียงพอคุณสามารถชี้ไปที่หนังสือที่ครอบคลุมมากกว่าแค่ FE / RE, ความแตกต่างในความแตกต่างหรือไม่?

3
ทฤษฎีการตอบสนองรายการการวิเคราะห์ปัจจัยยืนยัน
ฉันสงสัยว่าอะไรคือแกนความแตกต่างที่มีความหมายระหว่างทฤษฎีการตอบสนองข้อสอบกับการวิเคราะห์ปัจจัยยืนยัน ฉันเข้าใจว่ามีความแตกต่างในการคำนวณ (เน้นที่ไอเท็มเทียบกับโควาเรียส; อย่างไรก็ตามฉันไม่ทราบว่าสิ่งนี้หมายถึงอะไรจากมุมมองระดับสูง - หมายความว่า IRT นั้นดีกว่า CFA ในบางสถานการณ์หรือไม่? หรือเพื่อจุดประสงค์ที่แตกต่างกันเล็กน้อย? การใช้ musings ใด ๆ ก็จะเป็นประโยชน์ในการสแกนงานวิจัยที่นำไปสู่การอธิบาย IRT และ CFA มากกว่าการเปรียบเทียบความแตกต่างที่เป็นประโยชน์ของความแตกต่างระหว่างแกน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.