สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
แสดงให้เห็นว่าการวัด 100 ครั้งสำหรับ 5 วัตถุให้ข้อมูลน้อยกว่าการวัด 5 ครั้งสำหรับ 100 วัตถุ
ในการประชุมฉันได้ยินคำสั่งต่อไปนี้: การวัด 100 ครั้งสำหรับ 5 วิชาให้ข้อมูลน้อยกว่าการวัด 5 รายการสำหรับ 100 วิชา เห็นได้ชัดว่ามันเป็นเรื่องจริง แต่ฉันสงสัยว่าจะพิสูจน์ได้ในเชิงคณิตศาสตร์อย่างไร ... ฉันคิดว่าแบบจำลองเชิงเส้นผสมสามารถใช้งานได้ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับคณิตศาสตร์ที่ใช้ในการประมาณค่า (ฉันเพิ่งเรียกใช้lmer4สำหรับ LMM และbmrsสำหรับ GLMMs) คุณช่วยแสดงตัวอย่างของสิ่งที่เป็นจริงได้ไหม ฉันต้องการคำตอบกับสูตรบางอย่างมากกว่าแค่บางโค้ดใน R. รู้สึกอิสระที่จะตั้งค่าอย่างง่ายเช่นตัวแบบผสมแบบเชิงเส้นที่มีการสกัดแบบสุ่มและการลาดชันแบบกระจายตามปกติ ป.ล. คำตอบทางคณิตศาสตร์ที่ไม่เกี่ยวข้องกับ LMM ก็ถือว่าใช้ได้เช่นกัน ฉันคิดถึง LMM เพราะพวกเขาดูเหมือนจะเป็นเครื่องมือตามธรรมชาติที่จะอธิบายว่าทำไมการวัดน้อยลงจากวิชาเพิ่มเติมนั้นดีกว่าการวัดเพิ่มเติมจากบางวิชา แต่ฉันอาจผิด

2
ขีด จำกัด ของ "หน่วยความแปรปรวน" ตัวประมาณการถดถอยของสันเมื่อ
พิจารณาสันถดถอยด้วยข้อ จำกัด เพิ่มเติมที่มีผลรวมของหน่วยสแควร์ส (เทียบเท่าความแปรปรวนของหน่วย); หากจำเป็นเราสามารถสันนิษฐานได้ว่ามีผลรวมของหน่วยกำลังสองเช่นกัน: Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. ขีด จำกัด ของβ^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*เมื่อλ→∞λ→∞\lambda\to\inftyคืออะไร? นี่คือข้อความบางส่วนที่ฉันเชื่อว่าเป็นจริง: เมื่อλ=0λ=0\lambda=0มีวิธีแก้ไขที่ชัดเจน: ใช้ตัวประมาณ OLS β^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yและทำให้เป็นมาตรฐานเพื่อสนองข้อ จำกัด (เราสามารถเห็นสิ่งนี้ได้โดยการเพิ่มตัวคูณและสร้างความแตกต่างของ Lagrange): β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. โดยทั่วไปการแก้ปัญหาคือβ^∗λ=((1+μ)X⊤X+λI)−1X⊤ywith μ needed to satisfy the …

2
เมื่อใดที่เราควรแยก / bin ตัวแปร / คุณสมบัติอิสระอย่างต่อเนื่องและเมื่อไม่ควร?
เมื่อใดที่เราควรแยก / bin ตัวแปรอิสระ / คุณสมบัติและเมื่อไม่ควร? ความพยายามของฉันที่จะตอบคำถาม: โดยทั่วไปแล้วเราไม่ควรทิ้งขยะเพราะการทำข้อมูลจะหายไป จริง ๆ แล้วการ Binning เป็นการเพิ่มระดับของอิสระของแบบจำลองดังนั้นจึงเป็นไปได้ที่จะทำให้เกิดการกระชับหลังจากการ binning หากเรามีรูปแบบ "ความลำเอียงสูง" การไม่ถูก binning อาจไม่เลว แต่ถ้าเรามีรูปแบบ "ความแปรปรวนสูง" เราควรหลีกเลี่ยงการ binning ขึ้นอยู่กับรุ่นที่เราใช้ หากเป็นโหมดเชิงเส้นและข้อมูลมีความน่าจะเป็นของ "ค่าผิดปกติ" จำนวนมากจะดีกว่า หากเรามีรูปแบบต้นไม้ดังนั้นค่าผิดปกติและการฝังรากจะสร้างความแตกต่างมากเกินไป ฉันถูกไหม? และอะไรอีก ฉันคิดว่าคำถามนี้ควรถามหลายครั้ง แต่ฉันไม่พบคำถามเหล่านี้ใน CV เฉพาะโพสต์เหล่านี้ เราควรจะเก็บตัวแปรต่อเนื่องหรือไม่? ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?

1
t-SNE กับ MDS
เคยอ่านคำถามบางอย่างเกี่ยวกับt-SNE ( t-Distributed Stochastic Neighbor Embedding ) เมื่อเร็ว ๆ นี้และยังได้เยี่ยมชมบางคำถามเกี่ยวกับMDS (การวัดหลายมิติ ) พวกเขามักจะใช้แบบอะนาล็อกดังนั้นจึงเป็นความคิดที่ดีที่ทำให้คำถามนี้เมื่อเห็นว่ามีคำถามมากมายทั้งแยกต่างหาก (หรือเปรียบเทียบกับPCA ) ที่นี่ ในระยะสั้นสิ่งที่ทำให้ t-SNE และ MDS แตกต่างกันอย่างไร เช่น. ลำดับชั้นของข้อมูลที่พวกเขาสำรวจมีข้อสมมติฐานที่แตกต่างกัน ฯลฯ อัตราการลู่เข้า? สิ่งที่เกี่ยวกับการใช้เมล็ดทั้งสองทำตาม?

2
เครื่อง Boltzmann ที่ จำกัด : มันถูกใช้ในการเรียนรู้ของเครื่องได้อย่างไร?
พื้นหลัง: ใช่เครื่อง Boltzmann ที่ จำกัด (RBM) สามารถใช้เพื่อเริ่มต้นน้ำหนักของเครือข่ายประสาท นอกจากนี้ยังสามารถนำมาใช้ในวิธี "เลเยอร์โดยชั้น" เพื่อสร้างเครือข่ายความเชื่อลึก(นั่นคือเพื่อฝึกอบรมเลเยอร์ th ด้านบนของ - ชั้นที่แล้วจากนั้นในการฝึกอบรมชั้น -th ด้านบนของชั้น -th ล้างและทำซ้ำ ... nnn( n - 1 )(n-1)(n-1)n + 1n+1n+1nnn) เกี่ยวกับวิธีการใช้ RBM รายละเอียดสามารถพบได้จากเธรดการ สอนที่ดีสำหรับเครื่อง Boltzmann (RBM)ที่ จำกัด ซึ่งสามารถหาเอกสารและแบบฝึกหัดได้ คำถามของฉันจะเป็น: RBM ใช้จริง ๆ ในโครงการอุตสาหกรรมหรือโครงการวิชาการหรือไม่ ถ้าใช่มีการใช้งานอย่างไรและโครงการใด มีห้องสมุดยอดนิยมใด ๆ (เช่น tensorflow, Caffe, Theono และอื่น ๆ ) มีโมดูล …

7
บางคนสามารถช่วยอธิบายความแตกต่างระหว่างอิสระกับการสุ่มได้ไหม
ในสถิติอิสระและการสุ่มอธิบายลักษณะที่เหมือนกันหรือไม่ ความแตกต่างระหว่างพวกเขาคืออะไร เรามักจะเจอคำอธิบายเช่น "ตัวแปรสุ่มอิสระสองตัว" หรือ "สุ่มตัวอย่างแบบสุ่ม" ฉันสงสัยว่าอะไรคือความแตกต่างที่แน่นอนระหว่างพวกเขา ใครสามารถอธิบายสิ่งนี้และยกตัวอย่างได้บ้าง เช่นกระบวนการไม่อิสระ แต่สุ่ม

5
อะไรทำให้ค่าเฉลี่ยของการแจกแจงบางอย่างไม่ได้กำหนดไว้?
PDF จำนวนมากมีตั้งแต่ลบไปจนถึงอินฟินิตี้เป็นบวก แต่มีวิธีการบางอย่างที่กำหนดและบางไฟล์ไม่ใช่ ลักษณะทั่วไปอะไรทำให้มีการคำนวณบ้าง

4
ความแตกต่างระหว่างสมมติฐานที่มีความสัมพันธ์กับการทดสอบความชันของการถดถอยอย่างมีนัยสำคัญ
คำถามของฉันเกิดจากการพูดคุยกับ @whuber ในความคิดเห็นของคำถามอื่น โดยเฉพาะความคิดเห็นของ @whuber มีดังนี้: เหตุผลหนึ่งที่ทำให้คุณประหลาดใจก็คือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันของการถดถอยนั้นแตกต่างกันดังนั้นแม้ว่าเราจะเข้าใจว่าสหสัมพันธ์และความชันนั้นวัดในสิ่งเดียวกันจริง ๆ ทำไมค่า p ของพวกเขาจึงเหมือนกัน นั่นแสดงให้เห็นว่าปัญหาเหล่านี้ลึกซึ้งยิ่งกว่าเพียงว่าและควรเท่ากับตัวเลขหรือไม่βRrrββ\beta นี่ทำให้ฉันคิดถึงมันและฉันก็ได้คำตอบที่น่าสนใจมากมาย ตัวอย่างเช่นฉันพบคำถามนี้ " สมมติฐานของค่าสัมประสิทธิ์สหสัมพันธ์ " แต่ไม่สามารถดูว่าสิ่งนี้จะชี้แจงความคิดเห็นข้างต้น ฉันพบคำตอบที่น่าสนใจมากขึ้นเกี่ยวกับความสัมพันธ์ของ Pearson'sและความชันในการถดถอยเชิงเส้นอย่างง่าย (ดูที่นี่และที่นี่เป็นต้น) แต่ดูเหมือนว่าไม่มีใครตอบคำถามที่ @whuber อ้างถึงในความคิดเห็นของเขา ถึงฉัน).βRrrββ\beta คำถามที่ 1:อะไรคือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย สำหรับคำถามที่ 2 พิจารณาผลลัพธ์ต่อไปนี้ในR: model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min …

4
อัลกอริทึมการเรียนรู้ของเครื่องหรือการเรียนรู้ลึกสามารถนำมาใช้เพื่อ“ ปรับปรุง” กระบวนการสุ่มตัวอย่างของเทคนิค MCMC ได้หรือไม่?
จากความรู้เล็กน้อยที่ฉันมีในวิธีการ MCMC (มาร์คอฟโซ่มอนติคาร์โล) ฉันเข้าใจว่าการสุ่มตัวอย่างเป็นส่วนสำคัญของเทคนิคดังกล่าว วิธีการสุ่มตัวอย่างที่ใช้กันมากที่สุดคือ Hamiltonian และ Metropolis มีวิธีใช้ประโยชน์จากการเรียนรู้ของเครื่องจักรหรือแม้แต่การเรียนรู้ลึกเพื่อสร้างตัวอย่าง MCMC ที่มีประสิทธิภาพมากขึ้นหรือไม่?

5
มากเกินไป: ไม่มีกระสุนเงิน?
ความเข้าใจของฉันคือว่าแม้เมื่อไปข้ามการตรวจสอบและการเลือกรูปแบบวิธีการที่เหมาะสม, overfitting จะเกิดขึ้นถ้าค้นหาหนึ่งสำหรับรูปแบบที่ยากพอว่าถ้าผู้ใดมีข้อ จำกัด เรียกเก็บกับความซับซ้อนของโมเดลระยะเวลา นอกจากนี้บ่อยครั้งที่ผู้คนพยายามเรียนรู้บทลงโทษเกี่ยวกับความซับซ้อนของแบบจำลองจากข้อมูลที่ทำลายการป้องกันที่พวกเขาสามารถให้ได้ คำถามของฉันคือ: ความจริงเท่าไหร่ที่มีต่องบข้างต้น? ผมมักจะได้ยิน practicioners ML กล่าวว่า " ใน บริษัท ของฉัน / ห้องปฏิบัติการเราพยายามทุกรูปแบบที่มีอยู่ (เช่นจากห้องสมุดเช่นเครื่องหมายหรือscikit เรียนรู้ ) เพื่อดูที่หนึ่งงานที่ดีที่สุด " ฉันมักจะเถียงว่าวิธีการนี้สามารถทำให้ได้อย่างง่ายดายแม้ว่าพวกเขาจะจริงจังเกี่ยวกับการตรวจสอบข้ามและเก็บชุดที่ค้างไว้ในทางที่พวกเขาต้องการ ยิ่งพวกเขาค้นหายากเท่าไหร่ก็จะยิ่งมีโอกาสมากขึ้นเท่านั้น ในคำอื่น ๆมากกว่าการเพิ่มประสิทธิภาพเป็นปัญหาที่แท้จริงและมีการวิเคราะห์พฤติกรรมที่ไม่สามารถช่วยให้คุณต่อสู้กับมันอย่างเป็นระบบ ฉันผิดที่คิดแบบนี้?

3
Gradient Descent เป็นไปได้สำหรับ kernelized SVMs (ถ้าเป็นเช่นนั้นทำไมผู้คนถึงใช้ Quadratic Programming)
เหตุใดผู้คนจึงใช้เทคนิคการเขียนโปรแกรม Quadratic (เช่น SMO) เมื่อต้องรับมือกับ kernelized SVM เกิดอะไรขึ้นกับ Gradient Descent มันเป็นไปไม่ได้ที่จะใช้กับเมล็ดหรือมันช้าเกินไป (และทำไม) นี่คือบริบทอีกเล็กน้อย: พยายามทำความเข้าใจ SVM ให้ดีขึ้นเล็กน้อยฉันใช้ Gradient Descent เพื่อฝึกอบรมตัวจําแนก SVM เชิงเส้นโดยใช้ฟังก์ชันต้นทุนต่อไปนี้: J(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} ฉันใช้สัญลักษณ์ต่อไปนี้: ww\mathbf{w}เป็นตุ้มน้ำหนักคุณลักษณะของโมเดลและคือพารามิเตอร์ biasbbb x(i)x(i)\mathbf{x}^{(i)}เป็นเวกเตอร์คุณลักษณะของอินสแตนซ์การฝึกอบรมของithithi^\text{th} y(i)y(i)y^{(i)}เป็นคลาสเป้าหมาย (-1 หรือ …

2
ส่งเสริมเครือข่ายประสาท
เมื่อเร็ว ๆ นี้ฉันกำลังทำงานเกี่ยวกับการเรียนรู้อัลกอริทึมการส่งเสริมเช่น adaboost, การไล่ระดับสีและฉันได้ทราบความจริงที่ว่าผู้เรียนอ่อนแอที่ใช้กันมากที่สุดคือต้นไม้ ฉันอยากรู้ว่ามีตัวอย่างที่ประสบความสำเร็จเมื่อเร็ว ๆ นี้ (ฉันหมายถึงบางบทความหรือบทความ) สำหรับการใช้เครือข่ายประสาทในฐานะผู้เรียนพื้นฐาน

3
ทำไมการกระจายโลจิสติกส์จึงเรียกว่า“ โลจิสติกส์”?
"โลจิสติกส์" เกี่ยวกับการกระจายโลจิสติกส์ในวิธีสามัญสำนึกคืออะไร นิรุกติศาสตร์ของและเหตุผลศัพท์สำหรับชื่อไม่ใช่แค่นิยามคณิตศาสตร์บริสุทธิ์?

4
“ การเรียนรู้แบบมีผู้ควบคุมกึ่ง” - การทำเกินนี้หรือไม่
ฉันอ่านรายงานเกี่ยวกับวิธีแก้ปัญหาการชนะของการแข่งขัน Kaggle ( การจำแนกประเภทมัลแวร์ ) รายงานสามารถพบได้ในโพสต์ฟอรั่มนี้ ปัญหาคือปัญหาการจัดหมวดหมู่ (เก้าคลาสตัวชี้วัดคือการสูญเสียลอการิทึม) ที่มี 10,000 องค์ประกอบในชุดรถไฟ 10,000 ชิ้นส่วนในชุดทดสอบ ในระหว่างการแข่งขันแบบจำลองจะถูกประเมินเทียบกับ 30% ของชุดทดสอบ องค์ประกอบที่สำคัญอีกประการหนึ่งคือโมเดลมีประสิทธิภาพดีมาก (ใกล้เคียงกับความแม่นยำ 100%) ผู้เขียนใช้เทคนิคต่อไปนี้: อีกเทคนิคที่สำคัญที่เราเกิดขึ้นคือการเรียนรู้แบบ Semisupervised ก่อนอื่นเราสร้างฉลากเทียมของชุดทดสอบโดยเลือกความน่าจะเป็นสูงสุดของแบบจำลองที่ดีที่สุดของเรา จากนั้นเราคาดการณ์ชุดการทดสอบอีกครั้งในรูปแบบการตรวจสอบความถูกต้องทั้งข้อมูลรถไฟและข้อมูลการทดสอบ ตัวอย่างเช่นชุดข้อมูลการทดสอบแบ่งออกเป็น 4 ส่วน A, B, C และ D เราใช้ข้อมูลการฝึกอบรมทั้งหมดและทดสอบข้อมูล A, B, C พร้อมป้ายกำกับหลอกของพวกเขาพร้อมกันเป็นชุดฝึกอบรมใหม่และเราทำนายการทดสอบ ชุด D วิธีเดียวกันนี้ใช้ในการทำนาย A, B และ C วิธีการนี้คิดค้นโดย Xiaozhou ทำงานได้ดีอย่างน่าประหลาดใจและช่วยลดการสูญเสียการตรวจสอบข้ามท้องถิ่นการสูญเสีย LB สาธารณะและการสูญเสีย LB …

2
ความครอบคลุมช่วงความเชื่อมั่น 'กับการประมาณการปกติ
สมมติว่าฉันพยายามประเมินพารามิเตอร์จำนวนมากจากข้อมูลมิติสูงโดยใช้การประมาณปกติบางประเภท Regularizer แนะนำการตั้งค่าบางอย่างในการประมาณค่า แต่มันก็ยังคงเป็นเรื่องที่ดีเนื่องจากการลดความแปรปรวนควรจะชดเชยให้มากกว่า ปัญหาเกิดขึ้นเมื่อฉันต้องการประเมินช่วงความมั่นใจ (เช่นใช้ Laplace Approve หรือ bootstrapping) โดยเฉพาะอคติในการประมาณการของฉันนำไปสู่การรายงานข่าวที่ไม่ดีในช่วงความเชื่อมั่นของฉันซึ่งทำให้ยากที่จะกำหนดคุณสมบัติของผู้ประเมินของฉัน ฉันพบเอกสารบางส่วนที่พูดถึงปัญหานี้ (เช่น"ช่วงความเชื่อมั่นแบบ Asymptotic ในการถดถอยของสันเขาตามการขยายตัวของ Edgeworth" ) แต่คณิตศาสตร์ส่วนใหญ่อยู่เหนือหัวฉัน ในบทความที่เชื่อมโยงสมการ 92-93 ดูเหมือนจะให้ปัจจัยการแก้ไขสำหรับการประมาณที่ถูกทำให้เป็นมาตรฐานโดยการถดถอยของสันเขา แต่ฉันสงสัยว่ามีกระบวนการที่ดีที่จะทำงานกับช่วงของกฎเกณฑ์ต่าง ๆ ได้หรือไม่ แม้แต่การแก้ไขใบสั่งซื้อครั้งแรกก็มีประโยชน์อย่างยิ่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.