สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การวิเคราะห์ความสัมพันธ์ข้ามระหว่างกระบวนการจุด
ฉันต้องการคำแนะนำเกี่ยวกับวิธีการวิเคราะห์ที่ฉันใช้เพื่อทราบว่าเป็นไปได้หรือไม่ ฉันวัดกระบวนการสองจุดได้และและฉันต้องการตรวจสอบ หากมีเหตุการณ์ในมีความสัมพันธ์อย่างใดเพื่อเหตุการณ์ใน 2 T 2 = T 2 1 , T 2 2 , . . , t 2 m T 1 T 2T1= t11, t12, . . . , t1nT1=t11,t21,...,tn1T^1 = t^1_1, t^1_2, ..., t^1_nT2= t21, t22, . . . , t2ม.T2=t12,t22,...,tm2T^2 = t^2_1, t^2_2, ..., t^2_mT1T1T^1T2T2T^2 หนึ่งในวิธีการที่ฉันได้พบในวรรณกรรมคือการสร้างฮิสโตแกรมข้ามสหสัมพันธ์: …

1
ความไม่เท่าเทียมกันของ Oracle: ในแง่พื้นฐาน
ฉันกำลังอ่านกระดาษที่ใช้ความไม่เท่าเทียมกันของออราเคิลเพื่อพิสูจน์บางสิ่ง แต่ฉันไม่สามารถเข้าใจสิ่งที่มันกำลังพยายามทำอยู่ เมื่อฉันค้นหาทางออนไลน์เกี่ยวกับ 'Oracle Inequality' บางแหล่งก็นำฉันไปยังบทความ "Candes, Emmanuel J. 'การประมาณทางสถิติสมัยใหม่ผ่านทางอสมการ oracle' "ซึ่งสามารถพบได้ที่นี่https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf แต่หนังสือเล่มนี้ดูเหมือนจะหนักเกินไปสำหรับฉันและฉันเชื่อว่าฉันขาดข้อกำหนดเบื้องต้นบางอย่าง คำถามของฉันคือ: คุณจะอธิบายได้อย่างไรว่าความไม่เท่าเทียมกันของ oracle สำหรับสาขาวิชาที่ไม่ใช่คณิตศาสตร์ (รวมถึงวิศวกร) ประการที่สองวิธีที่คุณแนะนำให้พวกเขาไปเกี่ยวกับข้อกำหนดเบื้องต้น / หัวข้อก่อนที่จะพยายามเรียนรู้บางสิ่งบางอย่างเช่นหนังสือดังกล่าวข้างต้น ฉันขอแนะนำว่าคนที่มีความเข้าใจอย่างเป็นรูปธรรมและมีประสบการณ์ที่ดีในสถิติมิติสูงควรตอบคำถามนี้

1
Connectionist Temporal Classification (CTC) คืออะไร
ฉันต้องการทำโครงการรู้จำอักขระด้วยแสง (OCR) หลังจากทำวิจัยแล้วฉันเจอสถาปัตยกรรมที่น่าสนใจ: CNN + RNN + CTC ฉันคุ้นเคยกับเครือข่ายประสาทที่ซับซ้อน (CNN) และเครือข่ายประสาทที่เกิดขึ้นอีก (RNN) แต่ Connectionist Temporal Classification (CTC) คืออะไร ฉันต้องการคำอธิบายในแง่ของคนธรรมดา

2
เหตุใดคุณจึงต้องขยายข้อมูลใน KNN
มีคนช่วยอธิบายให้ฉันหน่อยได้ไหมว่าทำไมคุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อใช้ K เพื่อนบ้านที่ใกล้ที่สุด ฉันพยายามค้นหามัน แต่ฉันก็ยังดูเหมือนจะไม่เข้าใจ ฉันพบลิงค์ต่อไปนี้: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 แต่ในคำอธิบายนี้ฉันไม่เข้าใจว่าทำไมช่วงที่ใหญ่กว่าในหนึ่งในคุณสมบัติที่มีผลต่อการทำนาย

3
ศูนย์การแจกแจงที่สูงเกินจริงมันคืออะไรกันแน่?
ฉันกำลังดิ้นรนเพื่อที่จะเข้าใจการแจกแจงที่สูงเกินจริง พวกเขาคืออะไร ประเด็นคืออะไร? ถ้าฉันมีข้อมูลที่มีศูนย์เป็นจำนวนมากจากนั้นฉันสามารถใส่การถดถอยแบบโลจิสติกก่อนคำนวณความน่าจะเป็นที่เป็นศูนย์จากนั้นฉันสามารถลบศูนย์ทั้งหมดแล้วจึงใส่การถดถอยแบบปกติโดยใช้ตัวเลือกการกระจายของฉัน จากนั้นมีใครบางคนบอกฉันว่า "เฮ้ใช้การกระจายตัวที่สูงเกินจริงเป็นศูนย์" แต่เมื่อมองดูแล้วดูเหมือนจะไม่ทำอะไรที่แตกต่างไปจากที่ฉันแนะนำไว้ข้างต้น? มันมีพารามิเตอร์ปกติและจากนั้นพารามิเตอร์อื่นเพื่อสร้างแบบจำลองความน่าจะเป็นที่เป็นศูนย์? มันทำทั้งสองอย่างพร้อมกันหรือเปล่า?μμ\muppp

6
เหตุใดเราจึงควรสลับข้อมูลในขณะฝึกเครือข่ายประสาท
ในการฝึกอบรมมินิแบทช์ของเครือข่ายประสาทเทียมฉันได้ยินมาว่าการฝึกฝนที่สำคัญคือการสับเปลี่ยนข้อมูลการฝึกอบรมก่อนทุกยุค ใครสามารถอธิบายได้ว่าทำไมการสับในแต่ละยุคจึงช่วยได้บ้าง จากการค้นหาของ Google ฉันพบคำตอบต่อไปนี้: ช่วยให้การฝึกอบรมมาบรรจบกันอย่างรวดเร็ว มันป้องกันอคติใด ๆ ในระหว่างการฝึกอบรม มันป้องกันโมเดลจากการเรียนรู้ลำดับของการฝึกอบรม แต่ฉันมีความยากลำบากในการทำความเข้าใจว่าทำไมผลกระทบเหล่านี้เกิดจากการสับแบบสุ่ม ใครสามารถให้คำอธิบายง่ายๆ

2
คุณจะอธิบาย Moment Generating Function (MGF) ในแง่ของคนธรรมดาได้อย่างไร
ฟังก์ชั่นการสร้างช่วงเวลา (MGF) คืออะไร? คุณช่วยอธิบายมันด้วยคำพูดของคนธรรมดาและเป็นตัวอย่างง่าย ๆ ได้ไหม? กรุณา จำกัด การใช้สัญลักษณ์ทางคณิตศาสตร์เท่าที่จะทำได้
15 moments  intuition  mgf 

1
ทำไมจึงเป็นสิ่งสำคัญที่จะรวมคำแก้ไขอคติสำหรับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึก
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมเพื่อการเรียนรู้ที่ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่Deep Learningโดย Begnio, Goodfellow และ Courtville: อดัมรวมการแก้ไขอคติกับการประมาณการช่วงเวลาที่สั่งซื้อครั้งแรก (คำว่าโมเมนตัม) และช่วงเวลาอันดับที่สอง (ไม่ระบุตัวตน) เพื่ออธิบายการเริ่มต้นที่จุดเริ่มต้น ดูเหมือนว่าเหตุผลหลักที่จะรวมถึงข้อตกลงการแก้ไขอคติเหล่านี้คือที่ใดก็เอาอคติของการเริ่มต้นของและ0mt=0mt=0m_t = 0vt=0vt=0v_t = 0 ฉันไม่แน่ใจ 100% ว่านั่นหมายถึงอะไร แต่ดูเหมือนว่าสำหรับฉันว่ามันอาจหมายความว่าช่วงเวลาที่ 1 และ 2 เริ่มต้นที่ศูนย์และเริ่มต้นที่ศูนย์อย่างใดอย่างหนึ่งแทนค่าที่ใกล้เคียงกับศูนย์ในทางที่ไม่ยุติธรรม ? แม้ว่าฉันจะชอบที่จะรู้ว่าสิ่งที่หมายถึงบิตที่แม่นยำมากขึ้นและวิธีการที่ทำลายการเรียนรู้ โดยเฉพาะอย่างยิ่งข้อดีของการเพิ่มประสิทธิภาพให้เกิดประโยชน์ในแง่ของการเพิ่มประสิทธิภาพ un-biasing คืออะไร? สิ่งนี้จะช่วยฝึกอบรมรูปแบบการเรียนรู้ลึกได้อย่างไร นอกจากนี้มันหมายความว่าอย่างไรเมื่อไม่มีอคติ ฉันคุ้นเคยกับความเบี่ยงเบนมาตรฐานที่เป็นกลาง แต่มันไม่ชัดเจนสำหรับฉันในความหมายนี้ในบริบทนี้ การแก้ไขอคตินั้นเป็นเรื่องใหญ่จริง ๆ หรือว่ามีบางสิ่งที่ overhyped ในกระดาษเพิ่มประสิทธิภาพของอดัม? แค่มีคนรู้ว่าฉันพยายามอย่างหนักที่จะเข้าใจกระดาษต้นฉบับ แต่ฉันได้อ่านและอ่านกระดาษต้นฉบับน้อยมาก ฉันคิดว่าคำถามเหล่านี้บางคำถามอาจตอบได้ แต่ฉันไม่สามารถแยกคำตอบได้

1
จะเปรียบเทียบแบบจำลองบนพื้นฐานของ AIC ได้อย่างไร
เรามีสองรุ่นที่ใช้วิธีการเดียวกันเพื่อคำนวณโอกาสในการบันทึกและ AIC สำหรับหนึ่งต่ำกว่าอีกรุ่นหนึ่ง อย่างไรก็ตามผู้ที่มี AIC ที่ต่ำกว่านั้นตีความได้ยากกว่ามาก เรากำลังประสบปัญหาในการตัดสินใจว่ามันคุ้มค่าที่จะนำเสนอปัญหาและเราตัดสินโดยใช้ความแตกต่างเปอร์เซ็นต์ใน AIC เราพบว่าความแตกต่างระหว่าง AIC ทั้งสองนั้นมีเพียง 0.7% โดยมีรูปแบบที่ซับซ้อนมากขึ้นซึ่งมี AIC ที่ต่ำกว่า 0.7% ความแตกต่างเปอร์เซ็นต์ต่ำระหว่างสองเหตุผลที่ดีในการหลีกเลี่ยงการใช้แบบจำลองกับ AIC ที่ต่ำกว่าคืออะไร เปอร์เซ็นต์ของความแตกต่างอธิบายว่า 0.7% ข้อมูลหายไปในรูปแบบที่ซับซ้อนน้อยลงหรือไม่? รุ่นสองรุ่นสามารถมีผลลัพธ์ที่แตกต่างกันมากได้หรือไม่

1
Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?
สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

1
มิติข้อมูล VC บอกอะไรเราเกี่ยวกับการเรียนรู้อย่างลึกซึ้ง
ในการเรียนรู้เครื่องจักรขั้นพื้นฐานเราได้รับการสอน "กฎง่ายๆ" ต่อไปนี้: ก) ขนาดของข้อมูลของคุณควรมีขนาดอย่างน้อย 10 เท่าของขนาด VC ของชุดสมมติฐานของคุณ b) เครือข่ายประสาทเทียมที่มีการเชื่อมต่อ N มีมิติ VC ประมาณ N ดังนั้นเมื่อเครือข่ายนิวรัลการเรียนรู้อย่างลึกซึ้งได้พูดไปแล้วหลายล้านหน่วยนี่หมายความว่าเราควรจะพูดจุดข้อมูลนับพันล้านหรือไม่ คุณช่วยส่องแสงนี้ให้หน่อยได้ไหม?

2
ทำไม lrtest () ไม่ตรงกับ anova (test =“ LRT”)
ฉันกำลังมองหาวิธีที่จะทำการทดสอบอัตราส่วนความน่าจะเป็นใน R เพื่อเปรียบเทียบแบบจำลองที่พอดี ฉันเขียนมันเองก่อนจากนั้นก็พบว่าทั้งanova()ฟังก์ชั่นเริ่มต้นและlrtest()ในlmtestแพ็คเกจ เมื่อฉันตรวจสอบanova()จะสร้างค่า p ที่แตกต่างกันเล็กน้อยจากอีกสองเสมอแม้ว่าพารามิเตอร์ 'test' จะถูกตั้งค่าเป็น "LRT" มีการanova()ปฏิบัติจริงบางอย่างที่แตกต่างกันการทดสอบอย่างละเอียดหรือฉันไม่เข้าใจว่าอะไร? แพลตฟอร์ม: R 3.2.0 ทำงานบน Linux Mint 17, lmtestรุ่น 0.9-33 รหัสตัวอย่าง: set.seed(1) # Reproducibility n=1000 y = runif(n, min=-1, max=1) a = factor(sample(1:5, size=n, replace=T)) b = runif(n) # Make y dependent on the other two variables y = y …

4
ไม่มีการกำหนดมาตรฐานสำหรับหน่วยอคติในเครือข่ายประสาทเทียม
ตามบทช่วยสอนนี้เกี่ยวกับการเรียนรู้อย่างลึกซึ้งการลดน้ำหนัก (การทำให้เป็นมาตรฐาน) มักจะไม่นำมาใช้กับเงื่อนไขของอคติขทำไม ความสำคัญ (สัญชาตญาณ) ที่อยู่เบื้องหลังคืออะไร?

1
การถดถอยโลจิสติก glmnet สามารถจัดการตัวแปรตัวประกอบ (หมวดหมู่) ได้โดยตรงโดยไม่ต้องใช้ตัวแปรจำลองหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังสร้างการถดถอยโลจิสติกใน R โดยใช้วิธี LASSO ด้วยฟังก์ชั่นcv.glmnetสำหรับการเลือกlambdaและglmnetสำหรับรุ่นสุดท้าย ฉันรู้ข้อเสียทั้งหมดเกี่ยวกับการเลือกรุ่นอัตโนมัติแล้ว แต่ฉันต้องทำต่อไป ปัญหาของฉันคือฉันต้องรวมตัวแปรปัจจัย (หมวดหมู่) ในแบบจำลองมีวิธีใดที่จะทำได้โดยไม่ต้องสร้างตัวแปรจำลองจำนวนมากหรือไม่ ตัวแปรนี้เกือบทุกสายและไม่ใช่ตัวเลข

1
ความสัมพันธ์ระหว่างการแจกแจงแกมม่าและไคสแควร์
ถ้าโดยที่X i ∼ N ( 0 , σ 2 ) , นั่นคือXทั้งหมดของฉันคือ iid ตัวแปรสุ่มแบบสุ่มของศูนย์หมายความว่ามีค่าความแปรปรวนเดียวกันจากนั้นY ∼ Γ ( NY= ∑i = 1ยังไม่มีข้อความX2ผมY=∑i=1NXi2Y=\sum_{i=1}^{N}X_i^2Xผม∼ N( 0 , σ2)Xi∼N(0,σ2)X_i \sim \mathcal{N}(0,\sigma^2)XผมXiX_iY∼ Γ ( N2, 2 σ2) .Y∼Γ(N2,2σ2).Y \sim \Gamma\left(\frac{N}{2},2\sigma^2\right). ฉันรู้ว่าการกระจายตัวไคสแควร์เป็นกรณีพิเศษของการแจกแจงแกมม่า แต่ไม่สามารถหาการกระจายไคสแควร์สำหรับตัวแปรสุ่มได้ มีอะไรให้ช่วยไหม?YYY

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.