สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
คำอธิบายของ Spikes ในการสูญเสียการฝึกอบรมเทียบกับการทำซ้ำกับ Adam Optimizer
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมโดยใช้ i) SGD และ ii) เครื่องมือเพิ่มประสิทธิภาพอดัม เมื่อใช้งานปกติ SGD ฉันจะได้รับการสูญเสียการฝึกอบรมที่ราบรื่นเมื่อเทียบกับเส้นโค้งการวนซ้ำตามที่เห็นด้านล่าง อย่างไรก็ตามเมื่อฉันใช้ Adam Optimizer กราฟการสูญเสียการฝึกอบรมมีหนามแหลมบางอย่าง อะไรคือคำอธิบายของเดือยแหลมเหล่านี้? รายละเอียดรูปแบบ: 14 input nodes -> 2 layer ที่ซ่อนอยู่ (100 -> 40 units) -> 4 output units ฉันกำลังใช้พารามิเตอร์เริ่มต้นสำหรับอดัมbeta_1 = 0.9, beta_2 = 0.999, และepsilon = 1e-8batch_size = 32 i) กับ SGD ii) กับอดัม

2
พารามิเตอร์ที่สองสำหรับการแจกแจงแบบปกติคือความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐาน
บางครั้งฉันเคยเห็นหนังสืออ้างอิงพารามิเตอร์ที่สองในการแจกแจงแบบปกติว่าส่วนเบี่ยงเบนมาตรฐานและความแปรปรวน ตัวอย่างเช่นตัวแปรสุ่ม X ~ N (0, 4) มันไม่ชัดเจนว่าซิกม่าหรือซิกม่ากำลังสองเท่ากับ 4 ฉันแค่ต้องการหาแบบแผนทั่วไปที่ใช้เมื่อค่าเบี่ยงเบนมาตรฐานหรือความแปรปรวนไม่ได้ระบุ

1
ลักษณนามเทียบกับตัวแบบเทียบกับตัวประมาณ
ความแตกต่างระหว่างลักษณนามตัวแบบและตัวประมาณคืออะไร? จากสิ่งที่ฉันสามารถบอกได้: ตัวประมาณเป็นตัวทำนายที่พบจากอัลกอริทึมการถดถอย ลักษณนามเป็นตัวทำนายที่พบจากอัลกอริทึมการจำแนก แบบจำลองสามารถเป็นได้ทั้งตัวประมาณค่าหรือตัวจําแนก แต่จากการดูทางออนไลน์ดูเหมือนว่าฉันอาจมีคำจำกัดความเหล่านี้ปะปนกัน ดังนั้นอะไรคือข้อ จำกัด ที่แท้จริงในบริบทของการเรียนรู้ของเครื่อง?

2
ทำไมการหดตัวจึงใช้งานได้จริงมีอะไรพิเศษเกี่ยวกับ 0
มีการโพสต์ในเว็บไซต์นี้แล้วพูดคุยเกี่ยวกับปัญหาเดียวกัน: ทำไมการหดตัวทำงานอย่างไร แต่ถึงแม้ว่าคำตอบจะได้รับความนิยม แต่ฉันไม่เชื่อว่าส่วนสำคัญของคำถามจะได้รับการแก้ไข ค่อนข้างชัดเจนว่าการแนะนำอคติบางอย่างในการประมาณค่าช่วยลดความแปรปรวนและอาจปรับปรุงคุณภาพการประมาณค่า อย่างไรก็ตาม: 1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน 2) ทำไมมันใช้งานได้เสมอ? ตัวอย่างเช่นในกรณีของการถดถอยสัน: ทฤษฎีบทการดำรงอยู่ 3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์ ) แต่มันจะทำงานได้ดีเท่าที่มา? 4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? มีสมมติฐานเหล่านี้ก็น่าจะเป็นมากขึ้นหรือไม่ คำตอบที่มีการอ้างอิงถึงทฤษฎีบทที่พิสูจน์แล้วหรือผลที่คาดหวัง

2
เหตุใดการกระจายส่วนต่าง / ความน่าจะเป็นที่ได้รับเล็กน้อยนั้นอธิบายว่าเป็น
Marginal โดยทั่วไปหมายถึงสิ่งที่มีผลขนาดเล็กบางสิ่งที่อยู่นอกระบบที่ใหญ่กว่า มันมีแนวโน้มที่จะลดความสำคัญของสิ่งที่ถูกอธิบายว่าเป็น "ส่วนเพิ่ม" ดังนั้นวิธีที่ใช้กับความน่าจะเป็นของชุดย่อยของตัวแปรสุ่มได้อย่างไร สมมติว่าคำต่าง ๆ ถูกนำมาใช้เพราะความหมายของพวกเขาอาจเป็นข้อเสนอที่มีความเสี่ยงในวิชาคณิตศาสตร์ดังนั้นฉันรู้ว่าไม่จำเป็นต้องมีคำตอบที่นี่ แต่บางครั้งคำตอบของคำถามประเภทนี้สามารถช่วยให้คุณเข้าใจได้อย่างแท้จริง ฉันถาม

2
อัปเดต MLE ซ้ำ ๆ เป็นสตรีมการสังเกตใหม่
คำถามทั่วไป บอกว่าเรามีข้อมูล IID , ... \ ซิม f (x \ | \, \ boldsymbol {\ theta}) . สตรีมมิ่งในเราต้องการที่จะซ้ำคำนวณประมาณการความน่าจะเป็นสูงสุดของ\ boldsymbol {\ theta} นั่นคือการคำนวณ \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ …

3
อะไรคือข้อดีของการถดถอยเชิงเส้นมากกว่าการถดถอยเชิงปริมาณ
ตัวแบบการถดถอยเชิงเส้นทำให้เกิดข้อสันนิษฐานว่าการถดถอยเชิงปริมาณไม่ได้และถ้าพบว่าการถดถอยเชิงเส้นเป็นไปตามสัญชาตญาณของฉัน (และประสบการณ์บางอย่างที่ จำกัด มาก) ก็คือการถดถอยแบบมัธยฐานจะให้ผลลัพธ์เกือบเหมือนการถดถอยเชิงเส้น การถดถอยเชิงเส้นมีข้อดีอย่างไร มันเป็นที่คุ้นเคยมากขึ้น แต่นอกเหนือจากนั้น?

2
การแจกจ่ายแบบใดที่จะใช้กับแบบจำลองเวลาก่อนรถไฟมาถึง
ฉันกำลังพยายามสร้างแบบจำลองข้อมูลบางอย่างในเวลาที่รถไฟมาถึง ฉันต้องการที่จะใช้การกระจายที่จับ"อีกต่อไปผมรอจะขึ้นรถไฟไปนี้จะแสดงขึ้น" ดูเหมือนว่าการแจกจ่ายดังกล่าวควรมีลักษณะเป็น CDF ดังนั้น P (รถไฟแสดงขึ้น | รอ 60 นาที) ใกล้เคียงกับ 1 การกระจายแบบใดที่เหมาะสมที่จะใช้ที่นี่

2
การทดสอบการกระจายตัวใน GLMs * มีประโยชน์ * จริงหรือไม่
ปรากฏการณ์ของ 'การกระจายตัวมากเกินไป' ใน GLM เกิดขึ้นเมื่อใดก็ตามที่เราใช้แบบจำลองที่จำกัดความแปรปรวนของตัวแปรการตอบสนองและข้อมูลจะแสดงความแปรปรวนมากกว่าแบบ จำกัด ที่อนุญาต สิ่งนี้มักเกิดขึ้นเมื่อการสร้างแบบจำลองนับข้อมูลโดยใช้ Poisson GLM และสามารถวินิจฉัยได้จากการทดสอบที่รู้จักกันดี หากการทดสอบแสดงให้เห็นว่ามีหลักฐานนัยสำคัญทางสถิติของการกระจายตัวเกินเรามักจะสรุปโมเดลโดยใช้ตระกูลการแจกแจงที่กว้างขึ้นที่ทำให้พารามิเตอร์ความแปรปรวนจากข้อ จำกัด ที่เกิดขึ้นภายใต้โมเดลดั้งเดิม ในกรณีของ Poisson GLM มันเป็นเรื่องธรรมดาที่จะพูดคุยทั่วไปทั้งในเชิงลบ - ทวินามหรือกึ่ง - Poisson GLM สถานการณ์นี้กำลังตั้งท้องพร้อมกับคัดค้านอย่างชัดเจน ทำไมเริ่มต้นด้วย Poisson GLM เลยเหรอ? หนึ่งสามารถเริ่มต้นโดยตรงกับรูปแบบการกระจายที่กว้างขึ้นซึ่งมีพารามิเตอร์แปรปรวนอิสระ (ค่อนข้าง) และอนุญาตให้พารามิเตอร์แปรปรวนจะพอดีกับข้อมูลละเว้นการทดสอบการกระจายตัวเกินอย่างสมบูรณ์ ในสถานการณ์อื่น ๆ เมื่อเราทำการวิเคราะห์ข้อมูลเรามักจะใช้แบบฟอร์มการกระจายสินค้าที่อนุญาตให้มีอิสระอย่างน้อยสองครั้งแรกดังนั้นทำไมต้องมีข้อยกเว้นที่นี่ คำถามของฉัน:มีเหตุผลที่ดีที่เริ่มต้นด้วยการแจกแจงที่แก้ไขความแปรปรวน (เช่นการแจกแจงปัวซง) แล้วทำการทดสอบการกระจายตัวเกินหรือไม่? ขั้นตอนนี้เปรียบเทียบกับการกระโดดข้ามแบบฝึกหัดนี้ได้อย่างสมบูรณ์และตรงไปยังแบบจำลองทั่วไปที่มากขึ้น (เช่นลบ - ทวินาม, กึ่ง - ปัวซอง ฯลฯ )? กล่าวอีกนัยหนึ่งทำไมไม่ใช้การแจกแจงที่มีพารามิเตอร์ผลต่างอิสระเสมอไป

7
เส้นโค้ง (หรือรุ่น) ชนิดใดที่ฉันควรจะพอดีกับข้อมูลเปอร์เซ็นต์ของฉัน
ฉันพยายามสร้างรูปที่แสดงความสัมพันธ์ระหว่างสำเนาไวรัสและการครอบคลุมจีโนม (GCC) นี่คือข้อมูลของฉันที่มีลักษณะ: ตอนแรกฉันเพิ่งวางแผนการถดถอยเชิงเส้น แต่หัวหน้างานของฉันบอกฉันว่ามันไม่ถูกต้องและลองใช้เส้นโค้ง sigmoidal ดังนั้นฉันจึงใช้ geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + …

1
ผลรวมของต้นไม้ตัดสินใจสองอันนั้นเท่ากับต้นไม้ตัดสินใจเดี่ยวหรือไม่?
สมมติว่าเรามีต้นไม้สองถดถอย (ต้นไม้และต้นไม้ B) ที่ป้อนข้อมูลแผนที่การส่งออกปี ∈ R Let Y = F ( x )สำหรับต้นไม้และฉB ( x )ต้นไม้บีต้นไม้แต่ละต้นใช้ไบนารีแยกกับ hyperplanes เป็นฟังก์ชั่นแยกx ∈ Rdx∈Rdx \in \mathbb{R}^dY^∈ RY^∈R\hat{y} \in \mathbb{R}Y^= fA( x )Y^=ฉA(x)\hat{y} = f_A(x)ฉB( x )ฉB(x)f_B(x) ทีนี้สมมติว่าเรารับผลรวมถ่วงน้ำหนักของต้นไม้ออกมา: ฉค( x ) = wA ฉA( x ) + wB ฉB( x )ฉค(x)=WA ฉA(x)+WB ฉB(x)f_C(x) = w_A …

2
การใช้ตัวเลขสุ่มในการคำนวณทางสถิติมีความสำคัญอะไรบ้าง?
เครื่องกำเนิดเลขสุ่ม (RNG) มีความสำคัญอย่างไรในสถิติการคำนวณ ฉันเข้าใจว่าการสุ่มนั้นมีความสำคัญเมื่อเลือกตัวอย่างสำหรับการทดสอบทางสถิติจำนวนมากเพื่อหลีกเลี่ยงอคติต่อสมมติฐานใด ๆ แต่มีพื้นที่อื่น ๆ ของสถิติการคำนวณที่เครื่องกำเนิดเลขสุ่มมีความสำคัญหรือไม่

5
ทำไม
ฉันคิดว่า P(A|B)=P(A|B,C)∗P(C)+P(A|B,¬C)∗P(¬C)P(A|B)=P(A|B,C)∗P(C)+P(A|B,¬C)∗P(¬C)P(A|B) = P(A | B,C) * P(C) + P(A|B,\neg C) * P(\neg C) ถูกต้องในขณะที่ P(A|B)=P(A|B,C)+P(A|B,¬C)P(A|B)=P(A|B,C)+P(A|B,¬C)P(A|B) = P(A | B,C) + P(A|B,\neg C) ไม่ถูกต้อง อย่างไรก็ตามฉันได้รับ "ปรีชาญาณ" เกี่ยวกับหนึ่งในภายหลังนั่นคือคุณพิจารณาความน่าจะเป็น P (A | B) โดยแยกสองกรณี (C หรือ Not C) ทำไมสัญชาตญาณนี้ผิด

2
ปรีชาญาณเกี่ยวกับการประมาณค่าพารามิเตอร์ในตัวแบบผสม (พารามิเตอร์ความแปรปรวนกับโหมดเงื่อนไข)
ฉันได้อ่านหลายครั้งแล้วว่าเอฟเฟกต์แบบสุ่ม (BLUPs / โหมดเงื่อนไขสำหรับ, พูด, ตัวแบบ) ไม่ใช่พารามิเตอร์ของโมเดลเอฟเฟกต์แบบเชิงเส้น แต่สามารถได้มาจากค่าความแปรปรวน / ตัวแปรความแปรปรวนร่วมโดยประมาณ เช่นReinhold Kliegl และคณะ รัฐ(2011) : เอฟเฟกต์แบบสุ่มคือการเบี่ยงเบนของอาสาสมัครจาก RT เฉลี่ยที่ยิ่งใหญ่และการเบี่ยงเบนของอาสาสมัครจากพารามิเตอร์เอฟเฟกต์คงที่ พวกเขาจะถือว่าเป็นอิสระและกระจายตามปกติด้วยค่าเฉลี่ยของ 0 มันเป็นสิ่งสำคัญที่จะต้องตระหนักว่าผลกระทบแบบสุ่มเหล่านี้ไม่ได้เป็น พารามิเตอร์ของ LMM - เพียงผลต่างและความแปรปรวนร่วมของพวกเขาคือ [... ] พารามิเตอร์ LMM ร่วมกับข้อมูลของอาสาสมัครสามารถใช้เพื่อสร้าง“ การคาดการณ์” (โหมดตามเงื่อนไข) ของเอฟเฟกต์แบบสุ่มสำหรับแต่ละเรื่อง ใครสามารถให้คำอธิบายที่เข้าใจง่ายว่าพารามิเตอร์ความแปรปรวน (ร่วม) ของเอฟเฟกต์แบบสุ่มสามารถประมาณได้โดยไม่ต้องใช้ / ประเมินผลของการสุ่ม

3
เมื่อใดที่ไม่เหมาะสมที่จะควบคุมตัวแปร?
ฉันนึกถึงตัวอย่างที่ไร้เดียงสาอย่างน้อยหนึ่งข้อ สมมติว่าฉันต้องการศึกษาความสัมพันธ์ระหว่าง X และ Z ฉันยังสงสัยว่า Y มีผลกับ Z ดังนั้นฉันจึงควบคุมสำหรับ Y อย่างไรก็ตามเมื่อปรากฎว่าไม่รู้จักฉัน X ทำให้ Y และ Y ทำให้ Z ดังนั้นโดยการควบคุม สำหรับ Y ฉัน "ปกปิด" ความสัมพันธ์ระหว่าง X และ Z เนื่องจาก X เป็นอิสระจาก Z ที่ให้ Y ในตัวอย่างก่อนหน้านี้มันอาจเป็นกรณีที่ความสัมพันธ์ที่ฉันควรศึกษาอยู่ระหว่าง X และ Y และ Y และ Z อย่างไรก็ตามถ้าฉันรู้เรื่องดังกล่าวมาก่อนฉันจะไม่ทำวิทยาศาสตร์ใน สถานที่แรก การศึกษาที่ฉันทำตอนนี้ชี้ให้เห็นว่าไม่มีความสัมพันธ์ระหว่าง X และ Z ซึ่งไม่ใช่กรณีที่ .... …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.