สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
เมื่อใดที่ฉันควรใช้โปรแกรมสร้างรหัสอัตโนมัติแบบแปรปรวนเมื่อเทียบกับโปรแกรมสร้างรหัสอัตโนมัติ?
ฉันเข้าใจโครงสร้างพื้นฐานของโปรแกรมสร้างรหัสอัตโนมัติแบบแปรปรวนและโปรแกรมสร้างรหัสอัตโนมัติปกติ (กำหนดขึ้นได้) และคณิตศาสตร์ที่อยู่เบื้องหลัง แต่เมื่อใดและทำไมฉันจึงต้องการโปรแกรมสร้างภาพอัตโนมัติประเภทหนึ่ง สิ่งที่ฉันคิดได้ก็คือการแจกแจงก่อนหน้าของตัวแปรแฝงของโปรแกรมสร้างตัวแปรอัตโนมัติช่วยให้เราสามารถตัวอย่างตัวแปรแฝงแล้วสร้างภาพใหม่ ความได้เปรียบอะไรจากการสุ่มอัตโนมัติของตัวสร้างความแปรปรวนมากกว่าตัวกำหนดค่าอัตโนมัติ

1
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด?
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด? ดูเหมือนจะไม่ชัดเจนสำหรับฉันเพราะการสูญเสียด้านการขนส่งและการสูญเสียกำลังสองน้อยที่สุดนั้นต่างกันอย่างสิ้นเชิง

2
เหตุใดจึงจำเป็นต้องสุ่มตัวอย่างจากการแจกแจงหลังถ้าเรารู้การกระจายตัวหลังแล้ว?
ความเข้าใจของฉันคือเมื่อใช้วิธีการแบบเบย์เพื่อประเมินค่าพารามิเตอร์: การกระจายหลังคือการรวมกันของการกระจายก่อนหน้าและการกระจายโอกาส เราจำลองสิ่งนี้โดยการสร้างตัวอย่างจากการแจกแจงด้านหลัง (เช่นการใช้อัลกอริทึม Metropolis-Hasting เพื่อสร้างค่าและยอมรับถ้าพวกเขาอยู่เหนือขีดจำกัดความน่าจะเป็นที่แน่นอนที่จะเป็นของการแจกแจงหลัง) เมื่อเราสร้างตัวอย่างนี้เราจะใช้มันเพื่อประมาณการกระจายตัวของหลังและสิ่งต่าง ๆ เช่นค่าเฉลี่ย แต่ฉันรู้สึกว่าฉันต้องเข้าใจผิดบางอย่าง ดูเหมือนว่าเรามีการแจกแจงด้านหลังแล้วสุ่มตัวอย่างจากนั้นใช้ตัวอย่างนั้นเป็นค่าประมาณของการแจกแจงหลัง แต่ถ้าเรามีการกระจายด้านหลังเพื่อเริ่มต้นด้วยเหตุใดเราจึงต้องสุ่มตัวอย่างจากมันถึงค่าประมาณ

6
เลเยอร์ Convolutional: เพื่อ pad หรือไม่ pad?
สถาปัตยกรรม AlexNet ใช้การ zero-paddings ดังแสดงในรูป: อย่างไรก็ตามไม่มีคำอธิบายในกระดาษว่าทำไมการขยายตัวนี้ถูกนำมาใช้ หลักสูตร Standford CS 231n สอนให้เราใช้การขยายเพื่อรักษาขนาดเชิงพื้นที่: ฉันสงสัยว่ามันเป็นเหตุผลเดียวที่เราต้องการแพ็ดดิ้ง? ฉันหมายความว่าถ้าฉันไม่ต้องการรักษาขนาดเชิงพื้นที่ฉันสามารถลบการขยายได้หรือไม่ ฉันรู้ว่ามันจะทำให้ขนาดเชิงพื้นที่ลดลงอย่างรวดเร็วเมื่อเราไปถึงระดับที่ลึกกว่า อย่างไรก็ตามฉันสามารถแลกเปลี่ยนสิ่งนั้นได้โดยการลบเลเยอร์รวมกำไร ฉันจะมีความสุขมากถ้าใครสามารถให้เหตุผลกับฉันได้ ขอบคุณ!

4
ด้วยข้อมูลหมวดหมู่จะมีกลุ่มที่ไม่มีตัวแปรที่เกี่ยวข้องหรือไม่
เมื่อพยายามอธิบายการวิเคราะห์กลุ่มมันเป็นเรื่องปกติที่คนจะเข้าใจผิดเกี่ยวกับกระบวนการที่เกี่ยวข้องกับว่าตัวแปรมีความสัมพันธ์กันหรือไม่ วิธีหนึ่งที่จะทำให้ผู้คนสับสนได้ก็คือเรื่องแบบนี้: สิ่งนี้แสดงความแตกต่างอย่างชัดเจนระหว่างคำถามที่ว่ามีกลุ่มและคำถามที่เกี่ยวข้องกับตัวแปรหรือไม่ อย่างไรก็ตามนี่แสดงให้เห็นถึงความแตกต่างสำหรับข้อมูลต่อเนื่องเท่านั้น ฉันมีปัญหาในการคิดแบบอะนาล็อกกับข้อมูลที่เป็นหมวดหมู่: ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no เราจะเห็นได้ว่ามีกลุ่มชัดเจนสองกลุ่มคือคนที่มีทั้งคุณสมบัติ A และ B และกลุ่มที่ไม่มี อย่างไรก็ตามถ้าเราดูตัวแปร (เช่นด้วยการทดสอบไคสแควร์) พวกมันจะเกี่ยวข้องกันอย่างชัดเจน: tab # B # A yes no # yes 4 …

4
จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร
ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้? การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean

2
การแจกแจงแบบไม่ปกติที่มีความเบ้เป็นศูนย์และไม่มีความโด่งเกินศูนย์?
คำถามเชิงทฤษฎีเป็นส่วนใหญ่ มีตัวอย่างของการแจกแจงแบบไม่ปกติที่มีช่วงเวลาสี่ช่วงแรกเท่ากับช่วงเวลาปกติหรือไม่? พวกมันมีอยู่ในทฤษฎีหรือไม่?

2
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่
การทดสอบของนักเรียนเป็นการทดสอบแบบ Wald หรือไม่ ผมได้อ่านคำอธิบายของการทดสอบ Wald จาก Wasserman ของทุกสถิติ สำหรับฉันแล้วการทดสอบ Wald รวมถึงการทดสอบ t ถูกต้องไหม ถ้าไม่มีอะไรทำให้การทดสอบแบบ t ไม่ใช่แบบทดสอบ Wald

3
การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean
มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?

1
ทำไมต้องใช้ ANOVA เลยแทนที่จะกระโดดเข้าสู่การทดสอบแบบโพสต์เฉพาะกิจหรือการวางแผนเปรียบเทียบ
เมื่อมองสถานการณ์ ANOVA ระหว่างกลุ่มคุณจะได้อะไรจากการทำแบบทดสอบ ANOVA ก่อนและหลังทำการทดสอบ (Bonferroni, Šidák ฯลฯ ) หรือการทดสอบเปรียบเทียบที่วางแผนไว้ ทำไมไม่ข้ามขั้นตอน ANOVA ทั้งหมด? ฉันรวบรวมว่าในสถานการณ์เช่นนี้ประโยชน์อย่างหนึ่งของ ANOVA ระหว่างกลุ่มคือความสามารถในการใช้ HSD ของ Tukey เป็นแบบทดสอบหลังเลิกเรียน หลังต้องการตารางภายในกลุ่มหมายถึงจากตาราง ANOVA เพื่อคำนวณข้อผิดพลาดมาตรฐานที่เกี่ยวข้อง แต่การปรับ Bonferroni และŠidákเป็นการทดสอบ t-unpaired นั้นไม่จำเป็นต้องมีการวิเคราะห์ ANOVA ใด ๆ ฉันอยากจะถามคำถามเดียวกันเกี่ยวกับสถานการณ์ ANOVA ภายในกลุ่ม ฉันรู้ว่าในกรณีเช่นนี้การทดสอบ HSD ของ Tukey ไม่ได้เป็นการพิจารณาที่เกี่ยวข้องทำให้คำถามนี้มีความกดดันมากขึ้น

2
สัญชาตญาณของกระบวนการย้อนกลับในอนุกรมเวลาคืออะไร?
ฉันกำลังอ่านหนังสือเกี่ยวกับอนุกรมเวลาและเริ่มเกาหัวในส่วนต่อไปนี้: ใครช่วยอธิบายสัญชาตญาณให้ฉันได้บ้าง ฉันไม่สามารถรับมันจากข้อความนี้ ทำไมเราต้องมีกระบวนการที่จะกลับด้านได้? ภาพใหญ่ที่นี่คืออะไร? ขอบคุณสำหรับความช่วยเหลือ ฉันใหม่กับสิ่งนี้ดังนั้นหากคุณสามารถใช้คำศัพท์ระดับนักเรียนเมื่ออธิบายสิ่งนี้ :)
19 time-series  arma 

1
ความพอดีของฮีสโตแกรม 2D
ฉันมีข้อมูลสองชุดที่แสดงถึงพารามิเตอร์ของดาว: อันที่สังเกตและแบบจำลอง ด้วยชุดเหล่านี้ฉันสร้างสิ่งที่เรียกว่าสองสีแผนภาพ (TCD) ตัวอย่างสามารถดูได้ที่นี่: การเป็นข้อมูลที่สังเกตและBข้อมูลที่ดึงมาจากแบบจำลอง (ไม่ต้องสนใจเส้นสีดำจุดแสดงข้อมูล) ฉันมีไดอะแกรมAเพียงอันเดียวแต่สามารถสร้างไดอะแกรมB ที่แตกต่างกันได้มากเท่าที่ฉันต้องการและสิ่งที่ฉันต้องการคือ เพื่อให้เหมาะกับก . ดังนั้นสิ่งที่ฉันต้องการคือวิธีที่เชื่อถือได้ในการตรวจสอบความดีของไดอะแกรมแบบB (โมเดล) กับไดอะแกรมA (สังเกต) ตอนนี้สิ่งที่ฉันทำคือฉันสร้างฮิสโตแกรม 2D หรือตาราง (นั่นคือสิ่งที่ฉันเรียกมันอาจจะมีชื่อที่เหมาะสมกว่า) สำหรับแต่ละแผนภาพโดยการผูกทั้งสองแกน (แต่ละ 100 ถังสำหรับแต่ละ) จากนั้นฉันก็ผ่านแต่ละเซลล์ของตาราง และฉันพบความแตกต่างที่แน่นอนในการนับระหว่างAและBสำหรับเซลล์นั้น หลังจากผ่านไปแล้วเซลล์ทั้งหมดที่ผมสรุปค่าสำหรับแต่ละเซลล์และดังนั้นผมจึงจบลงด้วยพารามิเตอร์บวกเดียวที่เป็นตัวแทนของความดีของพอดี (คน ) ระหว่างและB ยิ่งใกล้ศูนย์มากเท่าไหร่ก็ยิ่งพอดี โดยทั่วไปนี่คือพารามิเตอร์ที่มีลักษณะดังนี้:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ที่คือจำนวนของดาวในแผนภาพสำหรับเซลล์เฉพาะที่ (กำหนดโดย ) และคือหมายเลขสำหรับBaijaija_{ij}ijijijbijbijb_{ij} นี่คือสิ่งที่ความแตกต่างในแต่ละเซลล์ดูเหมือนในตารางที่ฉันสร้าง (โปรดสังเกตว่าฉันไม่ได้ใช้ค่าสัมบูรณ์ของในภาพนี้ แต่ฉันจะใช้พวกเขาเมื่อคำนวณพารามิเตอร์ ):(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf ปัญหาคือฉันได้รับการแนะนำว่านี่อาจไม่ใช่ตัวประมาณที่ดีเพราะส่วนใหญ่นอกจากการบอกว่าแบบนี้ดีกว่าตัวอื่นเพราะพารามิเตอร์ต่ำกว่าฉันไม่สามารถพูดอะไรได้มากกว่านี้ สำคัญ : (ขอบคุณ @PeterEllis ที่นำเรื่องนี้ขึ้นมา) 1- …

2
การทดสอบสมมติฐานและความสำคัญของอนุกรมเวลา
การทดสอบความสำคัญตามปกติเมื่อค้นหาประชากรสองคนคือ t-test, paired t-test หากเป็นไปได้ นี่ถือว่าการกระจายเป็นปกติ มีข้อสมมติฐานที่ทำให้เข้าใจง่ายที่คล้ายกันที่สร้างการทดสอบนัยสำคัญสำหรับอนุกรมเวลาหรือไม่? โดยเฉพาะเรามีประชากรหนูสองตัวที่ค่อนข้างเล็กซึ่งกำลังได้รับการปฏิบัติแตกต่างกันและเราทำการวัดน้ำหนักสัปดาห์ละครั้ง กราฟทั้งสองแสดงฟังก์ชั่นที่เพิ่มขึ้นอย่างราบรื่นด้วยกราฟหนึ่งกราฟเหนืออีกแน่นอน เราจะหาปริมาณ "ความชัดเจน" ในบริบทนี้ได้อย่างไร สมมติฐานว่างควรเป็นว่าน้ำหนักของประชากรทั้งสอง "ทำงานในลักษณะเดียวกัน" เมื่อเวลาผ่านไป เราจะกำหนดรูปแบบนี้ในรูปแบบง่าย ๆ ที่เป็นเรื่องธรรมดา (เช่นเดียวกับการแจกแจงแบบปกติทั่วไป) ด้วยพารามิเตอร์จำนวนเล็กน้อยเท่านั้น เมื่อเราทำเช่นนั้นแล้วเราจะวัดความสำคัญหรือสิ่งที่คล้ายคลึงกับค่า p ได้อย่างไร แล้วการจับคู่เมาส์จับคู่ลักษณะให้ได้มากที่สุดโดยแต่ละคู่มีตัวแทนหนึ่งคนจากประชากรสองคนแต่ละคน ฉันยินดีต้อนรับตัวชี้ไปยังหนังสือหรือบทความที่เกี่ยวข้องที่เขียนได้ดีและเข้าใจได้ง่ายเกี่ยวกับอนุกรมเวลา ฉันเริ่มเป็นคนโง่เขลา ขอบคุณสำหรับความช่วยเหลือของคุณ. David Epstein

2
อัลกอริทึมการแพร่กระจายกลับ
ฉันมีความสับสนเล็กน้อยเกี่ยวกับอัลกอริทึมbackpropagation ที่ใช้ในMultilayer Perceptron (MLP) ข้อผิดพลาดจะถูกปรับโดยฟังก์ชั่นค่าใช้จ่าย ในการแพร่กระจายย้อนกลับเรากำลังพยายามปรับน้ำหนักของเลเยอร์ที่ซ่อนอยู่ ข้อผิดพลาดของผลลัพธ์ที่ฉันสามารถเข้าใจได้นั่นคือe = d - y[ไม่มีตัวห้อย] คำถามคือ: เราจะได้รับข้อผิดพลาดของเลเยอร์ที่ซ่อนอยู่ได้อย่างไร คนเราคำนวณมันได้อย่างไร ถ้าฉัน backpropagate ฉันควรใช้มันเป็นฟังก์ชั่นต้นทุนของตัวกรองแบบปรับตัวหรือฉันควรใช้ตัวชี้การเขียนโปรแกรม (ใน C / C ++) เพื่อปรับปรุงน้ำหนักหรือไม่

3
คำอธิบายฟังก์ชั่นการสูญเสีย 0-1
ฉันพยายามเข้าใจว่าจุดประสงค์ของฟังก์ชั่นการสูญเสียคืออะไรและฉันก็ไม่เข้าใจ ดังนั้นเท่าที่ฉันเข้าใจฟังก์ชันการสูญเสียมีไว้สำหรับแนะนำตัวชี้วัดบางอย่างที่เราสามารถวัด "ต้นทุน" ของการตัดสินใจที่ไม่ถูกต้องด้วย สมมุติว่าฉันมีชุดข้อมูล 30 ชิ้นฉันแบ่งพวกมันเป็นชุดฝึกอบรม / ทดสอบเช่น 20/10 ฉันจะใช้ฟังก์ชันสูญเสีย 0-1 ดังนั้นสมมติว่าชุดฉลากระดับของฉันคือMและฟังก์ชั่นมีลักษณะเช่นนี้ : L ( i , j ) = { 0i = j1ฉัน≠ jฉัน, เจ∈ ML(ผม,J)={0ผม=J1ผม≠Jผม,J∈M L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M ดังนั้นฉันจึงสร้างแบบจำลองบางอย่างบนข้อมูลการฝึกอบรมของฉันสมมติว่าฉันใช้ตัวจําแนก Naive …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.