สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เปรียบเทียบ SVM และการถดถอยโลจิสติก
ใครช่วยกรุณาเล่าให้ฉันฟังหน่อยว่าจะเลือก SVM หรือ LR ได้ไหม? ฉันต้องการที่จะเข้าใจสัญชาตญาณเบื้องหลังสิ่งที่แตกต่างระหว่างเกณฑ์การปรับให้เหมาะสมของการเรียนรู้ไฮเปอร์เพลนของทั้งสองโดยมีจุดมุ่งหมายที่เกี่ยวข้องดังนี้: SVM: พยายามเพิ่มระยะห่างระหว่างเวกเตอร์สนับสนุนที่ใกล้ที่สุด LR: เพิ่มความน่าจะเป็นระดับหลังให้มากที่สุด ลองพิจารณาพื้นที่ของคุณสมบัติเชิงเส้นสำหรับทั้ง SVM และ LR ความแตกต่างบางประการที่ฉันรู้แล้ว: SVM นั้นถูกกำหนดไว้แล้ว (แต่เราสามารถใช้แบบจำลอง Platts สำหรับคะแนนความน่าจะเป็น) ในขณะที่ LR นั้นน่าจะเป็น สำหรับพื้นที่เคอร์เนล SVM นั้นเร็วกว่า (จัดเก็บเพียงสนับสนุนเวกเตอร์)

6
ปรับปรุงการจัดหมวดหมู่ด้วยตัวแปรเด็ดขาดมากมาย
ฉันกำลังทำงานกับชุดข้อมูลที่มี 200,000 ตัวอย่างและประมาณ 50 คุณสมบัติต่อตัวอย่าง: 10 ตัวแปรต่อเนื่องและอีก 40 รายการเป็นตัวแปรเด็ดขาด (ประเทศ, ภาษา, สาขาวิทยาศาสตร์ ฯลฯ ) สำหรับตัวแปรจัดหมวดหมู่เหล่านี้คุณมี 150 ประเทศที่แตกต่างกัน 50 ภาษา 50 สาขาวิทยาศาสตร์ ฯลฯ ... จนถึงแนวทางของฉันคือ: สำหรับตัวแปรเด็ดขาดแต่ละตัวที่มีค่าที่เป็นไปได้มากให้ใช้เพียงอันเดียวที่มีตัวอย่างมากกว่า 10,000 ตัวอย่างที่รับค่านี้ ซึ่งจะลดลงเหลือ 5-10 หมวดหมู่แทนที่จะเป็น 150 สร้างตัวแปรดัมมี่สำหรับแต่ละหมวดหมู่ (ถ้า 10 ประเทศจากนั้นสำหรับแต่ละตัวอย่างเพิ่มเวกเตอร์ไบนารีขนาด 10) ป้อนฟอเรสต์ฟอเรสต์แบบสุ่ม (ตรวจสอบความถูกต้องของพารามิเตอร์และอื่น ๆ ... ) ด้วยข้อมูลนี้ ขณะนี้ด้วยวิธีนี้ฉันจัดการเพื่อให้ได้ความแม่นยำ 65% เท่านั้นและฉันรู้สึกว่าสามารถทำได้มากกว่านี้ โดยเฉพาะอย่างยิ่งฉันไม่พอใจกับ 1) เนื่องจากฉันรู้สึกว่าฉันไม่ควรลบ "ค่าที่เกี่ยวข้องน้อยที่สุด" ตามจำนวนตัวอย่างที่พวกเขามีโดยพลการเนื่องจากค่าที่แสดงน้อยกว่าเหล่านี้อาจเป็นการเลือกปฏิบัติมากกว่า …

10
มีหนังสือวิทยาศาสตร์ยอดนิยมเล่มใดบ้างเกี่ยวกับสถิติหรือการเรียนรู้ของเครื่อง?
มีหนังสือวิทยาศาสตร์ยอดนิยมมากมายที่เกี่ยวข้องกับวิทยาศาสตร์จริงตลอดจนประวัติศาสตร์และเหตุผลเบื้องหลังทฤษฎีปัจจุบันขณะที่ยังคงสนุกกับการอ่าน ตัวอย่างเช่น "Chaos" โดย James Gleick (Chaos, fractals, nonlinearity), "ประวัติย่อของเวลา" โดย Stephen Hawking (ฟิสิกส์ต้นกำเนิดของจักรวาล, เวลา, blackholes) หรือ "The Selfish Gene" โดย Richard Dawkins ( วิวัฒนาการและการคัดเลือกโดยธรรมชาติ) หนังสือเหล่านี้บางเล่มมีข้อโต้แย้ง (ดอว์คินส์) และบางเล่มไม่มี (กลีค) แต่พวกเขาทั้งหมดทำหน้าที่เพื่อให้ง่ายสำหรับพวกเราที่ไม่มีการศึกษาทางวิทยาศาสตร์ในเชิงลึกที่จะเข้าใจแนวคิดที่ยากเป็นอย่างอื่น มีหนังสือประเภทใดบ้างที่เน้นเรื่องสถิติหรือการเรียนรู้ของเครื่องเป็นหลัก? โปรดระบุบทสรุปของหนังสือแต่ละเล่มที่ครอบคลุม

4
ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่?
ฉันเริ่มต้องการพัฒนาทักษะของฉันเองและฉันก็รู้สึกทึ่งกับการเรียนรู้ของเครื่องจักร อย่างไรก็ตามเมื่อหกปีที่แล้วแทนที่จะทำตามนี้ฉันตัดสินใจที่จะศึกษาระดับปริญญาที่ไม่เกี่ยวข้องกับวิทยาศาสตร์คอมพิวเตอร์ ฉันได้พัฒนาซอฟต์แวร์และแอพพลิเคชั่นมาประมาณ 8-10 ปีแล้วดังนั้นฉันจึงมีความสามารถที่ดี แต่ฉันก็ไม่สามารถเจาะด้านคณิตศาสตร์ของการเรียนรู้ของเครื่อง / ความน่าจะเป็น / สถิติ ฉันเริ่มมองหาสื่อการเรียนรู้และในหน้าแรกอาจมีสิ่งที่ทำให้ฉันสับสนและตั้งอุปสรรคในการเรียนรู้ของฉันทันที ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่? ฉันควรลองและเติมคำในช่องว่างของคณิตศาสตร์ก่อนที่จะเรียนต่อกับ ML หรือไม่? การเรียนรู้ด้วยตนเองสามารถใช้ได้กับนักพัฒนาที่ไม่มีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์หรือไม่? คำถามที่เกี่ยวข้อง: หนังสือสำหรับอ่านก่อนองค์ประกอบของการเรียนรู้ทางสถิติ?

2
วิธีการหาแบบที่ดีสำหรับแบบกึ่งไซนัสใน R?
ฉันต้องการสมมติว่าอุณหภูมิผิวน้ำทะเลของทะเลบอลติกเป็นปีเดียวกันแล้วปีเล่าแล้วอธิบายด้วยแบบจำลองเชิงเส้นตรง ความคิดที่ฉันมีคือเพียงแค่ใส่ปีเป็นเลขทศนิยม (หรือ num_months / 12) และทราบว่าอุณหภูมิควรเป็นเท่าไหร่ในช่วงเวลานั้น การโยนมันลงใน lm () ฟังก์ชั่นใน R มันไม่รู้จักข้อมูลไซน์ดังนั้นมันจึงสร้างเส้นตรง ดังนั้นฉันจึงใส่ฟังก์ชั่น sin () ไว้ในวงเล็บ I () และลองใช้ค่าสองสามค่าเพื่อให้พอดีกับฟังก์ชั่นด้วยตนเองและนั่นก็ใกล้เคียงกับสิ่งที่ฉันต้องการ แต่ทะเลร้อนขึ้นเร็วกว่าในฤดูร้อนแล้วเย็นลงในฤดูใบไม้ร่วงช้าลง ... ดังนั้นแบบจำลองจึงผิดพลาดในปีแรกจากนั้นแก้ไขให้ถูกต้องมากขึ้นหลังจากสองสามปีที่ผ่านมาและในอนาคตฉันคิดว่ามันจะยิ่งมากขึ้น และผิดมากขึ้นอีกครั้ง ฉันจะได้รับ R เพื่อประเมินโมเดลสำหรับฉันดังนั้นฉันไม่ต้องเดาตัวเลขเอง กุญแจสำคัญในที่นี้คือฉันต้องการให้มันสร้างค่าเหมือนเดิมทุกปีไม่ใช่แค่ให้ถูกต้องหนึ่งปี ถ้าฉันรู้เรื่องคณิตศาสตร์มากขึ้นฉันอาจเดาได้ว่ามันเป็นเหมือนปัวซองหรือเกาส์แทนบาป () แต่ฉันก็ไม่รู้ว่าจะทำเช่นนั้นได้อย่างไร ความช่วยเหลือใด ๆ ที่จะเข้าใกล้คำตอบที่ดีจะได้รับการชื่นชมอย่างมาก นี่คือข้อมูลที่ฉันใช้และรหัสเพื่อแสดงผลลัพธ์: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- …
37 r  regression  time-series  lm 

8
ช่วยฉันคำนวณว่าจะมีคนมางานแต่งงานของฉันกี่คน! ฉันสามารถระบุเปอร์เซ็นต์สำหรับแต่ละคนและเพิ่มได้ไหม
ฉันกำลังวางแผนงานแต่งงานของฉัน ฉันต้องการประเมินจำนวนคนที่จะมางานแต่งงานของฉัน ฉันสร้างรายชื่อคนและโอกาสที่พวกเขาจะเข้าร่วมเป็นเปอร์เซ็นต์ ตัวอย่างเช่น Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% ฉันมีรายการประมาณ 230 คนที่มีเปอร์เซ็นต์ ฉันจะประเมินได้กี่คนที่จะเข้าร่วมงานแต่งงานของฉันได้อย่างไร ฉันสามารถบวกเปอร์เซ็นต์และหารด้วย 100 ได้ไหม? ตัวอย่างเช่นถ้าฉันเชิญคน 10 คนที่มีโอกาส 10% มาฉันจะคาดหวังได้ 1 คน? หากฉันเชิญคน 20 คนที่มีโอกาส 50% มาฉันจะคาดหวัง 10 คนได้ไหม UPDATE: มีคนมางานแต่งงานของฉัน 140 คน :) การใช้เทคนิคที่อธิบายไว้ด้านล่างนี้ฉันคาดการณ์ไว้ที่ประมาณ 150 ไม่โทรมเกินไป!

2
การวิเคราะห์ปัจจัยอธิบายความแปรปรวนร่วมในขณะที่ PCA อธิบายความแปรปรวนอย่างไร
นี่คือข้อความจากหนังสือ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" ของบิชอปส่วนที่ 12.2.4 "การวิเคราะห์ปัจจัย": ตามที่เป็นส่วนหนึ่งที่เน้นการวิเคราะห์ปัจจัยที่จับความแปรปรวนระหว่างตัวแปรในเมทริกซ์WWW Wฉันสงสัยวิธี ? นี่คือวิธีที่ฉันเข้าใจ สมมติว่าเป็นตัวแปรมิติที่สังเกตได้คือเมทริกซ์การโหลดปัจจัยและคือเวกเตอร์คะแนนปัจจัย จากนั้นเรามีนั่นคือ และแต่ละคอลัมน์ในเป็นตัวประกอบการโหลดเวกเตอร์ ที่นี่ฉันเขียนมีxxxพีppWWWZzzx = μ + WZ+ ϵ ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xพี⎞⎠⎟⎟= ⎛⎝⎜⎜μ1⋮μพี⎞⎠⎟⎟+ ⎛⎝⎜|W1|...|Wม.|⎞⎠⎟⎛⎝⎜⎜Z1⋮Zม.⎞⎠⎟⎟+ ϵ ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} …

3
SVM การ overfitting คำสาปของมิติ
ชุดข้อมูลของฉันมีขนาดเล็ก (120 ตัวอย่าง) แต่จำนวนของคุณสมบัติมีขนาดใหญ่แตกต่างกันไปจาก (1,000-200,000) แม้ว่าฉันจะเลือกคุณสมบัติเพื่อเลือกชุดย่อยของคุณสมบัติ คำถามแรกของฉันคืออะไร SVM จัดการกับการล้นได้อย่างไรถ้าทั้งหมด ประการที่สองเมื่อฉันศึกษาเพิ่มเติมเกี่ยวกับการ overfitting ในกรณีของการจัดหมวดหมู่ฉันก็สรุปได้ว่าแม้แต่ชุดข้อมูลที่มีคุณสมบัติจำนวนน้อยก็สามารถทำให้พอดีได้ ถ้าเราไม่มีฟีเจอร์ที่สัมพันธ์กับเลเบลของคลาสการ overfitting จะเกิดขึ้นต่อไป ดังนั้นตอนนี้ฉันสงสัยว่าอะไรคือจุดของการจำแนกอัตโนมัติถ้าเราไม่สามารถหาคุณสมบัติที่เหมาะสมสำหรับฉลากระดับ ในกรณีของการจำแนกเอกสารหมายถึงการสร้างพจนานุกรมคำที่เกี่ยวข้องกับฉลากด้วยตนเองซึ่งใช้เวลานานมาก ฉันเดาว่าสิ่งที่ฉันพยายามจะพูดคือถ้าไม่มีการเลือกคุณสมบัติที่เหมาะสมมันเป็นเรื่องยากมากที่จะสร้างแบบจำลองทั่วไป? นอกจากนี้หากผลการทดลองไม่แสดงว่าผลลัพธ์มีค่าต่ำ / ไม่มีการสะสมเกินก็จะไม่มีความหมาย มีวิธีวัดหรือไม่

5
ฉันจะทดสอบความสัมพันธ์ที่ไม่เชิงเส้นได้อย่างไร
สำหรับเนื้อเรื่องที่ 1 ฉันสามารถทดสอบการเชื่อมโยงระหว่าง x และ y ได้โดยทำการสหสัมพันธ์อย่างง่าย สำหรับพล็อต 2 ที่ความสัมพันธ์ไม่เป็นเชิงเส้น แต่มีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y ฉันจะทดสอบความสัมพันธ์และเลเบลลักษณะของมันได้อย่างไร

6
Bayesian กับการตีความความน่าจะเป็นบ่อยครั้ง
ใครสามารถให้บทสรุปที่ดีเกี่ยวกับความแตกต่างระหว่าง Bayesian กับแนวทางความน่าจะเป็นที่เกิดขึ้นเป็นประจำ จากสิ่งที่ฉันเข้าใจ: มุมมองผู้ใช้บ่อยคือข้อมูลเป็นตัวอย่างแบบสุ่มที่ทำซ้ำได้ (ตัวแปรสุ่ม) ที่มีความถี่ / ความน่าจะเป็นเฉพาะ (ซึ่งถูกกำหนดให้เป็นความถี่สัมพัทธ์ของเหตุการณ์เมื่อจำนวนการทดลองเข้าใกล้อนันต์) พารามิเตอร์พื้นฐานและความน่าจะเป็นยังคงที่ในระหว่างกระบวนการทำซ้ำนี้และการเปลี่ยนแปลงนั้นเกิดจากความแปรปรวนในและไม่ใช่การแจกแจงความน่าจะเป็น (ซึ่งได้รับการแก้ไขสำหรับเหตุการณ์ / กระบวนการที่แน่นอน)XnXnX_n มุมมองแบบเบย์คือข้อมูลได้รับการแก้ไขในขณะที่ความถี่ / ความน่าจะเป็นสำหรับเหตุการณ์บางอย่างสามารถเปลี่ยนได้ซึ่งหมายความว่าพารามิเตอร์ของการกระจายการเปลี่ยนแปลง ผลข้อมูลที่คุณได้รับการเปลี่ยนแปลงการกระจายก่อนหน้าของพารามิเตอร์ที่ได้รับการปรับปรุงสำหรับชุดข้อมูลแต่ละชุด สำหรับฉันดูเหมือนว่าวิธีปฏิบัติบ่อยครั้งนั้นใช้งานได้จริง / มีเหตุผลมากกว่าเพราะมันสมเหตุสมผลว่าเหตุการณ์มีความเป็นไปได้ที่เฉพาะเจาะจงและการเปลี่ยนแปลงนั้นอยู่ในการสุ่มตัวอย่างของเรา นอกจากนี้การวิเคราะห์ข้อมูลส่วนใหญ่จากการศึกษามักจะทำโดยใช้วิธีการแบบประจำ (เช่นช่วงความมั่นใจการทดสอบสมมติฐานด้วยค่า p ฯลฯ ) เนื่องจากสามารถเข้าใจได้ง่าย ฉันแค่สงสัยว่าจะมีใครสรุปสรุปการตีความของพวกเขาเกี่ยวกับวิธีการแบบเบส์ vs บ่อยครั้งหรือไม่รวมถึงค่าทางสถิติแบบเบส์ของค่า p-value และช่วงความมั่นใจ นอกจากนี้ตัวอย่างที่เฉพาะเจาะจงของวิธีการที่ 1 จะได้รับการชื่นชมมากกว่าวิธีอื่น ๆ

6
ขนาดผลเป็นสมมติฐานสำหรับการทดสอบอย่างมีนัยสำคัญ
วันนี้ที่สโมสรวารสารที่ผ่านการตรวจสอบความถูกต้องของไขว้ (ทำไมคุณไม่อยู่ที่นั่น?) @mbq ถาม: คุณคิดว่าพวกเรา (นักวิทยาศาสตร์ด้านข้อมูลสมัยใหม่) รู้หรือไม่ว่าความหมายสำคัญคืออะไร? และเกี่ยวข้องกับความมั่นใจในผลลัพธ์ของเราอย่างไร @ มิเชลตอบว่าบางคน (รวมถึงฉัน) มักจะทำ: ฉันค้นหาแนวคิดของความสำคัญ (ตามค่า p) มีประโยชน์น้อยลงเรื่อย ๆ เมื่อฉันทำงานต่อไป ตัวอย่างเช่นฉันสามารถใช้ชุดข้อมูลที่มีขนาดใหญ่มากดังนั้นทุกอย่างมีความสำคัญทางสถิติ ( p &lt; .01พี&lt;.01p<.01 ) นี่อาจเป็นคำถามที่งี่เง่า แต่ไม่ใช่ปัญหาที่การทดสอบสมมติฐานใช่หรือไม่ ถ้าคุณทดสอบสมมุติฐานว่าง "A เท่ากับ B" คุณก็รู้คำตอบคือ "ไม่" ชุดข้อมูลที่ใหญ่กว่าจะนำคุณเข้าใกล้ข้อสรุปที่แท้จริงอย่างหลีกเลี่ยงไม่ได้เท่านั้น ฉันเชื่อว่ามันคือเดมิงที่เคยยกตัวอย่างกับสมมติฐาน "จำนวนขนที่อยู่ทางด้านขวาของลูกแกะเท่ากับจำนวนขนที่อยู่ทางซ้าย" แน่นอนว่าไม่ใช่ สมมติฐานที่ดีกว่าคือ "A ไม่แตกต่างจาก B มากกว่ามาก" หรือในตัวอย่างเนื้อแกะ "จำนวนขนที่ด้านข้างของแกะไม่แตกต่างกันเกิน X%" มันสมเหตุสมผลหรือไม่

10
แหล่งข้อมูลเศรษฐศาสตร์ที่มีประโยชน์ที่สุดคืออะไร
เมื่อทำการวิจัยในเศรษฐกิจมักจะต้องตรวจสอบข้อสรุปเชิงทฤษฎีเกี่ยวกับข้อมูลจริง แหล่งข้อมูลที่เชื่อถือได้คืออะไรที่จะใช้และอ้างอิง? ฉันสนใจแหล่งข้อมูลที่ให้ข้อมูลทางสถิติที่หลากหลายเช่น GDP ประชากร CPI PPI เป็นต้น แก้ไข: นี่คือการรวมของลิงค์ที่ปรากฏในกระทู้นี้ + อีกสองสามที่ฉันจำได้ ทั่วไป: - Thomson Reuters Datastream (ไม่ฟรีครอบคลุมมาก) - ข้อมูลธนาคารโลก - ข้อมูลสหประชาชาติ - ข้อมูลIMF - ข้อมูล ADB - สถิติ WTO - Infochimps - แหล่งทรัพยากรขนาดใหญ่ของแหล่งข้อมูลภาครัฐและเอกชน - รวมถึงของพวกเขาAPI - Freebase (ปัจจุบันเป็นของ Google) - แหล่งข้อมูลเปิด - DBpedia - แนวทางการใช้ Wikipedia API - Wikipedia …
37 references 

3
คำอธิบายที่เข้าใจง่ายสำหรับความหนาแน่นของตัวแปรที่ถูกแปลง?
สมมติว่าXXXเป็นตัวแปรสุ่มที่มีรูปแบบไฟล์ PDF ฉX( x )fX(x)f_X(x) ) จากนั้นตัวแปรสุ่มY= X2Y=X2Y=X^2มี pdf ฉY( y) = { 12 ปี√( ฉX( y√) + fX( - y√) )0Y≥ 0Y&lt;0fY(y)={12y(fX(y)+fX(−y))y≥00y&lt;0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} ฉันเข้าใจแคลคูลัสที่อยู่เบื้องหลังนี้ แต่ฉันพยายามคิดหาวิธีอธิบายให้คนที่ไม่รู้แคลคูลัส โดยเฉพาะฉันพยายามอธิบายว่าทำไมปัจจัย1y√1y\frac{1}{\sqrt{y}}ปรากฏขึ้นด้านหน้า ฉันจะแทงมัน: สมมติว่าXXXมีการแจกแจงแบบเกาส์ เกือบทั้งหมดน้ำหนักของไฟล์ PDF ที่อยู่ระหว่างค่าการพูด−3−3-3และ3.3.3.แต่แผนที่ที่ 0-9 สำหรับYYYYดังนั้นน้ำหนักหนักใน pdf สำหรับXXXได้รับการขยายในช่วงที่กว้างขึ้นของค่าในการเปลี่ยนแปลงที่จะYYYYดังนั้นสำหรับfY(y)fY(y)f_Y(y)ที่จะเป็นไฟล์ PDF ที่แท้จริงน้ำหนักที่หนักเป็นพิเศษจะต้องลดน้ำหนักโดยปัจจัยคูณ1y√1y\frac{1}{\sqrt{y}} ฟังดูเป็นยังไง? หากใครสามารถให้คำอธิบายที่ดีกว่าของพวกเขาเองหรือเชื่อมโยงไปยังหนึ่งในเอกสารหรือตำราเรียนฉันจะขอบคุณมันมาก ฉันพบตัวอย่างการเปลี่ยนแปลงตัวแปรนี้ในหนังสือคณิตศาสตร์สถิติ …

5
ทำอย่างไรจึงจะเห็นภาพ / เข้าใจว่าเครือข่ายประสาทกำลังทำอะไร
โครงข่ายประสาทมักได้รับการปฏิบัติเหมือน "กล่องดำ" เนื่องจากโครงสร้างที่ซับซ้อน สิ่งนี้ไม่เหมาะเนื่องจากมักจะมีประโยชน์ที่จะเข้าใจอย่างถ่องแท้ว่าโมเดลทำงานภายในอย่างไร วิธีการแสดงให้เห็นว่าเครือข่ายประสาทที่ได้รับการฝึกฝนนั้นทำงานอย่างไร อีกวิธีหนึ่งเราจะแยกคำอธิบายที่ย่อยได้ง่ายของเครือข่าย (เช่นโหนดที่ซ่อนอยู่นี้ทำงานกับอินพุตเหล่านี้เป็นหลัก) ฉันสนใจเครือข่ายการส่งต่อเลเยอร์สองระดับเป็นหลัก แต่ฉันอยากจะได้ยินโซลูชั่นสำหรับเครือข่ายที่ลึกกว่า ข้อมูลที่ป้อนเข้าสามารถเป็นได้ทั้งแบบเป็นภาพและไม่เป็นภาพ

2
ความไม่แน่นอนน่าจะเป็น
ฉันกำลังมองหาอสมการความน่าจะเป็นบางอย่างสำหรับผลรวมของตัวแปรสุ่มที่ไม่มีขอบเขต ฉันจะซาบซึ้งจริงๆถ้าใครสามารถให้ความคิดกับฉัน ปัญหาของฉันคือการหาขอบเขตบนเอ็กซ์โพเนนเชียลเหนือความน่าจะเป็นที่ผลรวมของตัวแปรสุ่มแบบไม่ จำกัด จำนวน iid ซึ่งอันที่จริงแล้วการคูณของสอง iid Gaussian มีค่าเกินกว่าค่าที่แน่นอนเช่นPr[X≥ϵσ2N]≤exp(?)Pr[X≥ϵσ2N]≤exp⁡(?)\mathrm{Pr}[ X \geq \epsilon\sigma^2 N] \leq \exp(?)ที่X=∑Ni=1wiviX=∑i=1NwiviX = \sum_{i=1}^{N} w_iv_i , wiwiw_iและviviv_iถูกสร้างขึ้นจาก IID N(0,σ)N(0,σ)\mathcal{N}(0, \sigma) ) ฉันพยายามใช้ Chernoff ผูกโดยใช้โมเมนต์สร้างฟังก์ชัน (MGF) ขอบเขตที่ได้รับมาจาก: Pr[X≥ϵσ2N]≤=minsexp(−sϵσ2N)gX(s)exp(−N2(1+4ϵ2−−−−−−√−1+log(1+4ϵ2−−−−−−√−1)−log(2ϵ2)))Pr[X≥ϵσ2N]≤minsexp⁡(−sϵσ2N)gX(s)=exp⁡(−N2(1+4ϵ2−1+log⁡(1+4ϵ2−1)−log⁡(2ϵ2)))\begin{eqnarray} \mathrm{Pr}[ X \geq \epsilon\sigma^2 N] &\leq& \min\limits_s \exp(-s\epsilon\sigma^2 N)g_X(s) \\ &=& \exp\left(-\frac{N}{2}\left(\sqrt{1+4\epsilon^2} -1 + \log(\sqrt{1+4\epsilon^2}-1) - \log(2\epsilon^2)\right)\right) \end{eqnarray} ที่เป็น …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.