สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อธิบายการปรับโมเดลในภาษาอังกฤษแบบธรรมดา
การอ่านเกี่ยวกับวิธีการและผลลัพธ์ของการวิเคราะห์ทางสถิติโดยเฉพาะอย่างยิ่งในด้านระบาดวิทยาฉันมักได้ยินเกี่ยวกับการปรับหรือควบคุมโมเดล คุณจะอธิบายเกี่ยวกับจุดประสงค์ของสิ่งที่ไม่ใช่นักสถิติได้อย่างไร? คุณตีความผลลัพธ์ของคุณหลังจากควบคุมตัวแปรบางตัวได้อย่างไร การเดินผ่านเล็ก ๆ ใน Stata หรือ R หรือตัวชี้ไปยังหนึ่งออนไลน์จะเป็นอัญมณีที่แท้จริง

1
วิธีการกำหนดขนาดตัวอย่างที่จำเป็นสำหรับการวัด ANOVA ซ้ำแล้วซ้ำอีก?
ฉันต้องการความช่วยเหลือเกี่ยวกับ ANOVA การวัดซ้ำ เรากำลังตรวจสอบผลของการแทรกแซงเพื่อลดอัตราการติดเชื้อในกระแสเลือด (BSI) ในผู้ป่วยบางราย เราวางแผนที่จะรวบรวมข้อมูลอัตรา BSI เป็นรายเดือน 12 เดือนโดยไม่มีการแทรกแซงก่อนจากนั้น 12 เดือนด้วยการแทรกแซง เรากำลังคิดที่จะทำแบบอนุกรมเวลาหรือการวัด ANOVA ซ้ำ ๆ ฉันชอบอันที่ใหม่กว่าก่อนที่ฉันจะไม่มีความคิดมากที่จะทำในคำถามแรก (คำถามพิเศษ: คะแนนเวลาน้อยเกินไปใช่มั้ย) แต่มาถึงตรงนี้แล้ว ปัญหาอีกประการหนึ่งเราต้องแสดงวอร์ดกี่คนที่มีผลกระทบที่สำคัญทางสถิติของการแทรกแซงอัตรา BSI ฉันคิดว่าฉันจะทำ ANOVA สองอันหนึ่งรายการสำหรับ "ก่อนการแทรกแซง" ส่วนหนึ่งสำหรับ "ระหว่างการแทรกแซง" และฉันคิดว่า ANOVA "ก่อนการแทรกแซง" ไม่ควรมีการทดสอบ F-ratio ที่สำคัญ ฉันพิจารณาคำว่า "ขนาดตัวอย่าง" สองมิติไม่ว่าจะเป็นจำนวนหอผู้ป่วยหรือจำนวนการวัดซ้ำ

5
มีอคติต่อจำนวนธรรมชาติในกรณีที่กำลังสองน้อยที่สุด
ทำไมเราพยายามที่จะลดการx^2แทนของการลดหรือ|x|^1.95 |x|^2.05มีเหตุผลว่าทำไมจำนวนควรเป็นสองเท่าหรือเป็นเพียงการประชุมที่มีประโยชน์ในการทำให้คณิตศาสตร์ง่ายขึ้น?

1
เอนโทรปีขึ้นอยู่กับสถานที่ตั้งและขนาด
เอนโทรปีของการกระจายอย่างต่อเนื่องที่มีฟังก์ชั่นความหนาแน่นถูกกำหนดให้เป็นเชิงลบของความคาดหวังของและดังนั้นจึงเท่ากับffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. นอกจากนี้เรายังบอกว่าใด ๆ ตัวแปรสุ่มที่มีการกระจายมีความหนาแน่นมีเอนโทรปี (อินทิกรัลนี้ถูกนิยามไว้อย่างดีแม้เมื่อมีค่าศูนย์เนื่องจากสามารถถูกทำให้เท่ากับศูนย์ที่ค่าดังกล่าว)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) เมื่อและเป็นตัวแปรสุ่มที่ (เป็นค่าคงที่)ถูกกล่าวว่าเป็นเวอร์ชันของเลื่อนโดย ในทำนองเดียวกันเมื่อ (เป็นค่าคงที่ในเชิงบวก)ถูกกล่าวว่าเป็นเวอร์ชันของปรับขนาดโดยการรวมสเกลกับการเลื่อนทำให้XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. ความสัมพันธ์เหล่านี้เกิดขึ้นบ่อยครั้ง ตัวอย่างเช่นการเปลี่ยนหน่วยของการวัดของกะและสเกลมันXXX เอนโทรปีของเกี่ยวข้องกับของY=Xσ+μY=Xσ+μY = X\sigma + \muX?X?X?

3
ระเบิดอยู่ที่ไหน: จะประเมินความน่าจะเป็นอย่างไร, ผลรวมแถวและคอลัมน์ที่ได้รับ?
คำถามนี้ได้รับแรงบันดาลใจจากมินิเกมจาก Pokemon Soulsilver: ลองนึกภาพมี 15 ระเบิดซ่อนอยู่ในพื้นที่ 5x6 นี้ (แก้ไข: สูงสุด 1 ระเบิด / เซลล์): ทีนี้คุณจะประเมินความน่าจะเป็นในการหาลูกระเบิดในสนามที่ระบุโดยรวมของแถว / คอลัมน์อย่างไร หากคุณดูที่คอลัมน์ 5 (จำนวนระเบิดทั้งหมด = 5) คุณอาจคิดว่า: ภายในคอลัมน์นี้โอกาสที่จะพบระเบิดในแถวที่ 2 นั้นเพิ่มเป็นสองเท่าของโอกาสที่จะพบหนึ่งในแถวที่ 1 สมมติฐาน (ผิด) นี้ของสัดส่วนโดยตรงซึ่งโดยทั่วไปสามารถอธิบายได้ว่าเป็นการวาดมาตรฐานการดำเนินการทดสอบอิสระ (เช่นใน Chi-Square) ในบริบทที่ไม่ถูกต้องจะนำไปสู่การประมาณดังต่อไปนี้: อย่างที่คุณเห็นสัดส่วนโดยตรงจะนำไปสู่การประมาณความน่าจะเป็นมากกว่า 100% และก่อนหน้านั้นจะผิด ดังนั้นฉันจึงทำการจำลองการคำนวณของพีชคณิตที่เป็นไปได้ทั้งหมดซึ่งนำไปสู่ ​​276 ความเป็นไปได้ที่ไม่ซ้ำกันของการวางระเบิด 15 ครั้ง (ผลรวมของแถวและคอลัมน์ที่กำหนด) นี่คือค่าเฉลี่ยของโซลูชัน 276 รายการ: นี่เป็นวิธีแก้ไขที่ถูกต้อง แต่เนื่องจากงานคำนวณเลขชี้กำลังฉันต้องการค้นหาวิธีการประมาณค่า คำถามของฉันคือตอนนี้: มีวิธีการทางสถิติที่จัดตั้งขึ้นเพื่อประเมินสิ่งนี้หรือไม่? ฉันสงสัยว่านี่เป็นปัญหาที่ทราบแล้วมันถูกเรียกอย่างไรและหากมีเอกสาร …

3
ฉันจะใส่ข้อมูลที่มีค่าและอนุพันธ์อันดับที่ 1/2 ได้อย่างไร
ฉันมีชุดข้อมูลที่ประกอบด้วยกล่าวคือการวัดตำแหน่งความเร็วและความเร่ง ทั้งหมดมาจาก "การทำงาน" ที่เหมือนกัน ฉันสามารถสร้างระบบเชิงเส้นและพอดีกับพหุนามกับการวัดทั้งหมด แต่ฉันสามารถทำเช่นเดียวกันกับเส้นโค้ง? วิธี 'R' ในการทำเช่นนี้คืออะไร? นี่คือข้อมูลจำลองที่ฉันต้องการให้มี: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- …

5
อัลกอริธึมป่าไม้และต้นไม้ตัดสินใจแบบสุ่ม
ป่าสุ่มคือชุดของต้นไม้ตัดสินใจตามแนวคิดการบรรจุถุง เมื่อเราย้ายจากต้นไม้ตัดสินใจหนึ่งไปสู่ต้นไม้ตัดสินใจถัดไปข้อมูลที่เรียนรู้จากต้นไม้ตัดสินใจสุดท้ายจะเลื่อนไปข้างหน้าอย่างไร เพราะตามความเข้าใจของฉันไม่มีอะไรเหมือนแบบฝึกที่ถูกสร้างขึ้นสำหรับต้นไม้การตัดสินใจทุกครั้งและจากนั้นโหลดก่อนต้นไม้การตัดสินใจครั้งต่อไปเริ่มเรียนรู้จากข้อผิดพลาดที่ผิดประเภท แล้วมันทำงานอย่างไร

1
การตีความแบบเบย์มีไว้สำหรับ REML หรือไม่
มีการตีความแบบเบย์ของ REML หรือไม่ สำหรับสัญชาตญาณของฉัน REML มีความคล้ายคลึงกันอย่างมากกับกระบวนการประมาณค่าเบย์เชิงประจักษ์และฉันสงสัยว่ามีการแสดงความเท่าเทียมเชิงซีมโทติค (ภายใต้คลาสของนักบวชชั้นสูงที่เหมาะสม) ทั้งเชิงประจักษ์ Bayes และ REML ดูเหมือนว่าวิธีการประมาณค่าแบบ 'ประนีประนอม' ที่ดำเนินการในการเผชิญกับพารามิเตอร์ที่สร้างความรำคาญเช่น ส่วนใหญ่สิ่งที่ฉันค้นหาด้วยคำถามนี้คือความเข้าใจในระดับสูงที่การโต้แย้งประเภทนี้มักจะให้ผล แน่นอนหากการโต้เถียงในลักษณะนี้ด้วยเหตุผลบางอย่างไม่สามารถถูกนำไปใช้อย่างมีประสิทธิภาพสำหรับ REML คำอธิบายว่าทำไมสิ่งนี้จึงส่งผลให้เกิดความเข้าใจอย่างลึกซึ้ง!

1
ในฟอเรสต์ฟอเรสต์ทำไมคุณสมบัติย่อยบางส่วนของคุณสมบัติแบบสุ่มจึงถูกเลือกที่ระดับโหนดแทนที่จะเป็นระดับต้นไม้
คำถามของฉัน:ทำไมป่าสุ่มพิจารณาย่อยสุ่มของคุณสมบัติสำหรับการแยกในระดับโหนดภายในแต่ละต้นไม้มากกว่าในระดับต้นไม้ ? ข้อมูลประกอบ:นี่เป็นคำถามเชิงประวัติ ดีบุกกามโฮตีพิมพ์บทความนี้เกี่ยวกับการสร้าง "ป่าตัดสินใจ" โดยการสุ่มเลือกชุดย่อยของคุณสมบัติที่จะใช้สำหรับการเติบโตในแต่ละต้นไม้ในปี 1998 หลายปีต่อมาในปี 2001 ลีโอเบรแมนตีพิมพ์สุ่มป่าเขาน้ำเชื้อกระดาษประเด็นเซตคุณลักษณะแบบสุ่ม เลือกที่แต่ละโหนดภายในแต่ละต้นไม่ใช่ที่แต่ละต้น ในขณะที่ Breiman อ้างถึง Ho เขาไม่ได้อธิบายการย้ายจากระดับต้นไม้ไปเป็นการเลือกคุณลักษณะแบบสุ่มในระดับโหนด ฉันสงสัยว่าอะไรเป็นแรงจูงใจในการพัฒนานี้โดยเฉพาะ ดูเหมือนว่าการเลือกชุดย่อยคุณลักษณะที่ระดับต้นไม้จะยังคงบรรลุความสัมพันธ์ที่ต้องการของต้นไม้ ทฤษฎีของฉัน:ฉันไม่ได้เห็นสิ่งนี้พูดชัดแจ้งที่อื่น แต่ดูเหมือนว่าวิธีการย่อยแบบสุ่มจะมีประสิทธิภาพน้อยกว่าในแง่ของการประเมินความสำคัญของคุณลักษณะ เพื่อให้ได้การประมาณค่าความสำคัญของตัวแปรสำหรับต้นไม้แต่ละต้นคุณลักษณะจะได้รับการพิจารณาแบบสุ่มทีละตัวและการเพิ่มขึ้นของการจำแนกประเภทหรือเพิ่มข้อผิดพลาดสำหรับการสำรวจนอกถุงจะถูกบันทึก ตัวแปรที่การจำแนกประเภทผิดพลาดหรือเพิ่มข้อผิดพลาดเป็นผลมาจากการเปลี่ยนแปลงแบบสุ่มนี้มีค่าสูงคือตัวแปรที่มีความสำคัญที่สุด ถ้าเราใช้วิธีการสุ่มสเปซสำหรับแต่ละต้นไม้เราเป็นเพียงการพิจารณาของพีคุณลักษณะ มันอาจใช้เวลาหลายต้นที่จะต้องพิจารณาทุกหน้าทำนายแม้แต่ครั้งเดียว ในทางกลับกันถ้าเราพิจารณาส่วนย่อยที่แตกต่างกันมผมของพีให้บริการในแต่ละโหนดเราจะพิจารณาแต่ละคุณลักษณะครั้งมากขึ้นหลังจากที่ต้นไม้น้อยลงทำให้เราประมาณการที่แข็งแกร่งมากขึ้นมีความสำคัญคุณลักษณะmmmppppppmimim_ippp สิ่งที่ฉันได้ดูไปแล้ว:จนถึงตอนนี้ฉันได้อ่านกระดาษของ Breiman และกระดาษของ Ho แล้วทำการค้นหาออนไลน์แบบกว้าง ๆ เพื่อเปรียบเทียบวิธีต่างๆโดยไม่ต้องค้นหาคำตอบที่ชัดเจน โปรดทราบว่าคำถามที่คล้ายกันถูกถามก่อน คำถามนี้จะเพิ่มเติมอีกเล็กน้อยโดยรวมถึงการเก็งกำไรของฉัน / ทำงานเพื่อแก้ไขปัญหาที่เป็นไปได้ ฉันจะสนใจคำตอบการอ้างอิงที่เกี่ยวข้องหรือการศึกษาแบบจำลองเปรียบเทียบสองแนวทาง หากไม่มีการเตรียมพร้อมฉันวางแผนที่จะทำการจำลองสถานการณ์ของตัวเองโดยเปรียบเทียบทั้งสองวิธี

3
นัยสำคัญทางสถิติ (p-value) สำหรับการเปรียบเทียบตัวแยกประเภทสองตัวที่เกี่ยวข้องกับ (ค่าเฉลี่ย) ROC AUC ความไวและความเฉพาะเจาะจง
ฉันมีชุดทดสอบ 100 กรณีและตัวแยกประเภทสองตัว ฉันสร้างการคาดคะเนและคำนวณ ROC AUC ความไวและความเฉพาะเจาะจงสำหรับตัวแยกประเภททั้งสอง คำถามที่ 1: ฉันจะคำนวณ p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าอื่น ๆ ที่เกี่ยวข้องกับคะแนนทั้งหมด (ROC AUC, ความไว, ความเฉพาะเจาะจง) อย่างมีนัยสำคัญหรือไม่ ตอนนี้สำหรับชุดทดสอบ 100 ชุดเดียวกันฉันมีการกำหนดคุณสมบัติที่แตกต่างและเป็นอิสระสำหรับแต่ละกรณี นี่เป็นเพราะคุณสมบัติของฉันได้รับการแก้ไข แต่เป็นแบบอัตนัยและมีให้โดยหลายวิชา (5) ดังนั้นฉันจึงประเมินตัวแยกประเภทสองของฉันอีกครั้งสำหรับชุดทดสอบ "5" ของฉันและได้รับ 5 ROC AUCs ความไว 5 และความเฉพาะเจาะจง 5 ประการสำหรับตัวแยกประเภททั้งสอง จากนั้นฉันคำนวณค่าเฉลี่ยของการวัดประสิทธิภาพสำหรับ 5 วิชา (ROC AUC หมายถึงความไวและความจำเพาะเฉลี่ย) สำหรับตัวแยกประเภททั้งสอง คำถามที่ 2: ฉันจะคำนวณค่า p-value เพื่อตรวจสอบว่ามีค่าใดดีกว่าค่าเฉลี่ยอย่างมีนัยสำคัญ (หมายถึง ROC …

1
ทำไมเราถึงสนใจว่ากระบวนการ MA กลับด้านได้หรือไม่?
ฉันมีปัญหาในการทำความเข้าใจว่าทำไมเราถึงสนใจว่ากระบวนการ MA นั้นกลับด้านหรือไม่ โปรดแก้ไขให้ฉันถ้าฉันผิด แต่ฉันสามารถเข้าใจได้ว่าทำไมเราถึงสนใจว่ากระบวนการ AR นั้นเป็นสาเหตุหรือไม่เช่นถ้าเราสามารถ "เขียนซ้ำ" เพื่อพูดเป็นผลรวมของพารามิเตอร์และเสียงสีขาว - เช่นกระบวนการเฉลี่ยเคลื่อนที่ ถ้าเป็นเช่นนั้นเราสามารถเห็นได้อย่างง่ายดายว่ากระบวนการ AR นั้นเป็นสาเหตุ อย่างไรก็ตามฉันมีปัญหาในการทำความเข้าใจว่าทำไมเราสนใจว่าเราสามารถแสดงกระบวนการ MA เป็นกระบวนการ AR ได้หรือไม่โดยแสดงให้เห็นว่ามันกลับไม่ได้ ฉันไม่เข้าใจว่าทำไมเราถึงสนใจ ความเข้าใจใด ๆ จะดีมาก

1
Train vs Test Error Gap และความสัมพันธ์กับ Overfitting: กระทบยอดคำแนะนำที่ขัดแย้งกัน
ดูเหมือนว่าจะมีคำแนะนำที่ขัดแย้งกันเกี่ยวกับวิธีจัดการเปรียบเทียบข้อผิดพลาดของรถไฟและการทดสอบโดยเฉพาะเมื่อมีช่องว่างระหว่างทั้งสอง ดูเหมือนจะมีโรงเรียนแห่งความคิดสองแห่งสำหรับฉันดูเหมือนจะขัดแย้งกัน ฉันกำลังมองหาที่จะเข้าใจวิธีการกระทบยอดทั้งสอง (หรือเข้าใจสิ่งที่ฉันหายไปที่นี่) ความคิด # 1: ช่องว่างระหว่างรถไฟและประสิทธิภาพของชุดการทดสอบเพียงอย่างเดียวไม่ได้บ่งบอกถึงการมีน้ำหนักเกิน ก่อนอื่น (กล่าวถึงที่นี่: การเปรียบเทียบการฝึกอบรมและการทดสอบข้อผิดพลาดจะบ่งบอกถึงการมีน้ำหนักเกินได้อย่างไร ) แนวคิดที่ว่าความแตกต่างระหว่างรถไฟและชุดทดสอบเพียงอย่างเดียวไม่สามารถบ่งบอกถึงการล้นได้ สิ่งนี้เห็นด้วยกับประสบการณ์การใช้งานจริงของฉันตัวอย่างเช่นวิธีต้นไม้ทั้งมวลซึ่งแม้หลังจากการปรับแต่งพารามิเตอร์แบบไฮเปอร์ครอสข้ามการตรวจสอบข้ามช่องว่างระหว่างข้อผิดพลาดรถไฟและการทดสอบอาจยังคงค่อนข้างใหญ่ แต่ (โดยไม่คำนึงถึงประเภทของรุ่น) ตราบใดที่คุณตรวจสอบความผิดพลาดไม่ได้กลับมาคุณก็ดี อย่างน้อยนั่นคือความคิด ความคิด # 2: เมื่อคุณเห็นช่องว่างระหว่างรถไฟและประสิทธิภาพการทดสอบ: ทำสิ่งต่าง ๆ ที่จะต่อสู้กับการมีน้ำหนักเกิน อย่างไรก็ตามมีคำแนะนำที่คุณเห็นจากแหล่งข้อมูลที่ดีมากซึ่งชี้ให้เห็นว่าช่องว่างระหว่างรถไฟกับข้อผิดพลาดในการทดสอบนั้นบ่งบอกถึงการมีน้ำหนักเกิน นี่คือตัวอย่าง: การพูดคุยเรื่อง "นัทและโบลต์แห่งการเรียนรู้ลึก" โดย Andrew Ng (การพูดคุยที่ยอดเยี่ยม) https://www.youtube.com/watch?v=F1ka6a13S9Iที่เวลาประทับ 48:00 เขาวาดแผนภูมิการไหล ที่ระบุว่า "ถ้าข้อผิดพลาดชุดรถไฟของคุณต่ำและข้อผิดพลาดชุด Train-dev ของคุณสูงคุณควรเพิ่มการทำให้เป็นปกติรับข้อมูลเพิ่มเติมหรือเปลี่ยนสถาปัตยกรรมแบบจำลอง" ... ซึ่งเป็นการกระทำทั้งหมดที่คุณอาจต้องต่อสู้เพื่อเอาชนะ สิ่งใดที่ทำให้ฉัน ... : ฉันคิดถึงบางสิ่งที่นี่หรือไม่ นี่เป็นกฎเฉพาะของโมเดลหรือไม่ (โดยทั่วไปแล้วโมเดลที่เรียบง่ายกว่าจะมีช่องว่างระหว่างรถไฟและการทดสอบน้อยกว่า) หรือไม่? หรือว่ามีโรงเรียนแห่งความคิดที่แตกต่างกันสองแห่ง?

2
Spatial Dropout ใน 2D นำมาใช้อย่างไร
นี่คือการอ้างอิงถึงกระดาษการแปลภาษาอย่างมีประสิทธิภาพของวัตถุโดยใช้เครือข่าย Convolutionalและจากสิ่งที่ฉันเข้าใจว่าการใช้งานกลางคันนั้นเป็นแบบ 2D หลังจากอ่านรหัสจาก Keras เกี่ยวกับวิธีการนำ Spatial 2D Dropout ไปใช้โดยทั่วไปจะมีหน้ากากรูปแบบไบนารีแบบสุ่ม [batch_size, 1, 1, num_channels] อย่างไรก็ตาม Dropout 2D เชิงพื้นที่นี้ทำอะไรกับบล็อก Convolution อินพุตของรูปร่างอย่างแน่นอน [batch_size, ส่วนสูง, ความกว้าง, num_channels] การคาดเดาปัจจุบันของฉันคือว่าสำหรับแต่ละพิกเซลถ้าเลเยอร์ / ช่องใด ๆ ของพิกเซลมีค่าเป็นลบช่องทั้งหมดของพิกเซลนั้นจะมีค่าเริ่มต้นเป็นศูนย์ ถูกต้องหรือไม่ อย่างไรก็ตามถ้าการเดาของฉันถูกต้องแล้วการใช้รูปแบบไบนารีของรูปร่าง [batch_size, ความสูง, ความกว้าง, num_channels] ที่อยู่ในมิติของบล็อกอินพุตดั้งเดิมจะให้องค์ประกอบแบบปกติที่ชาญฉลาด (นี่คือตาม การใช้งานแบบเลื่อนลงของ tensorflow ที่กำหนดรูปร่างของไบนารีมาสก์เป็นรูปร่างของอินพุต) เพราะมันจะหมายความว่าหากพิกเซลใด ๆ ในบล็อกการแปลงเป็นลบดังนั้นบล็อกการแปลงทั้งหมดจะเริ่มต้นที่ 0 นี่คือส่วนที่สร้างความสับสนที่ฉันไม่ค่อยเข้าใจ

1
การวิเคราะห์ความอ่อนไหวในโครงข่ายประสาทลึก
คำถามต่อไปนี้ได้ตอบแล้ว (การดึงความสำคัญของน้ำหนักจากเครือข่ายฟีดไปข้างหน้าหนึ่งชั้น ) ฉันกำลังมองหาการอนุมานเกี่ยวกับความเกี่ยวข้องของอินพุตในเครือข่ายประสาท เมื่อพิจารณาถึงเครือข่ายที่ลึกซึ่งการสร้างความสำคัญของอินพุตใหม่โดยการย้อนกลับผ่านชั้นจากโหนดผลลัพธ์ที่น่าสนใจอาจเป็นเรื่องยากหรือใช้เวลานาน ป้อนข้อมูลและพิจารณาวิธีการที่โหนด ouptut เปลี่ยนแปลงความสนใจ มีวิธีที่ยอมรับได้ของการวิเคราะห์ความไวในเครือข่ายประสาทหรือไม่? ฉันยินดีต้อนรับรหัส Python ให้ทำเช่นนั้นหากมี

1
NumPy แก้ปัญหากำลังสองน้อยที่สุดสำหรับระบบที่บ่อนทำลายได้อย่างไร
สมมุติว่าเรามีรูปร่าง X (2, 5) และรูปร่าง y (2,) งานนี้: np.linalg.lstsq(X, y) เราคาดหวังว่าสิ่งนี้จะทำงานได้ก็ต่อเมื่อ X มีรูปร่าง (N, 5) โดยที่ N> = 5 แต่ทำไมและอย่างไร เราได้รับน้ำหนักกลับมา 5 เท่าตามที่คาดไว้ แต่วิธีนี้แก้ไขได้อย่างไร มันไม่เหมือนเรามี 2 สมการและ 5 ไม่รู้จักใช่ไหม วิธีแก้ปัญหาแบบนี้ได้ดีแค่ไหน? มันต้องทำอะไรซักอย่างเพื่อการสร้างสมการประดิษฐ์ขึ้นมาอีก ..

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.