สถิติและข้อมูลขนาดใหญ่

2

ฉันกำลังอ่านตำราGaussian Process สำหรับการเรียนรู้ของเครื่องโดย CE Rasmussen และ CKI Williams และฉันมีปัญหาในการทำความเข้าใจว่าการกระจายตัวของฟังก์ชั่นนั้นมีความหมายว่าอย่างไร ในหนังสือเรียนยกตัวอย่างให้ใครคิดว่าฟังก์ชั่นเป็นเวกเตอร์ที่ยาวมาก ๆ (อันที่จริงแล้วมันควรจะยาวไม่สิ้นสุด?) ดังนั้นผมจึงจินตนาการว่าการกระจายตัวของฟังก์ชันจะเป็นการแจกแจงความน่าจะเป็นแบบ "เหนือ" ค่าเวกเตอร์เช่นนั้น มันจะเป็นความน่าจะเป็นที่ฟังก์ชันจะใช้ค่านี้หรือไม่? หรือเป็นความน่าจะเป็นที่ฟังก์ชันจะใช้ค่าที่อยู่ในช่วงที่กำหนดหรือไม่? หรือการกระจายตัวของฟังก์ชั่นคือความน่าจะเป็นที่กำหนดให้กับทั้งฟังก์ชัน? คำพูดจากตำราเรียน: บทที่ 1: บทนำหน้า 2 กระบวนการเกาส์เซียนเป็นการแจกแจงความน่าจะเป็นแบบเกาส์ ในขณะที่การแจกแจงความน่าจะเป็นอธิบายตัวแปรสุ่มซึ่งเป็นสเกลาร์หรือเวกเตอร์ (สำหรับการแจกแจงหลายตัวแปร) กระบวนการสโทคาสติกจะควบคุมคุณสมบัติของฟังก์ชัน ออกจากความซับซ้อนทางคณิตศาสตร์กันเราสามารถคิดฟังก์ชั่นเป็นเวกเตอร์ที่ยาวมาก ๆ อย่างอิสระแต่ละรายการในเวกเตอร์ที่ระบุค่าฟังก์ชัน f (x) ที่อินพุตเฉพาะ x ปรากฎว่าแม้ว่าความคิดนี้จะไร้เดียงสาเพียงเล็กน้อย แต่ก็ใกล้เคียงกับสิ่งที่เราต้องการ อันที่จริงคำถามของวิธีที่เราจัดการกับวัตถุมิติที่ไม่มีที่สิ้นสุดเหล่านี้มีความละเอียดที่น่าพอใจมากที่สุดเท่าที่จะเป็นไปได้: ถ้าคุณถามคุณสมบัติของฟังก์ชั่นที่มีจำนวน จำกัด เท่านั้น บทที่ 2: การถดถอยหน้า 7 มีหลายวิธีในการตีความโมเดลการถดถอยแบบเกาส์กระบวนการ (GP) เราสามารถคิดถึงกระบวนการเกาส์เซียนในการกำหนดการกระจายผ่านฟังก์ชั่นและการอนุมานที่เกิดขึ้นโดยตรงในพื้นที่ของฟังก์ชั่นมุมมองพื้นที่ฟังก์ชั่น จากคำถามแรก: ฉันทำภาพแนวคิดนี้เพื่อลองนึกภาพสิ่งนี้ด้วยตัวเอง ฉันไม่แน่ใจว่าคำอธิบายที่ฉันทำเพื่อตัวเองนั้นถูกต้องหรือไม่ …

15 distributions gaussian-process

4

เครือข่ายประสาทเทียมคืออะไร *

เมื่อเราเจาะลึกลงไปในวรรณกรรมของNeural Networksเราจะหาวิธีอื่น ๆ ด้วยโทโพโลยีของนิวโรมอร์ฟิค (สถาปัตยกรรมแบบ "Neural-Network") และฉันไม่ได้พูดคุยเกี่ยวกับยูนิเวอร์แซประมาณทฤษฎีบท ตัวอย่างได้รับด้านล่าง จากนั้นมันทำให้ฉันสงสัยว่า: อะไรคือความหมายของเครือข่ายประสาทเทียม? โทโพโลยีของมันดูเหมือนจะครอบคลุมทุกอย่าง ตัวอย่าง: หนึ่งในการระบุตัวแรกที่เราทำคือระหว่าง PCA และ Linear Autoencoder ที่มีตุ้มน้ำหนักในตัวเข้ารหัสและตัวถอดรหัส นอกจากนี้ยังมีการระบุร่วมกันระหว่างตัวแบบเชิงเส้น (การถดถอยแบบโลจิสติกส์ในแบบพิเศษ) และแบบโครงข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทเดี่ยว การระบุนี้เปิดหลายประตู ซีรี่ส์ฟูริเยร์และเทย์เลอร์? ANNs SVM ? ANN กระบวนการแบบเกาส์ ANN (พร้อมเลเยอร์ที่ซ่อนเดี่ยวพร้อมยูนิตที่ซ่อนไม่ จำกัด ) และเช่นเดียวกับที่ง่าย ๆ เราสามารถรวมเวอร์ชันปกติโดยพลการกับฟังก์ชั่นการสูญเสียพิเศษของอัลกอริทึมเหล่านี้ลงในกรอบโครงข่ายประสาทเทียม แต่ยิ่งเราขุดมากเท่าไหร่ ฉันเพิ่งเข้าสู่Deep Neural Decision Treesซึ่งทำให้การระบุสถาปัตยกรรม ANN ที่เฉพาะเจาะจงกับต้นไม้การตัดสินใจทำให้สามารถเรียนรู้สิ่งเหล่านี้ได้ด้วยวิธีการของ ANN (เช่นการไล่ระดับสีย้อนกลับของ Gradient Descent) จากนี้เราสามารถสร้างป่าสุ่มและต้นไม้ตัดสินใจเพิ่มไล่โทนสีจากทอพอโลยีโครงข่ายประสาทเทียมเพียงอย่างเดียว หากทุกอย่างสามารถแสดงเป็นโครงข่ายใยประสาทเทียมอะไรคือตัวกำหนดเครือข่ายประสาทเทียม

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

5

ความต้องการของสมมติฐานในการถดถอยเชิงเส้นคืออะไร?

ในการถดถอยเชิงเส้นเราทำสมมติฐานดังต่อไปนี้ ค่าเฉลี่ยของการตอบสนอง ในแต่ละชุดค่าของตัวทำนายเป็นฟังก์ชันเชิงเส้นของตัวทำนายE(Yi)E(Yi)E(Y_i)(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) ข้อผิดพลาดεiεiε_iเป็นอิสระ ข้อผิดพลาดεiεiε_iที่แต่ละชุดของค่าของตัวทำนาย(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)มีการกระจายตามปกติ ข้อผิดพลาดεiεiε_iที่แต่ละชุดของค่าของตัวทำนาย (x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)มีค่าความแปรปรวนเท่ากัน (แทนσ2σ2σ2 ) อีกวิธีหนึ่งที่เราสามารถแก้ปัญหาการถดถอยเชิงเส้นคือผ่านสมการปกติซึ่งเราสามารถเขียนเป็น θ=(XTX)−1XTYθ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TY จากมุมมองทางคณิตศาสตร์สมการข้างต้นต้องการXTXXTXX^TXที่จะกลับด้านได้ ดังนั้นทำไมเราจึงจำเป็นต้องมีข้อสมมติฐานเหล่านี้ ฉันถามเพื่อนร่วมงานไม่กี่คนและพวกเขากล่าวว่าการได้รับผลลัพธ์ที่ดีและสมการปกติเป็นขั้นตอนวิธีเพื่อให้บรรลุ แต่ในกรณีนั้นสมมติฐานเหล่านี้มีประโยชน์อย่างไร การสนับสนุนพวกเขาช่วยในการสร้างแบบจำลองที่ดีขึ้นอย่างไร

15 regression assumptions

1

การลดอคติในการสร้างแบบจำลองอธิบายทำไม? (Galit Shmueli“ อธิบายหรือทำนาย”)

นี้อ้างอิงคำถาม Galit Shmueli กระดาษ"ที่จะอธิบายหรือทำนาย" โดยเฉพาะอย่างยิ่งในหัวข้อ 1.5 "การอธิบายและการทำนายต่างกัน" ศาสตราจารย์ Shmueli เขียน: ในการอธิบายแบบจำลองการมุ่งเน้นไปที่การลดอคติเพื่อให้ได้การแสดงที่ถูกต้องที่สุดของทฤษฎีพื้นฐาน นี่ทำให้ฉันงงทุกครั้งที่ฉันอ่านกระดาษ การลดอคติในการประมาณการให้ความหมายที่ถูกต้องที่สุดในการแสดงถึงทฤษฎีพื้นฐานได้อย่างไร? ฉันได้ดูการพูดคุยของศาสตราจารย์ Shmueli ที่นี่ด้วยซึ่งจัดส่งที่ JMP Discovery Summit 2017 และเธอกล่าวว่า: ... สิ่งต่าง ๆ ที่เหมือนกับนางแบบหดตัวตระการตาคุณจะไม่มีวันได้เห็น เนื่องจากรูปแบบเหล่านั้นโดยการออกแบบแนะนำความเอนเอียงเพื่อลดอคติ / ความแปรปรวนโดยรวม นั่นเป็นเหตุผลที่พวกเขาจะไม่อยู่ที่นั่นมันไม่มีเหตุผลใด ๆ ที่จะทำเช่นนั้น ทำไมคุณต้องทำให้แบบจำลองของคุณลำเอียงโดยมีจุดประสงค์ นี่ไม่ใช่คำถามของฉันที่ชัดเจนเพียงแค่ปรับการอ้างสิทธิ์ที่ฉันไม่เข้าใจ หากทฤษฏีมีพารามิเตอร์มากมายและเรามีข้อมูลไม่เพียงพอที่จะประมาณค่าเหล่านั้นข้อผิดพลาดในการประมาณจะถูกควบคุมโดยความแปรปรวน เหตุใดจึงไม่เหมาะสมที่จะใช้ขั้นตอนการประเมินแบบเอนเอียงเช่นการถดถอยสัน (ส่งผลให้การประเมินแบบเอนเอียงของความแปรปรวนต่ำกว่า) ในสถานการณ์นี้

15 predictive-models inference bias unbiased-estimator explanatory-models

4

การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน

ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

15 regression lasso regularization ridge-regression lagrange-multipliers

2

โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น

ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ …

15 regression machine-learning classification neural-networks deep-learning

1

เปรียบเทียบระหว่าง Newey-West (1987) และ Hansen-Hodrick (1980)

คำถาม:อะไรคือความแตกต่างที่สำคัญและความคล้ายคลึงกันระหว่างการใช้ข้อผิดพลาดมาตรฐานของ Newey-West (1987) และ Hansen-Hodrick (1980) ในสถานการณ์ใดสถานการณ์หนึ่งควรเป็นที่นิยมมากกว่าสถานการณ์อื่น หมายเหตุ: ฉันรู้ว่าแต่ละขั้นตอนการปรับเหล่านี้ทำงานอย่างไร; อย่างไรก็ตามฉันยังไม่พบเอกสารใด ๆ ที่จะเปรียบเทียบพวกเขาทั้งแบบออนไลน์และในตำราเรียนของฉัน ยินดีต้อนรับการอ้างอิง! Newey-West มีแนวโน้มที่จะใช้เป็นข้อผิดพลาดมาตรฐาน "catch-all" HAC ในขณะที่ Hansen-Hodrick เกิดขึ้นบ่อยครั้งในบริบทของจุดข้อมูลที่ทับซ้อนกัน (เช่นดูคำถามนี้หรือคำถามนี้ ) ดังนั้นหนึ่งในสิ่งสำคัญของคำถามของฉันคือจะมีอะไรที่เกี่ยวกับแฮนเซน-Hodrick ที่ทำให้มันมากขึ้นเหมาะกับการจัดการกับข้อมูลที่ทับซ้อนกันกว่า Newey เวสต์? (ท้ายที่สุดแล้วการซ้อนทับข้อมูลในที่สุดนำไปสู่ข้อผิดพลาดที่มีความสัมพันธ์แบบลำดับซึ่ง Newey-West จัดการกับ) สำหรับบันทึกฉันรู้ถึงคำถามที่คล้ายกันนี้แต่มันค่อนข้างแย่โพสต์ลงและท้ายที่สุดคำถามที่ฉันถามที่นี่ไม่ได้รับคำตอบ (เฉพาะส่วนที่เกี่ยวข้องกับการเขียนโปรแกรมเท่านั้นที่ได้รับคำตอบ)

15 regression autocorrelation heteroscedasticity robust-standard-error neweywest

2

เหตุใดการคาดการณ์ของอนุกรมเวลาจึง“ แย่มาก”

ฉันพยายามเรียนรู้วิธีใช้ Neural Networks ฉันกำลังอ่านบทช่วยสอนนี้ หลังจากติดตั้งโครงข่ายประสาทในอนุกรมเวลาโดยใช้ค่าที่เพื่อทำนายค่าที่t + 1ผู้เขียนได้รับพล็อตต่อไปนี้โดยที่เส้นสีฟ้าคืออนุกรมเวลาสีเขียวคือการทำนายข้อมูลรถไฟสีแดงคือ การคาดการณ์ข้อมูลการทดสอบ (เขาใช้การทดสอบรถไฟแบบแยก)เสื้อเสื้อtt + 1เสื้อ+1t+1 และเรียกมันว่า "เราจะเห็นว่าแบบจำลองนั้นทำงานได้ค่อนข้างแย่ในการปรับทั้งชุดฝึกอบรมและชุดทดสอบ เสื้อเสื้อtt - 1เสื้อ-1t-1t - 2เสื้อ-2t-2t + 1เสื้อ+1t+1 และพูดว่า "เมื่อมองที่กราฟเราจะเห็นโครงสร้างเพิ่มเติมในการทำนาย" คำถามของฉัน ทำไมคนยากจนคนแรก? มันเกือบจะสมบูรณ์แบบสำหรับฉันมันทำนายการเปลี่ยนแปลงทุกอย่างสมบูรณ์แบบ และในทำนองเดียวกันทำไมอันดับสองถึงดีกว่า? "โครงสร้าง" อยู่ที่ไหน สำหรับฉันมันดูด้อยกว่าครั้งแรกมาก โดยทั่วไปการคาดการณ์ของซีรีย์เวลาจะดีและเมื่อไร

15 time-series neural-networks predictive-models deep-learning prediction

3

ปรีชาสำหรับ Support Vector Machines และไฮเปอร์เพลน

ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0) ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์ เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้ นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน? ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด

15 machine-learning logistic classification svm separation

4

ทำไมต้นไม้การตัดสินใจมีอคติต่ำ & ความแปรปรวนสูง

คำถาม มันขึ้นอยู่กับว่าต้นไม้จะตื้นหรือลึก? หรือเราจะพูดสิ่งนี้โดยไม่คำนึงถึงความลึก / ระดับของต้นไม้? ทำไมอคติต่ำและความแปรปรวนสูง โปรดอธิบายโดยสังหรณ์ใจและเชิงคณิตศาสตร์

15 machine-learning variance covariance cart bias

3

เหตุใดสมมติฐานของ ANOVA (ความเท่าเทียมกันของความแปรปรวน, ความปกติของเศษวัสดุ) จึงมีความสำคัญ?

เมื่อเรียกใช้ ANOVA เราจะได้รับการบอกกล่าวว่าสมมติฐานบางข้อของการทดสอบจะต้องมีอยู่เพื่อให้สามารถใช้กับข้อมูลได้ ฉันไม่เคยเข้าใจเหตุผลว่าทำไมจึงจำเป็นต้องใช้สมมติฐานต่อไปนี้ในการทดสอบการทำงาน: ความแปรปรวนของตัวแปรตาม (ส่วนที่เหลือ) ของคุณควรจะเท่ากันในแต่ละเซลล์ของการออกแบบ ตัวแปร (ส่วนที่เหลือ) ของคุณควรกระจายตามปกติสำหรับแต่ละเซลล์ของการออกแบบ ฉันเข้าใจว่ามีบางส่วนของพื้นที่สีเทาที่จะต้องพบกับสมมติฐานเหล่านี้ แต่เพื่อประโยชน์ของการโต้แย้งหากสมมติฐานเหล่านี้ไม่ได้พบกันอย่างเต็มที่ในชุดข้อมูลที่กำหนดสิ่งที่จะเป็นปัญหากับการใช้ ANOVA ?

15 hypothesis-testing anova assumptions

4

แนวคิดชุดทั่วไป

ฉันคิดว่าแนวคิดของเซตทั่วไปนั้นค่อนข้างง่าย: ลำดับความยาวจะเป็นของเซตทั่วไปถ้าความน่าจะเป็นของลำดับออกมาสูง ดังนั้นลำดับใด ๆ ที่มีแนวโน้มที่จะอยู่ใน{(n)} (ฉันกำลังหลีกเลี่ยงการนิยามอย่างเป็นทางการที่เกี่ยวข้องกับเอนโทรปีเพราะฉันพยายามที่จะเข้าใจในเชิงคุณภาพ)A ( n ) ϵ A ( n ) ϵnnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} อย่างไรก็ตามฉันได้อ่านโดยทั่วไปแล้วลำดับที่เป็นไปได้มากที่สุดไม่ได้อยู่ในชุดทั่วไป นี่ทำให้ฉันสับสนครั้งใหญ่ มีคำจำกัดความที่เข้าใจง่ายของชุดทั่วไปหรือไม่ หรือเป็นเพียงเครื่องมือทางคณิตศาสตร์ที่ไม่เกี่ยวกับสามัญสำนึกมากนัก?

15 entropy intuition information-theory

4

ค่าที่คาดหวังกับค่าที่น่าจะเป็นที่สุด (โหมด)

ค่าที่คาดหวังของการแจกแจงคือค่าเฉลี่ยนั่นคือค่าเฉลี่ยถ่วงน้ำหนัก f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx ค่าที่เป็นไปได้มากที่สุดคือโหมดซึ่งเป็นค่าที่น่าจะเป็นที่สุด อย่างไรก็ตามเราคาดหวังว่าจะเห็นหลายครั้ง? ข้อความจากที่นี่ :E[x]E[x]E[x] หากผลลัพธ์ไม่น่าจะเท่ากันดังนั้นค่าเฉลี่ยอย่างง่ายจะต้องถูกแทนที่ด้วยค่าเฉลี่ยถ่วงน้ำหนักซึ่งคำนึงถึงความจริงที่ว่าผลลัพธ์บางอย่างมีแนวโน้มมากกว่าคนอื่น ๆ สัญชาตญาณ แต่ยังคงเหมือนเดิม: มูลค่าที่คาดหวังของคือสิ่งหนึ่งที่คาดว่าจะเกิดขึ้นโดยเฉลี่ยxixix_ixxx ฉันไม่สามารถเข้าใจสิ่งที่ "เกิดขึ้นโดยเฉลี่ย" หมายความว่านี่หมายถึงว่าสำหรับ istance ใช้เวลานานมากในการคาดหวังว่าจะเห็นมากกว่าค่าอื่น ๆ ของหรือไม่? แต่นี่ไม่ใช่นิยามของโหมดใช่ไหมE[x]E[x]E[x]xxx ดังนั้นวิธีการตีความคำสั่งหรือไม่ ความหมายความน่าจะเป็นของคืออะไร?E[x]E[x]E[x] ฉันต้องการแสดงตัวอย่างที่ทำให้สับสน การศึกษาการฉันได้เรียนรู้ว่าโหมด นี้คือχ 2 m o d e = ν - 2ในขณะที่E [ χ 2 ] = νโดยที่νคือองศาของอิสระของข้อมูลχ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu ผมได้ยินที่มหาวิทยาลัยว่าเมื่อทำทดสอบหลังการใช้สแควน้อยวิธีการเพื่อให้พอดีกับชุดของข้อมูลที่ฉันควรคาดหวังว่าจะได้รับχ 2 ≈ เข้าพบเพราะ "ว่าสิ่งที่เกิดขึ้นโดยทั่วไป"χ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx …

15 probability distributions chi-squared expected-value mode

3

จำนวนเลเยอร์ขั้นต่ำในเครือข่ายประสาทลึก

เราจะเริ่มจำแนกประเภทเครือข่ายประสาทหลายชั้นเป็นเครือข่ายประสาทลึกหรือในอีกทางหนึ่ง 'จำนวนชั้นต่ำสุดในเครือข่ายประสาทลึกคืออะไร'

15 machine-learning neural-networks deep-learning terminology

2

สัญลักษณ์เมทริกซ์สำหรับการถดถอยโลจิสติก

ในการถดถอยเชิงเส้น (การสูญเสียกำลังสอง) การใช้เมทริกซ์เรามีสัญกรณ์ที่รัดกุมมากสำหรับวัตถุประสงค์ minimize ∥Ax−b∥2minimize ‖Ax−b‖2\text{minimize}~~ \|Ax-b\|^2 โดยที่AAAคือเมทริกซ์ข้อมูลxxxคือสัมประสิทธิ์และbbbคือการตอบสนอง มีสัญกรณ์เมทริกซ์ที่คล้ายกันสำหรับวัตถุประสงค์การถดถอยโลจิสติก? สัญลักษณ์ทั้งหมดที่ฉันเห็นไม่สามารถกำจัดผลรวมเหนือจุดข้อมูลทั้งหมดได้ (เช่น∑dataLlogistic(y,βTx)∑dataLlogistic(y,βTx)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx) ) แก้ไข: ขอบคุณสำหรับ joceratops และคำตอบที่ยอดเยี่ยมของ AdamO คำตอบของพวกเขาช่วยให้ผมตระหนักดีว่าเหตุผลถดถอยเชิงเส้นอื่นมีสัญกรณ์รัดกุมมากขึ้นเป็นเพราะความหมายของบรรทัดฐานซึ่งแค็ปซูตารางและผลรวมหรือบนอี แต่ในการสูญเสียโลจิสติกไม่มีคำจำกัดความดังกล่าวซึ่งทำให้สัญกรณ์ซับซ้อนขึ้นเล็กน้อยe⊤ee⊤ee^\top e

15 regression logistic linear-model notation