คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
จัดทำเป็นเอกสาร / ตัวอย่างที่จำลองได้ของการประยุกต์ใช้วิธีเศรษฐมิติที่ประสบความสำเร็จในโลกแห่งความจริง?
คำถามนี้อาจฟังดูกว้างมาก แต่นี่คือสิ่งที่ฉันกำลังมองหา ฉันรู้ว่ามีหนังสือที่ยอดเยี่ยมมากมายเกี่ยวกับวิธีเศรษฐมิติและบทความเกี่ยวกับเทคนิคเศรษฐมิติที่ยอดเยี่ยมมากมาย นอกจากนี้ที่ดีเยี่ยมแม้ทำซ้ำตัวอย่างของเศรษฐที่อธิบายไว้ใน CrossValidated นี้คำถาม อันที่จริงตัวอย่างในคำถามนี้มาใกล้กับสิ่งที่ฉันกำลังมองหา สิ่งเดียวที่ขาดหายไปในตัวอย่างเหล่านั้นคือการที่พวกเขาเป็นเพียงการวิจัยรายงานโดยไม่ต้องเอ่ยถึงว่าผลของการศึกษาที่มีอาการในใด ๆการประยุกต์ใช้จริงในโลก สิ่งที่ฉันกำลังมองหาคือเอกสาร / ตัวอย่างที่สามารถจำลองได้ของการประยุกต์ใช้ทฤษฎีทางเศรษฐมิติในโลกแห่งความเป็นจริงซึ่งมีลักษณะดังต่อไปนี้: พวกเขาควรจะทำซ้ำเช่นมีคำอธิบายรายละเอียดของ (และตัวชี้ไปยัง) ข้อมูลเทคนิคทางเศรษฐมิติและรหัส นึกคิดรหัสจะเป็นภาษา R ควรมีเอกสารรายละเอียดแสดงให้เห็นว่าเทคนิคที่ประสบความสำเร็จในโลกแห่งความเป็นจริงตามการวัดที่ดีของความสำเร็จ (เช่น "เทคนิคที่ช่วยเพิ่มรายได้เพราะมันเปิดใช้การคาดการณ์ความต้องการที่ดีขึ้นและนี่คือตัวเลขที่เกี่ยวข้อง") ฉันใช้ระยะทางเศรษฐมิติค่อนข้างกว้างที่นี่ - ผมหมายถึงใด ๆ เรียงลำดับของการทำเหมืองข้อมูล , สถิติวิเคราะห์ข้อมูล , predictiion , การคาดการณ์หรือเครื่องเรียนรู้เทคนิค ปัญหาหนึ่งในการค้นหาตัวอย่างเช่น: การประยุกต์ใช้เศรษฐมิติที่ประสบความสำเร็จในการตั้งค่าเพื่อผลกำไรและเป็นกรรมสิทธิ์ดังนั้นหากเทคนิคทำงานได้ดีมันอาจจะไม่ถูกเผยแพร่ (นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของการซื้อขายแบบกรรมสิทธิ์ กลยุทธ์) แต่ฉันหวังว่าจะมีตัวอย่างที่เผยแพร่ซึ่งมีคุณสมบัติอย่างน้อย (2) ข้างต้นหากไม่ใช่ทั้ง (1) และ (2)

4
การสร้างอินเตอร์เฟส MATLAB และ R กับ C5.0 ของ Ross Quinlan
ฉันกำลังพิจารณาการสร้างอินเตอร์เฟส MATLAB และ R ให้กับC5.0ของRoss Quinlan (สำหรับผู้ที่ไม่คุ้นเคย C5.0 เป็นอัลกอริทึมต้นไม้ตัดสินใจและแพ็คเกจซอฟต์แวร์ส่วนขยายC4.5 ) และฉันพยายาม รับความรู้สึกขององค์ประกอบที่ฉันจะต้องเขียน เอกสารเดียวที่ฉันพบสำหรับ C5.0 อยู่ที่นี่ซึ่งเป็นแบบฝึกหัดสำหรับ See5 (อินเทอร์เฟซ Windows กับ C5.0?) tarไฟล์มาพร้อมกับ Makefile แต่ไม่มีไฟล์ Readme หรือเอกสารใด ๆ เพิ่มเติม จากสิ่งที่ฉันอ่านในบทช่วยสอนด้านบน C5.0 ใช้การแทนค่าแบบ ASCII เพื่อจัดการอินพุตและเอาต์พุตและฉันกำลังพิจารณาสร้างอินเตอร์เฟสที่ส่งผ่านข้อมูลไบนารีโดยตรงระหว่าง MATLAB หรือ R และ C5.0 การแสดงข้อมูลของ C5.0 ถูกใช้โดยซอฟต์แวร์การเรียนรู้ / การจำแนกประเภทอื่น ๆ หรือไม่? มีใครลองสร้าง MATLAB หรือ R อินเตอร์เฟสกับ ID3, …

1
กระบวนการ Stochastic เช่นกระบวนการ Gaussian / กระบวนการ Dirichlet มีความหนาแน่นหรือไม่ หากไม่สามารถใช้กฎของเบย์กับพวกเขาได้อย่างไร
กระบวนการ Dirichlet Pocess และ Gaussian นั้นมักเรียกกันว่า ในกรณีนั้นฉันสามารถพูดถึงความหนาแน่นของฟังก์ชั่นภายใต้ GP ได้หรือไม่? นั่นคือกระบวนการ Gaussian หรือกระบวนการ Dirichlet มีแนวคิดเกี่ยวกับความหนาแน่นของความน่าจะเป็นหรือไม่? หากไม่เป็นเช่นนั้นเราจะใช้กฎของเบย์ในการเปลี่ยนจากก่อนหน้าไปยังด้านหลังได้อย่างไรหากความคิดของความน่าจะเป็นก่อนหน้านี้ของฟังก์ชั่นยังไม่ชัดเจน มีสิ่งต่าง ๆ เช่นการประมาณค่า MAP หรือ EAP ในโลกที่ไม่ใช่แบบเบย์ของ Bayesian หรือไม่? ขอบคุณมาก.

3
การถดถอยของกระบวนการแบบเกาส์สำหรับชุดข้อมูลขนาดใหญ่
ฉันได้รับการเรียนรู้เกี่ยวกับกระบวนการ Gaussian ถดถอยจากวิดีโอออนไลน์และเอกสารประกอบการบรรยายความเข้าใจของฉันก็คือว่าถ้าเรามีชุดข้อมูลที่มีจุดแล้วเราถือว่าข้อมูลที่มีการเก็บตัวอย่างจากมิติหลายตัวแปรแบบเกาส์ ดังนั้นคำถามของฉันคือในกรณีที่คือ 10 ในล้านคนการถดถอยของกระบวนการแบบเกาส์ยังคงใช้ได้ เคอร์เนลเมทริกซ์จะไม่แสดงผลขนาดใหญ่กระบวนการอย่างสมบูรณ์หรือไม่ ถ้าเป็นเช่นนั้นมีเทคนิคในการจัดการกับสิ่งนี้เช่นการสุ่มตัวอย่างจากชุดข้อมูลซ้ำ ๆ หลาย ๆ ครั้งหรือไม่ วิธีการที่ดีในการจัดการกับกรณีดังกล่าวมีอะไรบ้าง nnnnnnnnn

2
จุดประสงค์ของสัญญาณรบกวนดีริชเลต์ในกระดาษ AlphaZero
ในเอกสาร AlphaGo ZeroและAlphaZeroของ DeepMind พวกเขาอธิบายการเพิ่มสัญญาณรบกวนDirichletให้กับความน่าจะเป็นก่อนหน้าของการกระทำจากโหนดรูท (สถานะกระดาน) ใน Monte Carlo Tree Search: การสำรวจเพิ่มเติมทำได้โดยการเพิ่มเสียง Dirichlet ให้กับความน่าจะเป็นก่อนหน้านี้ในรูทโหนดโดยเฉพาะโดยที่และ ; เสียงรบกวนนี้ทำให้มั่นใจได้ว่าการเคลื่อนไหวทั้งหมดอาจถูกลองใช้ แต่การค้นหาอาจยังคงเป็นการลบล้างการเคลื่อนไหวที่ไม่ดีs0s0s_0P( s , a ) = ( 1 - ε )พีa+ εηaP(s,a)=(1−ε)pa+εηaP(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_aη~ Dir ( 0.03 )η∼Dir(0.03)\eta \sim \text{Dir}(0.03)ε = 0.25ε=0.25\varepsilon = 0.25 (AlphaGo Zero) และ: เพิ่ม Dirichlet noiseในความน่าจะเป็นก่อนหน้านี้ในโหนดรูท นี่เป็นสัดส่วนในสัดส่วนผกผันกับจำนวนการเคลื่อนไหวทางกฎหมายโดยประมาณในตำแหน่งทั่วไปค่าของสำหรับหมากรุกโชกิและโกตามลำดับDir …

1
ทำไมฟูริเยร์แบบสุ่มถึงไม่ติดลบ?
คุณลักษณะฟูริเยร์แบบสุ่มให้การประมาณค่ากับฟังก์ชันเคอร์เนล พวกมันใช้สำหรับวิธีเคอร์เนลต่างๆเช่น SVM และกระบวนการ Gaussian วันนี้ฉันลองใช้การติดตั้ง TensorFlowและฉันได้รับค่าลบสำหรับคุณสมบัติครึ่งหนึ่งของฉัน ตามที่ฉันเข้าใจแล้วสิ่งนี้ไม่ควรเกิดขึ้น ดังนั้นฉันจึงกลับไปที่เอกสารต้นฉบับซึ่ง --- อย่างที่ฉันคาดไว้ --- กล่าวว่าคุณลักษณะควรมีชีวิตอยู่ใน [0,1] แต่คำอธิบาย (เน้นด้านล่าง) ไม่สมเหตุสมผลสำหรับฉัน: ฟังก์ชันโคไซน์สามารถสร้างค่าได้ทุกที่ใน [-1,1] และจุดส่วนใหญ่ที่แสดงมีค่าโคไซน์เชิงลบ ฉันอาจจะพลาดอะไรบางอย่างที่เห็นได้ชัด แต่จะขอบคุณถ้ามีคนชี้ให้เห็นว่ามันคืออะไร

1
SVMs = การจับคู่เทมเพลตเป็นอย่างไร
ฉันอ่านเกี่ยวกับ SVM และเรียนรู้ว่าพวกเขากำลังแก้ไขปัญหาการปรับให้เหมาะสมและแนวคิดของกำไรขั้นต้นนั้นสมเหตุสมผลมาก ตอนนี้การใช้เมล็ดพวกเขาสามารถค้นหาขอบเขตการแยกแบบไม่เป็นเชิงเส้นได้ซึ่งยอดเยี่ยม จนถึงตอนนี้ฉันไม่รู้จริงๆเลยว่า SVM (เครื่องเคอร์เนลพิเศษ) และเครื่องเคอร์เนลเกี่ยวข้องกับเครือข่ายประสาทอย่างไร พิจารณาความคิดเห็นโดยYann Lecun => ที่นี่ : kernel methods were a form of glorified template matching และที่นี่ด้วย : ตัวอย่างเช่นบางคนตื่นตากับวิธีเคอร์เนลเพราะคณิตศาสตร์น่ารักที่เข้ากับมัน แต่อย่างที่ฉันเคยพูดไปแล้วในตอนท้ายในที่สุดเครื่องเคอร์เนลเป็นเครือข่ายที่ตื้น ไม่มีอะไรผิดปกติ (SVM เป็นวิธีที่ยอดเยี่ยม) แต่มีข้อ จำกัด ที่น่ากลัวซึ่งเราทุกคนควรทราบ ดังนั้นคำถามของฉันคือ: SVM เกี่ยวข้องกับเครือข่ายประสาทอย่างไร มันเป็นเครือข่ายตื้นอย่างไร SVM แก้ปัญหาการเพิ่มประสิทธิภาพด้วยฟังก์ชั่นวัตถุประสงค์ที่กำหนดไว้อย่างดีมันทำการจับคู่แม่แบบอย่างไร? เทมเพลตที่นี่ตรงกับข้อมูลใด ฉันเดาว่าความคิดเห็นเหล่านี้ต้องการความเข้าใจอย่างถ่องแท้เกี่ยวกับช่องว่างมิติสูงอวนประสาทและเครื่องเคอร์เนล แต่จนถึงตอนนี้ฉันได้ลองแล้วและไม่สามารถเข้าใจตรรกะที่อยู่เบื้องหลัง แต่ก็เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะต้องทราบความเชื่อมโยงระหว่างเทคนิค ml ที่แตกต่างกันสองอย่าง แก้ไข: ฉันคิดว่าการเข้าใจ SVM จากมุมมองของระบบประสาทจะดีมาก ฉันกำลังมองหาคำตอบที่ได้รับการสนับสนุนทางคณิตศาสตร์อย่างละเอียดสำหรับคำถามสองข้อข้างต้นเพื่อที่จะเข้าใจการเชื่อมโยงระหว่าง SVM …

1
การวิเคราะห์ที่ซับซ้อน, การวิเคราะห์เชิงหน้าที่เพื่อความเข้าใจเชิงลึกในการเรียนรู้ของเครื่อง
ฉันต้องการเจาะลึกลงไปในการเรียนรู้ของเครื่อง (ทฤษฎีและการประยุกต์ในด้านการเงิน) ฉันต้องการถามว่าการวิเคราะห์ที่ซับซ้อนและการวิเคราะห์เชิงหน้าที่มีความเกี่ยวข้องเป็นพื้นฐานสำหรับการเรียนรู้ของเครื่องอย่างไร ฉันจำเป็นต้องเรียนรู้วิชาเหล่านี้หรือฉันควรตั้งสมาธิกับหัวข้ออื่น ๆ (ถ้าเป็นเช่นนั้น)

1
วิธีการคำนวณจากตัวอย่าง R กำลังสอง?
ฉันรู้ว่าอาจมีการพูดถึงที่อื่น แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนได้ ฉันกำลังพยายามใช้สูตรเพื่อคำนวณ -ตัวอย่างของการถดถอยเชิงเส้นโดยที่คือผลรวมของส่วนที่เหลือกำลังสองและคือผลรวมของกำลังสองทั้งหมด สำหรับชุดฝึกอบรมนั้นเป็นที่ชัดเจนว่าR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 ชุดทดสอบมีอะไรบ้าง ฉันควรใช้สำหรับตัวอย่างหรือใช้แทนหรือไม่y¯trainy¯train\bar{y}_{train}yyyy¯testy¯test\bar{y}_{test} ฉันพบว่าถ้าฉันใช้ผลลัพธ์อาจเป็นลบได้ในบางครั้ง สิ่งนี้สอดคล้องกับคำอธิบายฟังก์ชั่นของ sklearn โดยที่พวกเขาใช้ (ซึ่งยังใช้โดยฟังก์ชันlinear_model ของพวกเขาสำหรับการทดสอบตัวอย่าง) พวกเขากล่าวว่า "แบบจำลองค่าคงที่ที่ทำนายค่า y ที่คาดไว้เสมอโดยไม่คำนึงถึงคุณลักษณะอินพุตจะได้รับคะแนน R ^ 2 เท่ากับ 0.0"y¯testy¯test\bar{y}_{test}R2R2R^2r2_score()y¯testy¯test\bar{y}_{test}score() อย่างไรก็ตามในที่อื่น ๆ ผู้คนใช้แบบนี้และที่นี่ (คำตอบที่สองโดย dmi3kno) ดังนั้นฉันสงสัยว่าสิ่งใดที่เหมาะสมกว่า ความคิดเห็นใด ๆ จะได้รับการชื่นชมอย่างมาก!y¯trainy¯train\bar{y}_{train}

4
ทำไมต้องใช้การไล่ระดับสี
เมื่อเราสามารถแยกความแตกต่างของฟังก์ชั่นค่าใช้จ่ายและค้นหาพารามิเตอร์โดยการแก้สมการที่ได้จากความแตกต่างบางส่วนที่เกี่ยวกับพารามิเตอร์ทุกตัวและหาตำแหน่งที่ฟังก์ชั่นค่าใช้จ่ายต่ำสุด นอกจากนี้ฉันคิดว่ามันเป็นไปได้ที่จะหาสถานที่หลายแห่งที่อนุพันธ์เป็นศูนย์ดังนั้นเราจึงสามารถตรวจสอบสถานที่ดังกล่าวทั้งหมดและสามารถหาระดับโลกขั้นต่ำได้ ทำไมการไล่ระดับสีแทนจึงดำเนินการแทน

1
มีข้อมูลมากน้อยเพียงใดสำหรับการเรียนรู้เชิงลึก
ฉันกำลังเรียนรู้เกี่ยวกับการเรียนรู้เชิงลึก (โดยเฉพาะอย่างยิ่ง CNNs) และวิธีการที่ต้องใช้ข้อมูลจำนวนมากเพื่อป้องกันไม่ให้ข้อมูลมากเกินไป อย่างไรก็ตามฉันยังได้รับแจ้งว่ามีความจุสูงกว่า / พารามิเตอร์เพิ่มเติมที่แบบจำลองมีข้อมูลเพิ่มเติมจำเป็นต้องมีเพื่อป้องกันการ overfitting ดังนั้นคำถามของฉันคือ: ทำไมคุณไม่สามารถลดจำนวนเลเยอร์ / โหนดต่อเลเยอร์ในเครือข่ายนิวรัลลึกและทำให้มันทำงานกับข้อมูลจำนวนน้อยลงได้ มี "จำนวนพารามิเตอร์ขั้นต่ำ" ขั้นพื้นฐานหรือไม่ที่เครือข่ายประสาทต้องการจนกว่าจะถึง "kicks" ด้านล่างของเลเยอร์จำนวนหนึ่งดูเหมือนว่าเครือข่ายประสาทจะไม่ทำงานเช่นเดียวกับคุณสมบัติที่เขียนด้วยมือ

1
มีแอปพลิเคชันที่ SVM ยังเหนือกว่าหรือไม่
อัลกอริทึม SVM นั้นค่อนข้างเก่า - ได้รับการพัฒนาในปี 1960 แต่ได้รับความนิยมอย่างมากในปี 1990 และ 2000 มันเป็นส่วนที่คลาสสิก (และค่อนข้างสวยงาม) ของหลักสูตรการเรียนรู้ของเครื่อง วันนี้ดูเหมือนว่าในการประมวลผลสื่อ (ภาพเสียงและอื่น ๆ ) เครือข่ายประสาทเทียมมีอิทธิพลอย่างสมบูรณ์ในขณะที่ในพื้นที่อื่น ๆ การไล่ระดับสีไล่ระดับมีตำแหน่งที่แข็งแกร่งมาก นอกจากนี้ในการแข่งขันข้อมูลล่าสุดฉันสังเกตว่าไม่มีโซลูชั่นที่ใช้ SVM ฉันกำลังมองหาตัวอย่างแอปพลิเคชันที่ SVM ยังคงให้ผลลัพธ์ที่ทันสมัย ​​(ณ ปี 2016) อัปเดต:ฉันต้องการมีตัวอย่างที่ฉันสามารถให้เช่นนักเรียน / เพื่อนร่วมงานเมื่ออธิบาย SVM เพื่อให้ดูเหมือนว่าวิธีการทางทฤษฎีหรือเลิกใช้หมดจด

1
อนุพันธ์ของการสูญเสียเอนโทรปีใน word2vec
ฉันกำลังพยายามหาทางแก้ไขปัญหาชุดแรกของเนื้อหาหลักสูตรออนไลน์ของ cs224d stanford และฉันมีปัญหาบางอย่างเกี่ยวกับปัญหา 3A: เมื่อใช้แบบจำลองข้าม word2vec กับฟังก์ชั่นการทำนายแบบ softmax และฟังก์ชั่นการสูญเสียเอนโทรปี ต้องการคำนวณการไล่ระดับสีเทียบกับเวกเตอร์คำที่คาดคะเน เมื่อได้รับฟังก์ชั่น softmax: wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) \hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})} และฟังก์ชั่นข้ามเอนโทรปี: CE(w,w^)=−∑kwklog(wk^)CE(w,w^)=−∑kwklog(wk^)CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k}) เราจำเป็นต้องคำนวณ∂CE∂r^∂CE∂r^\frac{\partial{CE}}{\partial{\hat{r}}} ขั้นตอนของฉันมีดังนี้: CE(w,w^)=−∑|V|kwklog(exp(wTkr^)∑|V|jexp(wTjr^))CE(w,w^)=−∑k|V|wklog(exp⁡(wkTr^)∑j|V|exp(wjTr^))CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}) =−∑|V|kwklog(exp(wTkr^)−wklog(∑|V|jexp(wTjr^))=−∑k|V|wklog(exp⁡(wkTr^)−wklog(∑j|V|exp(wjTr^))= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r})) ตอนนี้ได้รับwkwkw_kเป็นหนึ่งเวกเตอร์ร้อนและฉันเป็นชั้นที่ถูกต้อง: CE(w,w^)=−wTir^+log(∑|V|jexp(wTjr^))CE(w,w^)=−wiTr^+log(∑j|V|exp(wjTr^))CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r})) ∂CE∂r^=−wi+1∑|V|jexp(wTjr^)∑|V|jexp(wTjr^)wj∂CE∂r^=−wi+1∑j|V|exp(wjTr^)∑j|V|exp(wjTr^)wj\frac{\partial{CE}}{\partial{\hat{r}}} …

2
ถังคืออะไร?
ฉันได้ไปรอบ ๆ เพื่อหาคำอธิบายที่ชัดเจนของ "การถัง" ในการเรียนรู้ของเครื่องโดยไม่มีโชค สิ่งที่ฉันเข้าใจจนถึงตอนนี้ก็คือการสร้างถังข้อมูลนั้นมีความคล้ายคลึงกับปริมาณในการประมวลผลสัญญาณดิจิตอลโดยที่ช่วงของค่าต่อเนื่องจะถูกแทนที่ด้วยค่าที่ไม่ต่อเนื่องหนึ่งค่า ถูกต้องหรือไม่ อะไรคือข้อดีและข้อเสีย (นอกเหนือจากผลกระทบที่ชัดเจนของการสูญเสียข้อมูล) ของการใช้งานถังข้อมูล? มีกฎของหัวแม่มือเกี่ยวกับวิธีการใช้ถัง? มีแนวทาง / อัลกอริธึมสำหรับการใช้การทำให้เป็นถังก่อนการใช้การเรียนรู้ของเครื่องหรือไม่?

2
การตรวจสอบความถูกต้องข้ามแบบซ้อน - แตกต่างจากการเลือกรุ่นผ่าน kfold CV ในชุดฝึกอบรมอย่างไร
ฉันมักจะเห็นคนพูดเกี่ยวกับการตรวจสอบ 5x2 ข้ามเป็นกรณีพิเศษของการตรวจสอบข้ามซ้อนกัน ฉันถือว่าตัวเลขแรก (ที่นี่: 5) หมายถึงจำนวนเท่าในวงด้านในและหมายเลขที่สอง (ที่นี่: 2) หมายถึงจำนวนเท่าในวงด้านนอก? ดังนั้นวิธีนี้แตกต่างจากการเลือกรูปแบบและการประเมินผลแบบ "ดั้งเดิม" อย่างไร โดย "ดั้งเดิม" ฉันหมายถึง แบ่งชุดข้อมูลออกเป็นการฝึกอบรมแยกต่างหาก (เช่น 80%) และชุดทดสอบ ใช้การตรวจสอบความถูกต้องไขว้ของ k-fold (เช่น k = 10) สำหรับการปรับจูนพารามิเตอร์และการเลือกแบบจำลองในชุดฝึกอบรม ประเมินประสิทธิภาพการวางนัยทั่วไปของรุ่นที่เลือกโดยใช้ชุดการทดสอบ ไม่ใช่ 5x2 เหมือนกันทุกประการยกเว้นชุดทดสอบและชุดฝึกอบรมที่มีขนาดเท่ากันถ้า k = 2 หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.