วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
โมเดลฐานข้อมูลที่มีประสิทธิภาพสำหรับการจัดเก็บข้อมูลที่จัดทำดัชนีโดย n-grams
ฉันกำลังทำงานกับแอปพลิเคชันที่ต้องสร้างฐานข้อมูลขนาดใหญ่มากซึ่งมีอยู่ในคลังข้อความขนาดใหญ่ ฉันต้องการประเภทการดำเนินงานที่มีประสิทธิภาพสามประเภท: การค้นหาและการแทรกดัชนีที่จัดทำโดย n-gram เองและทำการค้นหา n-g ทั้งหมดที่มี sub-n-gram สิ่งนี้ฟังดูเหมือนว่าฐานข้อมูลควรเป็นแผนผังเอกสารขนาดใหญ่และฐานข้อมูลเอกสารเช่น Mongo ควรจะสามารถทำงานได้ดี แต่ฉันไม่เคยใช้มันในระดับใด รู้รูปแบบคำถามของ Exchange Exchange ฉันต้องการชี้แจงว่าฉันไม่ได้ขอคำแนะนำเกี่ยวกับเทคโนโลยีเฉพาะ แต่ควรเป็นฐานข้อมูลประเภทหนึ่งที่ฉันควรมองหาเพื่อนำไปใช้ในระดับนี้
12 nlp  databases 

3
การทำนายเงื่อนไขทางการแพทย์ต่อไปจากเงื่อนไขที่ผ่านมาในข้อมูลการเรียกร้อง
ฉันกำลังทำงานกับข้อมูลการเคลมประกันสุขภาพจำนวนมากซึ่งรวมถึงการอ้างสิทธิ์ในห้องปฏิบัติการและร้านขายยา อย่างไรก็ตามข้อมูลที่สอดคล้องกันมากที่สุดในชุดข้อมูลประกอบด้วยการวินิจฉัย (ICD-9CM) และรหัสขั้นตอน (CPT, HCSPCS, ICD-9CM) เป้าหมายของฉันคือ: ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง ระบุโอกาส (หรือความน่าจะเป็น) ที่ผู้ป่วยจะพัฒนาเงื่อนไขทางการแพทย์ตามเงื่อนไขที่เคยมีในอดีต ทำเช่นเดียวกับ 1 และ 2 แต่มีขั้นตอนและ / หรือการวินิจฉัย โดยเฉพาะอย่างยิ่งผลลัพธ์จะถูกตีความโดยแพทย์ ฉันได้ดูสิ่งต่าง ๆ เช่นเอกสารไมล์สโตนเฮอริเทจและได้เรียนรู้อะไรมากมายจากพวกเขา แต่พวกเขามุ่งเน้นไปที่การทำนายการรักษาในโรงพยาบาล ดังนั้นนี่คือคำถามของฉัน: วิธีใดที่คุณคิดว่าทำงานได้ดีสำหรับปัญหาเช่นนี้ และทรัพยากรใดจะมีประโยชน์มากที่สุดสำหรับการเรียนรู้เกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลและวิธีการที่เกี่ยวข้องกับการดูแลสุขภาพและการแพทย์คลินิก แก้ไข # 2 เพื่อเพิ่มตารางธรรมดา: CKD เป็นเงื่อนไขเป้าหมาย "โรคไตเรื้อรัง", ".any" แสดงว่าพวกเขาได้รับเงื่อนไขดังกล่าวได้ตลอดเวลา ". isbefore.ckd" หมายความว่าพวกเขามีอาการนั้นก่อนการวินิจฉัยโรค CKD ครั้งแรก ตัวย่ออื่น ๆ สอดคล้องกับเงื่อนไขอื่น ๆ ที่ระบุโดยการจัดกลุ่มรหัส ICD-9CM การจัดกลุ่มนี้เกิดขึ้นใน …

3
การวัดประสิทธิภาพของตัวแยกประเภทที่แตกต่างกันด้วยขนาดตัวอย่างที่แตกต่าง
ขณะนี้ฉันใช้ตัวแยกประเภทที่แตกต่างกันหลายรายการในเอนทิตีต่าง ๆ ที่ดึงมาจากข้อความและใช้ความแม่นยำ / การเรียกคืนเพื่อสรุปว่าตัวแยกประเภทแต่ละตัวนั้นทำงานได้ดีเพียงใดในชุดข้อมูลที่กำหนด ฉันสงสัยว่ามีวิธีที่มีความหมายในการเปรียบเทียบประสิทธิภาพของตัวแยกประเภทเหล่านี้ในลักษณะที่คล้ายกัน แต่ยังคำนึงถึงจำนวนรวมของแต่ละเอนทิตีในข้อมูลทดสอบที่ถูกจัดประเภทหรือไม่ ขณะนี้ฉันกำลังใช้ความแม่นยำ / การเรียกคืนเป็นตัวชี้วัดประสิทธิภาพดังนั้นอาจมีสิ่งต่อไปนี้: Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% อย่างไรก็ตามชุดข้อมูลที่ฉันใช้งานอาจมีคน 100k บริษัท 5k ชีส 500 ตัวและไข่ 1 ฟอง ดังนั้นมีสถิติสรุปที่ฉันสามารถเพิ่มลงในตารางด้านบนซึ่งคำนึงถึงจำนวนทั้งหมดของแต่ละรายการด้วยหรือไม่ หรือมีวิธีการวัดความจริงที่ว่าเช่น 100% prec / rec บนลักษณนามไข่อาจไม่มีความหมายกับรายการข้อมูลเพียง 1 รายการ? สมมติว่าเรามีตัวแยกประเภทหลายร้อยตัวฉันคิดว่าฉันกำลังมองหาวิธีที่ดีในการตอบคำถามเช่น "ตัวแยกประเภทใดที่มีประสิทธิภาพต่ำกว่า" ตัวแยกประเภทใดที่ขาดข้อมูลทดสอบเพียงพอที่จะบอกได้ว่าพวกมันมีประสิทธิภาพต่ำกว่าหรือไม่ "

1
ความแตกต่างระหว่างวิธีการบีบอัดข้อมูลทั่วโลกและสากลคืออะไร?
ฉันเข้าใจว่าวิธีการบีบอัดอาจแบ่งออกเป็นสองชุดหลัก: ทั่วโลก ในประเทศ ชุดแรกทำงานโดยไม่คำนึงถึงข้อมูลที่กำลังประมวลผลกล่าวคือพวกมันไม่ได้อาศัยคุณสมบัติใด ๆ ของข้อมูลจึงไม่จำเป็นต้องทำการประมวลผลล่วงหน้าในส่วนใด ๆ ของชุดข้อมูล (ก่อนการบีบอัดเอง) ในขณะที่วิธีการในท้องถิ่นวิเคราะห์ข้อมูลการแยกข้อมูลที่มักจะปรับปรุงอัตราการบีบอัด ในขณะที่อ่านเกี่ยวกับวิธีการเหล่านี้บางอย่างฉันสังเกตเห็นว่าวิธีการที่ไม่เป็นเอกเทศนั้นไม่เป็นสากลซึ่งทำให้ฉันประหลาดใจเนื่องจากฉันคิดว่า วิธีเอกภาพไม่ได้ขึ้นอยู่กับลักษณะของข้อมูลเพื่อให้เกิดการเข้ารหัส (เช่นเป็นวิธีสากล) และดังนั้นจึงควรเป็นสากล / สากลใช่ไหม? คำถามหลักของฉัน: ความแตกต่างระหว่างวิธีสากลและสากลคืออะไร? คำพ้องความหมายของการจำแนกประเภทเหล่านี้ไม่ใช่

2
อัลกอริทึมการจับคู่การตั้งค่า
มีโครงการด้านนี้ที่ฉันกำลังทำงานในที่ที่ฉันต้องการจัดโครงสร้างวิธีแก้ไขปัญหาต่อไปนี้ ฉันมีคนสองกลุ่ม (ลูกค้า) กลุ่มAตั้งใจที่จะซื้อและกลุ่มตั้งใจที่จะขายสินค้าที่มีความมุ่งมั่นB Xผลิตภัณฑ์มีชุดของคุณลักษณะx_iและวัตถุประสงค์ของฉันคือเพื่ออำนวยความสะดวกในการทำธุรกรรมระหว่างAและBโดยการจับคู่การตั้งค่าของพวกเขา แนวคิดหลักคือการชี้ให้สมาชิกแต่ละคนของAผลิตภัณฑ์ที่ตรงBกับความต้องการของเขาและในทางกลับกัน ปัญหาที่ซับซ้อนบางประการของปัญหา: รายการคุณลักษณะไม่ จำกัด ผู้ซื้ออาจสนใจในลักษณะเฉพาะหรือการออกแบบบางอย่างซึ่งหาได้ยากในหมู่ประชากรและฉันไม่สามารถคาดเดาได้ ก่อนหน้านี้ไม่สามารถแสดงรายการคุณลักษณะทั้งหมด แอตทริบิวต์อาจเป็นแบบต่อเนื่องแบบไบนารีหรือไม่สามารถวัดได้ (เช่นราคาฟังก์ชันการทำงานการออกแบบ); ข้อเสนอแนะใด ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้และแก้ปัญหาด้วยวิธีอัตโนมัติ? ฉันจะขอบคุณอ้างอิงบางอย่างเกี่ยวกับปัญหาที่คล้ายกันอื่น ๆ ถ้าเป็นไปได้ คำแนะนำยอดเยี่ยม! ความคล้ายคลึงกันหลายอย่างในวิธีที่ฉันคิดว่าจะเข้าใกล้ปัญหา ประเด็นหลักในการทำแผนที่คุณลักษณะคือระดับของรายละเอียดที่ควรอธิบายผลิตภัณฑ์ขึ้นอยู่กับผู้ซื้อแต่ละราย ลองยกตัวอย่างรถยนต์ ผลิตภัณฑ์“ รถยนต์” มีคุณสมบัติมากมายตั้งแต่ประสิทธิภาพการทำงานโครงสร้างเครื่องจักรกลราคาและอื่น ๆ สมมติว่าฉันต้องการรถราคาถูกหรือรถยนต์ไฟฟ้า ตกลงนั่นเป็นเรื่องง่ายที่จะทำแผนที่เพราะมันเป็นคุณสมบัติหลักของผลิตภัณฑ์นี้ แต่ตัวอย่างเช่นฉันต้องการรถที่มีระบบส่งกำลังแบบ Dual-Clutch หรือไฟหน้าซีนอน อาจมีรถยนต์จำนวนมากในฐานข้อมูลที่มีคุณลักษณะนี้ แต่ฉันจะไม่ขอให้ผู้ขายกรอกรายละเอียดในระดับนี้ลงในผลิตภัณฑ์ของพวกเขาก่อนข้อมูลที่มีคนมองอยู่ ขั้นตอนดังกล่าวจะกำหนดให้ผู้ขายทุกรายกรอกแบบฟอร์มที่มีความซับซ้อนและละเอียดมากเพียงพยายามขายรถของเขาบนแพลตฟอร์ม แค่จะไม่ทำงาน แต่ถึงกระนั้นความท้าทายของฉันคือการพยายามให้รายละเอียดเท่าที่จำเป็นในการค้นหาเพื่อให้ตรงกับที่ดี วิธีที่ฉันคิดคือการทำแผนที่ประเด็นสำคัญของผลิตภัณฑ์ซึ่งอาจเกี่ยวข้องกับทุกคนเพื่อ จำกัด กลุ่มผู้ขายที่มีศักยภาพ ขั้นตอนต่อไปจะเป็น "การค้นหาที่ละเอียดอ่อน" เพื่อหลีกเลี่ยงการสร้างแบบฟอร์มที่มีรายละเอียดมากเกินไปฉันอาจขอให้ผู้ซื้อและผู้ขายเขียนข้อความฟรีของข้อกำหนดของพวกเขา จากนั้นใช้อัลกอริทึมการจับคู่คำเพื่อค้นหาการจับคู่ที่เป็นไปได้ แม้ว่าฉันเข้าใจว่านี่ไม่ใช่วิธีแก้ปัญหาที่เหมาะสมเนื่องจากผู้ขายไม่สามารถ“ เดา” สิ่งที่ผู้ซื้อต้องการได้ แต่อาจทำให้ฉันเข้าใกล้ เกณฑ์การถ่วงน้ำหนักที่แนะนำนั้นยอดเยี่ยม มันช่วยให้ฉันสามารถวัดระดับที่ผู้ขายตรงกับความต้องการของผู้ซื้อ …

3
Amazon RedShift แทนที่ Hadoop สำหรับข้อมูล ~ 1XTB หรือไม่
มี hype มากมายรอบ ๆ Hadoop และระบบนิเวศ อย่างไรก็ตามในทางปฏิบัติที่ชุดข้อมูลจำนวนมากอยู่ในช่วงเทราไบต์ไม่เหมาะสมที่จะใช้Amazon RedShiftสำหรับการสืบค้นชุดข้อมูลขนาดใหญ่แทนที่จะใช้เวลาและความพยายามในการสร้างคลัสเตอร์ Hadoop หรือไม่ นอกจากนี้ Amazon Redshift เปรียบเทียบกับ Hadoop อย่างไรเกี่ยวกับความซับซ้อนในการตั้งค่าต้นทุนและประสิทธิภาพ

9
แอปพลิเคชันการเรียนรู้ด้วยเครื่องมีอะไรบ้าง [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา โดยทั่วไปการเรียนรู้ด้วยเครื่องจักรโดยทั่วไปฉันต้องการเริ่มเล่นและดูว่ามีความเป็นไปได้อย่างไร ฉันอยากรู้ว่าแอปพลิเคชันใดที่คุณอาจแนะนำว่าจะให้เวลาเร็วที่สุดจากการติดตั้งไปจนถึงการสร้างผลลัพธ์ที่มีความหมาย นอกจากนี้คำแนะนำใด ๆ สำหรับวัสดุเริ่มต้นที่ดีในเรื่องของการเรียนรู้ด้วยเครื่องโดยทั่วไปจะได้รับการชื่นชม

2
การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)
ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

3
อินสแตนซ์กับคอร์เมื่อใช้ EC2
ทำงานกับสิ่งที่มักเรียกว่าโครงการ "ข้อมูลขนาดกลาง" ฉันสามารถทำให้ขนานรหัสของฉัน (ส่วนใหญ่สำหรับการสร้างแบบจำลองและการทำนายใน Python) ในระบบเดียวจาก 4 ถึง 32 แกน ตอนนี้ฉันกำลังมองหาการปรับขนาดของกลุ่มบน EC2 (อาจเป็นกับ StarCluster / IPython แต่เปิดให้มีคำแนะนำอื่น ๆ เช่นกัน) และได้รับการงงงวยโดยวิธีการกระทบยอดการกระจายงานข้ามแกนในกรณีเทียบกับอินสแตนซ์ในคลัสเตอร์ มันยังใช้งานได้จริงในการขนานระหว่างอินสแตนซ์และข้ามคอร์ในแต่ละอินสแตนซ์หรือไม่? ถ้าเป็นเช่นนั้นทุกคนสามารถให้ข้อดีข้อเสียอย่างรวดเร็วของการเรียกใช้อินสแตนซ์จำนวนมากที่มีคอร์ไม่กี่คอร์แต่ละตัวเทียบกับคอร์ที่มีหลายคอร์ได้หรือไม่ มีกฎง่ายๆในการเลือกอัตราส่วนที่ถูกต้องของอินสแตนซ์ต่อคอร์ต่ออินสแตนซ์หรือไม่? แบนด์วิดท์และแรมเป็นข้อกังวลเล็กน้อยในโครงการของฉัน แต่มันง่ายที่จะมองเห็นเมื่อสิ่งเหล่านั้นเป็นปัญหาคอขวดและปรับใหม่ ฉันคิดว่าจะยากกว่าในการเปรียบเทียบการผสมผสานแกนที่ถูกต้องกับอินสแตนซ์โดยไม่ต้องทำการทดสอบซ้ำและโครงการของฉันแตกต่างกันมากเกินไปสำหรับการทดสอบใด ๆ ที่จะนำไปใช้กับทุกสถานการณ์ ขอบคุณล่วงหน้าและถ้าฉันเพิ่งจะ google ไม่ถูกต้องอย่าลังเลที่จะชี้ให้ฉันเห็นคำตอบที่ถูกที่อื่น!
12 parallel  clusters  aws 

2
เครือข่ายประสาทเทียมสามารถคำนวณ
ด้วยจิตวิญญาณของเรื่องตลกTensorflow Fizz Buzz ที่มีชื่อเสียงและปัญหา XOrฉันเริ่มคิดว่าถ้าเป็นไปได้ในการออกแบบเครือข่ายประสาทที่ใช้ฟังก์ชัน ?Y= x2y=x2y = x^2 เมื่อพิจารณาถึงการแสดงตัวเลข (เช่นเวกเตอร์ในรูปแบบไบนารี่เพื่อให้ตัวเลข5นั้นแทน[1,0,1,0,0,0,0,...]) เครือข่ายประสาทควรเรียนรู้ที่จะคืนค่าสแควร์ - 25 ในกรณีนี้ หากฉันสามารถใช้ได้ฉันอาจใช้และโดยทั่วไปชื่อพหุนามของ x แล้วกับชุดอนุกรมฉันสามารถประมาณซึ่งจะแก้ปัญหา Fizz Buzz - เครือข่ายประสาทที่สามารถหาส่วนที่เหลือของY= x2y=x2y=x^2Y= x3y=x3y=x^3Y= บาป( x )y=sin⁡(x)y=\sin(x) เห็นได้ชัดว่าส่วนเชิงเส้นตรงของ NN จะไม่สามารถทำงานนี้ได้ดังนั้นหากเราสามารถคูณมันจะเกิดขึ้นด้วยฟังก์ชั่นการเปิดใช้งาน คุณสามารถแนะนำไอเดียหรืออ่านเรื่องใดได้บ้าง?

3
มีกฎง่ายๆสำหรับการออกแบบโครงข่ายประสาทเทียมหรือไม่?
ฉันรู้ว่าสถาปัตยกรรมเครือข่ายประสาทส่วนใหญ่ขึ้นอยู่กับปัญหาของตัวเองและประเภทของอินพุต / เอาต์พุต แต่ก็ยังมี "ตารางหนึ่ง" เสมอเมื่อเริ่มต้นสร้าง ดังนั้นคำถามของฉันคือ - รับชุดข้อมูลอินพุตของMxN (M คือจำนวนเรคคอร์ด, N คือจำนวนของคุณสมบัติ) และคลาสเอาต์พุตที่เป็นไปได้ของ C - มีกฎง่ายๆเกี่ยวกับจำนวนเลเยอร์ / หน่วยที่เราควรเริ่มต้นด้วย?

1
ความสำคัญของคุณลักษณะที่มีคุณลักษณะหมวดหมู่ที่มีความสำคัญสูงสำหรับการถดถอย (ตัวแปร depdendent ที่เป็นตัวเลข)
ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่? เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit

1
เหตุผลในการถ่ายภาพสี่เหลี่ยมในการเรียนรู้อย่างลึกซึ้ง
ส่วนใหญ่ของโมเดลการเรียนรู้ลึกขั้นสูงเช่น VGG, RESNET ฯลฯ จำเป็นต้องมีภาพตารางเป็น input มักจะมีขนาดของพิกเซล224x224224x224224x224224x224 มีเหตุผลที่อินพุตจะต้องมีรูปร่างเท่ากันหรือฉันสามารถสร้างแบบจำลอง convnet ด้วยการพูดเช่นกัน (ถ้าฉันต้องการจดจำใบหน้าและตัวอย่างเช่นฉันมีภาพบุคคล)?100x200100x200100x200 มีประโยชน์เพิ่มขึ้นด้วยขนาดพิกเซลที่ใหญ่ขึ้นพูด ?512x512512x512512x512

4
จะรู้ได้อย่างไรว่าตัวแบบเริ่มขึ้นแล้ว?
ฉันหวังว่าข้อความที่ตัดตอนมาต่อไปนี้จะให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่คำถามของฉันจะเป็น เหล่านี้มาจากhttp://neuralnetworksanddeeplearning.com/chap3.html การเรียนรู้จะค่อยๆช้าลง ในที่สุดเมื่อประมาณ 280 ยุคความแม่นยำในการจัดหมวดหมู่ก็ค่อนข้างดีขึ้น หลังจากนั้นก็เห็นความผันผวนเล็ก ๆ ใกล้เคียงกับค่าความถูกต้องที่ยุค 280 ตัดกันสิ่งนี้กับกราฟก่อนหน้าซึ่งค่าใช้จ่ายที่เกี่ยวข้องกับข้อมูลการฝึกอบรมยังคงลดลงอย่างราบรื่น หากเราเพียงแค่ดูค่าใช้จ่ายนั้นปรากฏว่าโมเดลของเรายังคง "ดีขึ้น" แต่ผลการทดสอบความแม่นยำแสดงว่าการปรับปรุงเป็นภาพลวงตา เช่นเดียวกับรุ่นที่ Fermi ไม่ชอบสิ่งที่เครือข่ายของเราเรียนรู้หลังจากยุค 280 ไม่ได้สรุปข้อมูลการทดสอบอีกต่อไป ดังนั้นการเรียนรู้จึงไม่มีประโยชน์ เราบอกว่าเครือข่ายกำลัง overfitting หรือ overtraining เกินยุค 280 เรากำลังฝึกอบรมเครือข่ายประสาทและค่าใช้จ่าย (จากข้อมูลการฝึกอบรม) ลดลงจนถึงยุค 400 แต่ความถูกต้องของการจัดหมวดหมู่กลายเป็นแบบคงที่ (ยกเว้นความผันผวนสุ่มเล็กน้อย) หลังจากยุค 280 ดังนั้นเราจึงสรุปได้ว่า เราสามารถเห็นได้ว่าค่าใช้จ่ายในข้อมูลการทดสอบเพิ่มขึ้นจนถึงราว ๆ ยุค 15 แต่หลังจากนั้นมันก็เริ่มแย่ลงถึงแม้ว่าค่าใช้จ่ายในข้อมูลการฝึกอบรมจะดีขึ้นเรื่อย ๆ นี่เป็นอีกสัญญาณว่าโมเดลของเรากำลัง overfitting มันเป็นปริศนาที่ว่าเราควรพิจารณายุค 15 หรือยุค 280 ว่าเป็นจุดที่ overfitting กำลังเข้าครอบงำการเรียนรู้หรือไม่ …

2
การสูญเสียการตรวจสอบและความถูกต้องยังคงอยู่
ฉันพยายามที่จะใช้กระดาษนี้ในชุดของภาพทางการแพทย์ ฉันกำลังทำอยู่ใน Keras เครือข่ายประกอบด้วยเลเยอร์ Conv 4 และ max-pool ตามด้วยเลเยอร์ที่เชื่อมต่อเต็มที่และซอฟต์แวร์ลักษณนามสูงสุด เท่าที่ฉันรู้ฉันได้ปฏิบัติตามสถาปัตยกรรมที่กล่าวถึงในกระดาษ อย่างไรก็ตามการสูญเสียการตรวจสอบและความถูกต้องเพียงแค่คงอยู่ตลอด ความแม่นยำดูเหมือนจะถูกแก้ไขที่ ~ 57.5% ความช่วยเหลือใด ๆ ที่ฉันอาจจะผิดพลาดจะได้รับการชื่นชมอย่างมาก รหัสของฉัน: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.