คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

3
อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?
อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ

4
การ oversampling, undersampling และ SMOTE มีปัญหาอะไรบ้าง
ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว [... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!

2
Bag-of-Words สำหรับการจำแนกข้อความ: ทำไมไม่เพียงแค่ใช้ความถี่ของคำแทน TFIDF
วิธีการทั่วไปในการจัดประเภทข้อความคือการฝึกอบรมลักษณนามจาก 'คำพูด' ผู้ใช้ใช้ข้อความที่จะจัดประเภทและนับความถี่ของคำในแต่ละวัตถุตามด้วยการเรียงลำดับของการตัดแต่งบางอย่างเพื่อให้เมทริกซ์ที่เกิดจากขนาดที่จัดการได้ บ่อยครั้งที่ฉันเห็นผู้ใช้สร้างเวกเตอร์คุณลักษณะของพวกเขาโดยใช้ TFIDF กล่าวอีกนัยหนึ่งความถี่ของข้อความที่ระบุไว้ข้างต้นนั้นมีน้ำหนักลดลงตามความถี่ของคำในคลังข้อมูล ฉันเห็นว่าทำไม TFIDF ถึงมีประโยชน์ในการเลือกคำที่ 'โดดเด่นที่สุด' ของเอกสารที่กำหนดให้พูดแสดงกับนักวิเคราะห์ของมนุษย์ แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่? ฉันขอขอบคุณสำหรับความคิดของคุณเกี่ยวกับคุณค่าที่ IDF เพิ่มถ้ามี

1
น่าจะเป็นสิ่งที่จุดสุ่มขนาดเส้นตรงแยกกันไม่ออก?
ได้รับจุดข้อมูลแต่ละคนมีคุณสมบัติมีการระบุว่าเป็น , อื่น ๆมีการระบุว่าเป็น1แต่ละคุณสมบัติใช้ค่าตั้งแต่แบบสุ่ม (การกระจายแบบสม่ำเสมอ) ความน่าจะเป็นที่มีไฮเปอร์เพลนที่สามารถแบ่งสองคลาสได้อย่างไรd n / 2 0 n / 2 1 [ 0 , 1 ]nnndddn / 2n/2n/2000n / 2n/2n/2111[ 0 , 1 ][0,1][0,1] ลองพิจารณากรณีที่ง่ายที่สุดในครั้งแรกคือ1d= 1d=1d = 1

3
การตรวจสอบข้ามระบบหรือการบูตสแตรปเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
วิธีการสุ่มตัวอย่างที่เหมาะสมที่สุดในการประเมินประสิทธิภาพของตัวจําแนกในชุดข้อมูลเฉพาะและเปรียบเทียบกับตัวจําแนกอื่น ๆ คืออะไร? การตรวจสอบความถูกต้องไขว้นั้นดูเหมือนจะเป็นแบบมาตรฐาน แต่ฉันได้อ่านวิธีการเช่น. 632 bootstrap เป็นตัวเลือกที่ดีกว่า การติดตามผล: การเลือกตัวชี้วัดประสิทธิภาพส่งผลกระทบต่อคำตอบหรือไม่ (ถ้าฉันใช้ AUC แทนความแม่นยำ) เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ

2
ต้องมีชุดฝึกอบรมขนาดใหญ่เท่าใด
มีวิธีการทั่วไปที่ใช้ในการกำหนดจำนวนตัวอย่างการฝึกอบรมที่จำเป็นในการฝึกอบรมลักษณนาม (LDA ในกรณีนี้) หรือไม่ ฉันถามเพราะฉันต้องการลดเวลาในการสอบเทียบให้น้อยที่สุดตามปกติในอินเทอร์เฟซของคอมพิวเตอร์สมอง

2
อะไรคือความแตกต่างระหว่างฟังก์ชั่นการสูญเสียและฟังก์ชั่นการตัดสินใจ?
ฉันเห็นว่าทั้งสองฟังก์ชั่นเป็นส่วนหนึ่งของวิธีการขุดข้อมูลเช่นตัวเร่งการเลื่อนสีไล่ระดับสี ฉันเห็นว่ามันเป็นวัตถุแยกกันเช่นกัน ความสัมพันธ์ระหว่างทั้งสองเป็นอย่างไร

2
จะจัดการกับความแตกต่างระหว่างการกระจายตัวของชุดทดสอบและชุดฝึกอบรมอย่างไร?
ฉันคิดว่าสมมติฐานพื้นฐานหนึ่งของการเรียนรู้ของเครื่องหรือการประมาณค่าพารามิเตอร์คือข้อมูลที่มองไม่เห็นมาจากการแจกแจงแบบเดียวกับชุดการฝึกอบรม อย่างไรก็ตามในบางกรณีการกระจายชุดทดสอบเกือบจะแตกต่างจากชุดฝึกอบรม พูดสำหรับปัญหาการจัดหมวดหมู่หลากหลายขนาดใหญ่ที่พยายามแบ่งคำอธิบายผลิตภัณฑ์ออกเป็นประมาณ 17,000 คลาส ชุดการฝึกอบรมจะมีนักบวชชั้นสูงอย่างมากบางชั้นอาจมีตัวอย่างการฝึกอบรมมากมาย แต่บางคนอาจมีเพียงไม่กี่คน สมมติว่าเราได้รับชุดทดสอบที่มีเลเบลคลาสที่ไม่รู้จักจากลูกค้า เราพยายามจัดประเภทผลิตภัณฑ์แต่ละชิ้นในชุดทดสอบเป็นหนึ่งใน 17,000 คลาสโดยใช้ตัวจําแนกที่ฝึกในชุดฝึกอบรม ชุดทดสอบอาจมีการแจกแจงแบบเบ้ แต่อาจแตกต่างจากชุดการฝึกอบรมเนื่องจากอาจเกี่ยวข้องกับธุรกิจที่แตกต่างกัน หากการแจกแจงสองระดับแตกต่างกันมากลักษณนามที่ผ่านการฝึกอบรมอาจทำงานได้ไม่ดีในชุดทดสอบ เรื่องนี้ดูเหมือนชัดเจนโดยเฉพาะกับตัวจําแนก Naive Bayes มีวิธีใดที่สามารถจัดการความแตกต่างระหว่างชุดการฝึกอบรมและชุดทดสอบที่กำหนดสำหรับตัวแยกประเภทความน่าจะเป็นหรือไม่ ฉันได้ยินเกี่ยวกับการที่ "transductive SVM" ทำสิ่งที่คล้ายกันใน SVM มีเทคนิคที่คล้ายกันในการเรียนรู้ลักษณนามที่มีประสิทธิภาพดีที่สุดในชุดการทดสอบที่กำหนดหรือไม่? จากนั้นเราสามารถฝึกตัวจําแนกใหม่สําหรับชุดการทดสอบที่แตกต่างกันตามที่ได้รับอนุญาตในสถานการณ์จริงนี้

3
การแสดงภาพการสอบเทียบความน่าจะเป็นที่คาดการณ์ของแบบจำลอง
สมมติว่าฉันมีรูปแบบการทำนายที่สร้างความน่าจะเป็นสำหรับแต่ละคลาส ตอนนี้ฉันรู้แล้วว่ามีหลายวิธีในการประเมินโมเดลดังกล่าวหากฉันต้องการใช้ความน่าจะเป็นเหล่านั้นสำหรับการจัดหมวดหมู่ (ความแม่นยำการเรียกคืนและอื่น ๆ ) ฉันยังจำได้ว่าเส้นโค้ง ROC และพื้นที่ใต้นั้นสามารถใช้เพื่อกำหนดว่าแบบจำลองแตกต่างกันอย่างไรระหว่างคลาส นั่นไม่ใช่สิ่งที่ฉันถาม ฉันสนใจที่จะประเมินการสอบเทียบโมเดล ฉันรู้ว่ากฎการให้คะแนนเช่นคะแนน Brierจะมีประโยชน์สำหรับงานนี้ ไม่เป็นไรและฉันจะรวมบางสิ่งบางอย่างไว้ในบรรทัดเหล่านั้น แต่ฉันไม่แน่ใจว่าการวัดที่ใช้งานง่ายเช่นนี้จะใช้กับบุคคลทั่วไปได้อย่างไร ฉันกำลังมองหาบางสิ่งที่มองเห็นได้ชัดเจนขึ้น ฉันต้องการให้บุคคลตีความผลลัพธ์เพื่อให้สามารถเห็นว่าแบบจำลองทำนายบางสิ่งบางอย่าง 70% มีแนวโน้มที่จะเกิดขึ้นจริงหรือไม่ว่าจะเกิดขึ้นจริง ~ 70% ของเวลาเป็นต้น ฉันได้ยินเรื่องแผนการ QQ (แต่ไม่เคยใช้) และในตอนแรกฉันคิดว่านี่คือสิ่งที่ฉันกำลังมองหา แต่ก็ดูเหมือนว่ามีความหมายจริงๆสำหรับการเปรียบเทียบสองการแจกแจงความน่าจะเป็น นั่นไม่ใช่สิ่งที่ฉันมี ฉันมีความน่าจะเป็นที่คาดการณ์ของฉันจากหลาย ๆ กรณีและไม่ว่าจะเกิดขึ้นจริงหรือไม่: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... พล็อต …

5
ทางเลือกอื่นสำหรับต้นไม้ที่มีการจำแนกที่ดีกว่า (เช่น: CV)
ฉันกำลังมองหาทางเลือกในการจำแนกต้นไม้ซึ่งอาจให้พลังการทำนายที่ดีกว่า ข้อมูลที่ฉันจัดการมีปัจจัยสำหรับทั้งคำอธิบายและตัวแปรอธิบาย ฉันจำได้ว่าเคยเจอป่าสุ่มและเครือข่ายประสาทเทียมในบริบทนี้แม้ว่าจะไม่เคยลองมาก่อนมีผู้สมัครที่ดีอีกคนหนึ่งสำหรับงานสร้างแบบจำลอง (เช่นใน R หรือไม่)

6
ทดสอบความแม่นยำสูงกว่าการฝึก จะตีความอย่างไร
ฉันมีชุดข้อมูลที่มีตัวอย่างไม่เกิน 150 รายการ (แบ่งเป็นการฝึกอบรม & ทดสอบ) พร้อมคุณสมบัติมากมาย (สูงกว่า 1,000) ฉันต้องเปรียบเทียบตัวแยกประเภทและวิธีการเลือกคุณสมบัติที่ทำงานได้ดีกับข้อมูล ดังนั้นฉันใช้วิธีการจำแนกสามประเภท (J48, NB, SVM) และ 2 วิธีการเลือกคุณสมบัติ (CFS, WrapperSubset) ด้วยวิธีการค้นหาที่แตกต่างกัน (Greedy, BestFirst) ในขณะที่การเปรียบเทียบฉันกำลังดูความแม่นยำในการฝึกอบรม (5-fold cross-fold) และความแม่นยำในการทดสอบ นี่คือหนึ่งในผลลัพธ์ของ J48 และ CFS-BestFirst: {"ความแม่นยำการฝึกอบรม": 95.83, "ความแม่นยำการทดสอบ": 98.21} ผลลัพธ์จำนวนมากเป็นเช่นนี้และใน SVM มีผลลัพธ์หลายอย่างที่ระบุว่าความแม่นยำในการทดสอบนั้นสูงกว่าการฝึกอบรมมาก (การฝึกอบรม: 60% การทดสอบ: 98%) ฉันจะตีความผลลัพธ์เหล่านี้อย่างมีความหมายได้อย่างไร ถ้ามันต่ำกว่านี้ฉันจะบอกว่ามันเกินกำลัง มีบางอย่างที่จะพูดเกี่ยวกับอคติและความแปรปรวนในกรณีนี้โดยดูผลลัพธ์ทั้งหมดหรือไม่ ฉันจะทำอย่างไรเพื่อให้การจำแนกประเภทนี้มีความหมายเช่นการเลือกชุดฝึกอบรมและชุดทดสอบอีกครั้งหรือเพียงแค่ใช้การตรวจสอบความถูกต้องของข้อมูลทั้งหมด ฉันมีการฝึกอบรม 73 & 58 กรณีทดสอบ …

4
เหตุใดนักวิจัยจึงใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าแทนที่จะทดสอบกับชุดการตรวจสอบ
ฉันได้อ่านรายงานวิจัยจำนวนมากเกี่ยวกับการจำแนกความเชื่อมั่นและหัวข้อที่เกี่ยวข้อง ส่วนใหญ่ใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าเพื่อฝึกฝนและทดสอบตัวจําแนก นั่นหมายความว่าจะไม่ทำการทดสอบ / ตรวจสอบแยกต่างหาก ทำไมถึงเป็นอย่างนั้น? อะไรคือข้อดี / ข้อเสียของวิธีการนี้โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ทำวิจัย?

1
การเลือกกฎการให้คะแนนที่เหมาะสม
ทรัพยากรส่วนใหญ่เกี่ยวกับกฎการให้คะแนนที่เหมาะสมพูดถึงจำนวนของกฎการให้คะแนนที่แตกต่างกันเช่นการสูญเสียบันทึกคะแนน Brier หรือการให้คะแนนทรงกลม อย่างไรก็ตามพวกเขามักไม่ค่อยให้คำแนะนำเกี่ยวกับความแตกต่างระหว่างพวกเขามากนัก (จัดแสดง A: Wikipedia ) การเลือกแบบจำลองที่เพิ่มคะแนนลอการิทึมให้สอดคล้องกับการเลือกแบบจำลองความน่าจะเป็นสูงสุดซึ่งดูเหมือนจะเป็นข้อโต้แย้งที่ดีสำหรับการใช้การให้คะแนนแบบลอการิทึม มีเหตุผลที่คล้ายกันสำหรับการให้คะแนน Brier หรือทรงกลมหรือกฎการให้คะแนนอื่น ๆ ? ทำไมบางคนถึงใช้หนึ่งในคะแนนมากกว่าลอการิทึม?

2
เครื่อง Boltzmann ที่ถูก จำกัด เทียบกับเครือข่ายประสาทหลายชั้น
ฉันต้องการทดลองกับเครือข่ายประสาทเทียมสำหรับปัญหาการจำแนกประเภทที่ฉันกำลังเผชิญอยู่ ฉันพบเอกสารที่พูดถึง RBM แต่จากสิ่งที่ฉันเข้าใจได้พวกเขาไม่ต่างจากการมีเครือข่ายประสาทหลายชั้น ถูกต้องหรือไม่ ยิ่งไปกว่านั้นฉันทำงานกับ R และฉันไม่เห็นแพ็คเกจใด ๆ สำหรับ RBM ฉันพบเจอวรรณกรรมที่พูดถึงเครือข่ายการเรียนรู้ลึกซึ่งมี RBM แบบเรียงซ้อนโดยทั่วไป แต่ไม่แน่ใจว่ามันคุ้มค่ากับความพยายามที่จะนำไปใช้ในอาร์หรือเปล่าใครจะมีพอยน์เตอร์ได้บ้าง? ขอบคุณ

3
การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?
คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร? มีลิงค์มากมายที่พูดถึง: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf ฯลฯ ...

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.