คำถามติดแท็ก accuracy

ความแม่นยำของตัวประมาณคือระดับความใกล้เคียงของค่าประมาณกับมูลค่าที่แท้จริง สำหรับลักษณนามความถูกต้องคือสัดส่วนของการจำแนกประเภทที่ถูกต้อง (การใช้งานครั้งที่สองนี้ไม่ใช่แนวทางปฏิบัติที่ดีโปรดดูที่ tag wiki สำหรับลิงก์ไปยังข้อมูลเพิ่มเติม)

1
ความถูกต้องเป็นกฎการให้คะแนนที่ไม่เหมาะสมในการตั้งค่าการจัดประเภทไบนารีหรือไม่
ฉันเพิ่งเรียนรู้เกี่ยวกับกฎการให้คะแนนที่เหมาะสมสำหรับตัวแยกประเภทความน่าจะเป็น หลายหัวข้อในเว็บไซต์นี้ได้ชี้ให้เห็นว่าความแม่นยำเป็นกฎการให้คะแนนที่ไม่เหมาะสมและไม่ควรใช้ในการประเมินคุณภาพของการทำนายที่สร้างขึ้นโดยตัวแบบความน่าจะเป็นเช่นการถดถอยโลจิสติก อย่างไรก็ตามเอกสารทางวิชาการที่ฉันได้อ่านค่อนข้างน้อยได้ให้การสูญเสียการจำแนกประเภทเป็นตัวอย่างของกฎการให้คะแนนที่เหมาะสม (ไม่เข้มงวด) ในการจำแนกประเภทไบนารี คำอธิบายที่ชัดเจนที่สุดที่ฉันพบได้ในบทความนี้ที่ด้านล่างของหน้า 7 เพื่อความเข้าใจที่ดีที่สุดของฉันการลดการสูญเสียการจำแนกประเภทให้น้อยที่สุดนั้นเทียบเท่ากับการเพิ่มความแม่นยำสูงสุดและสมการในกระดาษทำให้รู้สึกอย่างสังหรณ์ใจ ตัวอย่างเช่น: ใช้สัญกรณ์ของกระดาษถ้าความน่าจะเป็นตามเงื่อนไขที่แท้จริง (จากคุณสมบัติของเวกเตอร์x ) ของระดับความสนใจคือη = 0.7 การคาดการณ์ใด ๆq > 0.5 จะมีการสูญเสียที่คาดหวังR (η | q ) = 0.7 (0) + 0.3 (1) = 0.3 และq 0.5 ใด ๆจะมีการสูญเสียที่คาดหวัง 0.7 ฟังก์ชั่นการสูญเสียจึงจะลดลงที่q = η = 0.7 และเหมาะสมดังนั้น การวางนัยทั่วไปไปยังช่วงทั้งหมดของความน่าจะเป็นตามเงื่อนไขที่แท้จริงและการคาดการณ์ดูเหมือนจะตรงไปตรงมาเพียงพอจากที่นั่น≤≤\leq สมมติว่าการคำนวณและข้อความข้างต้นนั้นถูกต้องข้อเสียของขั้นต่ำที่ไม่ซ้ำกันและการคาดการณ์ทั้งหมดที่สูงกว่า 0.5 การแบ่งปันการสูญเสียขั้นต่ำที่เหมือนกันจะชัดเจน ฉันยังคงเห็นว่าไม่มีเหตุผลที่จะใช้ความแม่นยำมากกว่าทางเลือกแบบดั้งเดิมเช่นคะแนนบันทึกคะแนน Brier ฯลฯ …

2
สัมประสิทธิ์ของลูกเต๋าเหมือนกับความถูกต้องหรือไม่?
ผมเจอค่าสัมประสิทธิ์ลูกเต๋าสำหรับความคล้ายคลึงกันเสียง ( https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient ) และความถูกต้อง ( https://en.wikipedia.org/wiki/Accuracy_and_precision ) สำหรับฉันแล้วดูเหมือนว่ามาตรการทั้งสองนี้เหมือนกัน ความคิดใด ๆ

3
แบบจำลองของฉันดีหรือไม่ขึ้นอยู่กับค่าการวินิจฉัยของเมตริก (
ฉันติดตั้งโมเดลของฉันแล้วและพยายามเข้าใจว่ามันดีหรือไม่ ฉันได้คำนวณตัวชี้วัดที่แนะนำเพื่อประเมิน ( ข้อผิดพลาด / AUC / ความถูกต้อง / การคาดการณ์ / ฯลฯ ) แต่ไม่ทราบว่าจะตีความได้อย่างไร ในระยะสั้นฉันจะบอกได้อย่างไรว่าแบบจำลองของฉันดีตามเมตริกหรือไม่ เป็น 0.6 (ตัวอย่าง) เพียงพอที่จะแจ้งให้เราดำเนินการวาดข้อสรุปหรือการตัดสินใจธุรกิจ / วิทยาศาสตร์ฐาน?R2R2R^2R2R2R^2 คำถามนี้ตั้งใจกว้างเพื่อครอบคลุมสถานการณ์ที่สมาชิกเผชิญบ่อยครั้ง คำถามดังกล่าวอาจถูกปิดซ้ำซ้อนกับคำถามนี้ การแก้ไขเพื่อขยายขอบเขตนอกเหนือจากตัวชี้วัดที่กล่าวถึงที่นี่ยินดีต้อนรับเช่นเดียวกับคำตอบเพิ่มเติมโดยเฉพาะอย่างยิ่งสิ่งที่ให้ข้อมูลเชิงลึกเกี่ยวกับเมตริกประเภทอื่น

1
เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท
ฉันเรียนรู้เกี่ยวกับการเลือกคุณสมบัติ ฉันเห็นได้ว่าทำไมมันถึงมีความสำคัญและมีประโยชน์สำหรับการสร้างแบบจำลอง แต่เรามาเน้นที่งานการเรียนรู้แบบแบ่งหมวดหมู่ เหตุใดการเลือกคุณสมบัติจึงสำคัญสำหรับงานจัดประเภท ฉันเห็นวรรณกรรมจำนวนมากที่เขียนเกี่ยวกับการเลือกคุณสมบัติและการใช้เพื่อการเรียนรู้แบบมีผู้ควบคุม แต่สิ่งนี้ทำให้ฉันสับสน การเลือกคุณสมบัติเป็นเรื่องเกี่ยวกับการระบุคุณสมบัติที่จะทิ้ง โดยสังเขปการทิ้งคุณสมบัติบางอย่างดูเหมือนว่าจะเอาชนะตนเองได้: กำลังทิ้งข้อมูล ดูเหมือนว่าการโยนข้อมูลไม่ควรช่วย และแม้ว่าการลบคุณลักษณะบางอย่างจะช่วยได้ถ้าเราทิ้งคุณสมบัติบางอย่างแล้วป้อนส่วนที่เหลือลงในอัลกอริทึมการเรียนรู้ภายใต้การดูแลทำไมเราต้องทำเช่นนั้นด้วยตัวเองแทนที่จะปล่อยให้อัลกอริทึมการเรียนรู้ภายใต้การดูแลจัดการ หากคุณลักษณะบางอย่างไม่เป็นประโยชน์ควรอัลกอริทึมการเรียนรู้แบบมีผู้สอนที่เหมาะสมไม่ควรค้นพบและเรียนรู้รูปแบบที่ไม่ใช้คุณลักษณะนั้น ดังนั้นโดยสังเขปฉันคาดหวังว่าการเลือกคุณสมบัติจะเป็นการออกกำลังกายที่ไม่มีจุดหมายที่ไม่เคยช่วยและบางครั้งก็เจ็บปวด แต่ความจริงที่ว่ามันถูกใช้อย่างกว้างขวางและเขียนเกี่ยวกับทำให้ฉันสงสัยว่าสัญชาตญาณของฉันเป็นความผิดพลาด ทุกคนสามารถให้สัญชาตญาณว่าทำไมการเลือกคุณสมบัตินั้นมีประโยชน์และสำคัญเมื่อทำการเรียนรู้แบบมีผู้สอน ทำไมมันถึงปรับปรุงประสิทธิภาพของการเรียนรู้ของเครื่อง? มันขึ้นอยู่กับลักษณนามที่ฉันใช้หรือไม่?

1
ระบบการลงคะแนนที่ใช้ความแม่นยำของผู้ลงคะแนนแต่ละคนและความไม่แน่นอนที่เกี่ยวข้อง
สมมติว่าเรามีคำถาม "ใช่ / ไม่ใช่" ที่เราต้องการทราบคำตอบ และมีคน N คน "โหวต" สำหรับคำตอบที่ถูกต้อง ผู้มีสิทธิเลือกตั้งทุกคนมีประวัติ - รายชื่อ 1 และ 0 แสดงว่าพวกเขาถูกหรือผิดเกี่ยวกับคำถามประเภทนี้ในอดีต หากเราถือว่าประวัติศาสตร์เป็นการกระจายแบบทวินามเราสามารถค้นหาประสิทธิภาพเฉลี่ยของผู้มีสิทธิเลือกตั้งในคำถามเช่นรูปแบบที่เปลี่ยนแปลง CI และตัวชี้วัดความเชื่อมั่นอื่น ๆ โดยทั่วไปคำถามของฉันคือ: วิธีการรวมข้อมูลความมั่นใจในระบบการลงคะแนนได้อย่างไร ตัวอย่างเช่นหากเราพิจารณาว่าหมายถึงประสิทธิภาพของผู้ลงคะแนนแต่ละคนเท่านั้นเราสามารถสร้างระบบการลงคะแนนแบบถ่วงน้ำหนักง่ายๆ: result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) นั่นคือเราสามารถรวมน้ำหนักของผู้ลงคะแนนคูณด้วย (สำหรับ "ใช่") หรือ (สำหรับ "ไม่") มันสมเหตุสมผลแล้ว: หากผู้ออกเสียงลงคะแนน 1 มีคำตอบที่ถูกต้องโดยเฉลี่ยเท่ากับและผู้ออกเสียงลงคะแนน 2 มีเพียง.มากกว่าอาจจะเป็นการลงคะแนนเสียงของบุคคลที่ 1 ที่มีความสำคัญมากกว่า ในทางกลับกันถ้าคนที่ 1 ตอบคำถามเพียง 10 ข้อและคนที่ …

1
การประเมินตัวแยกประเภท: เส้นโค้งการเรียนรู้กับเส้นโค้ง ROC
ฉันต้องการเปรียบเทียบตัวแยกประเภทที่แตกต่างกัน 2 ตัวสำหรับปัญหาการจำแนกข้อความแบบหลายคลาสที่ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ฉันสงสัยว่าฉันควรใช้ ROC curves หรือ learning curves เพื่อเปรียบเทียบ 2 ตัวแยกประเภท ในอีกด้านหนึ่งเส้นโค้งการเรียนรู้มีประโยชน์สำหรับการตัดสินใจขนาดของชุดข้อมูลการฝึกอบรมเนื่องจากคุณสามารถหาขนาดของชุดข้อมูลที่ตัวแยกประเภทหยุดการเรียนรู้ (และอาจลดระดับ) ดังนั้นตัวจําแนกที่ดีที่สุดในกรณีนี้อาจเป็นตัวจําแนกที่มีความแม่นยำสูงสุดด้วยขนาดชุดข้อมูลที่เล็กที่สุด ในทางกลับกัน ROC curves ช่วยให้คุณค้นหาจุดที่มีการแลกเปลี่ยนที่เหมาะสมระหว่างความไว / ความจำเพาะ ลักษณนามที่ดีที่สุดในกรณีนี้คือตัวที่ใกล้กับส่วนบนซ้ายมากที่สุดโดยมี TPR สูงสุดสำหรับ FPR ใด ๆ ฉันควรใช้วิธีการประเมินทั้งสองหรือไม่ เป็นไปได้หรือไม่ที่วิธีที่มีช่วงการเรียนรู้ที่ดีกว่ามีเส้นโค้ง ROC ที่แย่ลงและในทางกลับกัน

2
f- วัดความหมายเหมือนกันกับความถูกต้อง?
ฉันเข้าใจว่า f- การวัด (ตามความแม่นยำและการเรียกคืน) เป็นค่าประมาณความแม่นยำของตัวจําแนก นอกจากนี้f-measure ยังได้รับความนิยมมากกว่าความถูกต้องเมื่อเรามีชุดข้อมูลที่ไม่สมดุล ฉันมีคำถามง่าย ๆ (ซึ่งเกี่ยวกับการใช้คำศัพท์ที่ถูกต้องมากกว่าเกี่ยวกับเทคโนโลยี) ฉันมีชุดข้อมูลที่ไม่สมดุลและฉันใช้การวัดแบบ f ในการทดลองของฉัน ฉันกำลังจะเขียนกระดาษซึ่งไม่ใช่สำหรับการเรียนรู้ด้วยเครื่องจักร / การประชุมการทำเหมืองข้อมูล ดังนั้นฉันสามารถอ้างถึงการวัดค่า f เหมือนกันกับความถูกต้องในบริบทนี้ ยกตัวอย่างเช่นฉันมี f- วัด 0.82 แล้วฉันจะบอกได้ว่าลักษณนามของฉันบรรลุการทำนายที่แม่นยำ 82%

4
การตีความค่า AIC
ค่าทั่วไปของ AIC ที่ฉันเห็นสำหรับโมเดลโลจิสติกอยู่ในหลักพันเป็นอย่างน้อยเป็นร้อย เช่นในhttp://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC คือ 727.39 แม้ว่าจะมีการกล่าวเสมอว่าควรใช้ AIC เพื่อเปรียบเทียบแบบจำลองเท่านั้น แต่ฉันต้องการเข้าใจว่าค่า AIC นั้นหมายถึงอะไร ตามสูตร A Iค= - 2 บันทึก( L ) + 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K โดยที่ L = ความเป็นไปได้สูงสุดจากตัวประมาณ MLE K คือจำนวนพารามิเตอร์ ในตัวอย่างด้านบน K = 8 ดังนั้นด้วยเลขคณิตอย่างง่าย: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= …

4
การคำนวณความแม่นยำในการพยากรณ์
เรากำลังใช้ STL (การนำไปใช้ R) สำหรับการคาดการณ์ข้อมูลอนุกรมเวลา ทุกวันเราเรียกใช้การคาดการณ์รายวัน เราต้องการเปรียบเทียบค่าพยากรณ์กับค่าจริงและระบุค่าเบี่ยงเบนเฉลี่ย ตัวอย่างเช่นเรารันการคาดการณ์ในวันพรุ่งนี้และได้รับคะแนนการพยากรณ์เราต้องการเปรียบเทียบคะแนนการคาดการณ์เหล่านี้กับข้อมูลจริงที่เราจะได้รับในวันพรุ่งนี้ ฉันทราบว่าการคาดการณ์ค่าและข้อมูลจริงอาจไม่ตรงกับเวลาส่วนใหญ่นั่นคือเหตุผลหนึ่งที่เราต้องการติดตามว่าเรามีความแม่นยำมากแค่ไหนในแต่ละวัน ตอนนี้เราพยายามระบุว่าวิธีใดที่ดีที่สุดในการแก้ปัญหานี้ ตัวชี้ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ฉันดูที่การวัดคำถามความแม่นยำในการคาดการณ์แต่ดูเหมือนว่าจะเกี่ยวข้องกับการเปรียบเทียบแบบจำลองมากกว่าการคำนวณความแม่นยำด้วยค่าจริง ฉันดูการใช้งานฟังก์ชันความแม่นยำใน Rแต่สับสนกับสองคำถาม: 1) มันจะทำงานกับข้อมูลจริงเทียบกับข้อมูลการคาดการณ์หรือไม่เพราะการสอนส่วนใหญ่พูดว่า "ข้อมูลการทดสอบ" กับ "ข้อมูลการคาดการณ์" 2) ดูเหมือนว่าฟังก์ชั่นความแม่นยำที่ออกมานั้นมีอาร์เรย์ของค่ามากกว่า% ของการเบี่ยงเบน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.