ตีความแกน y ของแปลงที่พึ่งพาบางส่วน


22

ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น:

ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้

ลิงค์นี้แสดงให้เห็นหนึ่งในหลาย ๆ แปลงของฉัน  http://imgur.com/RXqlOky

โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้

สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง

อยู่ที่ไหนตรงกันข้าม

y (-0.2) แสดงว่าค่า TRI ของ <~ 15 มีโอกาส 20% ในการระบุการจำแนกประเภท True True อย่างถูกต้อง

การตีความทั่วไปที่เกิดขึ้นในวรรณกรรมดูเหมือนว่า "ค่าที่มากกว่า TRI 30 นี้เริ่มมีอิทธิพลในเชิงบวกต่อการจัดประเภทในแบบจำลองของคุณ" และนั่นก็คือ ฟังดูคลุมเครือและไม่มีจุดหมายสำหรับพล็อตที่สามารถพูดคุยเกี่ยวกับข้อมูลของคุณได้มาก

และพล็อตทั้งหมดของฉันขีดที่ -1 ถึง 1 ในช่วงสำหรับแกน y ฉันเคยเห็นแปลงอื่น ๆ ที่มีค่า -10 ถึง 10 เป็นต้นนี่เป็นหน้าที่ของจำนวนคลาสที่คุณพยายามทำนายหรือไม่?

ฉันสงสัยว่าใครสามารถพูดกับปัญหานี้ อาจแสดงให้ฉันเห็นว่าฉันควรจะตีความพล็อตเหล่านี้หรือวรรณกรรมบางอย่างที่สามารถช่วยฉันได้อย่างไร บางทีฉันกำลังอ่านสิ่งนี้มากเกินไป?

ฉันได้อ่านอย่างละเอียดถี่ถ้วนองค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนายและมันเป็นจุดเริ่มต้นที่ดี แต่ก็เกี่ยวกับมัน


เนื้อเรื่องแสดงความน่าจะเป็นต้นไม้ใช่โดยเฉลี่ยจนถึง TRI 30 และเพิ่มขึ้นหลังจากนั้น ลิงค์นี้จะอธิบายวิธีการตีความการจำแนกประเภทไบนารี PDP และแผนการแปลงอย่างต่อเนื่อง
LazyNearestNeigbour

คำตอบ:


13

แต่ละจุดบนพล็อตการพึ่งพาอาศัยบางส่วนคือเปอร์เซ็นต์การโหวตเฉลี่ยเพื่อสนับสนุนคลาส "Yes trees" ในการสังเกตทั้งหมดให้ระดับ TRI คงที่

มันไม่ใช่ความน่าจะเป็นของการจำแนกประเภทที่ถูกต้อง มันไม่มีอะไรเกี่ยวข้องกับความถูกต้องเชิงลบที่แท้จริงและผลบวกที่แท้จริง

เมื่อคุณเห็นวลี

ค่าที่มากกว่า TRI 30 จะเริ่มมีอิทธิพลเชิงบวกต่อการจัดประเภทในแบบจำลองของคุณ

เป็นวิธีการพูดป่อง

ค่าที่มากกว่า TRI 30 จะเริ่มทำนายว่า "ใช่ต้นไม้" มากกว่าค่าที่ต่ำกว่า TRI 30


2

ฟังก์ชั่นการพึ่งพาอาศัยบางส่วนนั้นให้แนวโน้ม "เฉลี่ย" ของตัวแปรนั้น (รวมเอาส่วนอื่น ๆ ทั้งหมดในแบบจำลอง) มันเป็นรูปร่างของแนวโน้มที่เป็น "สำคัญ" คุณอาจตีความช่วงสัมพัทธ์ของแปลงเหล่านี้จากตัวแปรทำนายต่าง ๆ แต่ไม่ใช่ช่วงสัมบูรณ์ หวังว่าจะช่วย


2

วิธีดูค่าแกน y คือค่าเหล่านั้นสัมพันธ์กันในแปลงอื่น ๆ เมื่อตัวเลขนั้นสูงกว่าในแปลงอื่น ๆ ในค่าสัมบูรณ์ก็หมายความว่ามันเป็นสิ่งสำคัญที่ทำให้เกิดผลกระทบของตัวแปรนั้นในการส่งออกที่มีขนาดใหญ่กว่า

หากคุณมีความสนใจในวิชาคณิตศาสตร์ที่อยู่เบื้องหลังการแปลงบางส่วนและจำนวนการประมาณการคุณสามารถค้นหาได้ที่นี่: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdfส่วน 8.1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.