ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?


78

ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง

สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล

  • นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่
  • ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

12
1) ไม่คุณมีสิทธิ์ที่จะถูกขโมยข้อมูล ควรหลีกเลี่ยงถ้าเป็นไปได้ 2) โดยทั่วไปฟังก์ชั่นเส้นโค้งที่สอดคล้องกับทฤษฎีที่อยู่เบื้องหลังข้อมูลเป็นที่ต้องการ
O_Devinyak

8
ฉันไม่รู้เกี่ยวกับผลประโยชน์ แต่มีอันตรายที่เป็นที่ยอมรับ
Glen_b

2
การโต้เถียงอย่างไม่เต็มใจในบางโอกาสมันสามารถทำให้การตีความทางคลินิกง่ายขึ้นและการนำเสนอผลลัพธ์เช่น ความดันโลหิตมักจะเป็นตัวทำนายกำลังสองและแพทย์สามารถสนับสนุนการใช้ cutouts สำหรับความดันโลหิตต่ำปกติและสูงและอาจสนใจเปรียบเทียบกลุ่มกว้างเหล่านี้
user20650

4
@ user20650: ฉันไม่แน่ใจว่าฉันเข้าใจคุณ แต่จะดีกว่าหรือไม่ที่จะพอดีกับแบบจำลองที่ดีที่สุดที่คุณสามารถทำได้จากนั้นใช้การคาดการณ์ของรุ่นนั้นเพื่อพูดอะไรก็ตามที่คุณต้องการจะพูดเกี่ยวกับกลุ่มกว้าง ๆ ? 'กลุ่มความดันโลหิตสูง' ในการศึกษาของฉันไม่จำเป็นต้องมีการกระจายตัวของความกดดันเช่นเดียวกับประชากรทั่วไปดังนั้นผลลัพธ์ของพวกเขาจะไม่พูดคุยกัน
Scortchi

7
การตีความทางคลินิกที่ง่ายขึ้นคือภาพลวงตา ผลกระทบการประมาณค่าจากตัวแปรต่อเนื่องที่จัดหมวดหมู่แล้วไม่มีการตีความที่เป็นที่รู้จัก
Frank Harrell

คำตอบ:


64

คุณคิดถูกทั้งคู่ ดูหน้าของ Frank Harrell ที่นี่เพื่อดูรายการปัญหาที่ยาวเกี่ยวกับตัวแปร binning ที่ต่อเนื่อง หากคุณใช้ถังขยะสองสามตัวคุณจะทิ้งข้อมูลจำนวนมากไว้ในตัวทำนาย ถ้าคุณใช้หลายคนคุณมักจะใส่วิกผมในสิ่งที่ควรจะเรียบถ้าไม่ใช่แบบเส้นตรงความสัมพันธ์และใช้ความเป็นอิสระอย่างมาก โดยทั่วไปดีกว่าการใช้พหุนาม ( ) หรือ splines (พหุนามพหุนามที่รวมกันอย่างราบรื่น) สำหรับการทำนาย Binning เป็นเพียงความคิดที่ดีจริงๆเมื่อคุณคาดหวังว่าจะมีการหยุดตอบสนองที่จุดตัด - พูดว่าอุณหภูมิบางอย่างเดือดร้อนหรืออายุทางกฎหมายในการขับรถ - & เมื่อการตอบสนองนั้นแบนระหว่างพวกเขา ..x+x2+

คุ้มค่าหรือไม่ - ก็เป็นวิธีที่ง่ายและรวดเร็วในการพิจารณาความโค้งโดยไม่ต้องคิดถึงมันและแบบจำลองอาจดีพอสำหรับสิ่งที่คุณใช้ มันมีแนวโน้มที่จะทำงานได้อย่างถูกต้องเมื่อคุณมีข้อมูลจำนวนมากเมื่อเทียบกับจำนวนผู้ทำนายแต่ละคนจะแบ่งออกเป็นหมวดหมู่มากมาย ในกรณีนี้ภายในแถบคาดการณ์แต่ละช่วงของการตอบสนองมีขนาดเล็ก & การตอบสนองโดยเฉลี่ยจะถูกกำหนดอย่างแม่นยำ

[แก้ไขเพื่อตอบสนองต่อความคิดเห็น:

บางครั้งมีการตัดมาตรฐานที่ใช้ในเขตข้อมูลสำหรับตัวแปรต่อเนื่องเช่นในการวัดความดันโลหิตยาอาจแบ่งได้เป็นต่ำปานกลางหรือสูง อาจมีหลายเหตุผลที่ดีสำหรับการใช้งานการตัดเช่นเมื่อคุณนำเสนอหรือใช้แบบจำลอง โดยเฉพาะอย่างยิ่งกฎการตัดสินใจมักใช้ข้อมูลน้อยกว่าแบบจำลองและอาจจำเป็นต้องใช้ง่าย แต่มันไม่ได้เป็นไปตามนั้นว่าการตัดออกเหล่านี้เหมาะสำหรับการคาดคะเนตัวทำนายเมื่อคุณพอดีกับแบบจำลอง

สมมติว่าการตอบสนองบางอย่างอาจแตกต่างกันไปตามความดันโลหิต หากคุณกำหนดกลุ่มความดันโลหิตสูงเป็นเครื่องทำนายผลการศึกษาของคุณผลกระทบที่คุณประเมินคือการตอบสนองโดยเฉลี่ยต่อความดันโลหิตของบุคคลในกลุ่มนั้น มันไม่ใช่การประมาณการการตอบสนองโดยเฉลี่ยของผู้ที่มีความดันโลหิตสูงในประชากรทั่วไปหรือผู้ที่อยู่ในกลุ่มความดันโลหิตสูงในการศึกษาอื่นเว้นแต่คุณจะใช้มาตรการเฉพาะเพื่อให้เป็นเช่นนั้น หากการกระจายของความดันโลหิตในประชากรทั่วไปเป็นที่รู้จักอย่างที่ฉันคิดว่ามันเป็นคุณจะดีกว่าที่จะคำนวณการตอบสนองเฉลี่ยของผู้ที่มีความดันโลหิตสูงในประชากรทั่วไปตามการคาดการณ์จากแบบจำลองที่มีความดันโลหิตเป็น ตัวแปรต่อเนื่อง การทำตัวหยาบคายทำให้แบบจำลองของคุณโดยประมาณเท่านั้น

โดยทั่วไปหากคุณมีคำถามเกี่ยวกับพฤติกรรมของการตอบสนองระหว่างการตัดให้พอดีกับโมเดลที่ดีที่สุดที่คุณสามารถทำได้ก่อนจากนั้นใช้มันเพื่อตอบคำถาม]

[เกี่ยวกับการนำเสนอ; ฉันคิดว่านี่เป็นปลาเฮอริ่งแดง:

(1) ความง่ายในการนำเสนอไม่เพียงทำให้การตัดสินใจสร้างแบบจำลองไม่ดี (และในกรณีที่การตัดสินใจทำตัวเป็นแบบอย่างที่ดีนั้นไม่จำเป็นต้องมีเหตุผลเพิ่มเติม) แน่นอนว่าสิ่งนี้ชัดเจนในตัวเอง ไม่มีใครแนะนำให้ทำการโต้ตอบที่สำคัญจากโมเดลเพราะมันยากที่จะนำเสนอ

(2) ไม่ว่าแบบไหนที่คุณเหมาะสมคุณยังสามารถแสดงผลลัพธ์ในรูปแบบของหมวดหมู่หากคุณคิดว่ามันจะช่วยในการตีความ แม้ว่า ...

(3) คุณต้องระมัดระวังเพื่อให้แน่ใจว่าไม่ได้ช่วยการตีความที่ผิดพลาดด้วยเหตุผลที่กล่าวมาข้างต้น

(4) ในความเป็นจริงมันไม่ยากที่จะนำเสนอการตอบสนองที่ไม่ใช่เชิงเส้น ความเห็นส่วนบุคคลชัดเจนและผู้ชมต่างกัน แต่ฉันไม่เคยเห็นกราฟของค่าการตอบสนองที่พอดีกับค่าตัวทำนายปริศนาตัวคนเพียงเพราะมันโค้ง การโต้ตอบการบันทึกเอฟเฟกต์แบบสุ่มความสัมพันธ์หลายแบบ ... - ทั้งหมดนี้ยากที่จะอธิบาย]

[จุดเพิ่มเติมที่นำขึ้นมาโดย @Roland คือความแม่นยำของการวัดของตัวทำนาย ฉันคิดว่าเขาแนะนำว่าการจัดหมวดหมู่นั้นอาจเหมาะสมเมื่อไม่แม่นยำเป็นพิเศษ สามัญสำนึกอาจแนะนำว่าคุณไม่ได้ปรับปรุงเรื่องโดยการระบุซ้ำแม้แต่น้อยแม่นยำและสามัญสำนึกจะถูกต้อง: MacCallum et al (2002), "ในการฝึกการแบ่งขั้วของตัวแปรเชิงปริมาณ", วิธีการทางจิตวิทยา , 7 , 1, pp17–19.]


6
ความคิดเห็นที่ยอดเยี่ยมเกี่ยวกับปัญหาที่แพร่หลาย สิ่งสำคัญคือการโฆษณาชวนเชื่อสำหรับการคิดเชิงปริมาณอย่างละเอียดที่นี่ มีการเน้นมากเกินไปเกี่ยวกับเกณฑ์การข้ามเช่นสูงกว่าระดับภัยพิบัติบางส่วนต่ำกว่าระดับความสะดวกสบายบางส่วน
Nick Cox

14
ฉันจะท้าทายให้ทุกคนแสดงการตรวจสอบความถูกต้องของการตัดที่แพทย์ใช้
Frank Harrell

เป็นที่น่าสังเกตว่าแนวทางการทำนุบำรุงนี้มีประโยชน์ในด้านอื่น ๆ - เป็นที่นิยมโดยเฉพาะอย่างยิ่งเมื่อรวมเข้ากับอวนประสาทขนาดใหญ่เพื่อทำนายการกระจายแบบหลายกิริยาเช่นการปฐมนิเทศยานพาหนะ ดูตัวอย่างarxiv.org/abs/1612.00496
N. McA

11

ส่วนหนึ่งของคำตอบที่ฉันได้เรียนรู้ตั้งแต่การถามคือการไม่ใช้การ binning และ binning พยายามตอบคำถามที่แตกต่างกันสองข้อ - การเปลี่ยนแปลงที่เพิ่มขึ้นของข้อมูลคืออะไร? และความแตกต่างระหว่างต่ำสุดและสูงสุดคืออะไร? .

ไม่พูดว่า "นี่คือปริมาณของแนวโน้มที่เห็นในข้อมูล" และ binning บอกว่า "ฉันไม่มีข้อมูลเพียงพอที่จะพูดว่าการเปลี่ยนแปลงนี้เพิ่มขึ้นทีละมาก แต่ฉันสามารถพูดได้ว่าด้านบนแตกต่างจากด้านล่าง" .


5

ในฐานะแพทย์ฉันคิดว่าคำตอบนั้นขึ้นอยู่กับสิ่งที่คุณต้องการจะทำ หากคุณต้องการปรับให้เหมาะสมที่สุดหรือทำการปรับที่ดีที่สุดคุณสามารถใช้ตัวแปรต่อเนื่องและกำลังสอง

หากคุณต้องการอธิบายและสื่อสารการเชื่อมโยงที่ซับซ้อนสำหรับผู้ชมที่ไม่มุ่งเน้นทางสถิติการใช้ตัวแปรที่จัดหมวดหมู่จะดีกว่าการยอมรับว่าคุณอาจให้ผลลัพธ์ที่มีอคติเล็กน้อยในทศนิยมสุดท้าย ฉันต้องการใช้อย่างน้อยสามหมวดหมู่เพื่อแสดงการเชื่อมโยงที่ไม่เชิงเส้น ทางเลือกคือการสร้างกราฟและคาดการณ์ผลลัพธ์ในบางจุด จากนั้นคุณอาจต้องสร้างกราฟครอบครัวสำหรับโควาเรียต่อเนื่องแต่ละอันที่อาจน่าสนใจ หากคุณกลัวว่าจะได้รับอคติมากเกินไปฉันคิดว่าคุณสามารถทดสอบทั้งสองรุ่นและดูว่าความแตกต่างนั้นสำคัญหรือไม่ คุณต้องเป็นจริงและเป็นจริง

ฉันคิดว่าเราอาจรู้ว่าในหลาย ๆ สถานการณ์ทางคลินิกการคำนวณของเราไม่ได้ขึ้นอยู่กับข้อมูลที่แน่นอนและเมื่อฉันกำหนดยาให้กับผู้ใหญ่ฉันไม่ได้ทำเช่นนั้นกับ mg ที่แน่นอนต่อกิโลกรัมอย่างไรก็ตามคำอุปมาที่เลือกระหว่างการผ่าตัด มันไร้สาระ)


1
ทำไมเรื่องไร้สาระเปรียบเทียบคืออะไรกันแน่? เพราะการจัดหมวดหมู่ตัวแปรต่อเนื่องไม่เคยทำให้แบบจำลองแย่ลงอย่างมีนัยสำคัญใช่หรือไม่ หรือเพราะการใช้แบบจำลองที่แย่ลงอย่างมากไม่เคยมีผลกระทบใด ๆ เลย?
Scortchi

9
นั่นไม่ใช่กรณี @Roland ค่าประมาณที่ได้จากการตัดเป็นเพียงเรื่องง่ายเพราะคนไม่เข้าใจว่าค่าประมาณ นั่นเป็นเพราะพวกเขาไม่ได้ประมาณปริมาณทางวิทยาศาสตร์เช่นปริมาณที่มีความหมายนอกตัวอย่างหรือการทดสอบ ตัวอย่างเช่นอัตราส่วน high: low odds หรือความแตกต่างเฉลี่ยจะเพิ่มขึ้นหากคุณเพิ่มผู้ป่วยที่มีค่า ultra-high หรือ ultra-low ให้กับชุดข้อมูล นอกจากนี้การใช้มีดตัดก็หมายความว่าชีววิทยานั้นไม่ต่อเนื่องซึ่งไม่ใช่ในกรณีนี้
Frank Harrell

@ Scortchi เปลี่ยนจากการรักษาทางการแพทย์เป็นการผ่าตัดเพราะมันง่ายกว่าที่จะอธิบาย (มันเป็นเรื่องจริงเหรอ?) จะเหมือนการเปลี่ยนอายุด้วยความสูงเป็นตัวแปรอธิบาย
Roland

ฉันเห็นด้วยเกี่ยวกับการหลีกเลี่ยงตัวแปรแบบแบ่งขั้ว การแพทย์ทางคลินิกไม่ได้เป็นวิทยาศาสตร์ rocke ที่สำคัญทศนิยมสุดท้าย ในรูปแบบที่ฉันทำงานกับผลลัพธ์จะเปลี่ยนที่ทศนิยมสุดท้ายถ้าฉันใช้หมวดหมู่ของอายุเทียบกับอายุเป็นตัวแปรต่อเนื่องและกำลังสอง แต่เพิ่มความเข้าใจและการสื่อสารของสมาคมอย่างมหาศาล
Roland

4

ดังที่ผู้โพสต์ก่อนหน้าได้กล่าวถึงโดยทั่วไปจะเป็นการดีที่สุดที่จะหลีกเลี่ยงการแบ่งขั้วเป็นตัวแปรต่อเนื่อง อย่างไรก็ตามในการตอบคำถามของคุณมีหลายกรณีที่การแบ่งขั้วตัวแปรต่อเนื่องจะทำให้ได้เปรียบ

ตัวอย่างเช่นหากตัวแปรที่กำหนดมีค่าที่หายไปสำหรับสัดส่วนที่มีนัยสำคัญของประชากร แต่เป็นที่รู้กันว่าสามารถคาดเดาได้สูงและค่าที่หายไปเองนั้นมีค่าการทำนาย ตัวอย่างเช่นในแบบจำลองการให้คะแนนเครดิตพิจารณาตัวแปรสมมติว่ายอดเฉลี่ยหมุนเวียนหมุนเวียนเครดิต (ซึ่งได้รับไม่ได้ต่อเนื่องทางเทคนิค แต่ในกรณีนี้สะท้อนการกระจายปกติใกล้พอที่จะได้รับการปฏิบัติเช่นนี้) ซึ่งมี ค่าที่หายไปประมาณ 20% ของกลุ่มผู้สมัครในตลาดเป้าหมายที่กำหนด ในกรณีนี้ค่าที่ขาดหายไปสำหรับตัวแปรนี้แสดงถึงคลาสที่แตกต่าง - ผู้ที่ไม่มีวงเงินสินเชื่อหมุนเวียน ลูกค้าเหล่านี้จะแสดงพฤติกรรมที่แตกต่างอย่างสิ้นเชิงเมื่อเทียบกับผู้ที่มีวงเงินสินเชื่อหมุนเวียน แต่มียอดคงเหลือเป็นประจำ

ประโยชน์อีกประการของการแบ่งขั้ว: มันสามารถใช้เพื่อลดผลกระทบของค่าผิดปกติที่สำคัญที่ค่าสัมประสิทธิ์เอียง แต่เป็นตัวแทนของกรณีจริงที่ต้องจัดการ หากค่าผิดปกติไม่ได้แตกต่างอย่างมากจากค่าอื่น ๆ ในเปอร์เซ็นไทล์ที่ใกล้ที่สุด แต่เอียงพารามิเตอร์มากพอที่จะทำให้เกิดความแม่นยำของส่วนต่างจากนั้นก็อาจเป็นประโยชน์ในการจัดกลุ่มพวกเขาด้วยค่าที่แสดงผลคล้ายกัน

บางครั้งการแจกจ่ายจะให้ชุดของคลาสตามธรรมชาติซึ่งในกรณีที่การแบ่งขั้วเป็นสองส่วนจะให้ความแม่นยำระดับสูงกว่าฟังก์ชั่นต่อเนื่อง

นอกจากนี้ตามที่กล่าวไว้ก่อนหน้านี้ทั้งนี้ขึ้นอยู่กับผู้ชมความง่ายในการนำเสนออาจมีมากกว่าการสูญเสียความถูกต้อง ในการใช้การให้คะแนนเครดิตอีกครั้งเป็นตัวอย่างในทางปฏิบัติระดับสูงของการควบคุมจะทำให้กรณีปฏิบัติสำหรับการแยกแยะในบางครั้ง ในขณะที่ระดับความแม่นยำที่สูงขึ้นสามารถช่วยลดความสูญเสียของผู้ให้กู้ผู้ปฏิบัติงานยังต้องพิจารณาว่าแบบจำลองจำเป็นต้องเข้าใจง่ายโดยหน่วยงานกำกับดูแล (ผู้ที่อาจขอเอกสารหน้าแบบจำลองหลายพันหน้า) และผู้บริโภคซึ่งถ้าถูกปฏิเสธเครดิต คำอธิบายว่าทำไม

ทุกอย่างขึ้นอยู่กับปัญหาในมือและข้อมูล แต่มีบางกรณีที่การแบ่งขั้วมีข้อดี


การแบ่งขั้วเป็นสองช่อง - คุณหมายถึง discretization หรือไม่?
Scortchi

2
ในทั้งสองตัวอย่างแรกของคุณการแยกส่วนได้พยายามที่จะเผชิญหน้ากับปาร์ตี้ด้วยการเข้าหาแขกที่จริงใจ อย่าหลงกล (1) หากคุณต้องการสร้างแบบจำลองที่ไม่มีวงเงินสินเชื่อหมุนเวียนเปิดเป็นคลาสที่แตกต่างเพียงใช้ตัวแปรจำลองเพื่อระบุว่าเงื่อนไข & กำหนดค่าคงที่ใด ๆสำหรับยอดเงินเครดิตหมุนเวียนเฉลี่ย (2) หากคุณต้องการรักษาค่าทำนายขั้นสูงบางอย่างเหมือนกันเช่น "ใหญ่" หรือ "เล็ก" ให้ตัดทอนค่าเหล่านั้น ไม่ต้องยุ่งกับค่าที่เหลือ กรณีที่ 3 ไม่มีการโต้แย้ง - สามารถเพิ่มตัวอย่างได้
Scortchi

3

หากตัวแปรมีเอฟเฟกต์ที่ขีด จำกัด เฉพาะให้สร้างตัวแปรใหม่โดยการกำหนดให้เป็นสิ่งที่ดี ฉันมักจะเก็บทั้งตัวแปรเดิมและหนึ่งไว้และตรวจสอบว่าตัวแปรใดเป็นตัวทำนายที่ดีกว่า


3

ฉันเป็นแฟนตัวยงของคำแนะนำของ Frank Harrell ที่นักวิเคราะห์ควรต้านทาน discretization ก่อนกำหนดของข้อมูลอย่างต่อเนื่อง และฉันมีคำตอบมากมายเกี่ยวกับ CV และ SO ที่แสดงให้เห็นถึงวิธีการมองเห็นปฏิสัมพันธ์ระหว่างตัวแปรต่อเนื่องเนื่องจากฉันคิดว่านี่เป็นสายการสืบสวนที่มีค่ายิ่งกว่า อย่างไรก็ตามฉันยังมีประสบการณ์จริงในโลกการแพทย์ของอุปสรรคในการปฏิบัติตามคำแนะนำนี้ มักจะมีหน่วยงานที่น่าสนใจซึ่งทั้งแพทย์และแพทย์ที่ไม่ใช่แพทย์คาดหวังสำหรับ "แยก" "ขีด จำกัด สูงสุดปกติ" ธรรมดาคือจุดแบ่ง "ธรรมชาติ" หนึ่งจุด สิ่งแรกคือการตรวจสอบสถิติที่เกี่ยวข้องกับความสัมพันธ์ก่อนแล้วจึงสื่อสารเนื้อหาของผลการวิจัยในแง่ที่ผู้ชมของคุณคาดหวังและสามารถเข้าใจได้ง่าย แม้จะเป็น "โรคภูมิแพ้" ของฉัน เพื่อ barplots พวกเขาเป็นเรื่องธรรมดามากในวาทกรรมทางวิทยาศาสตร์และการแพทย์ ดังนั้นผู้ชมมีแนวโน้มที่จะมีรูปแบบความรู้ความเข้าใจในการประมวลผลและจะสามารถรวมผลลัพธ์ในฐานความรู้ของพวกเขา

นอกจากนี้การแสดงกราฟิกของการโต้ตอบแบบจำลองในรูปแบบที่ไม่เป็นเชิงเส้นของตัวแปรทำนายต้องมีการนำเสนอโครงร่างโครงร่างหรือการแสดงโครงร่างซึ่งผู้ชมส่วนใหญ่จะมีปัญหาในการย่อย ฉันพบว่าแพทย์และประชาชนทั่วไปเปิดกว้างมากขึ้นต่อการนำเสนอที่มีการแยกส่วนและแบ่งผลลัพธ์ ดังนั้นฉันคิดว่าข้อสรุปคือการแยกจะทำอย่างถูกต้องหลังจากการวิเคราะห์ทางสถิติเสร็จสมบูรณ์ และจะทำในขั้นตอนการนำเสนอ


1

หลายครั้งที่การตัวแปรตัวแปรต่อเนื่องมาพร้อมกับความรู้สึกไม่สบายใจที่ก่อให้เกิดความเสียหายเนื่องจากข้อมูลสูญหาย อย่างไรก็ตามไม่เพียง แต่คุณสามารถผูกไว้กับการสูญหายของข้อมูลคุณสามารถได้รับข้อมูลและรับประโยชน์เพิ่มเติม

หากคุณใช้การ binning และรับตัวแปรที่จัดหมวดหมู่คุณอาจสามารถใช้อัลกอริทึมการเรียนรู้ที่ไม่สามารถใช้ได้กับตัวแปรต่อเนื่อง ชุดข้อมูลของคุณอาจเหมาะกับอัลกอริทึมเหล่านี้ดีกว่าดังนั้นนี่คือผลประโยชน์แรกของคุณ

แนวคิดของการประเมินการสูญเสียอันเนื่องมาจากการทำผิดพลาดนั้นขึ้นอยู่กับกระดาษ สมมติว่าแนวคิดของเราเป็นเลขฐานสองเพื่อให้เราสามารถแยกตัวอย่างออกเป็นบวกและลบได้ สำหรับตัวอย่างที่เป็นลบและตัวอย่างที่เป็นบวกแต่ละคู่ความแตกต่างในแนวคิดอาจอธิบายได้ด้วยความแตกต่างในคุณลักษณะอย่างใดอย่างหนึ่ง (หรือมิฉะนั้นจะไม่สามารถอธิบายได้ด้วยคุณสมบัติที่กำหนด) ชุดของความแตกต่างของคุณลักษณะคือชุดของคำอธิบายที่เป็นไปได้ต่อความแตกต่างของแนวคิดดังนั้นข้อมูลที่ใช้เพื่อกำหนดแนวคิด หากเราทำ binning และเรายังได้คำอธิบายชุดเดียวกันสำหรับคู่เราจะไม่สูญเสียข้อมูลใด ๆ ที่จำเป็น (ด้วยความเคารพอัลกอริทึมการเรียนรู้ที่ทำงานโดยการเปรียบเทียบดังกล่าว) หากการจัดหมวดหมู่ของเราจะเข้มงวดมากเราอาจจะมีคำอธิบายที่เป็นไปได้น้อยลง แต่เราจะสามารถวัดได้อย่างแม่นยำว่าจำนวนเท่าใดและที่ที่เราแพ้ ที่จะช่วยให้เราสามารถแลกเปลี่ยนจำนวนถังขยะกับชุดคำอธิบาย

จนถึงตอนนี้เราเห็นว่าเราอาจไม่สูญเสียเนื่องจากการจัดหมวดหมู่ แต่ถ้าเราพิจารณาใช้ขั้นตอนดังกล่าวเราจะได้รับประโยชน์ แน่นอนเราสามารถได้รับประโยชน์จากการจัดหมวดหมู่

อัลกอริธึมการเรียนรู้มากมายที่จะถูกขอให้จัดกลุ่มตัวอย่างด้วยค่าที่ไม่เห็นในชุดรถไฟจะพิจารณาว่าเป็นค่า "ไม่ทราบ" ดังนั้นเราจะได้ถังขยะของ "ไม่ทราบ" ซึ่งรวมถึงค่าทั้งหมดที่ไม่ได้เห็นในระหว่างการรถไฟ (หรือแม้กระทั่งไม่เห็นพอ) สำหรับอัลกอริธึมดังกล่าวความแตกต่างระหว่างคู่ค่าที่ไม่รู้จักจะไม่ถูกใช้เพื่อปรับปรุงการจำแนกประเภท เปรียบเทียบคู่ของคุณหลังจาก binning กับคู่ที่ไม่รู้จักและดูว่า binning ของคุณมีประโยชน์และคุณได้รับจริง

คุณสามารถประเมินว่าค่าทั่วไปจะเป็นค่าที่ไม่รู้จักได้อย่างไรโดยตรวจสอบการกระจายค่าของแต่ละคุณสมบัติ คุณลักษณะที่มีค่าที่ปรากฏเพียงไม่กี่ครั้งเป็นส่วนสำคัญของการกระจายของพวกเขาเป็นผู้สมัครที่ดีสำหรับการ binning โปรดทราบว่าในหลาย ๆ สถานการณ์คุณจะมีฟีเจอร์มากมายที่ไม่ทราบค่าเพิ่มความน่าจะเป็นที่ตัวอย่างจะมีค่าที่ไม่รู้จัก อัลกอริธึมที่ใช้กับคุณสมบัติทั้งหมดหรือหลายอย่างมีแนวโน้มที่จะเกิดข้อผิดพลาดในสถานการณ์เช่นนี้

A. Dhagat และ L. Hellerstein, "PAC การเรียนรู้ด้วยคุณสมบัติที่ไม่เกี่ยวข้อง" ใน 'การดำเนินการตามมาตรฐาน IEEE Symp บนพื้นฐานของวิทยาศาสตร์คอมพิวเตอร์ ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.