การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่


26

เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น?

สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก

สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน:


1
คุณสามารถพูดเพิ่มเติมเกี่ยวกับสิ่งที่คุณต้องการจะทำอย่างไร แน่นอนว่าคุณสามารถใช้การถดถอยหลายครั้งกับทั้งตัวแปรแบบต่อเนื่องและหมวดหมู่เพื่อสร้างแบบจำลองการทำนาย นี่ค่อนข้างประถม คุณหมายถึงการทำนายตัวแปรการตอบสนองหลาย ๆตัวแทน (ซึ่งบางตัวเป็นแบบต่อเนื่องและแมวบางตัวเช่น)
gung - Reinstate Monica

@gung คุณจะทำการถดถอยหลายครั้งที่เกี่ยวข้องกับ covariates เด็ดขาดได้อย่างไรโดยไม่แปลงการทำนายเชิงหมวดหมู่เป็นตัวเลขในแง่หนึ่ง
Michael McGowan

1
ของตัวเลข 'ทำอะไรได้หมายความว่า - พวกเขาไม่ได้จริงๆตัวเลข ในแง่ของวิธีการที่คุณใช้รูปแบบการเข้ารหัส; การเข้ารหัสเซลล์อ้างอิง (โดยทั่วไปเรียกว่า 'การเข้ารหัสหุ่น') เป็นเรื่องธรรมดาที่สุด แต่มีหลายรูปแบบ นี่เป็นทรัพยากรที่ดีสำหรับการเรียนรู้เกี่ยวกับความหลากหลายของรูปแบบที่เป็นไปได้ ใน R เช่นคุณไม่จำเป็นต้องทำเช่นนั้นแม้ว่าคุณจะมีข้อมูลเวกเตอร์หรืออักขระ (เช่นชื่อ) มันจะจัดการทุกอย่างให้คุณ
gung - Reinstate Monica

2
ฉันเกรงว่าฉันยังไม่ทำตามแรงผลักดันที่อยู่เบื้องหลังคำถาม (ฉันช้าไปหน่อย) ตัวแปรเด็ดขาดไม่ได้ "เปลี่ยน" หรือ "แปลง" เป็นตัวแปรตัวเลข มันถูกแทนด้วย 1 แต่นั่นไม่ได้เป็นตัวเลขจริงๆ ตัวพยากรณ์เชิงคุณภาพไม่ได้เป็นตัวเลขในการถดถอยหลายครั้งมากกว่าในแผนภูมิการตัดสินใจ (เช่น CART) เช่น จากมุมมองทางทฤษฎีไม่มีอะไรที่นั่น จากมุมมองที่ใช้งานได้จริงหากคุณพยายามบันทึกรหัสสองสามบรรทัดเช่นซอฟต์แวร์ (R เป็นต้น) มักจะทำเพื่อคุณ
gung - Reinstate Monica

1
ยุติธรรมพอคุณสามารถอธิบายสิ่งที่คุณคิดว่ามี (จากมุมมองทางทฤษฎี)? การเข้ารหัสแบบจำลองจะเปลี่ยนตัวแปรเด็ดขาดเป็นแบบที่มีความหมายเป็นตัวเลขได้อย่างไร มันเป็นอย่างไรที่สิ่งที่ CART อนุญาตให้ตัวแปรรักษา 'เด็ดขาด' ไว้ แต่การเข้ารหัสแบบหลอกนั้นไม่ได้? ฉันสูญเสียการค้นหาว่าคำตอบสำหรับคำถามเหล่านี้อาจมาจากคำถามของคุณด้านบนและฉันไม่เห็นโพสต์ก่อนหน้าของคุณ
gung - Reinstate Monica

คำตอบ:


6

เท่าที่ฉันรู้และฉันได้ค้นคว้าปัญหานี้อย่างลึกซึ้งในอดีตไม่มีเทคนิคการสร้างแบบจำลองการทำนาย (ข้างต้นไม้ XgBoost ฯลฯ ) ที่ออกแบบมาเพื่อจัดการกับข้อมูลทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยน ประเภทของคุณสมบัติ

โปรดทราบว่าอัลกอริธึมเช่น Random Forest และ XGBoost ยอมรับอินพุตของคุณลักษณะแบบผสม แต่ใช้ตรรกะบางอย่างเพื่อจัดการกับมันในระหว่างการแยกโหนด ตรวจสอบให้แน่ใจว่าคุณเข้าใจตรรกะ "ภายใต้ประทุน" และคุณตกลงกับสิ่งที่เกิดขึ้นในกล่องดำ

u1u2fid(u1,u2)fi=(discategorical(u1,u2)fifid(u1,u2)fi=disnumeric(u1,u2)fififiu1u2

ฟังก์ชั่นระยะทางที่รู้จักสำหรับคุณสมบัติเด็ดขาด:

  • ระยะทาง Levenshtien (หรือรูปแบบใด ๆ ของ "แก้ไขระยะทาง")

  • ตัวเรียงลำดับทั่วไปที่ยาวที่สุด

  • ระยะทางโกเวอร์
  • และตัวชี้วัดอื่น ๆที่นี่

5

ฉันรู้ว่าไม่นานแล้วตั้งแต่คำถามนี้ถูกโพสต์ แต่ถ้าคุณยังคงมองปัญหานี้อยู่ (หรือคำถามที่คล้ายกัน) คุณอาจต้องการลองใช้โมเดลเสริมทั่วไป (GAM's) ฉันไม่มีความเชี่ยวชาญ แต่โมเดลเหล่านี้อนุญาตให้คุณรวมโมเดลที่แตกต่างกันเพื่อสร้างการทำนายเดียว กระบวนการที่ใช้ในการหาค่าสัมประสิทธิ์สำหรับแบบจำลองที่คุณใส่ในการแก้ปัญหาของพวกเขาทั้งหมดในครั้งเดียวดังนั้นคุณสามารถส่งรูปแบบการเติมทั่วไปแบบที่คุณชื่นชอบสำหรับการทำนายหมวดหมู่และแบบจำลองที่คุณชื่นชอบสำหรับตัวทำนายแบบต่อเนื่อง เกณฑ์ข้อผิดพลาดอื่น ๆ ที่คุณต้องการใช้

เหนือสิ่งอื่นใดในหัวฉันแพคเกจซอฟต์แวร์เดียวที่ฉันรู้ว่ามีการนำไปใช้ของ GAM คือภาษา R แต่ฉันแน่ใจว่ามีคนอื่น


SAS มีโพรซีเดอร์ที่เรียกว่า Proc Gam
Alph

1
แพ็คเกจทางสถิติที่สำคัญส่วนใหญ่ (เช่น Stata) อาจใช้เกมได้ อย่างไรก็ตามจนถึงจุดที่เกมจะใช้รหัสจำลองเพื่อแสดงตัวแปรเด็ดขาดเป็นตัวทำนาย ไม่ชัดเจนว่า OP ต้องการค้นหาแบบจำลองที่ใช้ตัวพยากรณ์เชิงหมวดหมู่เป็นหมวดหมู่ แต่ไม่มีรหัสตัวแทนจำลอง แต่ไม่มีแนวโน้มที่จะเป็นเช่นนั้น
gung - Reinstate Monica

ยินดีต้อนรับสู่ประวัติย่อ โปรดทราบว่าชื่อผู้ใช้ตัวระบุ & ลิงก์ไปยังหน้าผู้ใช้ของคุณจะถูกเพิ่มในทุกโพสต์ที่คุณทำโดยอัตโนมัติดังนั้นไม่จำเป็นต้องลงชื่อโพสต์ของคุณ ในความเป็นจริงเราไม่ต้องการให้คุณทำ
gung - Reinstate Monica

4

ในขณะที่ discretization แปลงข้อมูลที่ต่อเนื่องเป็นข้อมูลที่ไม่ต่อเนื่องอาจกล่าวได้ว่าตัวแปรดัมมี่เปลี่ยนข้อมูลที่เป็นหมวดหมู่ไปเป็นข้อมูลต่อเนื่อง อันที่จริงแล้วเนื่องจากอัลกอริธึมสามารถทำงานบนคอมพิวเตอร์ได้จึงแทบจะเป็นอัลกอริธึมแยกประเภทซึ่งไม่ได้แปลงข้อมูลหมวดหมู่ให้เป็นตัวแปรจำลอง

ในความหมายเดียวกันตัวแยกประเภทในท้ายที่สุดแปลงมันทำนายเป็นตัวแปรโดยสิ้นเชิงบ่งชี้ว่าเป็นของชั้นเรียน (แม้ว่ามันจะส่งออกความน่าจะเป็นชั้นเรียนในที่สุดคุณเลือกตัด) ในความเป็นจริงแล้วผู้จัดประเภทจำนวนมากเช่นการถดถอยโลจิสติก, ฟอเรสต์แบบสุ่ม, ต้นไม้ตัดสินใจและ SVM ทำงานได้ดีกับข้อมูลทั้งสองประเภท

ฉันสงสัยว่ามันจะยากที่จะหาอัลกอริทึมที่ทำงานกับข้อมูลต่อเนื่อง แต่ไม่สามารถจัดการข้อมูลเด็ดขาดได้เลย โดยปกติฉันมักจะพบว่ามันสร้างความแตกต่างมากขึ้นกับประเภทของข้อมูลที่คุณมีทางด้านซ้ายของแบบจำลองของคุณ


2
ไม่ประเด็นของฉันคือการถดถอยโลจิสติกและอัลไม่ได้ "ทำงาน" ในแง่ที่ฉันอธิบายด้วยข้อมูลทั้งสองประเภท อย่างน้อยก็ในบางแง่มุมคุณต้องปฏิบัติกับตัวทำนายทั้งหมดเป็นตัวเลขหรือไม่มีตัวเลข ยกตัวอย่างเช่นฉันรู้ว่ามักจะได้ผลลัพธ์ที่ยอดเยี่ยมด้วยการถดถอยโลจิสติกโดยการเขียนโค้ดเช่น "เพศ" เป็น 1 สำหรับ "ชาย" และ 0 สำหรับ "ผู้หญิง" อย่างไรก็ตามฉันสงสัยว่ากระบวนการประเภทนี้สามารถหลีกเลี่ยงได้กับกระบวนทัศน์การสร้างแบบจำลองที่รู้จักหรือไม่
Michael McGowan

1

นี่คือคำถามเชิงปรัชญาที่ลึกซึ่งมักจะได้รับการกล่าวถึงจากจุดสิ้นสุดทางสถิติและการเรียนรู้ของเครื่อง บางคนบอกว่าการจัดหมวดหมู่จะดีกว่าสำหรับตัวบ่งชี้ที่ไม่ต่อเนื่องเพื่อจัดหมวดหมู่เพื่อให้แพคเกจสามารถย่อยอินพุตโมเดลได้อย่างง่ายดาย บางคนบอกว่าการทำ Binning นั้นอาจทำให้ข้อมูลสูญหายได้ แต่อย่างไรก็ตามตัวแปรที่เป็นหมวดหมู่สามารถ / ต้องถูกแปลงเป็น {1,0} ตัวแปรตัวบ่งชี้ที่ออกจากคลาสสุดท้ายสำหรับส่วนที่เหลือของโมเดล

หนังสือ - การถดถอยเชิงเส้นประยุกต์ (Kutner et al.) กล่าวถึงตรรกะของการแนะนำตัวแปรตัวบ่งชี้ในโมเดลในสองสามบทแรก อาจมีข้อความที่คล้ายกันอื่น ๆ ด้วย

ความคิดของฉันเกี่ยวกับเรื่องนี้อาจจะไกลไปหน่อย: ถ้าเราจินตนาการตัวแปรเด็ดเดี่ยวเช่นบล็อกในการออกแบบการทดลองตัวแปรตัวบ่งชี้เป็นส่วนขยายตามธรรมชาติของการวิเคราะห์ข้อมูลที่ไม่ใช่การทดลอง ด้วยความเคารพต่ออัลกอริธึมการทำเหมืองข้อมูล (ตระกูลต้นไม้ตัดสินใจ) การจัดหมวดหมู่เป็นสิ่งที่หลีกเลี่ยงไม่ได้

ดังนั้นจึงอาจไม่มีโมเดลที่มีความเชี่ยวชาญสำหรับตัวเลขและตัวแปรเด็ดขาดในลักษณะเดียวกัน (โดยไม่ต้องใช้ตัวเลข binning หรือใช้ตัวบ่งชี้ - หมวดหมู่)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.