จริง ๆ แล้วมันเป็นเรื่องที่ดีที่จะทำการเลือกคุณสมบัติที่ไม่มีผู้ดูแลก่อนที่จะทำการตรวจสอบข้าม?


9

ในองค์ประกอบของการเรียนรู้ทางสถิติฉันพบคำสั่งต่อไปนี้:

มีคุณสมบัติหนึ่งประการ: ขั้นตอนการคัดกรองเบื้องต้นที่ไม่มีผู้ดูแลสามารถทำได้ก่อนที่จะปล่อยตัวอย่าง ตัวอย่างเช่นเราสามารถเลือกตัวทำนาย 1,000 รายการที่มีความแปรปรวนสูงสุดในตัวอย่าง 50 ทั้งหมดก่อนเริ่มการตรวจสอบความถูกต้องข้าม เนื่องจากตัวกรองนี้ไม่เกี่ยวข้องกับป้ายกำกับของชั้นเรียนจึงไม่ได้ให้ข้อได้เปรียบที่ไม่เป็นธรรม

มันถูกต้องจริงเหรอ? ฉันหมายถึงโดยการกรองคุณลักษณะไว้ก่อนหน้านี้เราไม่ได้เลียนแบบข้อมูลการฝึกอบรม / สภาพแวดล้อมข้อมูลใหม่ - ดังนั้นเรื่องนี้ที่การกรองที่เราดำเนินการอยู่จะไม่ได้รับการดูแลหรือไม่? การทำกระบวนการpreprocessing ทั้งหมดในกระบวนการตรวจสอบข้ามจริง ๆ ดีกว่าหรือไม่ หากไม่ใช่กรณีดังกล่าวหมายความว่าการดำเนินการประมวลผลล่วงหน้าที่ไม่ได้รับการจัดการทั้งหมดสามารถทำได้ล่วงหน้ารวมถึงคุณสมบัติการทำให้เป็นมาตรฐาน / PCA เป็นต้น แต่ด้วยการทำสิ่งเหล่านี้ในชุดฝึกอบรมทั้งหมดเราจะรั่วข้อมูลบางส่วนไปยังชุดฝึกอบรม ฉันเห็นด้วยกับชุดข้อมูลที่ค่อนข้างคงที่ความแตกต่างเหล่านี้น่าจะเล็กมาก - แต่ไม่ได้หมายความว่ามันไม่มีอยู่ใช่ไหม? วิธีที่ถูกต้องในการคิดเกี่ยวกับเรื่องนี้คืออะไร?

คำตอบ:


2

ตามขั้นตอนก่อนที่จะทำการตรวจสอบข้ามการเลือกคุณลักษณะที่ไม่ได้รับอนุญาตนั้นค่อนข้างคล้ายกับการปรับสภาพคุณลักษณะ:

  1. จากมุมมองของรอยพับเฉพาะในการตรวจสอบความถูกต้องไขว้ข้อมูลรถไฟมองที่ข้อมูลการทดสอบ (แม้ว่าจะอยู่ในตัวแปรอิสระเท่านั้น)

  2. การแอบดูนี้ค่อนข้างไม่รุนแรง

การปรับสภาพคุณลักษณะก่อนที่จะมีการพูดคุยข้ามการตรวจสอบความถูกต้องในคำถามนี้ อ้างคำตอบจาก Dikran Marsupial

การตรวจสอบความถูกต้องไขว้ถูกมองว่าเป็นวิธีที่ดีที่สุดในการประเมินประสิทธิภาพของกระบวนการทางสถิติมากกว่าแบบจำลองทางสถิติ ดังนั้นเพื่อให้ได้การประเมินประสิทธิภาพที่เป็นกลางคุณต้องทำซ้ำทุกองค์ประกอบของขั้นตอนนั้นแยกต่างหากในแต่ละครั้งของการตรวจสอบความถูกต้องข้ามซึ่งจะรวมถึงการทำให้เป็นมาตรฐาน

ดังนั้นหากคุณสามารถสำรองทรัพยากรสิ่งที่ดีที่สุดคือการมีการตรวจสอบข้ามแต่ละครั้งจะทำการประมวลผลใด ๆที่ขึ้นอยู่กับข้อมูลตั้งแต่เริ่มต้น

อย่างไรก็ตามตามคำตอบของคำถามนั้นในทางปฏิบัติการย้อนกลับของลำดับอาจไม่เปลี่ยนแปลงสิ่งต่าง ๆ มากนัก มีแน่นอนไม่ได้เป็นข้อได้เปรียบที่ไม่เป็นธรรมมากว่าคุณลักษณะ -dependent การจัดแสดงนิทรรศการการเลือก IMHO ที่แปลความหมายของคำพูดจากองค์ประกอบของการเรียนรู้ทางสถิติy


ตรงกับความคิดของฉันและประโยคสุดท้ายที่นี่เป็นคำตอบสั้น ๆ สำหรับคำถามของฉัน ขอบคุณฉันจะทำให้คำตอบนี้ได้รับการยอมรับ
Matek

1
ผลกระทบอาจจะเล็ก แต่ก็อาจจะไม่ว่าขนาดเล็ก อย่างที่คุณพูดมันเหมือนกับการปรับขนาดตัวแปรอิสระของคุณก่อน CV ซึ่งจะใช้ "อนาคต" (ข้อมูลทดสอบ) เพื่อช่วยปรับ "ปัจจุบัน" (ข้อมูลการฝึกอบรม) ซึ่งจะไม่เกิดขึ้นในโลกแห่งความจริง หากคุณมีการพับแบบสุ่ม (ไม่ได้ใช้อนุกรมเวลาการแบ่งชั้น ฯลฯ ) มันจะมีผลกระทบน้อยกว่า แต่ทำไมต้องทำลายสิ่งกีดขวางรถไฟ / การทดสอบและทั้งหมด
Wayne

@ Wayne ฉันเห็นด้วยกับคุณอย่างแน่นอนว่าเมื่อใดก็ตามที่เป็นไปได้จะเป็นการดีที่สุดที่จะไม่ทำลายกำแพงรถไฟ / การทดสอบ โดยส่วนตัวแล้วฉันไม่เคยพบกรณีจริงในโลกนี้ที่สร้างความแตกต่าง (wrt unsupervised FS และ / หรือการทำให้เป็นมาตรฐาน) แต่ฉันได้พบกรณีที่เป็นไปไม่ได้เลยที่จะทำการเลือกคุณสมบัติ "ทางที่ถูกต้อง" (เช่นภายในแต่ละ พับ). อย่างไรก็ตามฉันเห็นจากคำตอบที่ดีของคุณ (ซึ่งฉัน upvoting) ที่คุณได้พบกรณีตรงข้ามดังนั้นทั้งสองสถานการณ์อยู่
Ami Tavory

ฉันไม่แน่ใจว่าฉันพบผลลัพธ์ CV ที่การทำให้ปกติมีความแตกต่างเช่นกันซึ่งฉันมักจะทำ CV แบบ 10 เท่าซึ่งหมายความว่าการทดสอบแบบพับมีเพียง 10% ซึ่งทำให้ผลมีขนาดเล็กลง ฉันเห็นความแตกต่างกับสิ่งที่แตกต่างจาก 67/33 หรือ 75/25 ที่ไม่ใช่ CV
Wayne

9

ฉันขอแตกต่างในคำถามนี้ด้วยความเห็นของ @ AmiTavory เช่นเดียวกับองค์ประกอบของการเรียนรู้ทางสถิติ

มาจากเขตข้อมูลที่ใช้กับขนาดตัวอย่างที่ต่ำมากฉันมีประสบการณ์ที่ขั้นตอนการประมวลผลล่วงหน้าที่ไม่ได้รับการดูแลสามารถแนะนำอคติที่รุนแรงได้

ในสาขาของฉันที่จะเป็น PCA บ่อยที่สุดสำหรับการลดขนาดก่อนที่จะได้รับการฝึกฝนลักษณนาม ในขณะที่ผมไม่สามารถแสดงข้อมูลที่นี่ผมเคยเห็น PCA + (ข้าม LDA ตรวจสอบ) กับข้ามการตรวจสอบ (PCA + LDA) ประเมินอัตราความผิดพลาดโดยการเกี่ยวกับลำดับความสำคัญ (ซึ่งโดยปกติจะเป็นตัวบ่งชี้ว่า PCA ไม่เสถียร)

สำหรับการถกเถียงเรื่อง "ความได้เปรียบที่ไม่ยุติธรรม" ขององค์ประกอบหากมีการตรวจสอบความแตกต่างของกรณีทดสอบ taining + เราจะได้คุณลักษณะที่ใช้งานได้ดีกับทั้งกรณีการฝึกอบรมและการทดสอบ ดังนั้นเราจึงสร้างคำพยากรณ์แบบเติมเต็มตนเองที่นี่ซึ่งเป็นสาเหตุของการมีอคติเกิน อคตินี้อยู่ในระดับต่ำหากคุณมีขนาดตัวอย่างที่สะดวกสบายพอสมควร

ดังนั้นฉันขอแนะนำวิธีการที่อนุรักษ์นิยมมากกว่าองค์ประกอบเล็กน้อย:

  • การคำนวณการประมวลผลล่วงหน้าที่พิจารณามากกว่าหนึ่งกรณีต้องรวมอยู่ในการตรวจสอบความถูกต้อง: นั่นคือการคำนวณในชุดการฝึกอบรมที่เกี่ยวข้องเท่านั้น (จากนั้นนำไปใช้กับข้อมูลการทดสอบ)
  • preprocessing ขั้นตอนที่พิจารณาแต่ละกรณีด้วยตัวเอง (ฉัน spectroscopist: ตัวอย่างจะแก้ไขพื้นฐานและความรุนแรงมาตรฐานซึ่งเป็นมาตรฐานแถวฉลาด) อาจถูกดึงออกมาจากการตรวจสอบข้ามตราบเท่าที่พวกเขาอยู่ก่อนขั้นตอนแรกที่ คำนวณหลายกรณี

ที่ถูกกล่าวว่ายังข้าม valiation เป็นเพียงทางลัดสำหรับการทำการศึกษาการตรวจสอบที่เหมาะสม ดังนั้นคุณอาจโต้เถียงกับการปฏิบัติจริง:

  • คุณสามารถตรวจสอบว่าการประมวลผลล่วงหน้าในคำถามให้ผลลัพธ์ที่มีเสถียรภาพหรือไม่ (คุณสามารถทำได้เช่นโดยการตรวจสอบข้าม) หากคุณพบว่ามันมีความเสถียรอย่างสมบูรณ์แบบด้วยขนาดตัวอย่างที่ต่ำกว่า IMHO คุณอาจยืนยันว่าจะมีอคติไม่มากนักที่จะดึงออกมาจากการตรวจสอบไขว้

  • อย่างไรก็ตามการอ้างถึงหัวหน้างานก่อนหน้านี้: เวลาการคำนวณนั้นไม่มีข้อโต้แย้งทางวิทยาศาสตร์
    ฉันมักจะไปหา "แอบดูตัวอย่าง" สองสามครั้งและทำซ้ำไม่กี่ครั้งสำหรับการตรวจสอบไขว้เพื่อให้แน่ใจว่ารหัสทั้งหมด (รวมถึงสรุป / กราฟของผลลัพธ์) และจากนั้นทิ้งไว้ข้ามคืนหรือสุดสัปดาห์หรือบนเซิร์ฟเวอร์สำหรับ การตรวจสอบไขว้ละเอียดยิ่งขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.