คำถามติดแท็ก data-preprocessing

1
การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้
มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

2
ฟอเรสต์แบบสุ่มจำเป็นต้องปรับขนาดตัวแปรอินพุตหรือให้อยู่กึ่งกลางหรือไม่
ตัวแปรอินพุตของฉันมีมิติที่แตกต่างกัน ตัวแปรบางตัวเป็นทศนิยมในขณะที่บางส่วนมีหลายร้อย จำเป็นหรือไม่ที่จะจัดกึ่งกลาง (ลบค่าเฉลี่ย) หรือมาตราส่วน (หารด้วยส่วนเบี่ยงเบนมาตรฐาน) ตัวแปรอินพุตเหล่านี้เพื่อทำให้ข้อมูลไม่มีมิติเมื่อใช้ฟอเรสต์แบบสุ่ม

2
Neural Nets: ตัวแปรร้อนแรงอย่างต่อเนื่องหรือไม่
ฉันมีข้อมูลดิบที่มีประมาณ 20 คอลัมน์ (20 คุณสมบัติ) สิบรายการเป็นข้อมูลต่อเนื่องและ 10 รายการจัดอยู่ในหมวดหมู่ ข้อมูลหมวดหมู่บางส่วนอาจมีค่าแตกต่างกัน 50 ค่า (สหรัฐอเมริกา) หลังจากที่ฉันประมวลผลข้อมูลล่วงหน้าแล้วคอลัมน์ 10 คอลัมน์ต่อเนื่องจะกลายเป็น 10 คอลัมน์ที่เตรียมไว้และค่า 10 หมวดหมู่กลายเป็นตัวแปร 200 ตัวที่เข้ารหัสร้อน ฉันกังวลว่าถ้าฉันใส่ฟีเจอร์ 200 + 10 = 210 เหล่านี้ทั้งหมดลงในตาข่ายประสาทดังนั้นฟีเจอร์ 200-one-hot (คอลัมน์หมวดหมู่ 10 คอลัมน์) ทั้งหมดจะมีอิทธิพลต่อคุณสมบัติ 10 ต่อเนื่องทั้งหมด บางทีวิธีการหนึ่งอาจจะเป็นการรวมกลุ่มหรือคอลัมน์ นี่เป็นข้อกังวลที่ถูกต้องและมีวิธีมาตรฐานในการจัดการกับปัญหานี้หรือไม่? (ฉันใช้ Keras แม้ว่าฉันไม่คิดว่ามันจะสำคัญมาก)

3
ขั้นตอนวิธีใดที่ต้องใช้การเข้ารหัสแบบร้อนแรง
ฉันไม่เคยแน่ใจว่าจะใช้การเข้ารหัสแบบร้อนแรงหนึ่งครั้งสำหรับตัวแปรเด็ดขาดที่ไม่มีการเรียงลำดับและเมื่อใด ฉันใช้ทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน ทุกคนสามารถให้กฎทั่วไปเกี่ยวกับประเภทของอัลกอริทึมที่ต้องใช้คุณลักษณะที่ไม่มีการจัดประเภทเพื่อเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่

1
คำถามเกี่ยวกับการลบค่าเฉลี่ยในชุดรถไฟ / ถูกต้อง / ทดสอบ
ฉันกำลังประมวลผลข้อมูลล่วงหน้าและจะสร้าง Convonets กับข้อมูลของฉันหลังจากนั้น คำถามของฉันคือ: สมมติว่าฉันมีชุดข้อมูลทั้งหมด 100 ภาพฉันคำนวณค่าเฉลี่ยสำหรับแต่ละภาพ 100 ภาพแล้วลบมันออกจากแต่ละภาพจากนั้นแยกชุดนี้เป็นชุดรถไฟและชุดตรวจสอบและฉันก็ทำเช่นเดียวกัน ขั้นตอนในการประมวลผลในชุดทดสอบที่กำหนด แต่ดูเหมือนว่านี่ไม่ใช่วิธีที่ถูกต้องในการทำตามลิงค์นี้: http://cs231n.github.io/neural-networks-2/#datapre จุดผิดพลาดทั่วไปจุดสำคัญที่จะทำให้การประมวลผลล่วงหน้าคือสถิติการประมวลผลล่วงหน้า (เช่นค่าเฉลี่ยของข้อมูล) จะต้องคำนวณจากข้อมูลการฝึกอบรมเท่านั้นจากนั้นนำไปใช้กับข้อมูลการตรวจสอบ / ทดสอบเช่นคำนวณค่าเฉลี่ยและลบออกจาก ทุกภาพในชุดข้อมูลทั้งหมดจากนั้นแยกข้อมูลออกเป็นส่วนแยก train / val / test จะเป็นความผิดพลาดแทนค่าเฉลี่ยจะต้องคำนวณเฉพาะข้อมูลการฝึกอบรมและจากนั้นแยกเท่า ๆ กันจากการแยกทั้งหมด (train / val / test) " ฉันคาดเดาสิ่งที่ผู้เขียนพูดคืออย่าคำนวณค่าเฉลี่ยและลบมันภายในแต่ละภาพ แต่คำนวณค่าเฉลี่ยของชุดภาพทั้งหมด (เช่น (image1 + ... + image100) / 100) และลบค่าเฉลี่ยของ แต่ละภาพ ฉันไม่เข้าใจทุกคนสามารถอธิบายได้? และอาจอธิบายได้ว่าทำไมสิ่งที่ฉันทำผิด (ถ้าผิด)

2
ถังคืออะไร?
ฉันได้ไปรอบ ๆ เพื่อหาคำอธิบายที่ชัดเจนของ "การถัง" ในการเรียนรู้ของเครื่องโดยไม่มีโชค สิ่งที่ฉันเข้าใจจนถึงตอนนี้ก็คือการสร้างถังข้อมูลนั้นมีความคล้ายคลึงกับปริมาณในการประมวลผลสัญญาณดิจิตอลโดยที่ช่วงของค่าต่อเนื่องจะถูกแทนที่ด้วยค่าที่ไม่ต่อเนื่องหนึ่งค่า ถูกต้องหรือไม่ อะไรคือข้อดีและข้อเสีย (นอกเหนือจากผลกระทบที่ชัดเจนของการสูญเสียข้อมูล) ของการใช้งานถังข้อมูล? มีกฎของหัวแม่มือเกี่ยวกับวิธีการใช้ถัง? มีแนวทาง / อัลกอริธึมสำหรับการใช้การทำให้เป็นถังก่อนการใช้การเรียนรู้ของเครื่องหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.