คำถามติดแท็ก feature-construction

วิศวกรรมคุณลักษณะเป็นกระบวนการใช้ความรู้โดเมนของข้อมูลเพื่อสร้างคุณลักษณะสำหรับโมเดลการเรียนรู้ของเครื่อง แท็กนี้มีไว้สำหรับคำถามทั้งในเชิงทฤษฎีและเชิงปฏิบัติเกี่ยวกับวิศวกรรมคุณลักษณะยกเว้นคำถามที่ถามหาโค้ดซึ่งจะไม่ตรงประเด็นใน CrossValidated

2
ทำความเข้าใจกับคุณสมบัติการแปลงแป้นพิมพ์
วิกิพีเดียให้เห็นตัวอย่างต่อไปนี้เมื่ออธิบายคุณลักษณะคร่ำเครียด ; แต่ดูเหมือนว่าการแมปจะไม่สอดคล้องกับพจนานุกรมที่กำหนดไว้ ตัวอย่างเช่นtoควรแปลง3ตามพจนานุกรม แต่มีการเข้ารหัส1แทน คำอธิบายมีข้อผิดพลาดหรือไม่? ฟีเจอร์การแฮชทำงานอย่างไร ตำรา: John likes to watch movies. Mary likes too. John also likes to watch football games. สามารถแปลงโดยใช้พจนานุกรม {"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10} เมทริกซ์ [[1 2 1 1 1 …

1
การจัดการกับชุดข้อมูลอนุกรมเวลาที่มีขนาดใหญ่มาก
ฉันสามารถเข้าถึงชุดข้อมูลที่มีขนาดใหญ่มาก ข้อมูลมาจากการบันทึกMEGของผู้คนที่ฟังเพลงที่ตัดตอนมาจากหนึ่งในสี่ประเภท ข้อมูลมีดังนี้: 6 วิชา 3 การทดลองซ้ำ (ตอน) 120 การทดลองต่อยุค 8 วินาทีของข้อมูลต่อการทดลองที่ 500Hz (= 4000 ตัวอย่าง) จาก 275 MEG channel ดังนั้น "ตัวอย่าง" นี่คือเมทริกซ์ขนาด [4000x275] และมีตัวอย่าง 2160 ตัวอย่างและนั่นคือก่อนการแยกคุณลักษณะใด ๆ เป้าหมายคือการทำนายประเภทตามสัญญาณสมอง (การจำแนก 4 ระดับ) เห็นได้ชัดว่ามีบางประเด็นที่ท้าทายที่นี่คือ: ชุดข้อมูลไม่พอดีกับหน่วยความจำ ข้อมูลจะมีความสัมพันธ์ทางโลกที่แข็งแกร่งและความแปรผันระหว่างหัวข้อจะมีขนาดใหญ่มาก ดังนั้นจึงไม่ชัดเจนว่าจะแบ่งข้อมูลอย่างไร อัตราส่วนสัญญาณต่อเสียงรบกวนต่ำมาก ไม่ชัดเจนว่าคุณสมบัติที่ถูกต้องสำหรับตัวจําแนกจะเป็นอย่างไร สิ่งเหล่านี้ในทางกลับกัน: มีหลายสิ่งที่เราทำได้ ประการแรกเราสามารถลดตัวอย่างได้อย่างปลอดภัยจาก 500Hz ถึง ~ 200Hz แม้ว่าการ จำกัด Nyquist เข้าบัญชีกิจกรรมสมองไม่ได้เกิดขึ้นจริงที่ 100Hz …

1
ทำไมฟูริเยร์แบบสุ่มถึงไม่ติดลบ?
คุณลักษณะฟูริเยร์แบบสุ่มให้การประมาณค่ากับฟังก์ชันเคอร์เนล พวกมันใช้สำหรับวิธีเคอร์เนลต่างๆเช่น SVM และกระบวนการ Gaussian วันนี้ฉันลองใช้การติดตั้ง TensorFlowและฉันได้รับค่าลบสำหรับคุณสมบัติครึ่งหนึ่งของฉัน ตามที่ฉันเข้าใจแล้วสิ่งนี้ไม่ควรเกิดขึ้น ดังนั้นฉันจึงกลับไปที่เอกสารต้นฉบับซึ่ง --- อย่างที่ฉันคาดไว้ --- กล่าวว่าคุณลักษณะควรมีชีวิตอยู่ใน [0,1] แต่คำอธิบาย (เน้นด้านล่าง) ไม่สมเหตุสมผลสำหรับฉัน: ฟังก์ชันโคไซน์สามารถสร้างค่าได้ทุกที่ใน [-1,1] และจุดส่วนใหญ่ที่แสดงมีค่าโคไซน์เชิงลบ ฉันอาจจะพลาดอะไรบางอย่างที่เห็นได้ชัด แต่จะขอบคุณถ้ามีคนชี้ให้เห็นว่ามันคืออะไร

3
อัลกอริทึมการเรียนรู้ของเครื่องเพื่อการจัดอันดับ
ฉันมีชุดขององค์ประกอบ XXX ซึ่งฉันสามารถอธิบายตาม nnnลักษณะเฉพาะ. ดังนั้น: xi:{ci1,ci2,…,cin}∣xi∈Xxi:{ci1,ci2,…,cin}∣xi∈Xx_i: \{c_{i1}, c_{i2}, \ldots, c_{in}\} \mid x_i \in X ที่ไหน cijcijc_{ij} เป็นการประเมิน (ตัวเลข) สำหรับองค์ประกอบ iii ตามลักษณะ jjj. ดังนั้นองค์ประกอบของฉันสามารถดูได้เป็นคะแนนในnnn พื้นที่มิติ จากการอ่านของฉันมีอัลกอริทึมเช่น "ตัวแยกประเภทเบย์" ซึ่งสามารถให้คำตอบประเภท "ใช่" หรือ "ไม่" ในองค์ประกอบใด ๆ ของชุดของฉันหากว่าฉันใช้ "ชุดฝึกอบรม" ซึ่งประกอบด้วย องค์ประกอบของชุดของฉันและผลลัพธ์ที่คาดหวังของอัลกอริทึม จากข้อมูลนั้นอัลกอริทึมควรสามารถใช้องค์ประกอบอื่น ๆ ไม่ใช่ส่วนหนึ่งของชุดการฝึกอบรมและให้คำตอบ "ใช่" หรือ "ไม่" ตามสิ่งที่เรียนรู้ด้วยชุดฝึกอบรม นี่เป็นสิ่งที่ดีถ้าคุณมีความคิดบางอย่างเกี่ยวกับสิ่งที่คุณคาดหวัง (ชุดฝึกอบรม) แต่คุณไม่แน่ใจเกี่ยวกับกฎเฉพาะที่ให้ผลตามนั้น สิ่งที่ฉันต้องการจะทำกับข้อมูลของฉันไม่ได้รับคำตอบประเภท "ใช่" หรือ "ไม่" …

6
วิธีการเตรียม / สร้างฟีเจอร์สำหรับการตรวจจับความผิดปกติ (ข้อมูลความปลอดภัยเครือข่าย)
เป้าหมายของฉันคือการวิเคราะห์บันทึกเครือข่าย (เช่น Apache, syslog, การตรวจสอบความปลอดภัยของ Active Directory และอื่น ๆ ) โดยใช้การตรวจจับกลุ่ม / ความผิดปกติเพื่อวัตถุประสงค์ในการตรวจจับการบุกรุก จากบันทึกฉันมีฟิลด์ข้อความจำนวนมากเช่นที่อยู่ IP ชื่อผู้ใช้ชื่อโฮสต์พอร์ตปลายทางพอร์ตต้นทางและอื่น ๆ (รวมทั้งหมด 15-20 ฟิลด์) ฉันไม่ทราบว่ามีการโจมตีในบันทึกหรือไม่และต้องการเน้นเหตุการณ์ที่น่าสงสัยที่สุด (ผู้ผิด) โดยปกติการตรวจจับความผิดปกติจะทำเครื่องหมายจุดที่มีความน่าจะเป็น / ความถี่ต่ำเป็นความผิดปกติ อย่างไรก็ตามครึ่งหนึ่งของบันทึกรายการบันทึกประกอบด้วยเขตข้อมูลที่ไม่ซ้ำกัน ดังนั้นครึ่งหนึ่งของการบันทึกในชุดข้อมูลจะมีความถี่ต่ำสุดที่เป็นไปได้ ถ้าฉันใช้การตรวจจับความผิดปกติโดยพิจารณาจากการจัดกลุ่ม (เช่นค้นหากลุ่มแล้วเลือกจุดที่อยู่ไกลจากศูนย์คลัสเตอร์ทั้งหมด) ฉันต้องหาระยะทางระหว่างจุดต่าง ๆ เนื่องจากฉันมีฟิลด์ 15-20 ฟิลด์มันจะเป็นพื้นที่แบบหลายมิติซึ่ง dimesions คือชื่อผู้ใช้พอร์ตที่อยู่ IP และอื่น ๆ อย่างไรก็ตามระยะทาง Mahalanobis สามารถใช้ได้กับฟีเจอร์การกระจายแบบปกติเท่านั้น ซึ่งหมายความว่าไม่มีทางที่จะหาระยะห่างระหว่างจุดข้อมูลและสร้างกลุ่ม ... ตัวอย่างเช่นลองนึกภาพว่าฉันมีผู้ใช้ Alice, Bob, Carol, Dave, Eve …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.