ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้
การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ
อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา
ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง:
ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0
ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5)
มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท (สิ่งที่ฉันทำ) เช่นกัน