เหตุใดจึงควรหลีกเลี่ยงการถูก Binning ที่ค่าใช้จ่ายทั้งหมด?


10

ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้

การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ

อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา

ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง:

ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0

ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5)

มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท (สิ่งที่ฉันทำ) เช่นกัน


10
ดูเหมือนว่าการตั้งค่าที่คุณอธิบายไม่ได้เป็นการบอกเป็นนัยว่าการทำ binning นั้นเป็นความคิดที่ดี คุณพูดด้วยตัวเองว่ามีข้อมูลว่าใกล้ถึง 1.0ค่าเท่าไหร่ IMHO คุณน่าจะมีคุณสมบัติต่อเนื่องที่เกี่ยวข้องกับความน่าจะเป็นที่จะเป็นเครื่องมือ บางทีคุณสามารถขยายคำถามของคุณ
Frank Harrell

คำถามของฉันโดยทั่วไปคือเมื่อมันโอเคที่จะใช้ binning ถ้าเลย ในกรณีของฉันฉันใช้มันบนพื้นฐานของโดเมน (เป็นเครื่องมือ / ไม่เป็นเครื่องมือ) เนื่องจากฉันเชื่อว่ามันจะเป็นภาคแสดงมากกว่าที่จะบอกว่าเพลงใกล้จะเป็นสื่อ (เพราะเพลงเป็นหรือไม่เป็นเครื่องมือ) คุณโต้เถียงกับตรรกะนี้อย่างไรก็ตามในจุดที่ 8 ของการโพสต์ของคุณ ฉันเป็นสามเณรเพียงแค่มีช่วงเวลาที่ยากลำบากจริงๆเข้าใจว่าทำไมมันควรจะเป็น
อ่าน

1
ฉันเขียนบทความยาว ๆ เกี่ยวกับเรื่องนี้ในบริบทของการสร้างแบบจำลองการคาดการณ์: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury

ให้ข้อมูลและละเอียดมากขอบคุณ อย่างไรก็ตามฉันไม่เห็นความสัมพันธ์กับคำถามของฉัน (แม้ว่าฉันยังได้รับข้อมูลเชิงลึกใหม่ ๆ บทความของคุณกำลังพูดถึงการใช้ตัวแปรทำนายในปัญหาการถดถอยและสาเหตุที่เป็นความคิดที่ไม่ดี (ซึ่งบทความของคุณโต้แย้งอย่างน่าเชื่อถือ) และทำไมการใช้เส้นโค้งช่วยสร้างแบบจำลองการถดถอย ฉันถามว่าทำไมการแยกแยะคุณค่าของคุณลักษณะที่ต่อเนื่อง (อินพุต) ในปัญหาการจำแนก (ซึ่งตัวแปรตัวทำนายเป็น "ถังขยะ" ซึ่งก็คือคลาส)
อ่าน

2
หากคุณลักษณะเกือบทั้งหมดของคุณอยู่ในจุดหนึ่งก็มีแนวโน้มที่จะไม่ช่วยเหลือโมเดลของคุณโดยไม่คำนึงถึงสิ่งที่คุณทำ
สะสม

คำตอบ:


15

เป็นเรื่องที่พูดเกินจริงเล็กน้อยที่จะกล่าวว่าควรหลีกเลี่ยงการทำ binning ด้วยค่าใช้จ่ายทั้งหมดแต่แน่นอนว่าในกรณีที่ binning แนะนำตัวเลือก bin ที่แนะนำการวิเคราะห์โดยพลการ ด้วยวิธีการทางสถิติที่ทันสมัยโดยทั่วไปไม่จำเป็นต้องมีส่วนร่วมในการ binning เนื่องจากสิ่งที่สามารถทำได้บนข้อมูล "binned" discretized โดยทั่วไปสามารถทำได้ในค่าต่อเนื่องพื้นฐาน

การใช้ "binning" ที่พบมากที่สุดในสถิติคือการสร้างฮิสโตแกรม ฮิสโทแกรมมีความคล้ายคลึงกับคลาสทั่วไปของการประมาณความหนาแน่นของเคอร์เนล (KDEs) ตราบเท่าที่พวกมันเกี่ยวข้องกับการรวมฟังก์ชั่นขั้นตอนบนถังขยะที่เลือกในขณะที่ KDE เกี่ยวข้องกับการรวมของเมล็ดที่นุ่มนวลขึ้น ฟังก์ชั่นขั้นตอนที่ใช้ในฮิสโตแกรมนั้นไม่ใช่ฟังก์ชั่นที่ราบรื่นและโดยทั่วไปแล้วในกรณีที่ฟังก์ชั่นเคอร์เนลที่ดีกว่านั้นสามารถเลือกได้โดยไม่ตั้งใจภายใต้วิธี KDE ซึ่งให้ผลการประมาณความหนาแน่นของข้อมูลที่ดีกว่า ฉันมักจะบอกนักเรียนว่าฮิสโตแกรมนั้นเป็นเพียง "KDE ของคนจน" โดยส่วนตัวแล้วฉันจะไม่ใช้อันใดอันหนึ่งเพราะมันง่ายมากที่จะได้รับ KDE โดยไม่ต้อง binning ข้อมูลและนี่จะให้ผลลัพธ์ที่เหนือกว่าโดยไม่มีทางเลือกในการ binning โดยพลการ

การใช้ "binning" ทั่วไปอื่นเกิดขึ้นเมื่อนักวิเคราะห์ต้องการแยกข้อมูลอย่างต่อเนื่องเป็นถังขยะเพื่อใช้เทคนิคการวิเคราะห์ที่ใช้ค่าแยก สิ่งนี้ดูเหมือนจะเป็นสิ่งที่ถูกแนะนำในส่วนที่คุณพูดถึงเกี่ยวกับการทำนายเสียงร้อง ในกรณีเช่นนี้มีการแนะนำให้ทำโดยอนุญาโตตุลาการและมีการสูญหายของข้อมูล เป็นการดีที่สุดที่จะหลีกเลี่ยงปัญหานี้หากเป็นไปได้โดยพยายามสร้างแบบจำลองโดยตรงกับค่าต่อเนื่องที่สำคัญมากกว่าการสร้างแบบจำลองบนค่า "binned" discretized

ตามกฎทั่วไปมันเป็นที่พึงปรารถนาสำหรับนักสถิติเพื่อหลีกเลี่ยงเทคนิคการวิเคราะห์ที่แนะนำสมมติฐานโดยพลการโดยเฉพาะอย่างยิ่งในกรณีที่มีเทคนิคทางเลือกที่มีอยู่เพื่อหลีกเลี่ยงสมมติฐานเหล่านี้ได้อย่างง่ายดาย ดังนั้นฉันจึงเห็นด้วยกับความรู้สึกว่าโดยทั่วไปการ binning นั้นไม่จำเป็น ไม่ควรหลีกเลี่ยงค่าใช้จ่ายใด ๆ อย่างแน่นอนเนื่องจากค่าใช้จ่ายมีความสำคัญ แต่โดยทั่วไปควรหลีกเลี่ยงเมื่อมีเทคนิคทางเลือกง่าย ๆ ที่อนุญาตให้หลีกเลี่ยงได้โดยไม่เกิดความไม่สะดวกอย่างร้ายแรง


ฉันเห็น. คำถามติดตามแม้ว่า: ดูที่การกระจายตัวของตัวอย่างที่กล่าวข้างต้นดูที่นี่ (แดกดันฮิสโตแกรม), ฉันแค่ไม่เห็นประโยชน์ในตัวแปรต่อเนื่องที่ตัวอย่างเกือบทั้งหมดหมุนรอบหนึ่งค่า (นี่คือ 0) ซึ่งเป็น เป็นสิ่งที่ทำให้ฉันเริ่มต้นคุณลักษณะนี้ คุณพูดถึงทางเลือก - คุณช่วยอธิบายอย่างละเอียดหรือชี้ทางให้ฉันไปในทิศทางที่ถูกต้องว่าฉันจะเรียนรู้เพิ่มเติมได้จากที่ใด
อ่าน

ลองอ่านเกี่ยวกับKDEและลองพิจารณาวิธีอื่นในการวางแผนข้อมูลที่ไม่เปลี่ยนแปลง
เบ็น - คืนสถานะโมนิก้า

ฉันฮิสโตแกรมนั้นฉันเห็นค่าทั่วสถานที่ (แต่ใช่เกือบจะเป็นศูนย์) ไม่ควรมีความไม่สะดวกในการใช้งานแบบอิสระและจะให้ข้อมูลเพิ่มเติม พล็อตโค้งติดตั้ง! และถ้าด้วยเหตุผลบางอย่างคุณต้องแยกจากกันการวางแผนนั้นจะช่วยคุณได้อย่างไร อาจเป็นได้ว่าสำหรับการใช้งานเฉพาะของคุณจุดตัดที่มากกว่า 0.5 จะดีกว่า
kjetil b halvorsen

2
ฮิสโตแกรมไม่สามารถตีความได้อย่างถูกต้องในฐานะ KDE เคอร์เนลจะเป็นอะไร?
whuber

1
ในส่วนที่เกี่ยวกับย่อหน้าที่สามของคุณฉันมีคำถามคล้ายกันเกิดขึ้นเมื่อฉันพยายามคำนวณการรับข้อมูลด้วยข้อมูลตัวเลข คุณสามารถดูคำถามนี้และอธิบายสิ่งที่ต้องทำในสถานการณ์นี้ได้หรือไม่? stats.stackexchange.com/questions/384684/…
astel

4

ฉันมักจะเถียงอย่างยิ่งกับการจัดประเภทของตัวแปรต่อเนื่องสำหรับเหตุผลที่แสดงออกอย่างดีโดยคนอื่นเด่น Frank Harrell ในกรณีนี้อาจเป็นประโยชน์ แต่ถามตัวเองเกี่ยวกับกระบวนการที่สร้างคะแนน ดูเหมือนว่าคะแนนส่วนใหญ่จะเป็นศูนย์อย่างมีประสิทธิภาพอาจมีสัญญาณรบกวนบ้าง บางคนใกล้เคียงกับความสามัคคีอีกครั้งด้วยเสียง โกหกน้อยมากในระหว่าง ในกรณีนี้ดูเหมือนจะมีเหตุผลมากขึ้นสำหรับการจัดหมวดหมู่ตั้งแต่หนึ่งสามารถยืนยันว่าโมดูโล่เสียงนี้เป็นตัวแปรไบนารี หากใครเหมาะสมกับมันเป็นตัวแปรต่อเนื่องสัมประสิทธิ์จะมีความหมายในแง่ของการเปลี่ยนแปลงในตัวแปรทำนาย แต่ในกรณีนี้ในช่วงส่วนใหญ่ของตัวแปรที่มีประชากรเบาบางมากดังนั้นดูเหมือนว่าไม่น่าสนใจ


4
คำตอบสั้น ๆ ของฉันเมื่อใช้ binning คือ: เมื่อทราบจุดที่ไม่ต่อเนื่องแล้วก่อนที่จะดูข้อมูล (นี่คือจุดสิ้นสุดของ bin) และหากทราบว่าความสัมพันธ์ระหว่าง x และ y ภายในแต่ละ bin ที่มี ความยาวไม่เป็นศูนย์แบน
Frank Harrell

2

ลองนึกภาพคุณมีนาฬิกาที่แสดงเฉพาะชั่วโมง โดยเฉพาะฉันหมายความว่ามันมีเพียงลูกศรชั่วโมงที่เมื่อชั่วโมงทำให้ 1/12 ข้ามไปยังอีกชั่วโมงมันไม่เคลื่อนไหวอย่างราบรื่น นาฬิกาดังกล่าวจะไม่มีประโยชน์มากนักเนื่องจากคุณไม่รู้ว่ามันเป็นห้าโมงครึ่งสองโมงครึ่งหรือสิบถึงสามนาฬิกา นั่นเป็นปัญหาของข้อมูลที่ถูกขัดจังหวะโดยจะสูญเสียรายละเอียดและทำให้เกิดการเปลี่ยนแปลง


1
(+1) ใช่และเพิ่มปัญหาเพิ่มเติมที่ผู้ดูแลระบบอาจไม่เลือกการเพิ่มรายชั่วโมง แต่อาจตัดสินใจโดยพลการว่านาฬิกาของเขาจะเพิ่มขึ้น 19 นาทีและคุณมีปัญหาเพิ่มเติมนอกเหนือจากการสูญเสียข้อมูล .
เบ็น - คืนสถานะโมนิก้า

2

สำหรับบางแอปพลิเคชั่นซึ่งรวมถึงแอพที่คุณใคร่ครวญอาจจำเป็นต้องใช้การอย่างเคร่งครัด เห็นได้ชัดว่าในการดำเนินการปัญหาการจัดหมวดหมู่ในบางจุดคุณต้องถอนข้อมูลเด็ดขาดจากแบบจำลองของคุณและถ้าอินพุตของคุณเป็นหมวดหมู่ทั้งหมดเช่นกันคุณจะต้องดำเนินการ binning ลองพิจารณาตัวอย่าง:

AI ที่ซับซ้อนกำลังเล่นโป๊กเกอร์ มันได้ประเมินความเป็นไปได้ที่มือจะดีกว่ามือของผู้เล่นอื่น ๆ ถึง 70% มันเป็นตาของการเดิมพันอย่างไรก็ตามมันบอกว่าควรหลีกเลี่ยงการ binning ที่ต้นทุนทั้งหมดและดังนั้นจึงไม่เคยวางเดิมพัน มันพับตามค่าเริ่มต้น

อย่างไรก็ตามสิ่งที่คุณเคยได้ยินอาจเป็นจริงในการ binning ก่อนหน้าของค่ากลางที่ยอมจำนนข้อมูลที่อาจถูกเก็บรักษาไว้ หากวัตถุประสงค์สุดท้ายของโครงการของคุณคือการพิจารณาว่าคุณจะ "ชอบ" เพลงที่เป็นปัญหาซึ่งอาจถูกกำหนดโดยสองปัจจัย: "instrumentalness" และ "rockitude" คุณน่าจะทำได้ดีกว่าที่จะเก็บไว้เป็นตัวแปรต่อเนื่องจนกว่าคุณจะ ต้องดึง "likingness" ออกเป็นตัวแปรเด็ดขาด

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

หรือสัมประสิทธิ์อะไรก็ตามที่คุณเห็นว่าเหมาะสมที่สุดหรือโมเดลอื่นใดที่เหมาะสมกับชุดฝึกอบรมของคุณ

หากคุณตัดสินใจว่าบางสิ่งบางอย่างเป็น "เครื่องมือ" (จริงหรือเท็จ) และ "หิน" (จริงหรือเท็จ) แสดงว่าคุณมี 4 หมวดหมู่ของคุณก่อนที่คุณจะเรียบเรียงในวันธรรมดา:

  1. เครื่องมือหิน
  2. หินที่ไม่เป็นเครื่องมือ
  3. มีประโยชน์ไม่มีหิน
  4. ไม่มีเครื่องมือไม่มีหิน

แต่สิ่งที่คุณต้องตัดสินใจคือ 4 หมวดหมู่ที่คุณ "ถูกใจ" คุณมีความยืดหยุ่นในการตัดสินใจครั้งสุดท้าย

การตัดสินใจทิ้งถังขยะหรือไม่ขึ้นอยู่กับเป้าหมายของคุณ โชคดี.


2

R

R{b1bN}ผม=[ล.ผม,ยูผม]ล.ผมยูผมผม

ล.=ล.0Wล.0ยู0=ล.0+WW(Wม.ผมn,Wม.ax)

P(R)=ΣW=Wม.ผมnWม.axΣล.=ล.0ล.0+WP(R|ล.,W)P(ล.,W)P(ล.,W)~2(ยู0-ล.0)Wม.ax+Wม.ผมn×(Wม.ax-Wม.ผมn)

Wม.ax,Wม.ผมn,ล.0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

ในบริบทของคำถามของ OPฉันจะพอใจถ้าค่า threshold ตามอำเภอใจ 0.5 ถูกกำหนดเป็นค่าที่หลากหลายระหว่างค่า min และค่าที่เชื่อถือได้และเพื่อดูว่าผลลัพธ์พื้นฐานของการวิเคราะห์ของเขาส่วนใหญ่ไม่ขึ้นอยู่กับการเลือก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.