เหตุใดจึงควรหลีกเลี่ยงการถูก Binning ที่ค่าใช้จ่ายทั้งหมด?

10

ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้

การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ

อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา

ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง:

ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0

ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5)

มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท (สิ่งที่ฉันทำ) เช่นกัน

— Readler
แหล่งที่มา

10

ดูเหมือนว่าการตั้งค่าที่คุณอธิบายไม่ได้เป็นการบอกเป็นนัยว่าการทำ binning นั้นเป็นความคิดที่ดี คุณพูดด้วยตัวเองว่ามีข้อมูลว่าใกล้ถึง 1.0ค่าเท่าไหร่ IMHO คุณน่าจะมีคุณสมบัติต่อเนื่องที่เกี่ยวข้องกับความน่าจะเป็นที่จะเป็นเครื่องมือ บางทีคุณสามารถขยายคำถามของคุณ

— Frank Harrell

คำถามของฉันโดยทั่วไปคือเมื่อมันโอเคที่จะใช้ binning ถ้าเลย ในกรณีของฉันฉันใช้มันบนพื้นฐานของโดเมน (เป็นเครื่องมือ / ไม่เป็นเครื่องมือ) เนื่องจากฉันเชื่อว่ามันจะเป็นภาคแสดงมากกว่าที่จะบอกว่าเพลงใกล้จะเป็นสื่อ (เพราะเพลงเป็นหรือไม่เป็นเครื่องมือ) คุณโต้เถียงกับตรรกะนี้อย่างไรก็ตามในจุดที่ 8 ของการโพสต์ของคุณ ฉันเป็นสามเณรเพียงแค่มีช่วงเวลาที่ยากลำบากจริงๆเข้าใจว่าทำไมมันควรจะเป็น

— อ่าน

1

ฉันเขียนบทความยาว ๆ เกี่ยวกับเรื่องนี้ในบริบทของการสร้างแบบจำลองการคาดการณ์: madrury.github.io/jekyll/update/statistics/2017/08/04/…

— Matthew Drury

ให้ข้อมูลและละเอียดมากขอบคุณ อย่างไรก็ตามฉันไม่เห็นความสัมพันธ์กับคำถามของฉัน (แม้ว่าฉันยังได้รับข้อมูลเชิงลึกใหม่ ๆ บทความของคุณกำลังพูดถึงการใช้ตัวแปรทำนายในปัญหาการถดถอยและสาเหตุที่เป็นความคิดที่ไม่ดี (ซึ่งบทความของคุณโต้แย้งอย่างน่าเชื่อถือ) และทำไมการใช้เส้นโค้งช่วยสร้างแบบจำลองการถดถอย ฉันถามว่าทำไมการแยกแยะคุณค่าของคุณลักษณะที่ต่อเนื่อง (อินพุต) ในปัญหาการจำแนก (ซึ่งตัวแปรตัวทำนายเป็น "ถังขยะ" ซึ่งก็คือคลาส)

— อ่าน

2

หากคุณลักษณะเกือบทั้งหมดของคุณอยู่ในจุดหนึ่งก็มีแนวโน้มที่จะไม่ช่วยเหลือโมเดลของคุณโดยไม่คำนึงถึงสิ่งที่คุณทำ

— สะสม

15

เป็นเรื่องที่พูดเกินจริงเล็กน้อยที่จะกล่าวว่าควรหลีกเลี่ยงการทำ binning ด้วยค่าใช้จ่ายทั้งหมดแต่แน่นอนว่าในกรณีที่ binning แนะนำตัวเลือก bin ที่แนะนำการวิเคราะห์โดยพลการ ด้วยวิธีการทางสถิติที่ทันสมัยโดยทั่วไปไม่จำเป็นต้องมีส่วนร่วมในการ binning เนื่องจากสิ่งที่สามารถทำได้บนข้อมูล "binned" discretized โดยทั่วไปสามารถทำได้ในค่าต่อเนื่องพื้นฐาน

การใช้ "binning" ที่พบมากที่สุดในสถิติคือการสร้างฮิสโตแกรม ฮิสโทแกรมมีความคล้ายคลึงกับคลาสทั่วไปของการประมาณความหนาแน่นของเคอร์เนล (KDEs) ตราบเท่าที่พวกมันเกี่ยวข้องกับการรวมฟังก์ชั่นขั้นตอนบนถังขยะที่เลือกในขณะที่ KDE เกี่ยวข้องกับการรวมของเมล็ดที่นุ่มนวลขึ้น ฟังก์ชั่นขั้นตอนที่ใช้ในฮิสโตแกรมนั้นไม่ใช่ฟังก์ชั่นที่ราบรื่นและโดยทั่วไปแล้วในกรณีที่ฟังก์ชั่นเคอร์เนลที่ดีกว่านั้นสามารถเลือกได้โดยไม่ตั้งใจภายใต้วิธี KDE ซึ่งให้ผลการประมาณความหนาแน่นของข้อมูลที่ดีกว่า ฉันมักจะบอกนักเรียนว่าฮิสโตแกรมนั้นเป็นเพียง "KDE ของคนจน" โดยส่วนตัวแล้วฉันจะไม่ใช้อันใดอันหนึ่งเพราะมันง่ายมากที่จะได้รับ KDE โดยไม่ต้อง binning ข้อมูลและนี่จะให้ผลลัพธ์ที่เหนือกว่าโดยไม่มีทางเลือกในการ binning โดยพลการ

การใช้ "binning" ทั่วไปอื่นเกิดขึ้นเมื่อนักวิเคราะห์ต้องการแยกข้อมูลอย่างต่อเนื่องเป็นถังขยะเพื่อใช้เทคนิคการวิเคราะห์ที่ใช้ค่าแยก สิ่งนี้ดูเหมือนจะเป็นสิ่งที่ถูกแนะนำในส่วนที่คุณพูดถึงเกี่ยวกับการทำนายเสียงร้อง ในกรณีเช่นนี้มีการแนะนำให้ทำโดยอนุญาโตตุลาการและมีการสูญหายของข้อมูล เป็นการดีที่สุดที่จะหลีกเลี่ยงปัญหานี้หากเป็นไปได้โดยพยายามสร้างแบบจำลองโดยตรงกับค่าต่อเนื่องที่สำคัญมากกว่าการสร้างแบบจำลองบนค่า "binned" discretized

ตามกฎทั่วไปมันเป็นที่พึงปรารถนาสำหรับนักสถิติเพื่อหลีกเลี่ยงเทคนิคการวิเคราะห์ที่แนะนำสมมติฐานโดยพลการโดยเฉพาะอย่างยิ่งในกรณีที่มีเทคนิคทางเลือกที่มีอยู่เพื่อหลีกเลี่ยงสมมติฐานเหล่านี้ได้อย่างง่ายดาย ดังนั้นฉันจึงเห็นด้วยกับความรู้สึกว่าโดยทั่วไปการ binning นั้นไม่จำเป็น ไม่ควรหลีกเลี่ยงค่าใช้จ่ายใด ๆ อย่างแน่นอนเนื่องจากค่าใช้จ่ายมีความสำคัญ แต่โดยทั่วไปควรหลีกเลี่ยงเมื่อมีเทคนิคทางเลือกง่าย ๆ ที่อนุญาตให้หลีกเลี่ยงได้โดยไม่เกิดความไม่สะดวกอย่างร้ายแรง

— Ben - Reinstate Monica
แหล่งที่มา

ฉันเห็น. คำถามติดตามแม้ว่า: ดูที่การกระจายตัวของตัวอย่างที่กล่าวข้างต้นดูที่นี่ (แดกดันฮิสโตแกรม), ฉันแค่ไม่เห็นประโยชน์ในตัวแปรต่อเนื่องที่ตัวอย่างเกือบทั้งหมดหมุนรอบหนึ่งค่า (นี่คือ 0) ซึ่งเป็น เป็นสิ่งที่ทำให้ฉันเริ่มต้นคุณลักษณะนี้ คุณพูดถึงทางเลือก - คุณช่วยอธิบายอย่างละเอียดหรือชี้ทางให้ฉันไปในทิศทางที่ถูกต้องว่าฉันจะเรียนรู้เพิ่มเติมได้จากที่ใด

— อ่าน

ลองอ่านเกี่ยวกับKDEและลองพิจารณาวิธีอื่นในการวางแผนข้อมูลที่ไม่เปลี่ยนแปลง

— เบ็น - คืนสถานะโมนิก้า

ฉันฮิสโตแกรมนั้นฉันเห็นค่าทั่วสถานที่ (แต่ใช่เกือบจะเป็นศูนย์) ไม่ควรมีความไม่สะดวกในการใช้งานแบบอิสระและจะให้ข้อมูลเพิ่มเติม พล็อตโค้งติดตั้ง! และถ้าด้วยเหตุผลบางอย่างคุณต้องแยกจากกันการวางแผนนั้นจะช่วยคุณได้อย่างไร อาจเป็นได้ว่าสำหรับการใช้งานเฉพาะของคุณจุดตัดที่มากกว่า 0.5 จะดีกว่า

— kjetil b halvorsen

2

ฮิสโตแกรมไม่สามารถตีความได้อย่างถูกต้องในฐานะ KDE เคอร์เนลจะเป็นอะไร?

— whuber

1

ในส่วนที่เกี่ยวกับย่อหน้าที่สามของคุณฉันมีคำถามคล้ายกันเกิดขึ้นเมื่อฉันพยายามคำนวณการรับข้อมูลด้วยข้อมูลตัวเลข คุณสามารถดูคำถามนี้และอธิบายสิ่งที่ต้องทำในสถานการณ์นี้ได้หรือไม่? stats.stackexchange.com/questions/384684/…

— astel

4

ฉันมักจะเถียงอย่างยิ่งกับการจัดประเภทของตัวแปรต่อเนื่องสำหรับเหตุผลที่แสดงออกอย่างดีโดยคนอื่นเด่น Frank Harrell ในกรณีนี้อาจเป็นประโยชน์ แต่ถามตัวเองเกี่ยวกับกระบวนการที่สร้างคะแนน ดูเหมือนว่าคะแนนส่วนใหญ่จะเป็นศูนย์อย่างมีประสิทธิภาพอาจมีสัญญาณรบกวนบ้าง บางคนใกล้เคียงกับความสามัคคีอีกครั้งด้วยเสียง โกหกน้อยมากในระหว่าง ในกรณีนี้ดูเหมือนจะมีเหตุผลมากขึ้นสำหรับการจัดหมวดหมู่ตั้งแต่หนึ่งสามารถยืนยันว่าโมดูโล่เสียงนี้เป็นตัวแปรไบนารี หากใครเหมาะสมกับมันเป็นตัวแปรต่อเนื่องสัมประสิทธิ์จะมีความหมายในแง่ของการเปลี่ยนแปลงในตัวแปรทำนาย แต่ในกรณีนี้ในช่วงส่วนใหญ่ของตัวแปรที่มีประชากรเบาบางมากดังนั้นดูเหมือนว่าไม่น่าสนใจ

— mdewey
แหล่งที่มา

4

คำตอบสั้น ๆ ของฉันเมื่อใช้ binning คือ: เมื่อทราบจุดที่ไม่ต่อเนื่องแล้วก่อนที่จะดูข้อมูล (นี่คือจุดสิ้นสุดของ bin) และหากทราบว่าความสัมพันธ์ระหว่าง x และ y ภายในแต่ละ bin ที่มี ความยาวไม่เป็นศูนย์แบน

— Frank Harrell

2

ลองนึกภาพคุณมีนาฬิกาที่แสดงเฉพาะชั่วโมง โดยเฉพาะฉันหมายความว่ามันมีเพียงลูกศรชั่วโมงที่เมื่อชั่วโมงทำให้ 1/12 ข้ามไปยังอีกชั่วโมงมันไม่เคลื่อนไหวอย่างราบรื่น นาฬิกาดังกล่าวจะไม่มีประโยชน์มากนักเนื่องจากคุณไม่รู้ว่ามันเป็นห้าโมงครึ่งสองโมงครึ่งหรือสิบถึงสามนาฬิกา นั่นเป็นปัญหาของข้อมูลที่ถูกขัดจังหวะโดยจะสูญเสียรายละเอียดและทำให้เกิดการเปลี่ยนแปลง

— ทิม
แหล่งที่มา

1

(+1) ใช่และเพิ่มปัญหาเพิ่มเติมที่ผู้ดูแลระบบอาจไม่เลือกการเพิ่มรายชั่วโมง แต่อาจตัดสินใจโดยพลการว่านาฬิกาของเขาจะเพิ่มขึ้น 19 นาทีและคุณมีปัญหาเพิ่มเติมนอกเหนือจากการสูญเสียข้อมูล .

— เบ็น - คืนสถานะโมนิก้า

2

สำหรับบางแอปพลิเคชั่นซึ่งรวมถึงแอพที่คุณใคร่ครวญอาจจำเป็นต้องใช้การอย่างเคร่งครัด เห็นได้ชัดว่าในการดำเนินการปัญหาการจัดหมวดหมู่ในบางจุดคุณต้องถอนข้อมูลเด็ดขาดจากแบบจำลองของคุณและถ้าอินพุตของคุณเป็นหมวดหมู่ทั้งหมดเช่นกันคุณจะต้องดำเนินการ binning ลองพิจารณาตัวอย่าง:

AI ที่ซับซ้อนกำลังเล่นโป๊กเกอร์ มันได้ประเมินความเป็นไปได้ที่มือจะดีกว่ามือของผู้เล่นอื่น ๆ ถึง 70% มันเป็นตาของการเดิมพันอย่างไรก็ตามมันบอกว่าควรหลีกเลี่ยงการ binning ที่ต้นทุนทั้งหมดและดังนั้นจึงไม่เคยวางเดิมพัน มันพับตามค่าเริ่มต้น

อย่างไรก็ตามสิ่งที่คุณเคยได้ยินอาจเป็นจริงในการ binning ก่อนหน้าของค่ากลางที่ยอมจำนนข้อมูลที่อาจถูกเก็บรักษาไว้ หากวัตถุประสงค์สุดท้ายของโครงการของคุณคือการพิจารณาว่าคุณจะ "ชอบ" เพลงที่เป็นปัญหาซึ่งอาจถูกกำหนดโดยสองปัจจัย: "instrumentalness" และ "rockitude" คุณน่าจะทำได้ดีกว่าที่จะเก็บไว้เป็นตัวแปรต่อเนื่องจนกว่าคุณจะ ต้องดึง "likingness" ออกเป็นตัวแปรเด็ดขาด

l i k e = {\begin{cases} 0 & r o c k i t u d e * 3 + i n s t r u m e n t a l n e s s * 2 < 3 \\ 1 & r o c k i t u d e * 3 + i n s t r u m e n t a l n e s s * 2 \geq 3 \end{cases}

$\mathrm{like} = \begin{cases} 0 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 < 3 \\ 1 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 \ge 3 \end{cases}$

หรือสัมประสิทธิ์อะไรก็ตามที่คุณเห็นว่าเหมาะสมที่สุดหรือโมเดลอื่นใดที่เหมาะสมกับชุดฝึกอบรมของคุณ

หากคุณตัดสินใจว่าบางสิ่งบางอย่างเป็น "เครื่องมือ" (จริงหรือเท็จ) และ "หิน" (จริงหรือเท็จ) แสดงว่าคุณมี 4 หมวดหมู่ของคุณก่อนที่คุณจะเรียบเรียงในวันธรรมดา:

เครื่องมือหิน
หินที่ไม่เป็นเครื่องมือ
มีประโยชน์ไม่มีหิน
ไม่มีเครื่องมือไม่มีหิน

แต่สิ่งที่คุณต้องตัดสินใจคือ 4 หมวดหมู่ที่คุณ "ถูกใจ" คุณมีความยืดหยุ่นในการตัดสินใจครั้งสุดท้าย

การตัดสินใจทิ้งถังขยะหรือไม่ขึ้นอยู่กับเป้าหมายของคุณ โชคดี.

— guenthmonstr
แหล่งที่มา

2

$R$

$R$ $\{b_1 \cdots b_N\}$ $b_i=[l_i,u_i]$ $l_i$ $u_i$ $i$

$l=l_0$ $w$ $l_0$ $u_0=l_0+w$ $w$ $(w_{min},w_{max})$

P (R) = Σ_{W = W_{ม. ผม n}}^{W_{ม. a x}} Σ_{ล. = {ล.}_{0}}^{{ล.}_{0} + W} P (R | ล., W) P (ล., W) P (ล., W) ~ \frac{2 ({ยู}_{0} - {ล.}_{0})}{W_{ม. a x} + W_{ม. ผม n}} \times (W_{ม. a x} - W_{ม. ผม n})

$P(R) = \sum_{w=w_{min}}^{w_{max}}\sum_{l=l_0}^{l_0+w} P(R|l,w) P(l,w) \\ P(l,w) \sim \frac{2(u_0-l_0)}{w_{max}+w_{min}} \times (w_{max}-w_{min})$

$w_{max}, w_{min},$ $l_0$ $P(R) \rightarrow P(R|w_{max}, w_{min},l_0)$ $P(R)$ $P(R|w_{max}, w_{min},l_0)=P(R)$

ในบริบทของคำถามของ OPฉันจะพอใจถ้าค่า threshold ตามอำเภอใจ 0.5 ถูกกำหนดเป็นค่าที่หลากหลายระหว่างค่า min และค่าที่เชื่อถือได้และเพื่อดูว่าผลลัพธ์พื้นฐานของการวิเคราะห์ของเขาส่วนใหญ่ไม่ขึ้นอยู่กับการเลือก

— ปีเตอร์เลียวโปลด์
แหล่งที่มา