คำถามติดแท็ก binning

Binning หมายถึงการจัดกลุ่มตัวแปรต่อเนื่องเป็นหมวดหมู่ที่ไม่ต่อเนื่อง โดยเฉพาะอย่างยิ่งใช้ในการอ้างอิงฮิสโตแกรม แต่ยังสามารถใช้โดยทั่วไปในแง่ของการทำให้หยาบ

4
ประเมินการกระจายตัวของข้อมูลโดยประมาณตามฮิสโตแกรม
สมมติว่าฉันต้องการดูว่าข้อมูลของฉันเป็นเลขชี้กำลังอิงตามฮิสโตแกรมหรือไม่ (เช่นเอียงไปทางขวา) ฉันสามารถรับฮิสโตแกรมที่แตกต่างกันอย่างดุเดือดขึ้นอยู่กับว่าฉันจัดกลุ่มหรือถังข้อมูล ฮิสโทแกรมหนึ่งชุดจะทำให้ดูเหมือนว่าข้อมูลเป็นเลขชี้กำลัง อีกชุดหนึ่งจะทำให้ดูเหมือนว่าข้อมูลไม่ได้อธิบาย ฉันจะกำหนดการแจกแจงจากฮิสโทแกรมที่กำหนดอย่างดีได้อย่างไร

7
ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?
ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่ ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

3
ประโยชน์ของการใช้ QQ-plot บนฮิสโทแกรม
ในความคิดเห็นนี้ Nick Cox เขียนว่า: การเข้าเรียนเป็นวิธีโบราณ แม้ว่าฮิสโทแกรมจะมีประโยชน์ แต่ซอฟต์แวร์ทางสถิติที่ทันสมัยช่วยให้ง่ายขึ้นรวมถึงแนะนำให้กระจายข้อมูลดิบให้เหมาะสม Binning เพียงแค่โยนรายละเอียดออกไปซึ่งมีความสำคัญในการพิจารณาว่าการแจกแจงแบบใดที่เป็นไปได้ บริบทของความคิดเห็นนี้แสดงให้เห็นว่าการใช้ QQ-plots เป็นทางเลือกในการประเมินความเหมาะสม คำสั่งฟังดูน่าเชื่อถือมาก แต่ฉันต้องการทราบเกี่ยวกับข้อมูลอ้างอิงที่เชื่อถือได้ซึ่งสนับสนุนข้อความนี้ มีกระดาษบ้างไหมที่ทำการตรวจสอบข้อเท็จจริงนี้อย่างละเอียดมากขึ้นนอกเหนือจาก“ ความเรียบง่ายนี่ฟังดูชัดเจน” หรือไม่? มีการเปรียบเทียบผลลัพธ์ที่เป็นระบบจริงหรือชอบอะไร ฉันยังต้องการที่จะดูว่าประโยชน์ของการแปลง QQ- มากกว่าฮิสโทแกรมสามารถยืดออกไปยังแอปพลิเคชันอื่น ๆ คำตอบสำหรับคำถามนี้ยอมรับว่า "พล็อต QQ- […] เพียงแค่บอกคุณว่า" มีอะไรผิดปกติ "" ฉันกำลังคิดที่จะใช้มันเป็นเครื่องมือในการระบุโครงสร้างในข้อมูลที่สังเกตได้เมื่อเปรียบเทียบกับตัวแบบโมฆะและสงสัยว่ามีกระบวนการที่กำหนดไว้ใด ๆ ที่จะใช้ QQ-แปลง (หรือข้อมูลพื้นฐาน) ไม่เพียง แต่ตรวจจับได้เท่านั้น โครงสร้างในข้อมูลที่สังเกตได้ การอ้างอิงซึ่งรวมถึงทิศทางนี้จึงมีประโยชน์อย่างยิ่ง

2
เมื่อใดที่เราควรแยก / bin ตัวแปร / คุณสมบัติอิสระอย่างต่อเนื่องและเมื่อไม่ควร?
เมื่อใดที่เราควรแยก / bin ตัวแปรอิสระ / คุณสมบัติและเมื่อไม่ควร? ความพยายามของฉันที่จะตอบคำถาม: โดยทั่วไปแล้วเราไม่ควรทิ้งขยะเพราะการทำข้อมูลจะหายไป จริง ๆ แล้วการ Binning เป็นการเพิ่มระดับของอิสระของแบบจำลองดังนั้นจึงเป็นไปได้ที่จะทำให้เกิดการกระชับหลังจากการ binning หากเรามีรูปแบบ "ความลำเอียงสูง" การไม่ถูก binning อาจไม่เลว แต่ถ้าเรามีรูปแบบ "ความแปรปรวนสูง" เราควรหลีกเลี่ยงการ binning ขึ้นอยู่กับรุ่นที่เราใช้ หากเป็นโหมดเชิงเส้นและข้อมูลมีความน่าจะเป็นของ "ค่าผิดปกติ" จำนวนมากจะดีกว่า หากเรามีรูปแบบต้นไม้ดังนั้นค่าผิดปกติและการฝังรากจะสร้างความแตกต่างมากเกินไป ฉันถูกไหม? และอะไรอีก ฉันคิดว่าคำถามนี้ควรถามหลายครั้ง แต่ฉันไม่พบคำถามเหล่านี้ใน CV เฉพาะโพสต์เหล่านี้ เราควรจะเก็บตัวแปรต่อเนื่องหรือไม่? ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?

2
ผลกระทบของขอบเขตของถังขยะที่อิงกับข้อมูลต่อความดีของไคสแควร์พอดีหรือไม่
ออกจากประเด็นที่ชัดเจนของพลังงานต่ำของไคสแควร์ในสถานการณ์แบบนี้ลองจินตนาการถึงการทดสอบความดีของไคสแควร์สำหรับความหนาแน่นบางส่วนด้วยพารามิเตอร์ที่ไม่ระบุโดยการทำข้อมูล สำหรับ concreteness สมมุติว่าการแจกแจงเลขชี้กำลังมีค่าเฉลี่ยไม่ทราบและขนาดตัวอย่างเท่ากับ 100 เพื่อให้ได้จำนวนการสังเกตที่คาดหวังต่อ bin จำนวนบัญชีที่เหมาะสมจะต้องมีการบันทึกข้อมูล (เช่นถ้าเราเลือกที่จะวาง 6 bins ต่ำกว่าค่าเฉลี่ยและ 4 ด้านบนนั้นจะยังคงใช้ขอบเขตของฐานข้อมูล) . แต่การใช้ถังขยะโดยดูจากข้อมูลนี้น่าจะส่งผลต่อการแจกแจงสถิติการทดสอบภายใต้ค่า Null ฉันได้เห็นการสนทนามากมายเกี่ยวกับความจริงที่ว่า - หากพารามิเตอร์ถูกประเมินโดยความน่าจะเป็นสูงสุดจากข้อมูลที่ถูกทำให้เป็นบ้าเป็นหลัง - คุณเสีย 1 df ต่อพารามิเตอร์โดยประมาณ (ปัญหาย้อนหลังไปถึง Fisher vs Karl Pearson) - แต่ฉันจำไม่ได้ อ่านอะไรก็ได้เกี่ยวกับการค้นหาขอบเขตของตัวถังขยะเองตามข้อมูล (หากคุณประเมินจากข้อมูลที่ไม่ได้รวมดังนั้นด้วยkkk bins การกระจายของสถิติการทดสอบจะอยู่ที่ไหนสักแห่งระหว่างและ a )χ2kχk2\chi^2_{k}χ2k−pχk−p2\chi^2_{k-p} การเลือกใช้ถังขยะแบบอิงข้อมูลนี้ส่งผลต่อระดับหรือกำลังสำคัญอย่างมีนัยสำคัญหรือไม่? มีวิธีการบางอย่างที่สำคัญกว่าวิธีอื่น ๆ หรือไม่? หากมีผลมากมันเป็นสิ่งที่หายไปในกลุ่มตัวอย่างขนาดใหญ่หรือไม่? ถ้ามันมีผลกระทบที่สำคัญนี่จะทำให้การทดสอบแบบไคสแควร์เกิดขึ้นเมื่อพารามิเตอร์ไม่เป็นที่รู้จักเกือบไร้ประโยชน์ในหลาย ๆ กรณี (แม้ว่าจะยังคงได้รับการสนับสนุนในตำราค่อนข้างน้อย) เว้นแต่คุณจะมี -priori ของพารามิเตอร์ …

3
วิธีที่ดีที่สุดในการใส่ฮิสโตแกรมสองตัวในระดับเดียวกัน?
สมมติว่าฉันมีการแจกแจงสองแบบที่ฉันต้องการเปรียบเทียบในรายละเอียดนั่นคือในวิธีที่ทำให้รูปร่างขนาดและการเปลี่ยนแปลงมองเห็นได้ง่าย วิธีหนึ่งที่ดีในการทำเช่นนี้คือการพล็อตฮิสโตแกรมสำหรับการแจกแจงแต่ละครั้งวางไว้ในระดับ X ที่เหมือนกัน เมื่อทำเช่นนี้จะต้องทำอย่างไรให้เกิดความผิดพลาด? ฮิสโทแกรมทั้งสองควรใช้ขอบเขตของช่องเก็บเดียวกันแม้ว่าการกระจายครั้งเดียวจะกระจายมากกว่าที่อื่น ๆ อย่างเช่นในภาพที่ 1 ด้านล่าง? ควรทำการแยกกันอย่างอิสระสำหรับฮิสโตแกรมแต่ละชิ้นก่อนซูมเช่นเดียวกับในภาพที่ 2 ด้านล่าง? เรื่องนี้มีกฎง่ายๆหรือไม่?

2
Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด
ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …

5
การตีความทฤษฎีบท Bayes นำไปใช้กับผลลัพธ์การตรวจเต้านมในเชิงบวก
ฉันพยายามที่จะคลุมศีรษะของฉันรอบ ๆ ผลลัพธ์ของทฤษฎีบทของเบย์ที่ใช้กับตัวอย่างแมมโมแกรมแบบคลาสสิกโดยการบิดของแมมโมแกรมนั้นสมบูรณ์แบบ นั่นคือ, อุบัติการณ์ของมะเร็ง: .01.01.01 ความน่าจะเป็นของการตรวจด้วยคลื่นบวกด้วยการให้ผู้ป่วยเป็นมะเร็ง: 111 ความน่าจะเป็นของการตรวจคัดกรองด้วยวิธีทางบวกเนื่องจากผู้ป่วยไม่มีมะเร็ง: .01.01.01 โดย Bayes: P (มะเร็ง | mammogram +) = 1⋅.01(1⋅.01)+(.091⋅.99)1⋅.01(1⋅.01)+(0.091⋅.99)\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 \cdot .99)} =.5025=0.5025 = .5025 ดังนั้นถ้าคนที่สุ่มจากประชากรใช้แมมโมแกรมและรับผลบวกมีโอกาส 50% ที่พวกเขาเป็นมะเร็งหรือไม่? ฉันไม่สามารถเข้าใจได้โดยสัญชาตญาณว่าโอกาส 1% เล็กน้อยของการบวกที่ผิดพลาดใน 1% ของประชากรสามารถกระตุ้นผลลัพธ์ 50% ได้อย่างไร อย่างมีเหตุผลฉันคิดว่าการคัดกรองเชิงบวกอย่างแท้จริงที่มีอัตราบวกผิดพลาดเล็กน้อยจะแม่นยำยิ่งขึ้น

2
วิธีการ 'เก็บข้อมูลที่เรียงลำดับอย่างชาญฉลาด' อย่างชาญฉลาด
ฉันกำลังพยายามที่จะจัดเก็บคอลเลกชันที่เรียงอย่างชาญฉลาด ฉันมีชุดข้อมูลจำนวนชิ้น แต่ฉันรู้ว่านี้เหมาะกับข้อมูลลงในขนาดถังขยะไม่มีที่เปรียบ ฉันไม่รู้วิธีเลือกจุดสิ้นสุดอย่างชาญฉลาดเพื่อให้พอดีกับข้อมูล ตัวอย่างเช่น:nnnม.ม.m ว่าฉันมี 12 รายการในคอลเลกชันของฉันและฉันรู้ว่าข้อมูลจะพอดีกับ 3 ถังขยะ: Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 ฉันจะเลือกเบรกพอยต์อย่างชาญฉลาดสำหรับช่องเก็บของอย่างไรi = { 1 - 3 } , { 4 - 9 } , …

5
เหตุใดจึงควรหลีกเลี่ยงการถูก Binning ที่ค่าใช้จ่ายทั้งหมด?
ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้ การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง: ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0 ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5) มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท …

2
จำนวนของช่องเก็บเมื่อคำนวณข้อมูลร่วมกัน
ฉันต้องการหาปริมาณความสัมพันธ์ระหว่างตัวแปรสองตัวคือ A และ B โดยใช้ข้อมูลร่วมกัน วิธีการคำนวณก็คือการทำข้อสังเกต (ดูตัวอย่างโค้ดไพ ธ อนด้านล่าง) อย่างไรก็ตามสิ่งที่ปัจจัยกำหนดจำนวนถังขยะที่เหมาะสม? ฉันต้องการการคำนวณที่รวดเร็วดังนั้นฉันจึงไม่สามารถใช้ถังขยะจำนวนมากเพื่อความปลอดภัย from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
สูตรของ Doane สำหรับการกัดฮิสโตแกรม
ฉันใช้อัลกอริทึมต่าง ๆ เพื่อประเมินจำนวนถังขยะที่ดีที่สุดที่จะใช้กับฮิสโทแกรม สิ่งที่ฉันกำลังดำเนินการส่วนใหญ่มีการอธิบายไว้ในหน้า "ฮิสโตแกรม" ของ Wikipedia ในส่วน " จำนวนของถังขยะและความกว้าง " * ฉันติดอยู่กับปัญหาเกี่ยวกับสูตรของ Doane: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) ที่nเป็นขนาดของข้อมูล ปัญหาคือเมื่อ kurtosis เป็นลบและn >> 1เนื่องจากการโต้แย้งของlogกลายเป็นลบ * (หน้านั้นมีการเปลี่ยนแปลงนับตั้งแต่มีการโพสต์ลิงค์แก้ไขเพื่อชี้ไปที่หน้าเหมือนตอนที่โพสต์)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.