แปลงการแจกแจงปัวซองเป็นการแจกแจงแบบปกติ

ฉันมีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์เป็นหลัก แต่ตอนนี้ฉันพยายามสอนตัวเองเกี่ยวกับสถิติพื้นฐาน ฉันมีข้อมูลบางอย่างที่ฉันคิดว่ามีการแจกแจงแบบปัวซอง

ป้อนคำอธิบายรูปภาพที่นี่

ฉันมีสองคำถาม:

นี่คือการแจกแจงปัวซองหรือไม่
ประการที่สองเป็นไปได้ไหมที่จะแปลงเป็นการแจกแจงแบบปกติ

ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ขอบคุณมาก

normal-distribution data-transformation poisson-distribution

— Abhi
แหล่งที่มา

1. ไม่การแจกแจงปัวซงโดยทั่วไปมีโหมดในบริเวณใกล้เคียงของพารามิเตอร์และเพื่อจับคู่สิ่งนี้กับการแจกแจงปัวซองจะหมายถึงค่าที่น้อยมากสำหรับพารามิเตอร์ 2. ใช่และไม่ใช่ คุณต้องการจะทำอย่างไรกับการแจกแจงแบบปกติ?

— Dilip Sarwate

ฉันพยายามป้อนข้อมูลนี้เป็นการถดถอยโลจิสติกส์ ฉันถูกนำไปสู่การเชื่อว่าข้อมูลที่กระจายตามปกติจะให้ผลลัพธ์ที่ดีกว่ามาก

— Abhi

คำตอบ:

1) สิ่งที่ปรากฎเป็นข้อมูล (จัดกลุ่ม) ข้อมูลต่อเนื่องที่วาดเป็นแผนภูมิแท่ง

คุณสามารถสรุปได้อย่างปลอดภัยว่าไม่ใช่การกระจายของปัวซอง

ตัวแปรสุ่มของปัวซองใช้ค่า 0, 1, 2, ... และมีค่าสูงสุดสูงสุดที่ 0 เมื่อค่าเฉลี่ยน้อยกว่า 1 ใช้สำหรับการนับข้อมูล หากคุณวาดแผนภูมิข้อมูลปัวซงคล้ายกันมันอาจดูเหมือนแปลงด้านล่าง:

$\hspace{1.5cm}$ ป้อนคำอธิบายรูปภาพที่นี่

ข้อแรกคือปัวซองที่แสดงความเบ้คล้ายกับของคุณ คุณสามารถเห็นค่าเฉลี่ยของมันค่อนข้างเล็ก (ประมาณ 0.6)

ประการที่สองคือปัวซองที่มีความหมายคล้ายกัน (ที่คาดเดายากมาก) กับคุณ อย่างที่คุณเห็นมันดูค่อนข้างสมมาตร

คุณสามารถมีความเบ้หรือค่าเฉลี่ยขนาดใหญ่ แต่ไม่ใช่ทั้งสองอย่างในเวลาเดียวกัน

2) (i) คุณไม่สามารถทำให้ข้อมูลไม่ต่อเนื่องเป็นปกติ -

ด้วยข้อมูลที่จัดกลุ่มโดยใช้การแปลงที่เพิ่มขึ้นแบบโมโนโทนิกคุณจะย้ายค่าทั้งหมดในกลุ่มไปยังสถานที่เดียวกันดังนั้นกลุ่มที่ต่ำที่สุดจะยังคงมีจุดสูงสุดสูงสุด - ดูพล็อตด้านล่าง ในพล็อตแรกเราย้ายตำแหน่งของค่า x เพื่อให้ตรงกับ cdf ปกติ:

ป้อนคำอธิบายรูปภาพที่นี่

ในพล็อตที่สองเราจะเห็นฟังก์ชันความน่าจะเป็นหลังจากการแปลง เราไม่สามารถบรรลุสิ่งที่เป็นปกติได้เพราะมันเป็นแบบแยกและเอียง การกระโดดครั้งใหญ่ของกลุ่มแรกจะเป็นการกระโดดครั้งใหญ่ไม่ว่าคุณจะดันมันไปทางซ้ายหรือขวา

(ii) ข้อมูลที่เบ้อย่างต่อเนื่องอาจถูกแปลงให้ดูปกติอย่างสมเหตุสมผล หากคุณมีค่าดิบ (ไม่ได้จัดกลุ่ม) และพวกเขาไม่ได้แยกออกจากกันอย่างหนักคุณสามารถทำอะไรบางอย่างได้ แต่ถึงอย่างนั้นบ่อยครั้งที่ผู้คนพยายามแปลงข้อมูลของพวกเขาว่าไม่จำเป็นหรือปัญหาพื้นฐานสามารถแก้ไขได้ . บางครั้งการเปลี่ยนแปลงเป็นทางเลือกที่ดี แต่มักจะทำด้วยเหตุผลที่ไม่ดีมาก

ดังนั้น ... คุณต้องการแปลงทำไม

— Glen_b -Reinstate Monica
แหล่งที่มา

ขอบคุณ Glen สำหรับคำตอบที่ละเอียดมาก มันอธิบายแนวคิดมากมาย ฉันพยายามป้อนข้อมูลนี้เป็นตัวแบบการถดถอยโลจิสติกส์ ฉันคิดว่า (ตอนนี้ฉันยังไม่แน่ใจ) ซึ่งปกติการกระจายข้อมูลจะให้ผลลัพธ์ที่ดีกว่ามาก คุณแนะนำเมนูใด?

— Abhi

นี่คือตัวแปรอิสระ (

x

$x$ -ตัวแปร)? คุณหมายถึงอะไรโดย "ผลลัพธ์ที่ดีกว่า" ในบริบทนี้

— Glen_b -Reinstate Monica

@Glen_b ขอบคุณมากสำหรับคำตอบที่ยอดเยี่ยม ฉันมาจากพื้นหลังวิทยาการคอมพิวเตอร์และติดอยู่ในคำถามนี้: stats.stackexchange.com/questions/408232/ ......โปรดแจ้งให้เราทราบความคิดเห็นของคุณ ฉันหวังว่าจะได้ยินจากคุณ. ขอบคุณอีกครั้ง :) :)

— EmJ

โปรดอย่าใช้ความคิดเห็นเพื่อพยายามสรรหาคนให้ตอบคำถามของคุณ ฉันเห็นคำถามของคุณแล้ว

— Glen_b

โพสต์ข้อมูลที่สนุกสนานมากขึ้นสำหรับลูกหลาน

มีการโพสต์เก่าที่กล่าวถึงปัญหาที่คล้ายกันเกี่ยวกับการใช้ข้อมูลนับเป็นตัวแปรอิสระสำหรับการถดถอยโลจิสติก

นี่มันคือ:

การใช้ข้อมูลนับเป็นตัวแปรอิสระละเมิดสมมติฐาน GLM ใด ๆ หรือไม่

ดังที่เกลนกล่าวไว้ว่าหากคุณเพียงแค่พยายามทำนายผลลัพธ์แบบแยกคู่ก็เป็นไปได้ที่คุณอาจใช้ข้อมูลการนับที่ไม่ถูกแปลงเป็นองค์ประกอบโดยตรงของโมเดลการถดถอยโลจิสติกของคุณ อย่างไรก็ตามข้อควรระวัง: เมื่อตัวแปรอิสระ (IV) เป็นทั้งปัวซองและกระจายช่วงของคำสั่งจำนวนมากที่ใช้ค่าดิบอาจส่งผลให้คะแนนที่มีอิทธิพลสูงซึ่งจะทำให้อคติแบบของคุณ หากเป็นกรณีนี้อาจเป็นประโยชน์ในการแปลงสภาพ IV ของคุณเพื่อให้ได้แบบจำลองที่มีประสิทธิภาพยิ่งขึ้น

การแปลงเช่นรากที่สองหรือบันทึกสามารถเพิ่มความสัมพันธ์ระหว่าง IV และอัตราส่วนอัตราต่อรอง ตัวอย่างเช่นหากการเปลี่ยนแปลงใน X ด้วยสามคำสั่งทั้งหมดของขนาด (อยู่ห่างจากค่ามัธยฐาน X) ตรงกับเพียง 0.1 การเปลี่ยนแปลงในความน่าจะเป็นของ Y ที่เกิดขึ้น (ห่างจาก 0.5) แล้วมันค่อนข้างปลอดภัยที่จะสันนิษฐานว่า นำไปสู่การมีอคติอย่างมีนัยสำคัญเนื่องจากการยกระดับอย่างมากจากค่า X ที่เกินขอบเขต

เพื่ออธิบายเพิ่มเติมลองจินตนาการว่าเราต้องการใช้อันดับ Scoville ของพริกต่าง ๆ (โดเมน [X] = {0, 3.2 ล้าน}) เพื่อทำนายความน่าจะเป็นที่คนจัดประเภทพริกไทยเป็น "เผ็ดร้อนอึดอัด" (ช่วง [Y] = {1 = ใช่, 0 = ไม่}) หลังจากกินพริกไทยที่มีเรทติ้งที่สอดคล้องกัน X

https://en.wikipedia.org/wiki/Scoville_scale

หากคุณดูที่แผนภูมิการให้คะแนนของ Scoville คุณจะเห็นว่าการบันทึกการเปลี่ยนแปลงของการจัดอันดับ Scoville แบบดิบจะช่วยให้คุณมีความใกล้เคียงกับการจัดอันดับแบบอัตนัย (1-10) ของแต่ละพริก

ดังนั้นในกรณีนี้ถ้าเราต้องการสร้างแบบจำลองที่แข็งแกร่งกว่าซึ่งรวบรวมความสัมพันธ์ที่แท้จริงระหว่างการจัดอันดับ Scoville แบบดิบและการจัดอันดับความร้อนแบบอัตนัยเราสามารถทำการแปลงลอการิทึมสำหรับค่า X ด้วยการทำเช่นนี้เราจะลดผลกระทบของโดเมน X ที่มีขนาดใหญ่เกินไปโดยการ "ลดขนาด" ระยะห่างระหว่างค่าที่แตกต่างกันตามคำสั่งของขนาดและจากนั้นลดน้ำหนัก X ค่าผิดปกติใด ๆ (เช่นแคปไซซิน !!) มีการคาดการณ์ของเรา

หวังว่านี่จะเพิ่มบริบทที่สนุกสนาน!

— Ryan Arellano
แหล่งที่มา