ต้องการความช่วยเหลือในการระบุการแจกแจงโดยฮิสโตแกรม


13

ฉันมีประชากรตัวอย่างของแอมพลิจูดขนาดสูงสุดของสัญญาณที่แน่นอน ประชากรประมาณ 15 ล้านตัวอย่าง ฉันสร้างฮิสโตแกรมของประชากร แต่ไม่สามารถคาดเดาการกระจายด้วยฮิสโตแกรมนั้นได้

แก้ไข 1: ไฟล์ที่มีค่าตัวอย่างดิบอยู่ที่นี่: ข้อมูลดิบ

ใครสามารถช่วยประมาณการการกระจายด้วยฮิสโตแกรมต่อไปนี้: ป้อนคำอธิบายรูปภาพที่นี่


1
ไม่ว่ามันจะมีความสำคัญอย่างมาก แต่เมื่อใช้ฮิสโทแกรมมันมักจะช่วยให้มีความถี่สัมพัทธ์แทนที่จะเป็นความถี่สัมบูรณ์บนแกน y
posdef

นั่นคือเพื่อให้ 120000/15000000 = 0.008 แทน 120000 บนแกนแนวตั้ง
mbaitoff

@mbaitoff: ความคิดเห็นของคุณต่อคำตอบของ schenectady บ่งบอกว่าคุณไม่สนใจที่จะรับชื่อการแจกจ่าย แต่ในการค้นหาว่าทำไมค่าจึงถูกแจกจ่ายด้วยวิธีนี้ ถูกต้องหรือไม่
steffen

1
@mbaitoff ฉันไม่แน่ใจว่าจะเหมาะกับแอปพลิเคชั่นของคุณมากนัก แต่ในส่วนของแอปพลิเคชันที่เกี่ยวข้องขนาดของคลื่นที่ได้รับการสะท้อนแบบสุ่ม (มาก) ระหว่างแหล่งที่มาและตัวรับสัญญาณถูกจำลองโดยการกระจาย Rayleigh หรือ Nakagami- กระจาย m
พระคาร์ดินัล

2
ความสนใจที่แท้จริงของข้อมูลเหล่านี้อยู่ในรูปของโหลหรือมากกว่านั้น: ปริมาณของข้อมูลมีขนาดใหญ่พอที่จะเป็นของจริงในแง่ที่ว่าพวกเขาเป็นหลักฐานของโหมดท้องถิ่นที่แท้จริง ดูเหมือนว่าจะมีชุดข้อมูลมากมายที่นี่พร้อมด้วยข้อมูลมากมายที่จะถูกมองข้ามเป็นสูตรพารามิเตอร์ที่เรียบง่ายที่ใช้ในการสรุปการกระจายของพวกเขา
whuber

คำตอบ:


23

ใช้ fitdistrplus:

นี่คือลิงค์ CRAN ของ fitdistrplus

นี่คือลิงค์บทความสั้น ๆสำหรับ fitdistrplus

ถ้าลิงค์วิกเน็ตต์ไม่ทำงานให้ค้นหา "การใช้ไลบรารี fitdistrplus เพื่อระบุการแจกจ่ายจากข้อมูล"

บทความนี้อธิบายการใช้งานแพ็คเกจได้ดี คุณสามารถดูว่าการกระจายแบบต่างๆนั้นพอดีในช่วงเวลาสั้น ๆ อย่างไร มันยังสร้าง Cullen / Frey Diagram

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


(+1): ไม่ทราบแพ็คเกจก่อนหน้านี้
steffen

1
(+1 (ไม่ทราบว่าถูกเรียกว่า Cullen / Frey diagram) ฉันต้องคิดด้วยตัวเอง ณ จุดหนึ่ง
Glen_b

ภาพที่สองอยู่กับplotdistcomamnd? ฉันจะรับ Cullen / Frey Diagram ได้อย่างไร
juanpablo

1
@juanpablo - descdist()ลอง ฉันอัปเดตโพสต์ด้านบนเพื่อรวมรหัสและลิงก์ไปยังบทความสั้น ๆ ฉันไม่สามารถรับลิงก์บทความด้านบนเพื่อใช้งานได้ ดังนั้น Google ดังต่อไปนี้: "การใช้ไลบรารี fitdistrplus เพื่อระบุการกระจายจากข้อมูล" มันเป็นไฟล์. pdf
bill_080

3
@juanpablo - คำสั่งที่f1g <- fitdist(x1, "gamma")เหมาะกับการกระจายแกมมาข้อมูลเดิมและเก็บไว้ในx1 f1gกราฟซ้ายบนในplot(f1g)แสดงฮิสโตแกรมสำหรับข้อมูลต้นฉบับx1เป็นแท่งกราฟและพล็อตความหนาแน่นของแกมม่าที่ถูกติดตั้งจากf1gเส้นต่อเนื่อง พล็อตความหนาแน่น (เส้นต่อเนื่อง) ถูกลากไปบนฮิสโตแกรมเพื่อระบุว่า "พอดี" แสดงถึงข้อมูลได้ดีเพียงใด
bill_080

6

ประชากรประมาณ 15 ล้านตัวอย่าง

จากนั้นคุณจะสามารถปฏิเสธการแจกแจงแบบฟอร์มที่ปิดง่าย

แม้แต่การชนเล็ก ๆ ทางด้านซ้ายของกราฟก็น่าจะเพียงพอที่จะทำให้เราพูดว่า 'ไม่ชัดเจนเช่นนั้น'

ในทางกลับกันมันอาจประมาณได้ค่อนข้างดีจากการแจกแจงทั่วไปจำนวนหนึ่ง ผู้สมัครที่ชัดเจนคือสิ่งต่าง ๆ เช่น lognormal และ gamma แต่มีโฮสต์ของผู้อื่น คุณดูที่บันทึกของตัวแปร x คุณสามารถตัดสินใจได้ว่า lognormal นั้นไม่เป็นไร (หลังจากบันทึกแล้วฮิสโตแกรมควรมีลักษณะสมมาตร)

หากบันทึกถูกทิ้งให้พิจารณาว่า Gamma นั้นโอเคหรือไม่หากพิจารณาถูกต้องให้พิจารณาว่า Inverse Gamma หรือ (มากยิ่งขึ้น) Inverse Gaussian นั้นไม่เป็นไร แต่แบบฝึกหัดนี้เป็นอีกหนึ่งการค้นหาการแจกแจงที่ใกล้พอที่จะอยู่ด้วย ไม่มีคำแนะนำเหล่านี้จริง ๆ แล้วมีคุณลักษณะทั้งหมดที่ปรากฏอยู่ที่นั่น

หากคุณมีทฤษฏีใด ๆ เลยที่จะสนับสนุนทางเลือกให้โยนการอภิปรายทั้งหมดและใช้สิ่งนั้น


ว้าวสัญชาตญาณแบบไหนที่เกี่ยวกับเรื่องนี้ ดี! :)
onurcanbektas

1

ฉันไม่แน่ใจว่าทำไมคุณต้องการจัดกลุ่มตัวอย่างให้กับการแจกแจงแบบเจาะจงด้วยขนาดตัวอย่างที่ใหญ่ parsimony เมื่อเปรียบเทียบกับตัวอย่างอื่นกำลังมองหาการตีความทางกายภาพของพารามิเตอร์?

แพคเกจทางสถิติส่วนใหญ่ (R, SAS, Minitab) อนุญาตให้หนึ่งวางแผนข้อมูลบนกราฟที่ให้ผลเป็นเส้นตรงถ้าข้อมูลมาจากการแจกแจงแบบเจาะจง ฉันได้เห็นกราฟที่ให้ผลเป็นเส้นตรงถ้าข้อมูลเป็นเรื่องปกติ (บันทึกปกติ - หลังจากการเปลี่ยนแปลงบันทึก), Weibull และ chi-squared มาหาฉันทันที เทคนิคนี้จะช่วยให้คุณเห็นค่าผิดปกติและให้โอกาสคุณในการกำหนดเหตุผลว่าเพราะเหตุใดจุดข้อมูลจึงเป็นค่าผิดปกติ ใน R พล็อตความน่าจะเป็นปกติเรียกว่า qqnorm


ความคิดที่ดีแนะนำ qqplot อย่างไรก็ตามฉันคิดว่าคำอธิบายเกี่ยวกับเทคนิคของคุณค่อนข้างคลุมเครือ / ยากที่จะเข้าใจ คุณให้รหัส R-code ที่เป็นแบบอย่างบ้างไหม? สิ่งนี้จะเพิ่มมูลค่าของคำตอบอย่างมาก
steffen

ฉันคาดหวังว่าใครบางคนจะพบภาพเหมือนของฉันและตรวจสอบการกระจายตัวที่อยู่ข้างใต้เพราะค่านั้นมีพื้นฐานทางกายภาพ
mbaitoff

ฉันกำลังตรวจสอบภูมิหลังทางกายภาพของการแจกแจงตัวอย่าง - วิธีการแจกจ่ายและเหตุผล
mbaitoff
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.