คำถามติดแท็ก histogram

ฮิสโตแกรมเป็นการแสดงแบบกราฟิกของความถี่ของตัวแปรต่อเนื่อง ตัวแปรถูกแบ่งออกเป็นช่องเก็บและแถบจะถูกวาดสำหรับแต่ละถังเก็บตามสัดส่วนของความถี่ในข้อมูล

4
พล็อตกล่องข้อมูลใดให้ข้อมูลว่าฮิสโตแกรมไม่มี?
ฮิสโทแกรมให้ความรู้สึกที่ดีเกี่ยวกับการกระจายตัวของตัวแปร พล็อตกล่องพยายามทำสิ่งเดียวกัน แต่อย่าให้ภาพการกระจายตัวของตัวแปรนี้เป็นอย่างดี ฉันไม่เข้าใจว่าทำไมคนถึงใช้กล่องแปลง ฮิสโทแกรมดีกว่าในทุกด้าน มีเหตุผลที่ฉันจะใช้ทั้งคู่หรือไม่ สิ่งเดียวที่ฉันคิดว่าพล็อตกล่องให้คือ: ค่าผิดปกติ! มันบอกเราว่าการสังเกตใดที่อาจเป็นค่าผิดปกติ

4
การทำพล็อตค่าเฉลี่ยในฮิสโตแกรมนั้นเหมาะสมหรือไม่?
"โอเค" เพื่อเพิ่มเส้นแนวตั้งลงในฮิสโตแกรมเพื่อให้เห็นภาพค่าเฉลี่ยหรือไม่ ดูเหมือนว่าจะโอเคสำหรับฉัน แต่ฉันไม่เคยเห็นสิ่งนี้มาในตำราและสิ่งที่ชอบดังนั้นฉันสงสัยว่าจะมีการประชุมบางประเภทที่จะไม่ทำอย่างนั้นหรือ กราฟเป็นกระดาษคำฉันแค่ต้องการให้แน่ใจว่าฉันจะไม่ละเมิดกฎสถิติที่สำคัญที่ไม่ได้พูด :)

3
ต้องการความช่วยเหลือในการระบุการแจกแจงโดยฮิสโตแกรม
ฉันมีประชากรตัวอย่างของแอมพลิจูดขนาดสูงสุดของสัญญาณที่แน่นอน ประชากรประมาณ 15 ล้านตัวอย่าง ฉันสร้างฮิสโตแกรมของประชากร แต่ไม่สามารถคาดเดาการกระจายด้วยฮิสโตแกรมนั้นได้ แก้ไข 1: ไฟล์ที่มีค่าตัวอย่างดิบอยู่ที่นี่: ข้อมูลดิบ ใครสามารถช่วยประมาณการการกระจายด้วยฮิสโตแกรมต่อไปนี้:

2
การสร้างภาพเหตุผลเพียงพอสำหรับการแปลงข้อมูลหรือไม่
ปัญหา ฉันต้องการพล็อตความแปรปรวนที่อธิบายโดยพารามิเตอร์ 30 ตัวแต่ละตัวเช่น barplot ที่มีแถบที่แตกต่างกันสำหรับแต่ละพารามิเตอร์และความแปรปรวนบนแกน y: อย่างไรก็ตามความแปรปรวนจะเบ้อย่างมากต่อค่าเล็กรวมถึง 0 ซึ่งสามารถเห็นได้ในฮิสโตแกรมด้านล่าง: ถ้าฉันแปลงมันด้วยมันจะง่ายขึ้นที่จะเห็นความแตกต่างระหว่างค่าเล็ก ๆ (ฮิสโตแกรมและบาร์พล็อตด้านล่าง):log(x+1)log⁡(x+1)\log(x+1) คำถาม การพล็อตในระดับบันทึกเป็นเรื่องปกติ แต่การวางแผนสมเหตุสมผลหรือไม่?log(x+1)log⁡(x+1)\log(x+1)

3
วิธีทำให้ข้อมูลของการแจกจ่ายที่ไม่รู้จักเป็นมาตรฐาน
ฉันพยายามค้นหาการกระจายลักษณะเฉพาะที่เหมาะสมที่สุดของข้อมูลการวัดซ้ำประเภทหนึ่ง โดยพื้นฐานแล้วในสาขาธรณีวิทยาของฉันเรามักจะใช้การตรวจสอบด้วยรังสีของแร่ธาตุจากตัวอย่าง (ก้อนหิน) เพื่อหาว่านานแค่ไหนที่มีเหตุการณ์เกิดขึ้น (หินเย็นลงต่ำกว่าอุณหภูมิที่กำหนด) โดยทั่วไปการวัดหลาย ๆ (3-10) จะทำจากตัวอย่างแต่ละตัวอย่าง จากนั้นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานσจะถูกนำ นี่คือธรณีวิทยาดังนั้นอายุการระบายความร้อนของตัวอย่างสามารถปรับได้ตั้งแต่10 5ถึง10 9ปีขึ้นอยู่กับสถานการณ์μμ\muσσ\sigma10510510^510910910^9 อย่างไรก็ตามฉันมีเหตุผลที่เชื่อได้ว่าการวัดไม่ใช่ Gaussian: 'Outliers' ไม่ว่าจะเป็นการประกาศโดยพลการหรือผ่านเกณฑ์บางอย่างเช่นเกณฑ์ของ Peirce [Ross, 2003]หรือการทดสอบ Q ของ Dixon [Dean and Dixon, 1951]นั้นค่อนข้างยุติธรรม ทั่วไป (พูด 1 ใน 30) และสิ่งเหล่านี้เกือบจะเก่ากว่าทุกครั้งซึ่งบ่งชี้ว่าการวัดเหล่านี้มีลักษณะเอียงไปทางขวา มีเหตุผลที่เข้าใจกันดีเกี่ยวกับสิ่งสกปรกที่เกี่ยวกับแร่วิทยา μμ\muσσ\sigma ฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนี้คืออะไร ถึงตอนนี้ฉันมีฐานข้อมูลประมาณ 600 ตัวอย่างและ 2-10 (หรือมากกว่านั้น) ทำซ้ำการวัดต่อตัวอย่าง ฉันได้ลองทำตัวอย่างให้เป็นมาตรฐานโดยการหารค่าเฉลี่ยหรือค่ามัธยฐานแล้วดูที่ฮิสโตแกรมของข้อมูลที่ทำให้เป็นมาตรฐาน สิ่งนี้สร้างผลลัพธ์ที่สมเหตุสมผลและดูเหมือนว่าบ่งชี้ว่าข้อมูลนั้นเป็นลักษณะเฉพาะของ Laplacian: อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีการที่เหมาะสมหรือไม่หรือมีข้อแม้ที่ฉันไม่ทราบว่าอาจทำให้เกิดผลลัพธ์ของฉันดังนั้นพวกเขาจึงมีลักษณะเช่นนี้ ใครบ้างมีประสบการณ์กับสิ่งนี้และรู้วิธีปฏิบัติที่ดีที่สุด?

2
พล็อต QQ ไม่ตรงกับฮิสโตแกรม
ฉันมีฮิสโตแกรมความหนาแน่นของเคอร์เนลและการกระจายผลตอบแทนทางการเงินแบบปกติที่ติดตั้งไว้ซึ่งเปลี่ยนเป็นความสูญเสีย (สัญญาณเปลี่ยน) และพล็อต QQ ปกติของข้อมูลเหล่านี้: พล็อต QQ แสดงให้เห็นชัดเจนว่าก้อยไม่ได้ติดตั้งอย่างถูกต้อง แต่ถ้าฉันดูฮิสโตแกรมและการกระจายแบบปกติที่ติดตั้ง (สีฟ้า) แม้ค่ารอบ 0.0 จะไม่ถูกต้อง ดังนั้นพล็อต QQ แสดงให้เห็นว่ามีเพียงหางที่ไม่เหมาะสม แต่เห็นได้ชัดว่าการกระจายทั้งหมดไม่ได้ติดตั้งอย่างถูกต้อง ทำไมสิ่งนี้ถึงไม่ปรากฏในพล็อต QQ?

2
จะประเมินควอไทล์ที่สามของข้อมูลที่ถูกรวมเป็นอย่างไร
มีเคล็ดลับทางเทคนิคในการกำหนดควอไทล์ที่สามหรือไม่ถ้ามันเป็นช่วงเวลาเปิดซึ่งมีจำนวนมากกว่าหนึ่งในสี่ของประชากร (ดังนั้นฉันจึงไม่สามารถปิดช่วงเวลาและใช้สูตรมาตรฐานได้) แก้ไข ในกรณีที่ฉันเข้าใจผิดบางสิ่งฉันจะให้บริบทเต็มรูปแบบไม่มากก็น้อย ฉันมีข้อมูลที่จัดเรียงในตารางที่มีสองคอลัมน์และพูดว่า 6 แถว ด้วยแต่ละคอลัมน์จะสอดคล้องกับช่วงเวลา (ในคอลัมน์แรก) และปริมาณของประชากรที่ "เป็น" กับช่วงเวลานั้น ช่วงเวลาสุดท้ายเปิดและมีประชากรมากกว่า 25% ช่วงเวลาทั้งหมด (ยกเว้นช่วงสุดท้าย) มีช่วงเดียวกัน ข้อมูลตัวอย่าง (แสดงเพื่อการนำเสนอ): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 คอลัมน์แรกจะถูกตีความเป็นช่วงระดับรายได้ ที่สองคือการตีความว่าเป็นจำนวนพนักงานที่มีรายได้เป็นช่วงเวลา สูตรมาตรฐานที่ฉันคิดคือ{3}}Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
หากฮิสโตแกรมของฉันแสดงเส้นโค้งรูประฆังฉันสามารถพูดได้ว่าข้อมูลของฉันได้รับการกระจายตามปกติ?
ฉันสร้างฮิสโตแกรมสำหรับอายุผู้ตอบและจัดการเพื่อให้ได้เส้นโค้งรูประฆังที่ดีมากจากการที่ฉันสรุปว่าการแจกแจงเป็นเรื่องปกติ จากนั้นฉันรันการทดสอบเชิงปกติใน SPSS โดยมีn = 169 การทดสอบp -value (Sig.) ของการทดสอบ Kolmogorov-Smirnov น้อยกว่า 0.05 และดังนั้นข้อมูลจึงละเมิดสมมติฐานของภาวะปกติ ทำไมการทดสอบแสดงว่าการกระจายอายุไม่ปกติ แต่ฮิสโตแกรมแสดงเส้นโค้งรูประฆังซึ่งจากความเข้าใจของฉันเป็นเรื่องปกติ ฉันควรทำตามผลลัพธ์ใด

2
วิธีการ 'เก็บข้อมูลที่เรียงลำดับอย่างชาญฉลาด' อย่างชาญฉลาด
ฉันกำลังพยายามที่จะจัดเก็บคอลเลกชันที่เรียงอย่างชาญฉลาด ฉันมีชุดข้อมูลจำนวนชิ้น แต่ฉันรู้ว่านี้เหมาะกับข้อมูลลงในขนาดถังขยะไม่มีที่เปรียบ ฉันไม่รู้วิธีเลือกจุดสิ้นสุดอย่างชาญฉลาดเพื่อให้พอดีกับข้อมูล ตัวอย่างเช่น:nnnม.ม.m ว่าฉันมี 12 รายการในคอลเลกชันของฉันและฉันรู้ว่าข้อมูลจะพอดีกับ 3 ถังขยะ: Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 ฉันจะเลือกเบรกพอยต์อย่างชาญฉลาดสำหรับช่องเก็บของอย่างไรi = { 1 - 3 } , { 4 - 9 } , …

1
ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?
ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน) ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ ดังนั้นคำถามของฉันคือ: ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่? การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่? ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์? รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

1
ฮิสโตแกรมที่มีชุดถังขยะสม่ำเสมอและไม่สม่ำเสมอ
คำถามนี้อธิบายถึงความแตกต่างพื้นฐานระหว่างเครื่องแบบและฮิสโตแกรมที่ไม่ใช่แบบฟอร์ม และคำถามนี้กล่าวถึงกฎของหัวแม่มือสำหรับการเลือกจำนวนช่องเก็บของฮิสโตแกรมสม่ำเสมอที่ปรับให้เหมาะสม (ในบางแง่มุม) ระดับที่ฮิสโทแกรมแสดงถึงการกระจายตัวจากการสุ่มตัวอย่างข้อมูล ดูเหมือนว่าฉันจะไม่พบการสนทนา "การมองโลกในแง่ดี" แบบเดียวกันเกี่ยวกับฮิสโตแกรมชุดที่ไม่เหมือนกัน ฉันมีการแจกแจงแบบไม่อิงพารามิเตอร์แบบกระจุกตัวและมีค่าผิดปกติที่อยู่ไกลดังนั้นฮิสโตแกรมที่ไม่สม่ำเสมอทำให้เข้าใจได้ง่ายขึ้น แต่ฉันชอบที่จะเห็นการวิเคราะห์ที่แม่นยำยิ่งขึ้นของคำถามสองข้อต่อไปนี้: ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ ฮิสโตแกรมที่ไม่สม่ำเสมอนั้นมีจำนวนเท่าใด สำหรับฮิสโตแกรมที่ไม่เหมือนกันฉันถือว่าเป็นกรณีที่ง่ายที่สุดที่เรานำตัวอย่างจากการแจกแจงที่ไม่รู้จักเรียงลำดับค่าและแยกพวกมันออกเป็น b เช่นที่แต่ละ bin มีของสิ่งเหล่านี้ ตัวอย่าง (สมมติว่าสำหรับบางจำนวนเต็มขนาดใหญ่ ) ช่วงที่จะเกิดขึ้นโดยการจุดกึ่งกลางระหว่างของค่าในถังผมและ\ นาทีของค่าในถังi + 1 ที่นี่และนี่คือลิงค์ที่อธิบายฮิสโทแกรมที่ไม่เหมือนกันประเภทนี้nnnnnnkkkknkn\frac{k}{n}n ≡ c kn≡คkn \equiv c kคคcสูงสุดสูงสุด\maxผมผมiนาทีนาที\minฉัน+ 1ผม+1i+1

2
ฉันจะกำหนดพารามิเตอร์ weibull จากข้อมูลได้อย่างไร
ฉันมีฮิสโตแกรมของข้อมูลความเร็วลมซึ่งมักแสดงโดยใช้การแจกแจงแบบ Weibull ฉันต้องการคำนวณรูปร่างของ weibull และสเกลแฟคเตอร์ที่เหมาะสมที่สุดกับฮิสโตแกรม ฉันต้องการโซลูชันเชิงตัวเลข (ตรงข้ามกับโซลูชันกราฟิก ) เนื่องจากเป้าหมายคือการกำหนดรูปแบบ weibull โดยทางโปรแกรม แก้ไข: เก็บตัวอย่างทุก 10 นาทีความเร็วลมเฉลี่ยตลอด 10 นาที ตัวอย่างรวมถึงความเร็วลมสูงสุดและต่ำสุดที่บันทึกไว้ในแต่ละช่วงเวลาซึ่งจะถูกละเว้นในปัจจุบัน แต่ฉันต้องการรวมไว้ในภายหลัง ความกว้างของช่องเก็บคือ 0.5 m / s

3
มีขีด จำกัด สูงสุดของจำนวนช่วงเวลาในฮิสโตแกรมหรือไม่?
ฉันได้อ่านหลายบทความและเนื้อหาจากหนังสือที่อธิบายถึงวิธีการเลือกที่ดีจำนวนของช่วง (ถังขยะ) สำหรับ histogram ของชุดข้อมูล แต่ฉันสงสัยว่าถ้ามีความยากสูงสุดจำนวนช่วงเวลาที่อยู่กับจำนวนของคะแนนใน ชุดข้อมูลหรือเกณฑ์อื่น ๆ ความเป็นมา:เหตุผลที่ฉันถามคือฉันพยายามเขียนซอฟต์แวร์ตามขั้นตอนจากรายงานการวิจัย ขั้นตอนหนึ่งในกระบวนการนี้คือการสร้างฮิสโตแกรมหลาย ๆ อันจากชุดข้อมูลจากนั้นเลือกความละเอียดที่เหมาะสมที่สุดตามฟังก์ชั่นลักษณะ (กำหนดโดยผู้เขียนบทความ) ปัญหาของฉันคือผู้เขียนไม่ได้กล่าวถึงขอบเขตบนสำหรับช่วงเวลาที่จะทดสอบ (ฉันมีหลายร้อยชุดข้อมูลในการวิเคราะห์และแต่ละคนสามารถมีความแตกต่างกัน "ที่ดีที่สุด" จำนวนของถังขยะ. นอกจากนี้มันเป็นสิ่งสำคัญที่ดีที่สุดจำนวนถังขยะจะถูกเลือกเพื่อให้ตนเองดูที่ผลลัพธ์และการเลือกที่ดีจะไม่ งาน.) การกำหนดจำนวนช่วงเวลาสูงสุดเพียงเพื่อให้เป็นจำนวนคะแนนในชุดข้อมูลเป็นแนวทางที่ดีหรือมีเกณฑ์อื่น ๆ ที่มักใช้ในสถิติหรือไม่

4
ทำไมความจริงที่ว่า 1 มัธยฐานต่ำกว่าค่ามัธยฐานอื่นหมายความว่าส่วนใหญ่ในกลุ่ม 1 ต่ำกว่าในกลุ่มที่ 2 มากที่สุด?
ฉันเชื่อว่ากล่องสี่เหลี่ยมด้านล่างอาจตีความได้ว่า "ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่" (ในชุดข้อมูลนี้) ส่วนใหญ่เป็นเพราะเวลาเฉลี่ยของผู้ชายต่ำกว่าเวลาเฉลี่ยของผู้หญิง แต่หลักสูตร EdX สำหรับแบบทดสอบ R และสถิติบอกฉันว่าไม่ถูกต้อง โปรดช่วยฉันเข้าใจว่าทำไมปรีชาของฉันไม่ถูกต้อง นี่คือคำถาม: ลองพิจารณาตัวอย่างของนักสำเร็จจากนิวยอร์กซิตี้มาราธอนในปี 2002 ชุดข้อมูลนี้สามารถพบได้ในแพคเกจ UsingR โหลดไลบรารีจากนั้นโหลดชุดข้อมูล nym.2002 library(dplyr) data(nym.2002, package="UsingR") ใช้บ็อกซ์พล็อตและฮิสโทแกรมเพื่อเปรียบเทียบเวลาสิ้นสุดของชายและหญิง ข้อใดต่อไปนี้อธิบายความแตกต่างได้ดีที่สุด เพศชายและเพศหญิงมีการกระจายตัวเหมือนกัน ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่ ตัวผู้และตัวเมียมีการแจกแจงเบ้คล้ายกันกับแบบก่อนหน้านี้, 20 นาทีเปลี่ยนไปทางซ้าย การแจกแจงทั้งสองแบบจะกระจายตามปกติโดยมีความแตกต่างในค่าเฉลี่ยประมาณ 30 นาที ที่นี่เวลา NYC มาราธอนสำหรับชายและหญิงเป็น quantiles, histograms และ boxplots: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 …

2
สูตรของ Doane สำหรับการกัดฮิสโตแกรม
ฉันใช้อัลกอริทึมต่าง ๆ เพื่อประเมินจำนวนถังขยะที่ดีที่สุดที่จะใช้กับฮิสโทแกรม สิ่งที่ฉันกำลังดำเนินการส่วนใหญ่มีการอธิบายไว้ในหน้า "ฮิสโตแกรม" ของ Wikipedia ในส่วน " จำนวนของถังขยะและความกว้าง " * ฉันติดอยู่กับปัญหาเกี่ยวกับสูตรของ Doane: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) ที่nเป็นขนาดของข้อมูล ปัญหาคือเมื่อ kurtosis เป็นลบและn >> 1เนื่องจากการโต้แย้งของlogกลายเป็นลบ * (หน้านั้นมีการเปลี่ยนแปลงนับตั้งแต่มีการโพสต์ลิงค์แก้ไขเพื่อชี้ไปที่หน้าเหมือนตอนที่โพสต์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.