คำถามติดแท็ก histogram

ฮิสโตแกรมเป็นการแสดงแบบกราฟิกของความถี่ของตัวแปรต่อเนื่อง ตัวแปรถูกแบ่งออกเป็นช่องเก็บและแถบจะถูกวาดสำหรับแต่ละถังเก็บตามสัดส่วนของความถี่ในข้อมูล

4
ประเมินการกระจายตัวของข้อมูลโดยประมาณตามฮิสโตแกรม
สมมติว่าฉันต้องการดูว่าข้อมูลของฉันเป็นเลขชี้กำลังอิงตามฮิสโตแกรมหรือไม่ (เช่นเอียงไปทางขวา) ฉันสามารถรับฮิสโตแกรมที่แตกต่างกันอย่างดุเดือดขึ้นอยู่กับว่าฉันจัดกลุ่มหรือถังข้อมูล ฮิสโทแกรมหนึ่งชุดจะทำให้ดูเหมือนว่าข้อมูลเป็นเลขชี้กำลัง อีกชุดหนึ่งจะทำให้ดูเหมือนว่าข้อมูลไม่ได้อธิบาย ฉันจะกำหนดการแจกแจงจากฮิสโทแกรมที่กำหนดอย่างดีได้อย่างไร

8
การคำนวณจำนวนที่เหมาะสมของถังขยะในฮิสโตแกรม
ฉันสนใจที่จะหาวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อหาจำนวนถังขยะที่ควรใช้ในฮิสโตแกรม ข้อมูลของฉันควรอยู่ในช่วงวัตถุสูงสุด 30 ถึง 350 และโดยเฉพาะอย่างยิ่งฉันพยายามที่จะใช้การกำหนดเกณฑ์ขั้นต่ำ (เช่นวิธีของ Otsu) โดยที่วัตถุ "ดี" ซึ่งฉันควรมีน้อยกว่าและควรแยกออกจาก " วัตถุที่ไม่ดีซึ่งควรมีความหนาแน่นมากกว่าในค่า ค่าที่เป็นรูปธรรมจะมีคะแนน 1-10 สำหรับแต่ละวัตถุ ฉันมี 5-10 วัตถุที่มีคะแนน 6-10 และ 20-25 วัตถุที่มีคะแนน 1-4 ฉันต้องการหารูปแบบฮิสโตแกรม binning ที่โดยทั่วไปแล้วอนุญาตให้บางสิ่งบางอย่างเช่นวิธีของ Otsu ในการ จำกัด วัตถุที่ให้คะแนนต่ำ อย่างไรก็ตามในการดำเนินการของ Otsu ที่ฉันเคยเห็นขนาดของช่องเก็บข้อมูลเท่ากับ 256 และบ่อยครั้งที่ฉันมีจุดข้อมูลน้อยกว่ามากที่ 256 ที่ฉันแนะนำว่า 256 ไม่ใช่หมายเลขถังขยะที่ดี ด้วยข้อมูลน้อยมากฉันควรใช้วิธีใดในการคำนวณจำนวนถังขยะที่จะใช้

5
R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:

6
วิธีการประเมินความคล้ายคลึงกันของสองฮิสโทแกรมหรือไม่
ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่ มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ

3
การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร
ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้: x = rpois(1000,10) ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ

3
ประโยชน์ของการใช้ QQ-plot บนฮิสโทแกรม
ในความคิดเห็นนี้ Nick Cox เขียนว่า: การเข้าเรียนเป็นวิธีโบราณ แม้ว่าฮิสโทแกรมจะมีประโยชน์ แต่ซอฟต์แวร์ทางสถิติที่ทันสมัยช่วยให้ง่ายขึ้นรวมถึงแนะนำให้กระจายข้อมูลดิบให้เหมาะสม Binning เพียงแค่โยนรายละเอียดออกไปซึ่งมีความสำคัญในการพิจารณาว่าการแจกแจงแบบใดที่เป็นไปได้ บริบทของความคิดเห็นนี้แสดงให้เห็นว่าการใช้ QQ-plots เป็นทางเลือกในการประเมินความเหมาะสม คำสั่งฟังดูน่าเชื่อถือมาก แต่ฉันต้องการทราบเกี่ยวกับข้อมูลอ้างอิงที่เชื่อถือได้ซึ่งสนับสนุนข้อความนี้ มีกระดาษบ้างไหมที่ทำการตรวจสอบข้อเท็จจริงนี้อย่างละเอียดมากขึ้นนอกเหนือจาก“ ความเรียบง่ายนี่ฟังดูชัดเจน” หรือไม่? มีการเปรียบเทียบผลลัพธ์ที่เป็นระบบจริงหรือชอบอะไร ฉันยังต้องการที่จะดูว่าประโยชน์ของการแปลง QQ- มากกว่าฮิสโทแกรมสามารถยืดออกไปยังแอปพลิเคชันอื่น ๆ คำตอบสำหรับคำถามนี้ยอมรับว่า "พล็อต QQ- […] เพียงแค่บอกคุณว่า" มีอะไรผิดปกติ "" ฉันกำลังคิดที่จะใช้มันเป็นเครื่องมือในการระบุโครงสร้างในข้อมูลที่สังเกตได้เมื่อเปรียบเทียบกับตัวแบบโมฆะและสงสัยว่ามีกระบวนการที่กำหนดไว้ใด ๆ ที่จะใช้ QQ-แปลง (หรือข้อมูลพื้นฐาน) ไม่เพียง แต่ตรวจจับได้เท่านั้น โครงสร้างในข้อมูลที่สังเกตได้ การอ้างอิงซึ่งรวมถึงทิศทางนี้จึงมีประโยชน์อย่างยิ่ง

4
จะทดสอบได้อย่างไรว่าการกระจายตัวของฉันนั้นต่อเนื่องหลายรูปแบบ?
เมื่อฉันพล็อตฮิสโตแกรมของข้อมูลของฉันมันมีสองจุด: นั่นหมายความว่าอาจมีการกระจายแบบหลายโหมดหรือไม่? ฉันวิ่งdip.testใน R ( library(diptest)) และผลลัพธ์คือ: D = 0.0275, p-value = 0.7913 ฉันสามารถสรุปได้ว่าข้อมูลของฉันมีการกระจายหลายโหมด? ข้อมูล 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 …

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
ความพอดีของฮีสโตแกรม 2D
ฉันมีข้อมูลสองชุดที่แสดงถึงพารามิเตอร์ของดาว: อันที่สังเกตและแบบจำลอง ด้วยชุดเหล่านี้ฉันสร้างสิ่งที่เรียกว่าสองสีแผนภาพ (TCD) ตัวอย่างสามารถดูได้ที่นี่: การเป็นข้อมูลที่สังเกตและBข้อมูลที่ดึงมาจากแบบจำลอง (ไม่ต้องสนใจเส้นสีดำจุดแสดงข้อมูล) ฉันมีไดอะแกรมAเพียงอันเดียวแต่สามารถสร้างไดอะแกรมB ที่แตกต่างกันได้มากเท่าที่ฉันต้องการและสิ่งที่ฉันต้องการคือ เพื่อให้เหมาะกับก . ดังนั้นสิ่งที่ฉันต้องการคือวิธีที่เชื่อถือได้ในการตรวจสอบความดีของไดอะแกรมแบบB (โมเดล) กับไดอะแกรมA (สังเกต) ตอนนี้สิ่งที่ฉันทำคือฉันสร้างฮิสโตแกรม 2D หรือตาราง (นั่นคือสิ่งที่ฉันเรียกมันอาจจะมีชื่อที่เหมาะสมกว่า) สำหรับแต่ละแผนภาพโดยการผูกทั้งสองแกน (แต่ละ 100 ถังสำหรับแต่ละ) จากนั้นฉันก็ผ่านแต่ละเซลล์ของตาราง และฉันพบความแตกต่างที่แน่นอนในการนับระหว่างAและBสำหรับเซลล์นั้น หลังจากผ่านไปแล้วเซลล์ทั้งหมดที่ผมสรุปค่าสำหรับแต่ละเซลล์และดังนั้นผมจึงจบลงด้วยพารามิเตอร์บวกเดียวที่เป็นตัวแทนของความดีของพอดี (คน ) ระหว่างและB ยิ่งใกล้ศูนย์มากเท่าไหร่ก็ยิ่งพอดี โดยทั่วไปนี่คือพารามิเตอร์ที่มีลักษณะดังนี้:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ที่คือจำนวนของดาวในแผนภาพสำหรับเซลล์เฉพาะที่ (กำหนดโดย ) และคือหมายเลขสำหรับBaijaija_{ij}ijijijbijbijb_{ij} นี่คือสิ่งที่ความแตกต่างในแต่ละเซลล์ดูเหมือนในตารางที่ฉันสร้าง (โปรดสังเกตว่าฉันไม่ได้ใช้ค่าสัมบูรณ์ของในภาพนี้ แต่ฉันจะใช้พวกเขาเมื่อคำนวณพารามิเตอร์ ):(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf ปัญหาคือฉันได้รับการแนะนำว่านี่อาจไม่ใช่ตัวประมาณที่ดีเพราะส่วนใหญ่นอกจากการบอกว่าแบบนี้ดีกว่าตัวอื่นเพราะพารามิเตอร์ต่ำกว่าฉันไม่สามารถพูดอะไรได้มากกว่านี้ สำคัญ : (ขอบคุณ @PeterEllis ที่นำเรื่องนี้ขึ้นมา) 1- …

4
เปรียบเทียบฮิสโตแกรมสองภาพโดยใช้ระยะทาง Chi-Square
ฉันต้องการเปรียบเทียบภาพใบหน้าสองภาพ ฉันคำนวณ LBP-histograms ของพวกเขา ดังนั้นตอนนี้ฉันต้องเปรียบเทียบฮิสโตแกรมสองตัวนี้และรับบางสิ่งที่จะบอกว่าฮิสโทแกรมเหล่านี้เท่ากัน (0 - 100%) มีหลายวิธีในการแก้ปัญหานี้ แต่ผู้เขียนของวิธี LBP เน้น (คำอธิบายใบหน้าด้วยรูปแบบไบนารีท้องถิ่น: การประยุกต์ใช้การจดจำใบหน้า 2004) ที่ Chi-Square ระยะทางดีกว่าการแยกฮิสโทแกรมและสถิติความน่าจะเป็น ผู้เขียนยังแสดงสูตรของระยะทาง Chi-Square: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} โดยที่คือจำนวนของถังขยะคือค่าของถังขยะแรกคือค่าของถังขยะที่สองx i y i innnxixix_iyiyiy_i ในงานวิจัยบางชิ้น (ตัวอย่างเช่นตระกูลระยะทางฮิสโตแกรม Quadratic-Chi) ฉันเห็นว่าสูตรของระยะทาง Chi-Square คือ: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} และมีhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmฉันเห็นสูตรของระยะทาง Chi-Square นั่นคือ: …


1
การทดสอบ Chi Squared ของ Pearson ทำงานอย่างไร
หลังจากลงคะแนนเสียงล่าสุดฉันพยายามตรวจสอบความเข้าใจของฉันเกี่ยวกับการทดสอบ Pearson Chi Squared ฉันมักจะใช้สถิติไคสแควร์ (หรือสถิติไคสแควร์ลดลง) สำหรับการปรับหรือการตรวจสอบแบบที่เกิดขึ้น ในกรณีนี้ความแปรปรวนมักไม่ใช่จำนวนที่คาดหวังในตารางหรือฮิสโตแกรม แต่เป็นความแปรปรวนที่กำหนดโดยการทดลอง ไม่ว่าจะด้วยวิธีใดฉันก็มักจะรู้สึกว่าการทดสอบยังคงใช้มาตรฐานเชิงเส้นกำกับของ Multinomial PDF (เช่นสถิติการทดสอบของฉันคือ Q = ( n - Nม. )⊤V- 1( n - Nม. )Q=(n-ยังไม่มีข้อความม.)⊤V-1(n-ยังไม่มีข้อความม.)Q = (n-Nm)^\top V^{-1}(n-Nm) และเป็นพหุคูณแบบพหุคูณโดยที่คือเมทริกซ์ความแปรปรวนร่วม ดังนั้นมีไคสแควร์จัดจำหน่ายให้มีขนาดใหญ่ดังนั้นการใช้จำนวนที่คาดหวังของการนับเป็นตัวหารในสถิติที่จะกลายเป็นที่ถูกต้องสำหรับขนาดใหญ่nเป็นไปได้ว่าสิ่งนี้เป็นจริงสำหรับฮิสโทแกรมเท่านั้นฉันไม่ได้วิเคราะห์ตารางข้อมูลขนาดเล็กในปีที่ผ่านมาV Q n n( n - Nม. )(n-ยังไม่มีข้อความม.)(n-Nm)VVVQQQnnnnnn มีการโต้แย้งที่ลึกซึ้งยิ่งขึ้นที่ฉันหายไปหรือไม่? ฉันจะสนใจในการอ้างอิงหรือคำอธิบายสั้น ๆ (แม้ว่าจะเป็นไปได้ฉันเพิ่งลงคะแนนให้ละเว้นคำว่า asymptotic ซึ่งฉันยอมรับค่อนข้างสำคัญ)

3
การแจกจ่ายของฉันเป็นเรื่องปกติ การทดสอบ Kolmogorov-Smirnov ไม่เห็นด้วย
ฉันมีปัญหากับค่าปกติของข้อมูลบางอย่างที่ฉันมี: ฉันได้ทำการทดสอบ Kolmogorov ซึ่งบอกว่ามันไม่ปกติกับ p = .0000 ฉันไม่เข้าใจ: ความเบ้ของการกระจายของฉัน = -. 497 และ kurtosis = -0,024 นี่คือพล็อตเรื่องการกระจายตัวของฉันซึ่งดูธรรมดามาก ... (ฉันมีสามคะแนนและแต่ละคะแนนนี้ไม่ปกติกับค่า p ที่สำคัญสำหรับการทดสอบ Kolmogorov ... ฉันไม่เข้าใจจริงๆ)

3
วิธีที่ดีที่สุดในการใส่ฮิสโตแกรมสองตัวในระดับเดียวกัน?
สมมติว่าฉันมีการแจกแจงสองแบบที่ฉันต้องการเปรียบเทียบในรายละเอียดนั่นคือในวิธีที่ทำให้รูปร่างขนาดและการเปลี่ยนแปลงมองเห็นได้ง่าย วิธีหนึ่งที่ดีในการทำเช่นนี้คือการพล็อตฮิสโตแกรมสำหรับการแจกแจงแต่ละครั้งวางไว้ในระดับ X ที่เหมือนกัน เมื่อทำเช่นนี้จะต้องทำอย่างไรให้เกิดความผิดพลาด? ฮิสโทแกรมทั้งสองควรใช้ขอบเขตของช่องเก็บเดียวกันแม้ว่าการกระจายครั้งเดียวจะกระจายมากกว่าที่อื่น ๆ อย่างเช่นในภาพที่ 1 ด้านล่าง? ควรทำการแยกกันอย่างอิสระสำหรับฮิสโตแกรมแต่ละชิ้นก่อนซูมเช่นเดียวกับในภาพที่ 2 ด้านล่าง? เรื่องนี้มีกฎง่ายๆหรือไม่?

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.