สถิติและข้อมูลขนาดใหญ่ data-visualization

4

ฉันต้องการสร้างรหัสสำหรับการลงจุด ACF และ PACF จากข้อมูลอนุกรมเวลา เช่นเดียวกับพล็อตที่สร้างจาก minitab (ด้านล่าง) ฉันพยายามค้นหาสูตรแล้ว แต่ฉันยังไม่เข้าใจ คุณจะบอกสูตรและวิธีการใช้ให้ฉันได้ไหม เส้นสีแดงแนวนอนของพล็อต ACF และ PACF ด้านบนคืออะไร สูตรคืออะไร? ขอขอบคุณ,

18 correlation data-visualization autocorrelation partial-correlation

2

อัตราส่วนหมึกต่อข้อมูลและพื้นหลังของโครงเรื่อง

ฉันสังเกตว่าแพ็คเกจและธีม "ทันสมัย" หลายแห่งและผู้ใช้ข้อมูลที่โดดเด่นจำนวนมากใช้พื้นหลังสีเทาสำหรับพล็อตของพวกเขา นี่คือตัวอย่างหลายประการ: ggplot2: Nate Silver's fivethirtyeight.com: ในขณะที่ในตัวอย่างแรกข้างต้น (ggplot2) บางคนอาจโต้แย้งว่าการใช้พื้นหลังสีเทาลดหมึกที่จำเป็นสำหรับเส้นกริดนี่ไม่ใช่กรณีที่มีกรณีที่สอง อะไรคือข้อดีของการใช้พื้นหลังสีเทาซึ่งตรงกันข้ามกับสีขาวหรือสีโปร่งใส

17 data-visualization ggplot2

2

อะไรคือ Plotable Variable Plot (Partial Regression Plot) ที่อธิบายในการถดถอยหลายครั้ง?

ฉันมีชุดข้อมูลภาพยนตร์และฉันใช้การถดถอย: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) ซึ่งให้ผลลัพธ์: ตอนนี้ฉันลองทำงานบางอย่างที่เรียกว่า "เพิ่ม Variable Plot" ครั้งแรกและฉันได้ผลลัพธ์ต่อไปนี้: car::avPlots(model, id.n=2, id.cex=0.7) ปัญหาคือฉันพยายามที่จะทำความเข้าใจกับตัวแปรที่เพิ่มเข้ามาโดยใช้ google แต่ฉันไม่สามารถเข้าใจความลึกของมันได้เพราะเห็นพล็อตที่ฉันเข้าใจว่ามันเป็นตัวแทนของการบิดเบือนที่ขึ้นอยู่กับตัวแปรอินพุตแต่ละตัวที่เกี่ยวข้องกับผลลัพธ์ ฉันสามารถรับรายละเอียดเพิ่มเติมได้เล็กน้อยเช่นวิธีปรับข้อมูลให้เป็นมาตรฐาน

17 regression data-visualization multiple-regression scatterplot

3

จะแสดงโครงเรื่องของกล่องที่มีค่าผิดพลาดรุนแรงได้อย่างไร?

ฉันสามารถใช้แนวทางบางอย่างเกี่ยวกับการนำเสนอข้อมูลบางอย่าง พล็อตแรกนี้เป็นการเปรียบเทียบการควบคุมกรณีสำหรับ cytokine IL-10 ฉันได้ตั้งแกน y ด้วยตนเองเพื่อรวม 99% ของข้อมูล เหตุผลที่ฉันตั้งค่าด้วยตนเองนี้เป็นเพราะกลุ่มเคสมีค่าผิดปกติมาก ผู้ทำงานร่วมกันของฉันลังเลที่จะทำการลบข้อมูลในชุดข้อมูลของเราออกไป ฉันโอเคกับมัน แต่พวกเขาไม่ต้องการ นั่นเป็นทางออกที่ชัดเจน แต่ถ้าฉันจะเก็บข้อมูลทั้งหมดและไม่ลบค่าผิดปกตินี้ฉันจะแสดง boxplot นี้อย่างเหมาะสมได้อย่างไร แกนแยก? เป็นที่ยอมรับหรือไม่ที่จะใช้เพียงกราฟแรกและทราบว่าสร้างขึ้นเพื่อรวมข้อมูลทั้งหมดหรือไม่ (ตัวเลือกนี้รู้สึกไม่สุจริตสำหรับฉัน) คำแนะนำใด ๆ ที่จะดี

17 r data-visualization outliers boxplot presentation

2

มีคู่มือสไตล์สำหรับกราฟสถิติสำหรับงานนำเสนอหรือไม่

ฉันกำลังมองหาคำแนะนำ / แหล่งข้อมูล / คำแนะนำเกี่ยวกับวิธีจัดรูปแบบกราฟที่ดีที่สุดสำหรับงานนำเสนอ จากประสบการณ์ฉันรู้ว่ากราฟที่สร้างขึ้นสำหรับสิ่งพิมพ์ไม่ดีนักเมื่อแสดงด้วย beamer ข้อความมักมีขนาดเล็กเกินไปเส้นไม่หนาพอ ฯลฯ เป็นความคิดที่ดีที่จะใช้ไฟล์. eps / .pdf และดันเข้าไปในงานนำเสนอโดยตรง มีคำแนะนำสไตล์ใดบ้างที่แนะนำเมื่อพูดถึงการนำเสนอกราฟให้กับผู้ชมจำนวนมากด้วยเครื่องฉายแสงหรือไม่?

17 data-visualization

2

ทางเลือกในการแปลงตะแกรง / โมเสคสำหรับตารางฉุกเฉิน

ครั้งหนึ่งฉันเคยเจอพล็อตประเภทหนึ่งสำหรับข้อมูลเชิงหมวดหมู่ (เช่นตารางฉุกเฉิน) บนอินเทอร์เน็ตซึ่งฉันชอบจริง ๆ แต่ฉันไม่เคยพบมันอีกเลยและไม่รู้ด้วยซ้ำว่าเป็นชื่ออะไร มันเป็นเหมือนพล็อตตะแกรงโดยที่ความสูงของแถวและความกว้างของคอลัมน์นั้นถูกปรับสัดส่วนเมื่อเทียบกับความน่าจะเป็นที่ขอบ ดังนั้นแต่ละกล่องจะถูกปรับสัดส่วนให้สอดคล้องกับความถี่สัมพัทธ์ที่คาดหวังภายใต้ความเป็นอิสระ อย่างไรก็ตามมันแตกต่างจากพล็อตตะแกรงในที่นั้นแทนที่จะพล็อตการฟักข้ามในแต่ละกล่องมันพล็อตจุด (เช่นใน scatterplot) ที่ตำแหน่งสุ่มเลือกจากชุด bivariate สำหรับการสังเกตแต่ละครั้ง ด้วยวิธีนี้ความหนาแน่นของคะแนนจะแสดงให้เห็นว่าการนับที่สังเกตได้นั้นตรงกับจำนวนที่คาดหวังมากเพียงใด นั่นคือถ้าความหนาแน่นมีความคล้ายคลึงกันในทุกช่องโมเดลแบบ null นั้นสมเหตุสมผล ) อาจไม่น่าเป็นไปได้มากนักภายใต้โมเดลว่าง เนื่องจากมีการพล็อตจุดแทนการฟักไข่จึงมีความสอดคล้องและเข้าใจง่ายระหว่างองค์ประกอบการวางแผนและการนับที่สังเกตซึ่งไม่จำเป็นต้องเป็นจริงสำหรับแปลงตะแกรง (ดูด้านล่าง) ยิ่งไปกว่านั้นการวางตำแหน่งของคะแนนแบบสุ่มให้ความรู้สึก 'อินทรีย์' นอกจากนี้สีสามารถใช้เพื่อเน้นกล่อง / เซลล์ที่แตกต่างอย่างมากจากตัวแบบ null และพล็อตเมทริกซ์สามารถใช้เพื่อตรวจสอบความสัมพันธ์แบบคู่ระหว่างตัวแปรต่าง ๆ มากมายดังนั้นจึงสามารถรวมข้อดีของพล็อตที่คล้ายกัน ฉัน, Jผม,Ji,j ไม่มีใครรู้ว่าพล็อตนี้เรียกว่าอะไร? มีแพ็คเกจ / ฟังก์ชั่นที่จะทำสิ่งนี้ได้อย่างง่ายดายใน R หรือซอฟต์แวร์อื่น ๆ (เช่น Mondrian)? ฉันไม่สามารถหาอะไรเช่นนั้นในซีดี แน่นอนว่ามันยากที่จะเขียนโค้ดตั้งแต่เริ่มต้น แต่นั่นอาจเป็นความเจ็บปวด นี่เป็นตัวอย่างง่ายๆของพล็อตตะแกรงสังเกตว่ามันง่ายที่จะเห็นว่าจำนวนนับที่คาดไว้สำหรับหมวดหมู่ที่แตกต่างกันควรเล่นในรูปแบบ null แต่ยากที่จะกระทบยอดฟักข้ามกับตัวเลขจริงทำให้พล็อตที่ไม่ใช่ค่อนข้างง่ายต่อการอ่านและน่ารังเกียจ: B ~B A …

17 r data-visualization categorical-data

4

หนึ่งกราฟจะแสดงผลลัพธ์ของการจัดอันดับแบบอัตนัยได้อย่างไร

ฉันกำลังมองหาวิธีที่จะเห็นภาพการจัดอันดับอัตนัยแยกจากการทดสอบที่ไม่ใช่พารามิเตอร์ของฉัน ฉันขอให้ผู้เข้าร่วม 12 คนจัดอันดับ 8 รายการที่แตกต่างกันตามเกณฑ์ความรู้สึกส่วนตัวที่แตกต่างกัน (จัดอันดับแยกกันสำหรับแต่ละรายการ) สำหรับการจัดอันดับชุดใด ๆ ฉันกำลังมองหาวิธีที่ดีในการมองเห็นแนวโน้มระดับสูงของการจัดอันดับ ฉันได้ลองทั้งบาร์และเรดาร์ในการจัดอันดับโดยเฉลี่ยและฉันเห็นคนอีกคนหนึ่งใช้พล็อตกระจาย / บอลลูนมากกว่าจำนวนการตอบสนองต่ออันดับ แต่ฉันไม่แน่ใจว่าสิ่งใดที่สื่อถึงภาพรวมที่ดีที่สุด ฉันสามารถใช้การจัดอันดับค่าเฉลี่ย 8 หรือการนับ 8 ของการจัดอันดับต่อรายการ แก้ไข: ตัวอย่างเช่น: แต่ละคอลัมน์เป็นรายการแต่ละแถวเป็นการจัดอันดับของแต่ละคนในแปดรายการ ไม่ใช่ข้อตกลงที่แข็งแกร่งเป็นพิเศษในตัวอย่างนี้ แต่โดยทั่วไปต้องการเข้าใจวิธีที่ดีที่สุดในการถ่ายทอดแนวโน้มโดยรวม Item: A B C D E F G H Rater: 1 6 8 1 7 3 4 2 5 2 1 3 8 7 6 5 …

17 data-visualization nonparametric excel ranking

3

การสร้างภาพข้อมูลเชิงโต้ตอบจะมีประโยชน์เมื่อใด

ในขณะที่เตรียมการพูดคุยฉันจะให้เร็ว ๆ นี้ฉันเพิ่งเริ่มขุดเป็นสองเครื่องมือสำคัญ (ฟรี) สำหรับการสร้างภาพข้อมูลแบบโต้ตอบ: GGobiและMondrian - ทั้งสองมีความสามารถที่หลากหลาย ฉันต้องการขอความช่วยเหลือจากคุณในการสื่อสาร (ทั้งกับตัวเองและสำหรับผู้ชมในอนาคตของฉัน) เมื่อใดที่การใช้แปลงแบบโต้ตอบมีประโยชน์เมื่อใด สำหรับการสำรวจข้อมูล (สำหรับตัวเราเอง) และการนำเสนอข้อมูล (สำหรับ "ลูกค้า") สำหรับเมื่ออธิบายข้อมูลไปยังไคลเอนต์ฉันสามารถดูค่าของภาพเคลื่อนไหวสำหรับ: ใช้ "ระบุ / เชื่อมโยง / แปรง" เพื่อดูว่าจุดข้อมูลใดในกราฟคืออะไร นำเสนอการวิเคราะห์ความอ่อนไหวของข้อมูล (เช่น: "ถ้าเราลบจุดนี้นี่คือสิ่งที่เราจะได้รับ) แสดงผลของกลุ่มต่าง ๆ ในข้อมูล (เช่น: "ลองดูกราฟของเราสำหรับผู้ชายและผู้หญิงตอนนี้") แสดงเอฟเฟกต์ของเวลา (หรืออายุหรือโดยทั่วไปให้มิติอื่นกับงานนำเสนอ) สำหรับการสำรวจข้อมูลด้วยตัวเองฉันสามารถเห็นคุณค่าของการระบุ / การเชื่อมโยง / การแปรงเมื่อทำการสำรวจค่าในชุดข้อมูลที่เรากำลังทำงานอยู่ แต่ในอีกสองตัวอย่างนี้ฉันไม่แน่ใจว่าเทคนิคเหล่านี้ใช้งานได้จริงอย่างไร โดยเฉพาะอย่างยิ่งสำหรับการสำรวจข้อมูลของเราเอง! อาจเป็นที่ถกเถียงกันอยู่ว่าส่วนที่ตอบโต้นั้นดีสำหรับการสำรวจ (ตัวอย่าง) พฤติกรรมที่แตกต่างของกลุ่ม / กลุ่มที่แตกต่างกันในข้อมูล แต่เมื่อ (ในทางปฏิบัติ) ฉันเข้าหาสถานการณ์เช่นนี้สิ่งที่ฉันมักจะทำคือการเรียกใช้กระบวนการทางสถิติที่เกี่ยวข้อง (และการทดสอบหลังการเฉพาะกิจ) …

17 data-visualization data-mining interactive-visualization

7

วิธีที่ง่ายที่สุดในการสร้างแปลงคุณภาพการเผยแพร่ภายใต้ Linux คืออะไร

เราอาจสมมติว่าเรามีไฟล์ CSV และเราต้องการพล็อตบรรทัดขั้นพื้นฐานที่มีหลายบรรทัดในหนึ่งพล็อตและคำอธิบายง่ายๆ

17 data-visualization

3

การวางแผนข้อมูลคลัสเตอร์หลายมิติด้วยสายตา

ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?

17 data-visualization clustering k-means

2

ฉันจะจัดระเบียบการนำเสนอโปสเตอร์ของฉันได้อย่างไร

ขณะนี้ฉันกำลังดำเนินการนำเสนอโปสเตอร์และต้องการคำแนะนำ (หรือการอ้างอิงถึงคำแนะนำ) เกี่ยวกับบางแง่มุมของกราฟิก สำหรับตัวอย่างโปสเตอร์ที่ฉันกำลังพูดถึงดูเนื้อหาเพิ่มเติมสำหรับบทความ ASA Data Expo ในเล่มที่ 20 ฉบับที่ 2 ของวารสารการคำนวณและสถิติแบบกราฟิก (อีกตัวอย่างอยู่ที่นี่ ( Hendrix et al., 2008 )) โปรดทราบด้วยว่าหากเป็นเรื่องสำคัญฉันจะยืนอยู่กับโปสเตอร์ที่พิมพ์ออกมาทางกายภาพมีกระดาษลงไปในรายละเอียดเพิ่มเติมเกี่ยวกับโครงการหากผู้สัญจรผ่านไปโดยร้องขอและสถานที่จะเป็นการประชุมทางวิชาการ การไหลของวัตถุควรแสดงในกราฟิกอย่างไร ผู้คนในภาษาอังกฤษมักอ่านจากซ้ายไปขวาแผงในโปสเตอร์ของฉันควรเป็นแบบเดียวกันหรือไม่ สำหรับตัวอย่าง (พิจารณาลำดับตามลำดับที่ฉันต้องการให้พาเนลถูกอ่าน) ลำดับของตารางที่ 1 จะดีกว่าในตารางที่ 2 หรือไม่? Table 1: 1 2 3 Table 2: 1 3 5 4 5 6 2 4 6 กราฟิกแต่ละตัวควรมีขนาดเล็ก / ใหญ่เท่าใด เมื่อผู้คนหยุดมองที่กราฟิกจริงบอกว่าพวกเขายังคงยืนห่างออกไป (นี่คือข้อสมมติฐานที่สมเหตุสมผลหรือไม่) …

17 data-visualization presentation

2

แสดงความสัมพันธ์เชิงพื้นที่และเชิงเวลาบนแผนที่

ฉันมีข้อมูลสำหรับเครือข่ายสถานีตรวจอากาศทั่วสหรัฐอเมริกา สิ่งนี้ทำให้ฉันมีกรอบข้อมูลที่ประกอบด้วยวันที่ละติจูดลองจิจูดและค่าที่วัดได้บางส่วน สมมติว่ามีการรวบรวมข้อมูลวันละครั้งและขับเคลื่อนด้วยสภาพอากาศระดับภูมิภาค (ไม่เราจะไม่เข้าร่วมการสนทนานั้น) ฉันต้องการแสดงให้เห็นชัดเจนว่าค่าที่วัดได้พร้อมกันนั้นมีความสัมพันธ์กันตลอดเวลาและพื้นที่อย่างไร เป้าหมายของฉันคือการแสดงให้เห็นถึงความเป็นเนื้อเดียวกันในภูมิภาค (หรือไม่มีในนั้น) ของค่าที่จะถูกตรวจสอบ ชุดข้อมูล เริ่มต้นด้วยฉันเอากลุ่มของสถานีในแมสซาชูเซตส์และเมน ฉันเลือกไซต์ตามละติจูดและลองจิจูดจากไฟล์ดัชนีที่มีอยู่ในไซต์ FTP ของ NOAA ทันทีที่คุณเห็นปัญหาหนึ่ง: มีเว็บไซต์จำนวนมากที่มีตัวระบุที่คล้ายกันหรือใกล้เคียงกันมาก FWIW ฉันระบุว่าพวกเขาใช้ทั้งรหัส USAF และ WBAN เมื่อมองลึกลงไปที่เมทาดาทาฉันเห็นว่าพวกเขามีพิกัดและระดับความสูงต่างกันและข้อมูลหยุดที่ไซต์หนึ่งจากนั้นเริ่มที่อีกไซต์หนึ่ง ดังนั้นเนื่องจากฉันไม่รู้อะไรเลยฉันจึงต้องปฏิบัติต่อพวกเขาเป็นสถานีแยก ซึ่งหมายความว่าข้อมูลมีคู่สถานีที่ใกล้กันมาก การวิเคราะห์เบื้องต้น ฉันพยายามจัดกลุ่มข้อมูลตามเดือนปฏิทินจากนั้นคำนวณการถดถอยกำลังสองน้อยสุดธรรมดาระหว่างข้อมูลที่แตกต่างกัน จากนั้นฉันวางแผนความสัมพันธ์ระหว่างคู่ทั้งหมดเป็นเส้นเชื่อมต่อสถานี (ด้านล่าง) สีเส้นแสดงค่า R2 จาก OLS พอดี จากนั้นตัวเลขแสดงให้เห็นว่าจุดข้อมูล 30+ จุดตั้งแต่เดือนมกราคมกุมภาพันธ์เป็นต้นไปมีความสัมพันธ์กันอย่างไรระหว่างสถานีต่างๆในพื้นที่ที่น่าสนใจ ฉันได้เขียนโค้ดที่สำคัญเพื่อที่ค่าเฉลี่ยรายวันจะถูกคำนวณเฉพาะในกรณีที่มีจุดข้อมูลทุก 6 ชั่วโมงดังนั้นข้อมูลควรเปรียบเทียบได้ในทุกไซต์ ปัญหาที่เกิดขึ้น น่าเสียดายที่มีข้อมูลมากเกินไปที่จะเข้าใจในหนึ่งพล็อต ไม่สามารถแก้ไขได้ด้วยการลดขนาดของเส้น kkk เครือข่ายดูเหมือนจะซับซ้อนเกินไปดังนั้นฉันคิดว่าฉันต้องหาวิธีที่จะลดความซับซ้อนหรือใช้เคอร์เนลเชิงพื้นที่บางประเภท ฉันไม่แน่ใจว่าสิ่งที่เป็นตัวชี้วัดที่เหมาะสมที่สุดในการแสดงความสัมพันธ์ แต่สำหรับผู้ชมที่ตั้งใจ (ไม่ใช่ด้านเทคนิค) สัมประสิทธิ์สหสัมพันธ์จาก OLS อาจเป็นวิธีที่ง่ายที่สุดในการอธิบาย …

16 r regression data-visualization pca spatial

2

เป็นไปได้ไหมที่จะสร้าง“ ชุดขนาน” โดยใช้ R

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ขอบคุณคำถาม Tormod (โพสต์ที่นี่ ) ฉันเจอพล็อตชุดแบบขนาน นี่คือตัวอย่างสำหรับลักษณะที่ปรากฏ: (เป็นภาพของชุดข้อมูลไททานิกการแสดงยกตัวอย่างเช่นผู้หญิงส่วนใหญ่ที่ไม่รอดชีวิตอยู่ในชั้นที่สาม ... ) ฉันชอบที่จะสามารถทำซ้ำพล็อตดังกล่าวกับอาร์ได้หรือไม่? ขอบคุณ Tal

16 r data-visualization categorical-data interactive-visualization

3

วิธีการใส่ค่าบนแท่งใน barplot ใน R [Closed]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา คำถามนี้เป็นคำถามที่เกี่ยวข้องกับคำถามก่อนหน้านี้ของฉัน ฉันต้องการที่จะใส่ค่ามากกว่าแถบใน barplot ฉันกำลังเริ่มต้นในการวางแผนใน R

16 r data-visualization

2

Logistic Regression จะสร้างเส้นโค้งที่ไม่ใช่หน้าที่ดั้งเดิมได้อย่างไร

ฉันคิดว่าฉันมีความสับสนขั้นพื้นฐานเกี่ยวกับวิธีการทำงานของ Logistic ถดถอย (หรืออาจจะเป็นแค่ฟังก์ชั่นโดยรวม) ฟังก์ชั่น h (x) สร้างเส้นโค้งที่เห็นทางด้านซ้ายของภาพอย่างไร ฉันเห็นว่านี่เป็นพล็อตของสองตัวแปร แต่แล้วทั้งสองตัวแปร (x1 & x2) ก็เป็นอาร์กิวเมนต์ของฟังก์ชันเอง ฉันรู้ว่าฟังก์ชั่นมาตรฐานของแผนที่หนึ่งตัวแปรไปยังหนึ่งเอาท์พุท แต่ฟังก์ชั่นนี้ชัดเจนไม่ได้ทำอย่างนั้น - และฉันไม่แน่ใจว่าทำไม สัญชาตญาณของฉันคือเส้นโค้งสีน้ำเงิน / ชมพูไม่ได้พล็อตบนกราฟนี้จริงๆ แต่เป็นการแสดง (วงกลมและ X) ที่ได้รับการแมปกับค่าในมิติถัดไป (3) ของกราฟ นี่คือเหตุผลที่ผิดพลาดและฉันเพิ่งจะพลาดบางสิ่งบางอย่าง? ขอบคุณสำหรับความเข้าใจ / ปรีชาญาณ

15 logistic data-visualization function

คำถามติดแท็ก data-visualization