แผนที่ความร้อนเป็นหนึ่งในการแสดงข้อมูลที่มีประสิทธิภาพน้อยที่สุดหรือไม่?


22

คำถาม:เมื่อใด (สำหรับปัญหาการสร้างภาพข้อมูลประเภทใด) แผนที่ความร้อนมีประสิทธิภาพมากที่สุด? (โดยเฉพาะอย่างยิ่งมีประสิทธิภาพมากกว่าเทคนิคการสร้างภาพที่เป็นไปได้อื่น ๆ ทั้งหมดหรือไม่)

แผนที่ความร้อนจะมีประสิทธิภาพน้อยที่สุดเมื่อใด

มีรูปแบบทั่วไปหรือกฎง่ายๆที่สามารถใช้ในการตัดสินใจหรือไม่ว่าแผนที่ความร้อนน่าจะเป็นวิธีที่มีประสิทธิภาพในการแสดงภาพข้อมูลและเมื่อพวกเขามีแนวโน้มที่จะไม่ได้ผลหรือไม่

(โดยหลักแล้วฉันมีแผนที่ความร้อนสำหรับตัวแปร 2 ประเภทและ 1 ตัวแปรต่อเนื่อง แต่ฉันสนใจที่จะรับฟังความคิดเห็นเกี่ยวกับแผนที่ความร้อนประเภทอื่น ๆ )

บริบท:ฉันกำลังเรียนหลักสูตรออนไลน์เกี่ยวกับการสร้างภาพข้อมูลและตอนนี้พวกเขากำลังพูดถึงประเภทของพล็อตที่ไม่มีประสิทธิภาพและใช้เกิน พวกเขาได้พูดถึงแผนการของไดนาไมต์และแผนภูมิวงกลมแล้วและสาเหตุที่ทำให้พวกมันไม่มีประสิทธิภาพและทำไมมีทางเลือกที่ดีกว่าสำหรับพวกเขาชัดเจนและน่าเชื่อถือสำหรับฉัน ยิ่งไปกว่านั้นมันเป็นเรื่องง่ายที่จะหาแหล่งข้อมูลอื่นที่ยืนยันความคิดเห็นเกี่ยวกับพล็อตไดนาไมต์และแผนภูมิวงกลม

อย่างไรก็ตามหลักสูตรนี้ยังกล่าวอีกว่า "แผนที่ความร้อนเป็นหนึ่งในการสร้างภาพข้อมูลที่มีประสิทธิภาพน้อยที่สุด" การถอดความของสาเหตุที่ให้ไว้ด้านล่าง แต่เมื่อฉันพยายามค้นหาสถานที่อื่น ๆ บน Google ที่ยืนยันมุมมองนี้ฉันมีความยากลำบากมากในทางตรงกันข้ามกับการค้นหาความคิดเห็นเกี่ยวกับประสิทธิภาพของแผนภูมิวงกลมและแผนการระเบิด ดังนั้นฉันจึงอยากทราบว่าลักษณะของแผนที่ความร้อนที่กำหนดในหลักสูตรนั้นถูกต้องเพียงใดและเมื่อปัจจัยที่มีต่อพวกเขานั้นสำคัญน้อยที่สุดและสำคัญที่สุดสำหรับบริบทที่กำหนด

เหตุผลที่ให้คือ:

  1. การแมปสีบนสเกลต่อเนื่องเป็นการยาก

    มีข้อยกเว้นบางประการสำหรับกฎนี้ดังนั้นจึงไม่ใช่ตัวแบ่งข้อตกลง แต่ในกรณีของแผนที่ความร้อนปัญหานั้นยากเป็นพิเศษเพราะการรับรู้ของเราเกี่ยวกับการเปลี่ยนสีขึ้นอยู่กับสีของเพื่อนบ้าน แผนที่ความร้อนจึงไม่เหมาะสำหรับการดูผลลัพธ์แต่ละรายการแม้ในชุดข้อมูลขนาดเล็ก ซึ่งนำไปสู่:

  2. การตอบคำถามที่เฉพาะเจาะจงโดยใช้วิธีการค้นหาแบบตารางนั้นไม่สามารถทำได้เนื่องจากเป็นไปไม่ได้ที่จะอนุมานด้วยความแม่นยำที่เพียงพอค่าตัวเลขที่สอดคล้องกับสีที่กำหนด

  3. บ่อยครั้งที่ข้อมูลไม่ได้ถูกจัดกลุ่มในลักษณะที่ทำให้เกิดแนวโน้ม

    หากไม่มีการจัดกลุ่มดังกล่าวมักเป็นเรื่องยากหรือเป็นไปไม่ได้ที่จะอนุมานอะไรเกี่ยวกับรูปแบบโดยรวมทั่วไป

  4. แผนที่ความร้อนมักใช้เพื่อสื่อสาร "ปัจจัยว้าว" หรือดูเท่โดยเฉพาะอย่างยิ่งเมื่อใช้การไล่ระดับสีแบบหลายสี แต่มักจะมีวิธีที่ดีกว่าในการสื่อสารข้อมูล

การลงจุดข้อมูลอย่างต่อเนื่องในระดับทั่วไปเป็นตัวเลือกที่ดีที่สุดเสมอ หากมีองค์ประกอบเวลาตัวเลือกที่ชัดเจนที่สุดคือพล็อตบรรทัด


15
การวิพากษ์วิจารณ์ของ "แผนที่ความร้อน" ลงมาถึงบรรทัดสุดท้ายของ (4): สิ่งที่ "วิธีที่ดีกว่า" ในการสื่อสารคืออะไร? (หากไม่มีวิธีที่ดีกว่านั้น (1) - (3) มีความเกี่ยวข้องน้อยมาก) หากจุดประสงค์คือการสื่อสารข้อมูลอย่างแท้จริงเห็นได้ชัดว่ามีวิธีที่ดีกว่า: เขียนตัวเลข อย่างไรก็ตามจุดประสงค์ของการสร้างภาพข้อมูลนั้นไม่ค่อยมีการสื่อสารข้อมูล แต่เป็นการสนับสนุนการตีความหรือส่งข้อความ แหล่งที่มาของคุณมีความหมายอะไรในใจและสิ่งที่มันอ้างว่าเป็นวิธีที่ดีกว่าที่จะนำเสนอการตีความเหล่านั้น?
whuber

4
@whuber เป็นส่วนเสริมสำหรับสิ่งนั้น - สิ่งหนึ่งที่ดีมากเกี่ยวกับแผนที่ความร้อนคือในหลาย ๆ กรณีมันเป็นเรื่องง่ายที่จะเสริมพวกเขาด้วยการแสดงข้อมูลดิบ (อาจจะเป็นรูปกลมที่เหมาะสม) บนแต่ละแผ่น แม้แต่การใช้การจัดรูปแบบตามเงื่อนไขสำหรับสีพื้นหลังของเซลล์ในสเปรดชีตก็มีประสิทธิภาพมากและโดยทั่วไป "แผนที่ความร้อน" ของการเรียงลำดับซึ่งในบริบทนั้นเป็นการยากที่จะดูว่าพวกเขาสามารถปรับปรุงได้อย่างไร
Silverfish

2
ความคิดเห็นของฉันเกี่ยวข้องกับการวิจารณ์เพียงอย่างเดียว 1. การแก้ไขสี (สี) ไม่ได้แมปไปยังระดับที่สั่งทางจิตวิทยาแม้ว่าจะเป็นทางร่างกาย (ความยาวของคลื่น) อย่างไรก็ตามการเพิ่มมิติที่ซ้ำซ้อนเช่นความสว่างสามารถทำให้ตีความได้ง่ายขึ้น คุณสามารถมีความเข้มสูงกว่าแสง แต่ใช้สีเช่นสีฟ้าและสีแดงเข้ม
David Lane

2
ขึ้นอยู่กับบริบท ต่อไปนี้เป็นตัวอย่างที่ดีของข้อมูลที่มีค่าและสามารถนำไปใช้ได้จากแผนที่ความร้อนซึ่งฉันสามารถนึกได้ว่าไม่มีการสร้างภาพข้อมูลที่สะดวกและเป็นประโยชน์อีกต่อไป
Jason C

5
สีเป็นสิ่งที่ไม่จำเป็น (และเป็นที่ยอมรับเลือกไม่ดี - เป็นเพียงภาพสีเริ่มต้นใน R) แต่นี่เป็นตัวอย่างเกี่ยวกับการเล่นเรือกวาดทุ่นระเบิดที่ฉันทำงานมาหลายปีแล้ว ฉันพบแผ่นความร้อนที่ให้ความสว่างทันทีซึ่งแสดงโครงสร้างเกี่ยวกับปัญหาที่ชัดเจนโดยสังเขปเมื่อคุณเห็นและคิดดูสักครู่ แต่ไม่ชัดเจน (คนส่วนใหญ่) ก่อนที่จะเห็นพล็อต
พระคาร์ดินัล

คำตอบ:


15

ไม่มีสิ่งใดเป็นพล็อต "ดีที่สุด" สำหรับสิ่งนี้หรือสิ่งนั้น วิธีการพล็อตข้อมูลของคุณขึ้นอยู่กับข้อความที่คุณต้องการสื่อ แปลงที่ใช้กันทั่วไปมีข้อได้เปรียบที่ผู้ใช้มีแนวโน้มที่จะสามารถอ่านได้ อย่างไรก็ตามนั่นไม่ได้หมายความว่าพวกเขาจำเป็นต้องเป็นทางเลือกที่ดีที่สุด

เกี่ยวกับแผนที่ความร้อนฉันได้รับคำตอบจากข้อโต้แย้งที่คาดคะเนกับพวกเขา

โฆษณา 1) หากคุณไม่เชื่อว่าสีเป็นช่องทางการเข้ารหัสให้ใช้ความสว่างแทนโดยใช้มาตราส่วนที่ครอบคลุมโทนสีเทาเข้มถึงโทนสีเทาอ่อน บ่อยครั้งที่คุณต้องการ bin ตัวแปรต่อเนื่อง (ดู 5) ดังนั้นคุณสามารถทำให้จำนวนสีต่ำและทำให้ผู้ใช้ถอดรหัสได้ง่ายขึ้น นี่ไม่ใช่สิ่งที่ต้องทำ ลองดูตัวอย่างนี้ซึ่งตัวแปรต่อเนื่องไม่ได้ถูกทำให้โค้ง

โฆษณา 2) แน่นอนว่าไม่ควรใช้เป็นทางเลือกในการค้นหาค่าที่แม่นยำ แผนที่ความร้อนควรใช้เพื่อแสดงรูปแบบเป็นหลักไม่ใช่เพื่อแทนที่ตาราง

โฆษณา 3 + 4) ฉันไม่เห็นว่าสิ่งนี้จะเกี่ยวข้องกับแผนที่ความร้อนเท่านั้น

โฆษณา 5) แผนที่ความร้อนนั้นดีเลิศ แต่ไม่จำเป็นต้องใช้กับตัวแปรแบบแยก สำหรับตัวแปรต่อเนื่องสามารถใช้แผนที่ความร้อนเป็นฮิสโตแกรมสองมิติหรือแผนภูมิแท่งที่มีการแบ่งส่วนที่เหมาะสมและความสว่างเป็นช่องสัญญาณการเข้ารหัส


2
คำตอบที่ยอดเยี่ยม! ยกเว้นฉันไม่รู้ว่า "โฆษณา" หมายถึงอะไร ละติน? ชื่อย่อ?
2560

1
ขอบคุณ! "ad" หมายถึง "on" หรือ "related" ฉันเดาว่ามาจากภาษาละติน
g3o2

ฉันไม่เคยเห็น "โฆษณา" ใช้วิธีนั้น (cc, @xan) จากคำอธิบายของคุณผมคิดว่าผมอาจจะใช้ก้าว
gung - Reinstate Monica

1
อย่าลืมแกมม่าแก้ไขแผนที่ความร้อนตามความสว่างของคุณ
user253751

3
@gung ไม่จริง IMO มันไม่ได้มีความหมายแฝงซึ่งแตกต่างจากการก้าว - มันหมายถึงการเพิ่มเติมภาคผนวกในการอ้างอิงถึงสำหรับ ... ไม่ต้องพูดถึงมันเป็นสากลในตะวันตกมาจากละตินและใช้อย่างกว้างขวางในเทววิทยาและวรรณกรรมวิทยาศาสตร์และการเมืองและวิทยาศาสตร์ในหมู่ สิ่งอื่น ๆ. ในกล่องโต้ตอบ (เมล) ทั้งสองฝ่ายจะใช้เพื่ออ้างอิงข้อโต้แย้งไปยังแต่ละจุด ดูเหมือนว่าจะตกอยู่ในความไม่พอใจเมื่อภาษาเขียนถูกตัดทอน การแทนที่ตามปกติใช้เพียงแค่ "1.1" แทนที่จะเป็น "โฆษณา 1.1" ซึ่งอาจทำให้เกิดความสับสนเล็กน้อยและดูเหมือนจะหยาบคายกับฉัน แต่ก็ดี
Luaan

5

บางคนไม่สามารถบอกได้ว่าแผนที่ความร้อนเป็นประเภทการสร้างภาพที่มีประสิทธิภาพน้อยที่สุด ฉันอยากจะบอกว่ามันขึ้นอยู่กับความต้องการของคุณ ในบางกรณีแผนที่ความร้อนมีประโยชน์มาก สมมติว่าคุณต้องทำรายงานอาชญากรรมในประเทศที่ฉลาด (หรือเมืองที่ฉลาด) ที่นี่คุณจะมีชุดข้อมูลขนาดใหญ่ซึ่งสามารถมีการอ้างอิงเวลา

ในทำนองเดียวกันสมมติว่าคุณต้องเตรียมรายงานการใช้ไฟฟ้าสำหรับเมืองต่างๆ ในกรณีเหล่านี้คุณสามารถเห็นภาพได้อย่างง่ายดายผ่านแผนที่ความร้อน มันจะทำให้รู้สึกมากขึ้นและยุ่งยากน้อยลง

สรุปถ้าคุณมีข้อมูลต่อเนื่องจำนวนมากและคุณต้องการสร้างรายงานที่สามารถระบุจุดคำตอบได้อย่างรวดเร็วแผนที่ความร้อนนั้นดีที่สุด


2
สำหรับการใช้พลังงานมักจะไม่มีพล็อตใดที่ดีไปกว่า heatmap: argustech.be/wp-content/uploads/2012/04/heatmap.pngปลายสัปดาห์และชั่วโมงทำงานกระโดดไปที่ผู้ชม คุณสามารถดูโหลดฐานคุณสามารถเห็นยอดเขาคุณสามารถดูเมื่อเกิดขึ้น คุณสามารถตรวจจับลวดลายแปลก ๆ ในไม่กี่วินาทีตัวอย่างเช่นหากอุปกรณ์ไฟฟ้าบางตัวเปิดอยู่หรือเริ่มช้าเกินไปหรือช้าเกินไป
Eric Duminil

4

คำติชม 1 ในคำถามเดิมครอบคลุมข้อเสียเปรียบที่ใหญ่ที่สุด - มันเป็นเรื่องยากสำหรับใครบางคนที่อ่านแผนที่ความร้อนเพื่อถอดรหัสข้อมูลเชิงปริมาณที่สื่อความหมาย พิจารณาพล็อต xy-scatter หรือพล็อตจุดซึ่งปริมาณที่เกี่ยวข้องนั้นเกี่ยวข้องโดยตรงกับระยะทางบนแผนภูมิซึ่งตรงไปตรงมามากสำหรับการตีความ

ในแผนที่ความร้อนในทางตรงกันข้ามคนที่อ่านแผนภูมิมีอิสระที่จะตีความ 10% 'redder' หรือ 'darker' เพื่อความพึงพอใจของตนเอง ยิ่งไปกว่านั้นปัญหาของความสามารถที่แตกต่างกันของผู้คนในการมองเห็นสีและเงาเริ่มต้นด้วย สิ่งเหล่านี้เป็นข้อเสียที่แท้จริง แต่ไม่เป็นอันตรายถึงชีวิต

ในทางตรงกันข้ามคำวิจารณ์ที่สามดูเหมือนจะระบุโอกาสโดยไม่ได้ตั้งใจเมื่อแผนที่ความร้อนมีประโยชน์เป็นพิเศษ - เมื่อข้อมูลถูกจัดกลุ่มบนระนาบ 2 มิติเพื่อให้ค่าที่คล้ายกันในมิติที่สามแสดงเป็นแพทช์ของเฉดสีหรือสี ดังนั้นในขณะที่แผนที่ความร้อนไม่มีประสิทธิภาพในบางสิ่ง แต่ก็มีประโยชน์สำหรับผู้อื่นและควรอยู่ในกระเป๋าของคุณในแบบเดียวกับที่นักกอล์ฟมักจะพกเวดจ์แบบขว้างหรือที่คล้ายกันแม้ว่าพวกเขาจะไร้ประโยชน์สำหรับการขับรถ ไม่สนใจค้อนเพราะมันไม่ดีต่อการตัดไม้

โดยทั่วไปข้อมูลการมองเห็นควรเป็นกิจกรรมที่วนซ้ำซึ่งใช้เวลาพอสมควรขณะที่คุณลองใช้การสร้างภาพข้อมูลจำนวนมากซึ่งนำคุณสมบัติที่สำคัญของข้อมูลออกมารวมถึงการลองใช้การสร้างภาพข้อมูลมากกว่าหนึ่งชนิด ตัวเลือกเฉพาะ ไม่ควรสันนิษฐานว่าผลลัพธ์จะเป็นภาพข้อมูลเดียว - บางครั้งต้องมีการแสดงข้อมูลเป็นจำนวนมากเพื่อเน้นคุณสมบัติที่สำคัญหลายประการของข้อมูล ในบริบทนี้จะมีบางครั้งที่คุณสมบัติเฉพาะของชุดข้อมูลเฉพาะแผนที่ความร้อนจะมีประสิทธิภาพมากที่สุดและการสื่อสารกลุ่มตามที่อธิบายไว้อาจเป็นหนึ่งในเวลานั้น โดยรวมแล้วจะมีโอกาสบ่อยครั้งที่การสร้างภาพข้อมูลเดียวไม่สามารถทำได้ทุกอย่างและจะต้องมีมากกว่าหนึ่งเหตุการณ์


3

ดังที่คนอื่น ๆ กล่าวไว้ข้างต้นเป็นเรื่องที่ไม่เหมาะสมที่จะบอกว่าแผนที่ความร้อนนั้นไม่มีประสิทธิภาพเสมอไป ที่จริงแล้วมันค่อนข้างมีประสิทธิภาพในหลาย ๆ กรณี

ตัวอย่างเช่นหากคุณต้องการเห็นภาพข้อมูล 4D มันง่ายพอที่จะทำสามมิติแรกในซอฟต์แวร์การวางแผนจำนวนมาก อย่างไรก็ตามแนวคิดทั้งหมดของ 4D นั้นค่อนข้างยากที่จะทำให้เป็นแนวคิดเลย ทิศทาง / มิติข้อมูล "4" คืออะไร

นั่นคือที่ที่แผนที่ความร้อนอาจมีประสิทธิภาพเพราะจะอนุญาตให้วางแผนสามมิติแรกบนแกนพิกัดและภาพที่สี่สามารถมองเห็นได้โดยการซ้อนแผนที่ความร้อนลงบนระนาบที่คุณวางแผน (หรือเส้น แต่มีโอกาสน้อยกว่า)

บรรทัดล่างคือคุณต้องการบริบท คุณกำลังมองหาอะไรในการสร้างภาพ? นอกจากนี้ในฐานะที่เป็นอาจารย์สอนด้วยตนเองฉันสามารถบอกคุณได้ว่าหลักสูตรออนไลน์เหล่านี้มีแนวโน้มที่จะไม่สำคัญและไร้ประโยชน์ คุณจะดีขึ้นมากเมื่อใช้พวกเขาเมื่อคุณกำลังมองหาข้อมูล / ความช่วยเหลือในหัวข้อที่เฉพาะเจาะจงมากกว่าที่จะได้รับการสอนเกี่ยวกับเรื่องทั้งหมด

ขอให้โชคดีล่ะ


3

โดยธรรมชาติแผนที่ความร้อนจะแสดงข้อมูลด้วย ตัวแปรอิสระต่อเนื่องสองตัว (หรือค่อนข้างไม่เท่ากันตัวแปรอิสระหนึ่งตัวจากปริภูมิเวกเตอร์สองมิติ) และตัวแปรพึ่งพาต่อเนื่องหนึ่งตัว สำหรับข้อมูลประเภทนั้นแผนที่ความร้อนเป็นหนึ่งในการสร้างภาพข้อมูลที่มีประสิทธิภาพมากที่สุด ใช่มันมีปัญหา แต่ก็หลีกเลี่ยงไม่ได้: คุณมีเพียงสองมิติในการทำงานกับและพื้นที่สามมิติไม่สามารถแมปกับที่ในวิธีการรักษาโครงสร้างดังนั้นคุณต้องแฮ็คเช่นการทำแผนที่หนึ่งมิติเป็นสีหรือ การวาดเส้นชั้นความสูง ฯลฯ

หากตัวแปรอิสระมีการจัดหมวดหมู่แผนที่ความร้อนจะให้ความรู้สึกที่น้อยกว่าในทันที: โดยทั่วไปแล้วไม่มีเหตุผลว่าทำไมตัวแปรเด็ดขาดจะจับคู่กับแกนจริง ในความเป็นจริงตัวแปรเด็ดขาดตามคำนิยามไม่ได้มาพร้อมกับโทโพโลยีที่กำหนดไว้ล่วงหน้าหรือเราอาจพูดด้วยโทโพโลยีแบบแยกโครงสร้างที่ไม่ต่อเนื่องตอนนี้ไม่เหมือนR2ซึ่งเป็นเพียง homeomorphic ไปยังอีกพื้นที่สองมิติผลิตภัณฑ์คาร์ทีเซียน X×Y ของสองช่องว่างที่ไม่ต่อเนื่องเป็นจริง homeomorphic ไปยังพื้นที่ใด ๆ ของ cardinality |X||Y|ซึ่งมี จำกัด สำหรับตัวแปรเด็ดขาด - กล่าวอีกอย่างหนึ่งว่าผลิตภัณฑ์คาร์ทีเซียนของตัวแปรเด็ดขาดสองตัวนั้นสามารถพิจารณาได้ว่าเป็นตัวแปรเด็ดขาดเดียว ! และในแสงนั้นคุณสามารถใช้แปลงอื่นที่ไม่มีปัญหาของแผนที่ความร้อนได้เช่นกัน

หากคุณพบว่าตัวเองอยู่ในสถานการณ์ที่แผนที่ความร้อนเหนือตัวแปรเด็ดขาดสองอันนั้นมีประโยชน์มันก็เป็นเครื่องบ่งชี้ว่าสิ่งเหล่านี้อาจไม่ใช่ตัวแปรเด็ดขาดจริงๆ แต่เป็นตัวแปรต่อเนื่องเชิงปริมาณ


4
คำตอบนี้น่าสนใจ แต่ฉันคิดว่าให้ความคิดสั้น ๆ ในการใช้ heatmaps กับตัวแปรเด็ดขาด ตัวอย่างเช่นหนึ่งอาจจัดอันดับระดับเด็ดขาดตามการนับของพวกเขา (หรือตัวแปรการเรียงลำดับอื่น ๆ ที่เกี่ยวข้อง) และจากนั้นใช้แผนผังความร้อนเพื่อให้เห็นภาพการกระจายรอยต่อหรือปริมาณอื่น ๆ ที่แตกต่างกันตามระดับหมวดหมู่ร่วม สิ่งนี้สามารถเชื่อมโยงกับcopulas (และความคิดทั่วไปของมัน) การสร้างภาพข้อมูลนั้นทำได้ดีสามารถเปิดเผยโครงสร้างจริงในข้อมูลซึ่งอาจตรวจจับได้ยากมาก (... )
พระคาร์ดินัล

(... ) และวิธีการดังกล่าวเป็นอิสระจากความคิดใด ๆ (โดยตรง) ของการฝังระดับเด็ดขาดลงในพื้นที่ยูคลิด
พระคาร์ดินัล

ฉันสงสัยว่าถ้าคุณมีความคิดเห็นใด ๆ เกี่ยวกับการฝึกฝนการใช้แผนที่ความร้อนสำหรับข้อมูลการแสดงออกของยีน / microarray - สิ่งเหล่านี้จะดูเหมือนกรณีของการใช้แผนที่ความร้อนสำหรับ 2 หมวดและหนึ่งตัวแปรต่อเนื่องซึ่งตัวแปรเด็ดขาดไม่สามารถ ตีความว่าเป็นตัวแปรต่อเนื่องเชิงปริมาณ หรือฉันเดาแผนที่ความร้อนสำหรับเมทริกซ์สหสัมพันธ์ของตัวแปรเด็ดขาดโดยทั่วไป
Chill2Macht

3

แผนที่ความร้อนเป็นสิ่งที่ยอดเยี่ยมในการให้มุมมองแบบง่าย ๆ ของตัวแปรหลายตัวจากมุมมองอนุกรมเวลาข้อมูลสามารถเปลี่ยนแปลงได้อย่างสมบูรณ์ในช่วงเวลาหรือมาตรฐานโดยใช้คะแนน Z หรือวิธีการอื่นเพื่อตรวจสอบตัวแปรที่มีช่วงการวัดที่แตกต่างกัน มันให้มุมมองที่มองเห็นได้ชัดเจนมากซึ่งสามารถมองเห็นความสัมพันธ์หรือผกผันและแทนที่กราฟจำนวนมาก นอกจากนี้ยังสามารถใช้ในการประมวลผลล่วงหน้าเพื่อประเมินการลดขนาดที่เป็นไปได้เช่น Factoring หรือ PCA

ตัวแปรรบกวนและปัจจัยอื่น ๆ อาจถูกซ่อนและส่งผ่านเมื่อใช้วิธีนี้ในการค้นหาความสัมพันธ์ ด้านที่ซ่อนอยู่เดียวกันนั้นเกิดขึ้นกับกราฟเส้น - แต่เนื่องจากมีตัวแปรจำนวนมาก - ประสบการณ์ของฉันคือแผนที่ความร้อนนำข้อมูลจำนวนมากที่ผู้ใช้ไม่ได้พิจารณาในแง่ของการแทรกแซงหรือปัจจัยอื่น ๆ ที่ซ่อนอยู่

สิ่งนี้จากนักวิทยาศาสตร์ข้อมูลจากมุมมองของนักเศรษฐศาสตร์ก้าวหน้าที่มี 20 ปีในการผลิตข้อมูลภาคสนามและมอบหมายให้การศึกษาแก่ประชาชนทั่วไปด้วยข้อมูลดังกล่าว


1

แผ่นความร้อนนั้นมีข้อดีเหนือกว่าแผนการกระจายเมื่อมีจุดข้อมูลมากเกินไปที่จะดูบนแผนการกระจาย สิ่งนี้สามารถบรรเทาได้ในสแกตเตอร์แปลงโดยใช้จุดข้อมูลโปร่งแสง แต่เกินขีด จำกัด บางอย่างมันจะดีกว่าที่จะสรุปข้อมูล

ในบล็อกนี้โพสต์ตัวอย่างที่น่าสนใจของ scatterplots ที่ยากต่อการตีความ

Scatterplot สามารถมองเห็นความหนาแน่นได้ถึงขีด จำกัด ที่มองเห็นเท่านั้น - ขีด จำกัด ของ "คะแนนทุกที่" ...

ความหนาแน่นของพล็อตไม่ใช่จุด

การแก้ปัญหาคือการพล็อตความหนาแน่นของจุดที่ถูกทำให้แน่นแทนที่จะเป็นจุด ๆ เรารู้วิธีการนี้ในมิติเดียวเป็นฮิสโตแกรม

ในสองมิติมีหลายวิธีในการทำ รูปทรงถังขยะสามารถนำมาจากวิธีการใด ๆ ของการเรียงต่อกันของเครื่องบินอย่างสม่ำเสมอเช่นสี่เหลี่ยมหรือรูปหกเหลี่ยม สำหรับแต่ละไทล์จำนวนของจุดข้อมูลภายในไทล์จะถูกนับ กระเบื้องจะถูกกำหนดสีตามจำนวนคะแนน

คำสั่งที่คล้ายกันจากเอกสาร ggplot2 บน heatmap ของ 2d bin นับ :

นี่เป็นทางเลือกที่มีประโยชน์geom_point()ในการปรากฏตัวของ overplotting

ในเอกสารของgeom_point():

Overplotting

ปัญหาที่ใหญ่ที่สุดที่อาจเกิดขึ้นกับ scatterplot คือการ overplotting: เมื่อใดก็ตามที่คุณมีมากกว่าสองสามจุดคะแนนจะถูกพล็อตอยู่ด้านบนของกันและกัน สิ่งนี้สามารถบิดเบือนภาพลักษณ์ที่เห็นได้ชัดเจนของพล็อต ไม่มีวิธีแก้ไขปัญหานี้ แต่มีเทคนิคบางอย่างที่สามารถช่วยได้ คุณสามารถเพิ่มข้อมูลเพิ่มเติมgeom_smooth(), geom_quantile()หรือgeom_density_2d()หรือหากคุณมีค่า x เฉพาะไม่กี่ค่าgeom_boxplot()ก็อาจมีประโยชน์เช่นกัน

หรือคุณสามารถสรุปจำนวนจุดในแต่ละสถานที่และแสดงให้เห็นว่าในบางวิธีใช้geom_count(), geom_hex()หรือgeom_density2d()หรือ

อีกเทคนิคคือการทำให้คะแนนโปร่งใส (เช่นgeom_point(alpha = 0.05)) หรือเล็กมาก (เช่นgeom_point(shape = "."))

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.