วัตถุประสงค์ของการแสดงข้อมูลมิติสูงหรือไม่


23

มีเทคนิคมากมายสำหรับการแสดงชุดข้อมูลมิติสูงเช่น T-SNE, isomap, PCA, PCA ภายใต้การดูแล ฯลฯ และเราผ่านการเคลื่อนไหวของการฉายข้อมูลลงในพื้นที่ 2D หรือ 3D ดังนั้นเราจึงมี "ภาพสวย" " บางส่วนของวิธีการเหล่านี้ฝัง (การเรียนรู้ต่าง ๆ นานา) อธิบายไว้ที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

แต่นี่คือ "ภาพสวย" ที่มีความหมายจริงหรือ มีข้อมูลเชิงลึกที่เป็นไปได้ที่ใครบางคนสามารถคว้าโดยพยายามมองภาพพื้นที่ฝังตัวนี้

ฉันถามเพราะการฉายภาพลงไปในพื้นที่ฝังตัวนี้มักไม่มีความหมาย ตัวอย่างเช่นหากคุณฉายข้อมูลของคุณลงไปยังองค์ประกอบหลักที่สร้างโดย PCA ส่วนประกอบหลักเหล่านั้น (eiganvectors) จะไม่สอดคล้องกับคุณลักษณะในชุดข้อมูล พวกเขากำลังพื้นที่คุณสมบัติของตัวเอง

ในทำนองเดียวกัน t-SNE จะฉายข้อมูลของคุณลงในช่องว่างซึ่งรายการอยู่ใกล้กันถ้าพวกมันลดความแตกต่างของ KL บางส่วน นี่ไม่ใช่พื้นที่ฟีเจอร์ดั้งเดิมอีกต่อไป (แก้ไขให้ฉันถ้าฉันผิด แต่ฉันไม่คิดว่าจะมีความพยายามอย่างมากจากชุมชน ML ในการใช้ t-SNE เพื่อช่วยในการจัดหมวดหมู่ซึ่งเป็นปัญหาที่แตกต่างจากการสร้างภาพข้อมูล)

ฉันแค่สับสนมากว่าทำไมผู้คนถึงทำเรื่องใหญ่ ๆ เกี่ยวกับการสร้างภาพข้อมูลเหล่านี้


มันไม่ได้เป็นเพียงเกี่ยวกับ "ภาพสวย" แต่จุดประสงค์ของการแสดงข้อมูลมิติสูงนั้นคล้ายกับการแสดงข้อมูลมิติ 2/3 ปกติ เช่นความสัมพันธ์ขอบเขตและค่าผิดปกติ
eliasah

@eliasah: ฉันเข้าใจว่า แต่พื้นที่ที่คุณฉายข้อมูลของคุณไม่ใช่พื้นที่ดั้งเดิมอีกต่อไปซึ่งสามารถบิดเบือนรูปร่างบางส่วนในมิติที่สูง สมมติว่าคุณมีหยดใน 4 มิติ ทันทีที่คุณฉายภาพให้เป็น 2D หรือ 3D โครงสร้างของคุณจะถูกทำลายไปแล้ว
hlin117

ไม่ใช่ถ้าข้อมูลอยู่ในรูปของมิติต่าง ๆ เช่นเดียวกับในภาพประกอบของคุณ การกำหนดความหลากหลายนี้เป็นเป้าหมายของการเรียนรู้ที่หลากหลาย
Emre

คำตอบ:


9

ฉันยกตัวอย่างการประมวลผลภาษาธรรมชาติเพราะเป็นเขตข้อมูลที่ฉันมีประสบการณ์มากขึ้นฉันจึงแนะนำให้ผู้อื่นแบ่งปันข้อมูลเชิงลึกของพวกเขาในสาขาอื่นเช่นใน Computer Vision, Biostatistics, อนุกรมเวลาเป็นต้นฉันมั่นใจในสาขาเหล่านั้นที่นั่น ตัวอย่างที่คล้ายกัน

ฉันยอมรับว่าบางครั้งการสร้างภาพจำลองอาจไม่มีความหมาย แต่ฉันคิดว่าจุดประสงค์หลักของการสร้างภาพข้อมูลแบบนี้คือเพื่อช่วยให้เราตรวจสอบว่าแบบจำลองนั้นเกี่ยวข้องกับสัญชาตญาณของมนุษย์หรือแบบจำลองอื่น ๆ ที่ไม่ใช่การคำนวณ นอกจากนี้การวิเคราะห์ข้อมูลเชิงลึกสามารถดำเนินการกับข้อมูล

สมมติว่าเรามีรูปแบบการฝังคำที่สร้างขึ้นจากคลังข้อมูลของวิกิพีเดียโดยใช้Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

จากนั้นเราจะมีเวกเตอร์ขนาด 100 มิติสำหรับแต่ละคำที่แสดงในคลังข้อมูลที่มีอยู่อย่างน้อยสองครั้ง ดังนั้นถ้าเราต้องการที่จะเห็นภาพคำเหล่านี้เราจะต้องลดให้เหลือ 2 หรือ 3 มิติโดยใช้อัลกอริทึม t-sne ที่นี่มีลักษณะที่น่าสนใจเกิดขึ้น

นำตัวอย่าง:

vector ("king") + vector ("man") - vector ("woman") = vector ("queen")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

ที่นี่แต่ละทิศทางเข้ารหัสคุณลักษณะความหมายบางอย่าง เช่นเดียวกันสามารถทำได้ในแบบ 3 มิติ

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(ที่มา: tensorflow.org )

มาดูกันว่าในตัวอย่างนี้อดีตกาลตั้งอยู่ในตำแหน่งหนึ่งที่เกี่ยวข้องกับคำนามอย่างไร เช่นเดียวกับเพศ เช่นเดียวกับประเทศและเมืองหลวง

ในโลกฝังคำว่าแบบจำลองที่เก่ากว่าและไร้เดียงสามากกว่านั้นไม่มีคุณสมบัตินี้

ดูการบรรยายของ Stanford นี้สำหรับรายละเอียดเพิ่มเติม การเป็นตัวแทนเวกเตอร์คำง่าย ๆ : word2vec, GloVe

พวกเขาถูก จำกัด เพียงการจัดกลุ่มคำที่คล้ายกันด้วยกันโดยไม่คำนึงถึงความหมาย (เพศหรือคำกริยาเครียดไม่ได้ถูกเข้ารหัสเป็นทิศทาง) แบบจำลองที่แปลกใจซึ่งมีการเข้ารหัสความหมายเป็นทิศทางในมิติต่ำกว่ามีความแม่นยำมากขึ้น และที่สำคัญพวกเขาสามารถใช้สำรวจจุดข้อมูลแต่ละจุดด้วยวิธีที่เหมาะสมกว่า

ในกรณีนี้ฉันไม่คิดว่า t-SNE ใช้เพื่อช่วยในการจัดหมวดหมู่ต่อไปมันเป็นเหมือนการตรวจสุขภาพสำหรับโมเดลของคุณและบางครั้งเพื่อค้นหาข้อมูลเชิงลึกในคลังข้อมูลที่คุณใช้ สำหรับปัญหาของเวกเตอร์ที่ไม่ได้อยู่ในพื้นที่ของคุณสมบัติดั้งเดิมอีกต่อไป Richard Socher อธิบายในการบรรยาย (ลิงก์ด้านบน) ว่าเวกเตอร์มิติต่ำแบ่งปันการแจกแจงเชิงสถิติด้วยการเป็นตัวแทนที่ใหญ่กว่าของมันรวมถึงคุณสมบัติทางสถิติอื่น ๆ ที่ทำให้การวิเคราะห์มีความน่าเชื่อถือด้วยสายตาในมิติที่ต่ำกว่า

แหล่งข้อมูลเพิ่มเติม & แหล่งรูปภาพ:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

ก่อนอื่นคำอธิบายของคุณเกี่ยวกับวิธีการที่ถูกต้อง ประเด็นก็คือว่าขั้นตอนวิธีการฝังจะไม่เพียงเห็นภาพ แต่โดยทั่วไปลด dimentionality ที่จะรับมือกับปัญหาสองหลักในทางสถิติวิเคราะห์ข้อมูลคือการสาปแช่งของ Dimentionaliyและปัญหาขนาดต่ำตัวอย่างเพื่อให้พวกเขาไม่ควรจะพรรณนาเข้าใจคุณสมบัติทางกายภาพและพวกเขา ไม่เพียงมีความหมายแต่ยังจำเป็นสำหรับการวิเคราะห์ข้อมูล!

จริงๆแล้วการสร้างภาพข้อมูลเป็นวิธีการฝังครั้งสุดท้าย การฉายข้อมูลมิติสูงลงในพื้นที่มิติด้านล่างช่วยรักษาระยะห่างของคู่จริง (ส่วนใหญ่แบบยุคลิดหนึ่ง) ซึ่งบิดเบือนในมิติสูงหรือเก็บข้อมูลส่วนใหญ่ที่ฝังอยู่ในความแปรปรวนของคุณลักษณะที่แตกต่างกัน


10

Richard Hamming มาจากประโยค: "จุดประสงค์ของการใช้คอมพิวเตอร์นั้นคือความเข้าใจไม่ใช่ตัวเลข" ในบทความวิชาการปี 2516 (ดูการอภิปรายในชุดข้อมูลที่มีชื่อเสียงที่มีลักษณะแตกต่างกันโดยสิ้นเชิง แต่มีสถิติสรุปที่คล้ายกันคืออะไร) Francis Anscombe ให้เหตุผลว่า "กราฟมีความสำคัญต่อการวิเคราะห์ทางสถิติที่ดี" Quartet ของ Anscombe เป็นที่ชื่นชอบมานาน: สถิติและการถดถอยเดียวกันมิติต่ำ แต่พฤติกรรมที่แตกต่างกันมากเกี่ยวกับเสียงรบกวนค่าผิดปกติการพึ่งพา การคาดการณ์ข้อมูลใน 11 มิติลงบนสองมิติที่แสดงด้านล่างค่อนข้างทำให้เข้าใจผิด: หนึ่งมีความสัมพันธ์และการกระจายตัวที่สอง (ล่างลง) มีการจับคู่ที่แน่นอนยกเว้นหนึ่งค่า ที่สามมีความสัมพันธ์ที่ชัดเจน แต่ไม่ใช่เชิงเส้น ที่สี่แสดงให้เห็นถึงตัวแปรที่อาจไม่เกี่ยวข้องยกเว้นสำหรับเกณฑ์

ป้อนคำอธิบายรูปภาพที่นี่

ในหนังสือการวิเคราะห์หลายตัวแปรสำหรับ Biobehavioral และ Social Sciencesโดย Bruce L. Brown และคณะ เราสามารถค้นหา:

ในปี 1990 ผลงานของเขา "Drawing Things Together," Latour อ้างว่าความคิดของนักวิทยาศาสตร์ที่แข็งเป็นหนึ่งใน "ความหลงใหล" ที่รุนแรงกับกราฟ

ไม่ว่าจะเป็นการ จำกัด พื้นที่ 3 มิติ, พื้นที่หกมิติ (พื้นที่, สี, รูปร่างและเวลา) หรือแม้กระทั่งการจินตนาการมิติที่สิบมนุษย์มีมุมมองที่ จำกัด ความสัมพันธ์ระหว่างปรากฏการณ์ที่สังเกตได้: ไม่

นอกจากนี้คำสาปของมิติต่าง ๆ ด้วยความขัดแย้งที่มีมิติต่ำแม้แต่น้อย:

แม้ว่าบรรทัดฐานทั้งหมดจะเทียบเท่ากันในมิติที่ จำกัด ความสัมพันธ์ระหว่างตัวแปรอาจทำให้เข้าใจผิด นี่คือเหตุผลหนึ่งในการรักษาระยะห่างจากพื้นที่หนึ่งไปยังอีกพื้นที่หนึ่ง แนวคิดดังกล่าวเป็นที่ของหัวใจต่ำ embeddings มิติสำหรับสัญญาณ (เช่นการตรวจจับอัดและจอห์นสัน Lindenstauss แทรกเกี่ยวกับ embeddings ต่ำบิดเบือนของคะแนนจากมิติสูงเข้ามาในพื้นที่แบบยุคลิดต่ำมิติ) หรือคุณลักษณะ ( แปลงกระเจิงสำหรับการจำแนกประเภท) .

ดังนั้นการสร้างภาพข้อมูลก็เป็นอีกหนึ่งความช่วยเหลือในการรับข้อมูลเชิงลึกและมันไปพร้อมกับการคำนวณรวมถึงการลดขนาด

nn

กล่องพิซซ่าขัดแย้งกัน

ในสองมิติลูกบอลสีฟ้าตรงกลางมีขนาดเล็ก ในแบบ 3 มิติด้วย แต่อย่างรวดเร็วลูกกลางเติบโตและรัศมีของมันเกินกว่าลูกบาศก์ ความเข้าใจนี้มีความสำคัญและการจัดกลุ่ม n ตัวอย่างเช่น


4

จากคำกล่าวและการอภิปรายฉันคิดว่ามีจุดสำคัญที่ชัดเจน การเปลี่ยนแปลงไปยังพื้นที่ที่ต่ำกว่ามิติอาจลดข้อมูลซึ่งเป็นสิ่งที่แตกต่างจากการทำข้อมูลที่ไม่มีความหมาย ให้ฉันใช้การเปรียบเทียบต่อไปนี้:

การสังเกต (2D) ภาพในโลกของเรา (3D) เป็นเรื่องปกติ วิธีการสร้างภาพให้ "แว่นตา" ที่แตกต่างกันเท่านั้นเพื่อดูพื้นที่มิติสูง

สิ่งที่ดีในการ "เชื่อมั่น" วิธีการสร้างภาพข้อมูลคือการเข้าใจภายใน ตัวอย่างที่ชื่นชอบคือ MDS มันเป็นไปได้ง่ายต่อการใช้วิธีการนี้ที่คุณเองโดยใช้เครื่องมือเพิ่มประสิทธิภาพบางอย่าง (เช่น R Optim ) ดังนั้นคุณจะเห็นว่าวิธีการใช้คำคุณอาจวัดข้อผิดพลาดของผล ฯลฯ

ในตอนท้ายคุณจะได้ภาพที่รักษาความคล้ายคลึงกันของข้อมูลต้นฉบับด้วยความแม่นยำระดับหนึ่ง ไม่มาก แต่ไม่น้อย


4

บางครั้งมันมีความหมายในการมองเห็นข้อมูลมิติสูงเพราะมันอาจบอกฟิสิกส์

มีอย่างน้อยหนึ่งตัวอย่างในวิชาดาราศาสตร์ฟิสิกส์ที่คุณฉายข้อมูลของคุณลงไปยังองค์ประกอบหลักที่สร้างโดย PCA และส่วนประกอบหลักเหล่านั้นสอดคล้องกับความเข้าใจทางกายภาพมากมายเกี่ยวกับกาแลคซี สำหรับรายละเอียดโปรดดูรูปสุดท้ายในhttp://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

และกระดาษใน

http://iopscience.iop.org/article/10.1086/425626/pdf

นี่คือแนวคิดพื้นฐาน ผู้เขียนใช้ PCA กับสเปกตรัมจำนวนมาก (เช่น 10,000) จากกล้องโทรทรรศน์ แต่ละสเปกตรัมมีคุณสมบัติ ~ 1,000 เนื่องจากชุดข้อมูลนี้มีขนาดใหญ่จึงเป็นการยากที่จะมองเห็น อย่างไรก็ตามส่วนประกอบ 4 ชิ้นแรกจาก PCA เปิดเผยฟิสิกส์จำนวนมากเกี่ยวกับสเปกตรัม (ดูหัวข้อ 4.1-4.4 ในกระดาษด้านบน)


4

การใช้แนวทางที่แตกต่างเล็กน้อยจากคำตอบที่ยอดเยี่ยมอื่น ๆ ที่นี่ "ภาพสวย" มีค่าหนึ่งพันคำ ท้ายที่สุดคุณจะต้องถ่ายทอดสิ่งที่คุณค้นพบให้กับคนที่ไม่มีความรู้ทางสถิติหรือผู้ที่ไม่มีเวลาสนใจหรืออะไรก็ตามที่จะเข้าใจสถานการณ์ทั้งหมด นั่นไม่ได้หมายความว่าเราไม่สามารถช่วยคนให้เข้าใจได้อย่างน้อยแนวคิดทั่วไปหรือชิ้นส่วนของความเป็นจริง นี่คือสิ่งที่หนังสืออย่าง Freakonomics ทำ - มีคณิตศาสตร์น้อยถึงไม่มีเลยไม่มีชุดข้อมูลและยังมีการค้นพบ

จากศิลปะให้ดูที่Marshal Ney ที่ Retreat ในรัสเซียในรัสเซีย การขยายขนาดของสงครามจักรพรรดินโปเลียนที่ยิ่งใหญ่นี้ยังคงสื่อถึงความหมายที่ดีและทำให้ผู้ที่มีความรู้ที่ไม่รู้เรื่องสงครามเข้าใจถึงความโหดร้ายภูมิอากาศภูมิทัศน์ความตายและมารยาทที่แทรกซึมการรุกรานรัสเซีย

ท้ายที่สุดแล้วแผนภูมิเป็นเพียงการสื่อสารและเพื่อให้ดีขึ้นหรือแย่ลงการสื่อสารของมนุษย์มักจะเน้นไปที่ conflation ความเรียบง่ายและความกะทัดรัด


3

คำถามที่ยอดเยี่ยม ในบทที่ 4 ของ "การส่องสว่างเส้นทางการวิจัยและการพัฒนาสำหรับ Visual Analytics" โดย James J. Thomas และ Kristin A. Cook คือการอภิปรายเกี่ยวกับการแสดงข้อมูลและการแปลงข้อมูล ในการวิจัยของฉันฉันได้เข้าหาคำถามนี้ในบริบทของ PCA และการวิเคราะห์ปัจจัย คำตอบสั้น ๆ ของฉันคือการสร้างภาพข้อมูลมีประโยชน์หากมีการแปลงข้อมูลเพื่อย้ายจากพื้นที่การสร้างภาพไปยังพื้นที่ข้อมูลดั้งเดิม สิ่งนี้จะดำเนินการเพิ่มเติมภายในกรอบการวิเคราะห์ด้วยภาพ


การทำแผนที่จากพื้นที่ฉายไปยังพื้นที่ดั้งเดิมนั้นสมเหตุสมผล อย่างไรก็ตามมีกรณีการใช้งานอื่น ๆ อีกหรือไม่?
hlin117

ฉันยังดูบทที่ 4 ของ "การให้แสงสว่างเส้นทางการวิจัยและการพัฒนาสำหรับ Visual Analytics" มันพูดถึงอะไรเกี่ยวกับการสร้างภาพมิติสูงในพื้นที่ย่อยที่มองเห็นได้
hlin117
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.