วิทยาศาสตร์ข้อมูล visualization

3

การสร้างภาพข้อมูลสำหรับการวิเคราะห์รูปแบบ (ไม่ขึ้นกับภาษา แต่ต้องการ R)

ฉันต้องการพล็อตไบต์จากดิสก์อิมเมจเพื่อทำความเข้าใจกับรูปแบบในนั้น นี่เป็นงานวิชาการส่วนใหญ่เนื่องจากฉันเกือบจะแน่ใจว่ารูปแบบนี้ถูกสร้างขึ้นโดยโปรแกรมทดสอบดิสก์ แต่ฉันต้องการทำวิศวกรรมย้อนกลับ ฉันรู้อยู่แล้วว่ารูปแบบดังกล่าวอยู่ในแนวเดียวกันโดยมีระยะเวลา 256 อักขระ ฉันสามารถจินตนาการได้สองวิธีในการแสดงข้อมูลนี้: ระนาบ 16x16 ที่ดูผ่านเวลา (3 มิติ) โดยที่แต่ละพิกเซลของสีคือรหัส ASCII สำหรับตัวละครหรือ 256 พิกเซลสำหรับแต่ละช่วงเวลา (2 มิติ) นี่เป็นภาพรวมของรูปแบบ (คุณสามารถดูได้มากกว่าหนึ่งรายการ) มองเห็นผ่านxxd(32x16): ฉันกำลังพยายามหาวิธีแสดงภาพข้อมูลนี้ นี่อาจไม่ใช่เรื่องยากสำหรับทุกคนในการวิเคราะห์สัญญาณ แต่ฉันไม่สามารถหาวิธีใช้ซอฟต์แวร์โอเพ่นซอร์ส ฉันต้องการหลีกเลี่ยง Matlab หรือ Mathematica และฉันต้องการคำตอบใน R เนื่องจากฉันได้เรียนรู้เมื่อเร็ว ๆ นี้ แต่กระนั้นภาษาใดก็ยินดีต้อนรับ อัปเดต, 2014-07-25: ได้รับคำตอบจาก Emre ด้านล่างนี่เป็นรูปแบบที่ได้รับจากรูปแบบ 30MB แรกที่จัดที่ 512 แทน 256 (การจัดตำแหน่งนี้ดูดีกว่า): ยินดีต้อนรับแนวคิดเพิ่มเติมใด ๆ !

11 r visualization

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

แสดงรายการที่ซื้อบ่อยด้วยกัน

ฉันมีชุดข้อมูลในโครงสร้างต่อไปนี้แทรกอยู่ในไฟล์ CSV: Banana Water Rice Rice Water Bread Banana Juice แต่ละแถวบ่งชี้ชุดของรายการที่ซื้อด้วยกัน ตัวอย่างเช่นแถวแรกหมายถึงว่ารายการBanana, WaterและRiceกำลังซื้อด้วยกัน ฉันต้องการสร้างภาพข้อมูลดังนี้: นี่เป็นแผนภูมิกริดโดยทั่วไป แต่ฉันต้องการเครื่องมือบางอย่าง (อาจเป็น Python หรือ R) ที่สามารถอ่านโครงสร้างอินพุตและสร้างแผนภูมิเช่นด้านบนเป็นเอาต์พุต

10 python r data-mining visualization association-rules

2

ggvis vs. ggplot2 + Shiny; สิ่งที่หนึ่งที่เลือกสำหรับการสร้างภาพเชิงโต้ตอบ?

มีคำถามที่คล้ายกันใน CrossValidated และฉันได้อ่านคำตอบแล้ว คำถามของฉันแตกต่างกันเล็กน้อย ฉันไม่ต้องการเพียงแค่เห็นภาพข้อมูลของฉันและแน่นอนสิ่งที่ฉันต้องการเห็นภาพไม่ใช่เรื่องง่ายที่จะเห็นภาพด้วยแพคเกจทั้งสอง ฉันมีจุดสองชุด ( พิกัด ) ในแผนของฉัน ฉันต้องการเพิ่มขอบและทำให้มันคล้ายกับกราฟ หากฉันมีจำนวนคะแนนจากนั้นขึ้นอยู่กับลักษณะของปัญหาของฉันฉันต้องเพิ่มขอบลงในพล็อตx , yx,Yx,ynnn( n / 2 )2(n/2)2(n/2)^2 จากนั้นฉันต้องการเพิ่มฟีเจอร์แบบโต้ตอบลงในพล็อตของฉัน ตัวอย่างเช่นโดยการคลิกที่จุดหนึ่ง (จุดยอด) จุดยอดอื่น ๆ ทั้งหมดที่ไม่ได้เชื่อมต่อกับจุดสุดยอดที่ถูกคลิกนี้จะต้องหายไปเพื่อให้มีพล็อตที่ชัดเจนและมุ่งเน้นมากขึ้น ฉันพยายามค้นหาแพ็คเกจการสร้างภาพเครือข่ายที่เหมาะกับโครงการของฉัน แต่ดูเหมือนว่าพวกเขาทั้งหมดใช้ข้อมูลเกี่ยวกับการเชื่อมต่อของขอบหรือโหนดและจัดหาเครือข่ายตามอัลกอริทึมโครงร่างเฉพาะบางอย่าง ข้อมูลของฉันแตกต่าง ฉันมีพิกัดของโหนดและฉันต้องการสร้างขอบระหว่างบางส่วนของพวกเขา ในข้อมูลของฉันโหนดมีตำแหน่งคงที่ของตัวเองและต้องไม่ย้ายไปมา สุดท้ายฉันแคบลงแพคเกจไปและggvis ใหม่และสดใหม่นอกเหนือจากการออกแบบโดยเจตนาเพื่อสร้างแปลงแบบโต้ตอบ แต่ฉันพบว่ายังสามารถสร้างแปลงแบบโต้ตอบได้ (ถูกต้องหรือไม่) นอกจากนี้ฉันคิดว่าความสามารถของมันนั้นหลากหลายและสมบูรณ์กว่า: ตัวอย่างเช่นมีคุณสมบัติการซูมในขณะที่ไม่มี ที่สำคัญกว่านั้นคือฉันกำลังเติบโตและเปลี่ยนแปลงฉันไม่ต้องการลงทุนเวลามากกับงานที่ล้าสมัยทางเทคนิคหรือบั๊กกี้ในหนึ่งปีหรือมากกว่านั้น ผมคิดว่าเป็นกรณีนี้ถ้าฉันรหัสอยู่บนพื้นฐานของggplot2ggvisggplot2+Shinyggplot2ggvisggplot2ggvisggvisggvis ตอนนี้คุณช่วยประเมินทางเลือกของฉัน ( ggplot2+shiny) และแนะนำฉันเกี่ยวกับความเป็นไปได้ที่จะทำสิ่งที่ฉันต้องการจะทำอย่างไร? เนื่องจากฉันไม่รู้จักแพ็คเกจที่กล่าวมาฉันได้เริ่มเรียนรู้ggplot2จากหนังสือของ Wickham และฉันรักมัน! Shinyแต่ผมกลัวของการใช้จ่ายไม่กี่สัปดาห์ที่ผ่านมาและพบว่าแพคเกจที่น่าตื่นตาตื่นใจนี้ไม่สามารถทำในสิ่งที่ฉันต้องการจะทำแม้จะมีความช่วยเหลือของ PS: ฉันต้องการที่จะใส่รหัสสุดท้ายใน GitHub เพื่อให้ผู้ใช้ที่น่าจะเป็นสามารถดาวน์โหลดและเรียกใช้มัน ดังนั้นฉันไม่จำเป็นต้องสร้างเว็บแอปพลิเคชันไม่จำเป็นต้องมีเว็บไซต์หรือวางแผนที่แบบโต้ตอบออนไลน์ …

10 r visualization ggplot2

1

ฉันจะทราบได้อย่างไรว่าชุดย่อยสามารถลงจุดในไดอะแกรมออยเลอร์ปกติได้หรือไม่

ในบางกรณีอาจเป็นไปไม่ได้ที่จะวาดไดอะแกรมออยเลอร์ด้วยวงกลมที่ทับซ้อนกันเพื่อแสดงเซ็ตย่อยที่ซ้อนกันทั้งหมดในสัดส่วนที่ถูกต้อง ข้อมูลประเภทนี้จำเป็นต้องใช้รูปหลายเหลี่ยมหรือตัวเลขอื่น ๆ เพื่อเป็นตัวแทนของแต่ละชุด เมื่อจัดการกับข้อมูลที่อธิบายชุดย่อยที่ทับซ้อนกันฉันจะทราบได้อย่างไรว่าไดอะแกรมออยเลอร์ง่ายเป็นไปได้หรือไม่

10 visualization

1

t-SNE: ทำไมค่าข้อมูลเท่ากันไม่ปิดทางสายตา

ฉันมีจุดข้อมูล 200 จุดที่มีค่าเหมือนกันกับคุณสมบัติทั้งหมด หลังจากการลดขนาด t-SNE พวกเขาไม่ได้ดูเท่ากันอีกต่อไปเช่นนี้ ทำไมพวกเขาถึงไม่อยู่ในจุดเดียวกันในการสร้างภาพและแม้กระทั่งดูเหมือนว่าจะกระจายอยู่ในสองกลุ่มที่แตกต่างกัน?

9 visualization dimensionality-reduction tsne

3

ฉันจะทำให้เมทริกซ์ความสับสนใหญ่อ่านง่ายขึ้นได้อย่างไร

ฉันเพิ่งเผยแพร่ชุดข้อมูล ( ลิงก์ ) ที่มี 369 คลาส ฉันทำการทดลองสองสามครั้งเพื่อให้พวกเขารู้สึกว่างานการจัดหมวดหมู่นั้นยากเพียงใด โดยปกติแล้วฉันชอบมันถ้ามีเมทริกซ์ความสับสนเพื่อดูชนิดของข้อผิดพลาดที่เกิดขึ้น อย่างไรก็ตาม369×369369×369369 \times 369 เมทริกซ์นั้นใช้ไม่ได้ มีวิธีให้ข้อมูลที่สำคัญเกี่ยวกับเมทริกซ์ความสับสนใหญ่หรือไม่? ตัวอย่างเช่นโดยทั่วไปจะมี 0 จำนวนมากซึ่งไม่น่าสนใจ เป็นไปได้ไหมที่จะจัดเรียงคลาสเพื่อให้รายการที่ไม่เป็นศูนย์ส่วนใหญ่อยู่ในแนวทแยงมุมเพื่ออนุญาตให้แสดงเมทริกซ์หลายตัวซึ่งเป็นส่วนหนึ่งของเมทริกซ์ความสับสนแบบสมบูรณ์? นี่คือตัวอย่างสำหรับเมทริกซ์ความสับสนใหญ่ ตัวอย่างในป่า รูปที่ 6 ของEMNISTดูดี: มันง่ายที่จะดูว่ามีหลายกรณี อย่างไรก็ตามเหล่านั้นเป็นเพียง262626ชั้นเรียน หากมีการใช้ทั้งหน้าแทนที่จะเป็นเพียงคอลัมน์เดียวอาจเป็น 3 เท่าได้ แต่นั่นจะยังคงเป็นเพียงเท่านั้น3⋅26=783⋅26=783 \cdot 26 = 78ชั้นเรียน ไม่ได้ใกล้เคียงกับ 369 คลาสของ HASY หรือ 1,000 ImageNet ดูสิ่งนี้ด้วย คำถามที่คล้ายกันของฉันในCS.stackexchange

9 visualization confusion-matrix

4

การตีความแผนผังการตัดสินใจในบริบทของคุณลักษณะสำคัญ

ฉันกำลังพยายามที่จะเข้าใจวิธีการทำความเข้าใจกระบวนการตัดสินใจของรูปแบบการจัดหมวดหมู่ต้นไม้การตัดสินใจที่สร้างขึ้นด้วยความเข้าใจ สิ่งสำคัญสองประการที่ฉันกำลังดูคือการนำเสนอกราฟวิซของต้นไม้และรายการของคุณลักษณะสำคัญ สิ่งที่ฉันไม่เข้าใจคือการกำหนดความสำคัญของคุณลักษณะในบริบทของต้นไม้ ตัวอย่างเช่นนี่คือรายการสำคัญของคุณลักษณะของฉัน: การจัดอันดับคุณลักษณะ: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD (0.075009) คุณสมบัติ E (0.068310) FeatureF (0.067118) FeatureG (0.066510) คุณสมบัติ H (0.043502) คุณสมบัติ I (0.040281) คุณสมบัติ J (0.039006) FeatureK (0.032618) FeatureL (0.008136) FeatureM (0.000000) อย่างไรก็ตามเมื่อฉันดูที่ด้านบนของต้นไม้ดูเหมือนว่า: ในความเป็นจริงแล้วฟีเจอร์บางอย่างที่มีการจัดอันดับว่า "สำคัญที่สุด" จะไม่ปรากฏขึ้นจนกว่าจะลงไปถึงต้นไม้และบนสุดของต้นไม้คือ FeatureJ ซึ่งเป็นหนึ่งในฟีเจอร์ที่มีอันดับต่ำที่สุด ข้อสันนิษฐานที่ไร้เดียงสาของฉันคือว่าฟีเจอร์ที่สำคัญที่สุดจะถูกจัดอยู่ใกล้กับส่วนบนสุดของต้นไม้เพื่อให้ได้ผลที่ดีที่สุด หากไม่ถูกต้องแล้วคุณสมบัติใดที่ทำให้ "สำคัญ"

9 machine-learning visualization scikit-learn data decision-trees

คำถามติดแท็ก visualization