คำถามติดแท็ก visualization

การสร้างการแสดงข้อมูลแบบกราฟิกที่มีความหมายและเป็นประโยชน์ (หากคำถามของคุณเป็นเพียงเกี่ยวกับวิธีรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์ที่เฉพาะเจาะจงก็น่าจะไม่อยู่ในหัวข้อที่นี่)

3
การสร้างภาพข้อมูลสำหรับการวิเคราะห์รูปแบบ (ไม่ขึ้นกับภาษา แต่ต้องการ R)
ฉันต้องการพล็อตไบต์จากดิสก์อิมเมจเพื่อทำความเข้าใจกับรูปแบบในนั้น นี่เป็นงานวิชาการส่วนใหญ่เนื่องจากฉันเกือบจะแน่ใจว่ารูปแบบนี้ถูกสร้างขึ้นโดยโปรแกรมทดสอบดิสก์ แต่ฉันต้องการทำวิศวกรรมย้อนกลับ ฉันรู้อยู่แล้วว่ารูปแบบดังกล่าวอยู่ในแนวเดียวกันโดยมีระยะเวลา 256 อักขระ ฉันสามารถจินตนาการได้สองวิธีในการแสดงข้อมูลนี้: ระนาบ 16x16 ที่ดูผ่านเวลา (3 มิติ) โดยที่แต่ละพิกเซลของสีคือรหัส ASCII สำหรับตัวละครหรือ 256 พิกเซลสำหรับแต่ละช่วงเวลา (2 มิติ) นี่เป็นภาพรวมของรูปแบบ (คุณสามารถดูได้มากกว่าหนึ่งรายการ) มองเห็นผ่านxxd(32x16): ฉันกำลังพยายามหาวิธีแสดงภาพข้อมูลนี้ นี่อาจไม่ใช่เรื่องยากสำหรับทุกคนในการวิเคราะห์สัญญาณ แต่ฉันไม่สามารถหาวิธีใช้ซอฟต์แวร์โอเพ่นซอร์ส ฉันต้องการหลีกเลี่ยง Matlab หรือ Mathematica และฉันต้องการคำตอบใน R เนื่องจากฉันได้เรียนรู้เมื่อเร็ว ๆ นี้ แต่กระนั้นภาษาใดก็ยินดีต้อนรับ อัปเดต, 2014-07-25: ได้รับคำตอบจาก Emre ด้านล่างนี่เป็นรูปแบบที่ได้รับจากรูปแบบ 30MB แรกที่จัดที่ 512 แทน 256 (การจัดตำแหน่งนี้ดูดีกว่า): ยินดีต้อนรับแนวคิดเพิ่มเติมใด ๆ !
11 r  visualization 

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
แสดงรายการที่ซื้อบ่อยด้วยกัน
ฉันมีชุดข้อมูลในโครงสร้างต่อไปนี้แทรกอยู่ในไฟล์ CSV: Banana Water Rice Rice Water Bread Banana Juice แต่ละแถวบ่งชี้ชุดของรายการที่ซื้อด้วยกัน ตัวอย่างเช่นแถวแรกหมายถึงว่ารายการBanana, WaterและRiceกำลังซื้อด้วยกัน ฉันต้องการสร้างภาพข้อมูลดังนี้: นี่เป็นแผนภูมิกริดโดยทั่วไป แต่ฉันต้องการเครื่องมือบางอย่าง (อาจเป็น Python หรือ R) ที่สามารถอ่านโครงสร้างอินพุตและสร้างแผนภูมิเช่นด้านบนเป็นเอาต์พุต

2
ggvis vs. ggplot2 + Shiny; สิ่งที่หนึ่งที่เลือกสำหรับการสร้างภาพเชิงโต้ตอบ?
มีคำถามที่คล้ายกันใน CrossValidated และฉันได้อ่านคำตอบแล้ว คำถามของฉันแตกต่างกันเล็กน้อย ฉันไม่ต้องการเพียงแค่เห็นภาพข้อมูลของฉันและแน่นอนสิ่งที่ฉันต้องการเห็นภาพไม่ใช่เรื่องง่ายที่จะเห็นภาพด้วยแพคเกจทั้งสอง ฉันมีจุดสองชุด ( พิกัด ) ในแผนของฉัน ฉันต้องการเพิ่มขอบและทำให้มันคล้ายกับกราฟ หากฉันมีจำนวนคะแนนจากนั้นขึ้นอยู่กับลักษณะของปัญหาของฉันฉันต้องเพิ่มขอบลงในพล็อตx , yx,Yx,ynnn( n / 2 )2(n/2)2(n/2)^2 จากนั้นฉันต้องการเพิ่มฟีเจอร์แบบโต้ตอบลงในพล็อตของฉัน ตัวอย่างเช่นโดยการคลิกที่จุดหนึ่ง (จุดยอด) จุดยอดอื่น ๆ ทั้งหมดที่ไม่ได้เชื่อมต่อกับจุดสุดยอดที่ถูกคลิกนี้จะต้องหายไปเพื่อให้มีพล็อตที่ชัดเจนและมุ่งเน้นมากขึ้น ฉันพยายามค้นหาแพ็คเกจการสร้างภาพเครือข่ายที่เหมาะกับโครงการของฉัน แต่ดูเหมือนว่าพวกเขาทั้งหมดใช้ข้อมูลเกี่ยวกับการเชื่อมต่อของขอบหรือโหนดและจัดหาเครือข่ายตามอัลกอริทึมโครงร่างเฉพาะบางอย่าง ข้อมูลของฉันแตกต่าง ฉันมีพิกัดของโหนดและฉันต้องการสร้างขอบระหว่างบางส่วนของพวกเขา ในข้อมูลของฉันโหนดมีตำแหน่งคงที่ของตัวเองและต้องไม่ย้ายไปมา สุดท้ายฉันแคบลงแพคเกจไปและggvis ใหม่และสดใหม่นอกเหนือจากการออกแบบโดยเจตนาเพื่อสร้างแปลงแบบโต้ตอบ แต่ฉันพบว่ายังสามารถสร้างแปลงแบบโต้ตอบได้ (ถูกต้องหรือไม่) นอกจากนี้ฉันคิดว่าความสามารถของมันนั้นหลากหลายและสมบูรณ์กว่า: ตัวอย่างเช่นมีคุณสมบัติการซูมในขณะที่ไม่มี ที่สำคัญกว่านั้นคือฉันกำลังเติบโตและเปลี่ยนแปลงฉันไม่ต้องการลงทุนเวลามากกับงานที่ล้าสมัยทางเทคนิคหรือบั๊กกี้ในหนึ่งปีหรือมากกว่านั้น ผมคิดว่าเป็นกรณีนี้ถ้าฉันรหัสอยู่บนพื้นฐานของggplot2ggvisggplot2+Shinyggplot2ggvisggplot2ggvisggvisggvis ตอนนี้คุณช่วยประเมินทางเลือกของฉัน ( ggplot2+shiny) และแนะนำฉันเกี่ยวกับความเป็นไปได้ที่จะทำสิ่งที่ฉันต้องการจะทำอย่างไร? เนื่องจากฉันไม่รู้จักแพ็คเกจที่กล่าวมาฉันได้เริ่มเรียนรู้ggplot2จากหนังสือของ Wickham และฉันรักมัน! Shinyแต่ผมกลัวของการใช้จ่ายไม่กี่สัปดาห์ที่ผ่านมาและพบว่าแพคเกจที่น่าตื่นตาตื่นใจนี้ไม่สามารถทำในสิ่งที่ฉันต้องการจะทำแม้จะมีความช่วยเหลือของ PS: ฉันต้องการที่จะใส่รหัสสุดท้ายใน GitHub เพื่อให้ผู้ใช้ที่น่าจะเป็นสามารถดาวน์โหลดและเรียกใช้มัน ดังนั้นฉันไม่จำเป็นต้องสร้างเว็บแอปพลิเคชันไม่จำเป็นต้องมีเว็บไซต์หรือวางแผนที่แบบโต้ตอบออนไลน์ …

1
ฉันจะทราบได้อย่างไรว่าชุดย่อยสามารถลงจุดในไดอะแกรมออยเลอร์ปกติได้หรือไม่
ในบางกรณีอาจเป็นไปไม่ได้ที่จะวาดไดอะแกรมออยเลอร์ด้วยวงกลมที่ทับซ้อนกันเพื่อแสดงเซ็ตย่อยที่ซ้อนกันทั้งหมดในสัดส่วนที่ถูกต้อง ข้อมูลประเภทนี้จำเป็นต้องใช้รูปหลายเหลี่ยมหรือตัวเลขอื่น ๆ เพื่อเป็นตัวแทนของแต่ละชุด เมื่อจัดการกับข้อมูลที่อธิบายชุดย่อยที่ทับซ้อนกันฉันจะทราบได้อย่างไรว่าไดอะแกรมออยเลอร์ง่ายเป็นไปได้หรือไม่

1
t-SNE: ทำไมค่าข้อมูลเท่ากันไม่ปิดทางสายตา
ฉันมีจุดข้อมูล 200 จุดที่มีค่าเหมือนกันกับคุณสมบัติทั้งหมด หลังจากการลดขนาด t-SNE พวกเขาไม่ได้ดูเท่ากันอีกต่อไปเช่นนี้ ทำไมพวกเขาถึงไม่อยู่ในจุดเดียวกันในการสร้างภาพและแม้กระทั่งดูเหมือนว่าจะกระจายอยู่ในสองกลุ่มที่แตกต่างกัน?

3
ฉันจะทำให้เมทริกซ์ความสับสนใหญ่อ่านง่ายขึ้นได้อย่างไร
ฉันเพิ่งเผยแพร่ชุดข้อมูล ( ลิงก์ ) ที่มี 369 คลาส ฉันทำการทดลองสองสามครั้งเพื่อให้พวกเขารู้สึกว่างานการจัดหมวดหมู่นั้นยากเพียงใด โดยปกติแล้วฉันชอบมันถ้ามีเมทริกซ์ความสับสนเพื่อดูชนิดของข้อผิดพลาดที่เกิดขึ้น อย่างไรก็ตาม369×369369×369369 \times 369 เมทริกซ์นั้นใช้ไม่ได้ มีวิธีให้ข้อมูลที่สำคัญเกี่ยวกับเมทริกซ์ความสับสนใหญ่หรือไม่? ตัวอย่างเช่นโดยทั่วไปจะมี 0 จำนวนมากซึ่งไม่น่าสนใจ เป็นไปได้ไหมที่จะจัดเรียงคลาสเพื่อให้รายการที่ไม่เป็นศูนย์ส่วนใหญ่อยู่ในแนวทแยงมุมเพื่ออนุญาตให้แสดงเมทริกซ์หลายตัวซึ่งเป็นส่วนหนึ่งของเมทริกซ์ความสับสนแบบสมบูรณ์? นี่คือตัวอย่างสำหรับเมทริกซ์ความสับสนใหญ่ ตัวอย่างในป่า รูปที่ 6 ของEMNISTดูดี: มันง่ายที่จะดูว่ามีหลายกรณี อย่างไรก็ตามเหล่านั้นเป็นเพียง262626ชั้นเรียน หากมีการใช้ทั้งหน้าแทนที่จะเป็นเพียงคอลัมน์เดียวอาจเป็น 3 เท่าได้ แต่นั่นจะยังคงเป็นเพียงเท่านั้น3⋅26=783⋅26=783 \cdot 26 = 78ชั้นเรียน ไม่ได้ใกล้เคียงกับ 369 คลาสของ HASY หรือ 1,000 ImageNet ดูสิ่งนี้ด้วย คำถามที่คล้ายกันของฉันในCS.stackexchange

4
การตีความแผนผังการตัดสินใจในบริบทของคุณลักษณะสำคัญ
ฉันกำลังพยายามที่จะเข้าใจวิธีการทำความเข้าใจกระบวนการตัดสินใจของรูปแบบการจัดหมวดหมู่ต้นไม้การตัดสินใจที่สร้างขึ้นด้วยความเข้าใจ สิ่งสำคัญสองประการที่ฉันกำลังดูคือการนำเสนอกราฟวิซของต้นไม้และรายการของคุณลักษณะสำคัญ สิ่งที่ฉันไม่เข้าใจคือการกำหนดความสำคัญของคุณลักษณะในบริบทของต้นไม้ ตัวอย่างเช่นนี่คือรายการสำคัญของคุณลักษณะของฉัน: การจัดอันดับคุณลักษณะ: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD (0.075009) คุณสมบัติ E (0.068310) FeatureF (0.067118) FeatureG (0.066510) คุณสมบัติ H (0.043502) คุณสมบัติ I (0.040281) คุณสมบัติ J (0.039006) FeatureK (0.032618) FeatureL (0.008136) FeatureM (0.000000) อย่างไรก็ตามเมื่อฉันดูที่ด้านบนของต้นไม้ดูเหมือนว่า: ในความเป็นจริงแล้วฟีเจอร์บางอย่างที่มีการจัดอันดับว่า "สำคัญที่สุด" จะไม่ปรากฏขึ้นจนกว่าจะลงไปถึงต้นไม้และบนสุดของต้นไม้คือ FeatureJ ซึ่งเป็นหนึ่งในฟีเจอร์ที่มีอันดับต่ำที่สุด ข้อสันนิษฐานที่ไร้เดียงสาของฉันคือว่าฟีเจอร์ที่สำคัญที่สุดจะถูกจัดอยู่ใกล้กับส่วนบนสุดของต้นไม้เพื่อให้ได้ผลที่ดีที่สุด หากไม่ถูกต้องแล้วคุณสมบัติใดที่ทำให้ "สำคัญ"
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.