คำถามติดแท็ก visualization

การสร้างการแสดงข้อมูลแบบกราฟิกที่มีความหมายและเป็นประโยชน์ (หากคำถามของคุณเป็นเพียงเกี่ยวกับวิธีรับซอฟต์แวร์เฉพาะเพื่อสร้างเอฟเฟกต์ที่เฉพาะเจาะจงก็น่าจะไม่อยู่ในหัวข้อที่นี่)

15
คุณมองเห็นสถาปัตยกรรมเครือข่ายประสาทเทียมได้อย่างไร
เมื่อเขียนบทความ / นำเสนอเกี่ยวกับหัวข้อที่เกี่ยวกับโครงข่ายประสาทเทียมมักจะแสดงภาพสถาปัตยกรรมเครือข่าย อะไรคือวิธีที่ดี / ง่ายในการมองเห็นสถาปัตยกรรมทั่วไปโดยอัตโนมัติ

3
การคำนวณและการแสดงเมทริกซ์สหสัมพันธ์ด้วยนุ่น
ฉันมีกรอบข้อมูลแพนด้ากับหลายรายการและฉันต้องการคำนวณความสัมพันธ์ระหว่างรายได้ของร้านค้าบางประเภท มีร้านค้าหลายแห่งที่มีข้อมูลรายได้การจำแนกประเภทของกิจกรรม (โรงละครร้านผ้าอาหาร ... ) และข้อมูลอื่น ๆ ฉันพยายามสร้าง data frame ใหม่และแทรกคอลัมน์ที่มีรายได้ของร้านค้าทุกประเภทที่อยู่ในหมวดหมู่เดียวกันและ data frame ที่ส่งคืนมีเพียงคอลัมน์แรกที่เต็มไปและคอลัมน์ที่เหลือเต็มไปด้วย NaN รหัสที่ฉันเหนื่อย: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] ฉันต้องการทำเช่นนั้นดังนั้นฉันสามารถใช้.corr()เพื่อให้เมทริกซ์สหสัมพันธ์ระหว่างหมวดหมู่ของร้านค้า หลังจากนั้นฉันอยากรู้ว่าฉันสามารถพล็อตค่าเมทริกซ์ (-1 ถึง 1 ได้อย่างไรเนื่องจากฉันต้องการใช้สหสัมพันธ์ของเพียร์สัน) กับ matplolib

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

7
วัตถุประสงค์ของการแสดงข้อมูลมิติสูงหรือไม่
มีเทคนิคมากมายสำหรับการแสดงชุดข้อมูลมิติสูงเช่น T-SNE, isomap, PCA, PCA ภายใต้การดูแล ฯลฯ และเราผ่านการเคลื่อนไหวของการฉายข้อมูลลงในพื้นที่ 2D หรือ 3D ดังนั้นเราจึงมี "ภาพสวย" " บางส่วนของวิธีการเหล่านี้ฝัง (การเรียนรู้ต่าง ๆ นานา) อธิบายไว้ที่นี่ แต่นี่คือ "ภาพสวย" ที่มีความหมายจริงหรือ มีข้อมูลเชิงลึกที่เป็นไปได้ที่ใครบางคนสามารถคว้าโดยพยายามมองภาพพื้นที่ฝังตัวนี้ ฉันถามเพราะการฉายภาพลงไปในพื้นที่ฝังตัวนี้มักไม่มีความหมาย ตัวอย่างเช่นหากคุณฉายข้อมูลของคุณลงไปยังองค์ประกอบหลักที่สร้างโดย PCA ส่วนประกอบหลักเหล่านั้น (eiganvectors) จะไม่สอดคล้องกับคุณลักษณะในชุดข้อมูล พวกเขากำลังพื้นที่คุณสมบัติของตัวเอง ในทำนองเดียวกัน t-SNE จะฉายข้อมูลของคุณลงในช่องว่างซึ่งรายการอยู่ใกล้กันถ้าพวกมันลดความแตกต่างของ KL บางส่วน นี่ไม่ใช่พื้นที่ฟีเจอร์ดั้งเดิมอีกต่อไป (แก้ไขให้ฉันถ้าฉันผิด แต่ฉันไม่คิดว่าจะมีความพยายามอย่างมากจากชุมชน ML ในการใช้ t-SNE เพื่อช่วยในการจัดหมวดหมู่ซึ่งเป็นปัญหาที่แตกต่างจากการสร้างภาพข้อมูล) ฉันแค่สับสนมากว่าทำไมผู้คนถึงทำเรื่องใหญ่ ๆ เกี่ยวกับการสร้างภาพข้อมูลเหล่านี้

3
ฉันจะสร้างแผนภูมิเรดาร์ที่ซับซ้อนได้อย่างไร
ดังนั้นฉันต้องการสร้างแผนภูมิเรดาร์โปรไฟล์ผู้เล่นดังนี้: ไม่เพียง แต่สเกลของแต่ละตัวแปรที่แตกต่างกัน แต่ฉันต้องการสเกลที่กลับด้านสำหรับสถิติบางอย่างเช่นสถิติ 'ยึดทรัพย์' ซึ่งจริงๆแล้วหมายถึงน้อย ทางออกหนึ่งสำหรับสเกลตัวแปรสำหรับแต่ละสถิติอาจเป็นการกำหนดเกณฑ์มาตรฐานแล้วคำนวณคะแนนในระดับ 100 หรือไม่ แต่ฉันจะแสดงตัวเลขจริงบนแผนภูมิได้อย่างไร นอกจากนี้ฉันจะได้รับมาตราส่วนกลับด้านสำหรับสถิติบางส่วนได้อย่างไร กำลังทำงานใน Excel เครื่องมือที่ทรงพลังที่สุดในการสร้างแผนภูมิที่ซับซ้อนเช่นนี้คืออะไร?

6
คุณใช้อะไรในการสร้างแดชบอร์ดใน R
ฉันต้องสร้างรายงานแดชบอร์ดการวิเคราะห์เว็บเป็นรายวัน (รายเดือน) สิ่งเหล่านี้จะคงที่และไม่ต้องการการโต้ตอบดังนั้นให้จินตนาการว่าไฟล์ PDF เป็นเอาต์พุตเป้าหมาย รายงานจะผสมตารางและแผนภูมิ (ส่วนใหญ่เป็นประกายและกราฟแสดงหัวข้อย่อยที่สร้างด้วย ggplot2) คิดว่าแดชบอร์ดสไตล์ Stephen Few / Perceptual Edge เช่น: แต่นำไปใช้กับการวิเคราะห์เว็บ คำแนะนำใด ๆ เกี่ยวกับแพ็คเกจที่จะใช้ในการสร้างรายงานแดชบอร์ดเหล่านี้ สัญชาตญาณแรกของฉันคือใช้ R markdown และ knitr แต่บางทีคุณอาจพบทางออกที่ดีกว่า ฉันไม่สามารถหาตัวอย่างมากมายของแดชบอร์ดที่สร้างจาก R
17 r  visualization 

7
การแสดงกราฟด้วยจุดยอดหนึ่งล้าน
เครื่องมือที่ดีที่สุดในการใช้แสดงภาพ (วาดจุดยอดและขอบ) กราฟที่มีจุดยอด 1000000 คืออะไร กราฟมีประมาณ 50,000 อัน และฉันสามารถคำนวณตำแหน่งของจุดยอดและจุดแต่ละจุด ฉันกำลังคิดเกี่ยวกับการเขียนโปรแกรมเพื่อสร้าง svg ข้อเสนอแนะอื่น ๆ ?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
คะแนนที่ใกล้เคียงกันจะถือว่าคล้ายกันมากขึ้นในการสร้างภาพข้อมูล T-SNE ได้หรือไม่?
ฉันเข้าใจจากกระดาษของฮินตันว่า T-SNE ทำงานได้ดีในการรักษาความคล้ายคลึงกันในท้องถิ่นและงานที่ดีในการรักษาโครงสร้างของโลก (การจัดกลุ่ม) อย่างไรก็ตามฉันไม่ชัดเจนว่าจุดใดที่ปรากฎอยู่ใกล้ ๆ ในการแสดงภาพ 2D t-sne สามารถสันนิษฐานได้ว่าเป็นจุดข้อมูลที่ "คล้ายกันมากขึ้น" ฉันกำลังใช้ข้อมูลกับคุณสมบัติ 25 อย่าง ตัวอย่างเช่นจากการสังเกตภาพด้านล่างฉันสามารถสมมติว่าดาต้าพอยน์สีน้ำเงินนั้นมีความคล้ายคลึงกับสีเขียวมากกว่าโดยเฉพาะกับกลุ่มจุดสีเขียวที่ใหญ่ที่สุด? หรือการถามที่แตกต่างกันมันถือว่าโอเคไหมที่จุดสีน้ำเงินนั้นคล้ายกับสีเขียวในกระจุกที่อยู่ใกล้ที่สุดมากกว่าสีแดงในกระจุกอีกอัน? (ไม่สนใจจุดสีเขียวในกลุ่มสีแดง - ไอช) เมื่อสังเกตตัวอย่างอื่น ๆ เช่นตัวอย่างที่นำเสนอในชุด Sci-Kit เรียนรู้การเรียนรู้ Manifold ดูเหมือนว่าถูกต้องแล้ว แต่ฉันไม่แน่ใจว่าพูดถูกต้องหรือไม่ แก้ไข ฉันได้คำนวณระยะทางจากชุดข้อมูลดั้งเดิมด้วยตนเอง (ระยะทางแบบยุคลิดแบบคู่เฉลี่ย) และการสร้างภาพข้อมูลจริงแสดงระยะทางเชิงพื้นที่ตามสัดส่วนที่เกี่ยวข้องกับชุดข้อมูล อย่างไรก็ตามฉันอยากจะรู้ว่านี่เป็นสิ่งที่ยอมรับได้พอสมควรหรือไม่จากสูตรทางคณิตศาสตร์ดั้งเดิมของ t-sne และไม่ใช่เรื่องบังเอิญ

1
Heatmap บนแผนที่ใน Python
การวิเคราะห์โหมดมีคุณลักษณะ heatmap ที่ดี ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ) แต่มันไม่เอื้อต่อการเปรียบเทียบแผนที่ (เพียงหนึ่งต่อรายงาน) สิ่งที่พวกเขาอนุญาตคือการดึงข้อมูลเข้าสู่โน้ตบุ๊คไพ ธ อนที่ห่อหุ้มได้ง่าย จากนั้นภาพใด ๆ ในหลามสามารถเพิ่มลงในรายงานได้อย่างง่ายดาย ดังนั้นคำถามของฉันคือฉันจะสร้าง heatmap บนแผนที่จริงใน Python ได้อย่างไร ฉันได้ตรวจสอบ follium และชัดเจน แต่ดูเหมือนจะไม่มีฟังก์ชั่นที่คล้ายกัน

2
การแสดงการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก
ฉันกำลังพยายามหา Hinton Diagrams ที่เทียบเท่าสำหรับเครือข่ายหลายชั้นเพื่อวางแผนน้ำหนักในระหว่างการฝึก เครือข่ายที่ได้รับการฝึกอบรมจะค่อนข้างคล้ายกับ Deep SRN นั่นคือมันมีการฝึกอบรมน้ำหนักหลายอย่างซึ่งจะทำให้พล็อต Hinton Diagrams หลาย ๆ ภาพพร้อมกันสับสน ไม่มีใครรู้วิธีที่ดีในการมองเห็นกระบวนการปรับปรุงน้ำหนักสำหรับเครือข่ายที่เกิดซ้ำที่มีหลายเลเยอร์ ฉันไม่พบเอกสารจำนวนมากในหัวข้อ ฉันกำลังคิดที่จะแสดงข้อมูลเกี่ยวกับเวลาเกี่ยวกับน้ำหนักต่อเลเยอร์แทนหากฉันไม่สามารถหาอะไรได้ เช่น Weight-delta เมื่อเวลาผ่านไปสำหรับแต่ละเลเยอร์ (ไม่ใช้การเชื่อมต่อทุกครั้ง) PCA เป็นไปได้อีกอย่างหนึ่ง แต่ฉันไม่ต้องการสร้างการคำนวณเพิ่มเติมเนื่องจากการสร้างภาพข้อมูลออนไลน์ในระหว่างการฝึกอบรม

2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

3
จะสร้างการเติบโตของเครือข่ายโซเชียลอย่างไร?
ฉันกำลังมองหาไลบรารี / เครื่องมือเพื่อให้เห็นภาพว่าเครือข่ายสังคมเปลี่ยนแปลงอย่างไรเมื่อมีการเพิ่มโหนด / ขอบใหม่เข้าไป หนึ่งในโซลูชั่นที่มีอยู่Sonia: Animator มันช่วยให้คุณทำภาพยนตร์เช่นนี้ เอกสารของ SoNIA บอกว่ามันพังในขณะนี้และนอกเหนือจากนี้ฉันต้องการโซลูชันที่ใช้ JavaScript แทน ดังนั้นคำถามของฉันคือคุณคุ้นเคยกับเครื่องมือใด ๆ หรือคุณสามารถชี้ให้ฉันไปที่ห้องสมุดบางแห่งที่จะทำให้งานนี้ง่ายที่สุดเท่าที่จะเป็นไปได้หรือไม่? หลังจากโพสต์คำถามนี้ฉันจะขุดลงในsigma.jsดังนั้นโปรดพิจารณาห้องสมุดนี้ด้วย โดยทั่วไปข้อมูลอินพุตของฉันจะเป็นดังนี้: time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C ดังนั้นที่นี่เรามีสามจุดในเวลา (1, 2, 3), สามโหนด (A, B, C) และสามขอบซึ่งแสดงถึงการปิด triadic ระหว่างสามโหนดที่พิจารณา ยิ่งกว่านั้นทุกโหนดจะมีสองคุณลักษณะ (อายุและเพศ) ดังนั้นฉันจึงต้องการที่จะสามารถเปลี่ยนรูปร่าง / สีของโหนด นอกจากนี้หลังจากเพิ่มโหนดใหม่จะเป็นการดีที่จะมี ForceAtlas2 หรืออัลกอริทึมที่คล้ายกันเพื่อปรับเค้าโครงของกราฟ

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
ฉันจะสร้าง Scatterplan แบบ PCA เชิงโต้ตอบใน Python ได้อย่างไร
matplotlibห้องสมุดที่มีความสามารถมาก แต่ขาด interactiveness โดยเฉพาะอย่างยิ่งภายใน Jupyter โน๊ตบุ๊ค ฉันต้องการที่ดีออฟไลน์เครื่องมือวางแผนเหมือนplot.ly

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.