คำถามติดแท็ก r

R เป็นภาษาการเขียนโปรแกรมแบบโอเพ่นซอร์สฟรีและสภาพแวดล้อมซอฟต์แวร์สำหรับการคำนวณทางสถิติชีวสารสนเทศและกราฟิก

4
R: การเรียนรู้ของเครื่องบน GPU
มีชุดการเรียนรู้ของเครื่องสำหรับ R ที่สามารถใช้ GPU เพื่อปรับปรุงความเร็วการฝึกอบรม (เช่น theano จากโลกหลาม) หรือไม่? ฉันเห็นว่ามีแพ็กเกจที่เรียกว่า gputools ซึ่งอนุญาตให้เรียกใช้โค้ดบน gpu แต่ฉันกำลังมองหาไลบรารี่ที่สมบูรณ์สำหรับการเรียนรู้ของเครื่อง

1
การเอาสตริงออกหลังจากอักขระบางตัวในข้อความที่กำหนด
ฉันมีชุดข้อมูลเหมือนหนึ่งชุดด้านล่าง ฉันต้องการลบตัวละครทั้งหมดหลังจากตัวละคร© ฉันจะทำสิ่งนั้นใน R ได้อย่างไร data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

5
ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่
ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …
14 python  r  data-cleaning  data  sql 

3
การทำนายเงื่อนไขทางการแพทย์ต่อไปจากเงื่อนไขที่ผ่านมาในข้อมูลการเรียกร้อง
ฉันกำลังทำงานกับข้อมูลการเคลมประกันสุขภาพจำนวนมากซึ่งรวมถึงการอ้างสิทธิ์ในห้องปฏิบัติการและร้านขายยา อย่างไรก็ตามข้อมูลที่สอดคล้องกันมากที่สุดในชุดข้อมูลประกอบด้วยการวินิจฉัย (ICD-9CM) และรหัสขั้นตอน (CPT, HCSPCS, ICD-9CM) เป้าหมายของฉันคือ: ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง ระบุโอกาส (หรือความน่าจะเป็น) ที่ผู้ป่วยจะพัฒนาเงื่อนไขทางการแพทย์ตามเงื่อนไขที่เคยมีในอดีต ทำเช่นเดียวกับ 1 และ 2 แต่มีขั้นตอนและ / หรือการวินิจฉัย โดยเฉพาะอย่างยิ่งผลลัพธ์จะถูกตีความโดยแพทย์ ฉันได้ดูสิ่งต่าง ๆ เช่นเอกสารไมล์สโตนเฮอริเทจและได้เรียนรู้อะไรมากมายจากพวกเขา แต่พวกเขามุ่งเน้นไปที่การทำนายการรักษาในโรงพยาบาล ดังนั้นนี่คือคำถามของฉัน: วิธีใดที่คุณคิดว่าทำงานได้ดีสำหรับปัญหาเช่นนี้ และทรัพยากรใดจะมีประโยชน์มากที่สุดสำหรับการเรียนรู้เกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลและวิธีการที่เกี่ยวข้องกับการดูแลสุขภาพและการแพทย์คลินิก แก้ไข # 2 เพื่อเพิ่มตารางธรรมดา: CKD เป็นเงื่อนไขเป้าหมาย "โรคไตเรื้อรัง", ".any" แสดงว่าพวกเขาได้รับเงื่อนไขดังกล่าวได้ตลอดเวลา ". isbefore.ckd" หมายความว่าพวกเขามีอาการนั้นก่อนการวินิจฉัยโรค CKD ครั้งแรก ตัวย่ออื่น ๆ สอดคล้องกับเงื่อนไขอื่น ๆ ที่ระบุโดยการจัดกลุ่มรหัส ICD-9CM การจัดกลุ่มนี้เกิดขึ้นใน …

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
ความถูกต้องของแบบจำลอง 100% สำหรับข้อมูลเกินตัวอย่างหรือไม่?
ฉันเพิ่งเสร็จสิ้นการเรียนรู้ของเครื่องสำหรับหลักสูตร R ใน cognitiveclass.ai และได้เริ่มทำการทดลองด้วยการสุ่ม ฉันสร้างแบบจำลองโดยใช้ไลบรารี่ "randomForest" ในอาร์โมเดลแบ่งเป็นสองคลาสคือดีและไม่ดี ฉันรู้ว่าเมื่อแบบจำลองมีความเหมาะสมมากเกินไปมันทำงานได้ดีกับข้อมูลจากชุดฝึกอบรมของตัวเอง แต่มีข้อมูลที่ไม่อยู่ในเกณฑ์ตัวอย่าง ในการฝึกอบรมและทดสอบแบบจำลองของฉันฉันได้สับและแยกชุดข้อมูลที่สมบูรณ์เป็น 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ คำถามของฉัน: ฉันได้รับความแม่นยำ 100% จากการทำนายที่ทำไว้ในชุดการทดสอบ มันแย่ใช่ไหม? ดูเหมือนดีเกินกว่าที่จะเป็นจริง วัตถุประสงค์คือการจดจำรูปแบบของคลื่นในสี่ซึ่งกันและกันขึ้นอยู่กับรูปคลื่น คุณสมบัติของชุดข้อมูลนั้นเป็นผลจากต้นทุนของการวิเคราะห์สัญญาณเวลาแบบไดนามิกของรูปคลื่นด้วยรูปคลื่นเป้าหมาย

1
การประมวลผลข้อมูล GPU แบบเร่งสำหรับ R ใน Windows
ขณะนี้ฉันกำลังเขียนบทความเกี่ยวกับ Big Data ที่ทำให้เราใช้ R เป็นอย่างมากในการวิเคราะห์ข้อมูล ฉันมี GTX1070 ในพีซีของฉันเพราะเหตุผลด้านการเล่นเกม ดังนั้นฉันคิดว่ามันจะเจ๋งจริง ๆ ถ้าฉันสามารถใช้มันเพื่อเร่งการประมวลผลสำหรับบางสิ่งที่อาจารย์ของฉันทำไว้ แต่มันไม่ง่ายเลยที่จะทำสิ่งนี้ ฉันได้ติดตั้ง gpuR, CUDA, Rtools และบิตและบ็อบอีกสองสามตัวและฉันสามารถสร้างวัตถุ gpuMatrix จากข้อมูลการแสดงออกทางจีโนม แต่ฉันยังไม่พบฟังก์ชั่นที่ใช้งานได้กับวัตถุ gpuMatrix และยังให้ความแตกต่างที่เห็นได้ชัดเจนในประสิทธิภาพ บางทีนี่อาจเกี่ยวข้องกับข้อ จำกัด ที่มีอยู่ในแพคเกจ gpuR - แพ็คเกจอื่น ๆ ดูเหมือนจะพูดถึงการมีฟังก์ชั่นที่ฟังดูเหมือนพวกเขาจะเหมือนกับสิ่งที่ฉันกำลังมองหา แพคเกจเหล่านั้นเกือบทั้งหมดมีเฉพาะสำหรับ Linux มันยากที่จะใช้ GPU รองรับ R ใน windows หรือไม่ หรือมีเหตุผลอื่นอีกไหมที่มีแพคเกจจำนวนน้อยที่มีให้ทำใน Windows ในแง่หนึ่งฉันแค่อยากรู้อยากเห็น แต่มันก็เจ๋งมากที่จะทำให้มันทำงานได้จริง มันทำให้ฉันประหลาดใจที่มี Windows เล็ก ๆ น้อย ๆ …
11 r  gpu  parallel 

4
จะหลีกเลี่ยงการ overfitting ในป่าสุ่มได้อย่างไร
ฉันต้องการหลีกเลี่ยง overfitting ในป่าสุ่ม ในเรื่องนี้ฉันตั้งใจจะใช้ mtry, nodesize และ maxnodes เป็นต้นคุณช่วยฉันเลือกค่าสำหรับพารามิเตอร์เหล่านี้ได้ไหม? ฉันกำลังใช้อาร์ นอกจากนี้ถ้าเป็นไปได้โปรดบอกฉันว่าฉันสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับฟอเรสต์แบบสุ่ม (ใน R) ได้อย่างไร

1
Fisher Scoring v / s พิกัดโคตรสำหรับ MLE ใน R
ฟังก์ชันฐาน R glm()ใช้การให้คะแนน Fishers สำหรับ MLE ในขณะที่วิธีการglmnetดูเหมือนจะใช้พิกัดโคตรเพื่อแก้สมการเดียวกัน โคตรประสานงานนั้นใช้เวลาได้อย่างมีประสิทธิภาพมากกว่า Fisher Scoring เนื่องจาก Fisher Scoring คำนวณเมทริกซ์อนุพันธ์ลำดับที่สองนอกเหนือจากการดำเนินการเมทริกซ์อื่น ๆ ซึ่งทำให้มีราคาแพงในการปฏิบัติในขณะที่โคตรประสานงานสามารถทำงานเดียวกันในเวลา O (np) ทำไมฟังก์ชั่นพื้นฐานของ R จึงใช้ Fisher Scoring? วิธีนี้มีความได้เปรียบเหนือวิธีการเพิ่มประสิทธิภาพอื่น ๆ หรือไม่? การประสานงานทางสายเลือดและการให้คะแนนของชาวประมงเปรียบเทียบกันอย่างไร ฉันค่อนข้างใหม่ในการทำฟิลด์นี้ดังนั้นความช่วยเหลือหรือทรัพยากรใด ๆ จะเป็นประโยชน์

3
การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?
ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

3
การสร้างภาพข้อมูลสำหรับการวิเคราะห์รูปแบบ (ไม่ขึ้นกับภาษา แต่ต้องการ R)
ฉันต้องการพล็อตไบต์จากดิสก์อิมเมจเพื่อทำความเข้าใจกับรูปแบบในนั้น นี่เป็นงานวิชาการส่วนใหญ่เนื่องจากฉันเกือบจะแน่ใจว่ารูปแบบนี้ถูกสร้างขึ้นโดยโปรแกรมทดสอบดิสก์ แต่ฉันต้องการทำวิศวกรรมย้อนกลับ ฉันรู้อยู่แล้วว่ารูปแบบดังกล่าวอยู่ในแนวเดียวกันโดยมีระยะเวลา 256 อักขระ ฉันสามารถจินตนาการได้สองวิธีในการแสดงข้อมูลนี้: ระนาบ 16x16 ที่ดูผ่านเวลา (3 มิติ) โดยที่แต่ละพิกเซลของสีคือรหัส ASCII สำหรับตัวละครหรือ 256 พิกเซลสำหรับแต่ละช่วงเวลา (2 มิติ) นี่เป็นภาพรวมของรูปแบบ (คุณสามารถดูได้มากกว่าหนึ่งรายการ) มองเห็นผ่านxxd(32x16): ฉันกำลังพยายามหาวิธีแสดงภาพข้อมูลนี้ นี่อาจไม่ใช่เรื่องยากสำหรับทุกคนในการวิเคราะห์สัญญาณ แต่ฉันไม่สามารถหาวิธีใช้ซอฟต์แวร์โอเพ่นซอร์ส ฉันต้องการหลีกเลี่ยง Matlab หรือ Mathematica และฉันต้องการคำตอบใน R เนื่องจากฉันได้เรียนรู้เมื่อเร็ว ๆ นี้ แต่กระนั้นภาษาใดก็ยินดีต้อนรับ อัปเดต, 2014-07-25: ได้รับคำตอบจาก Emre ด้านล่างนี่เป็นรูปแบบที่ได้รับจากรูปแบบ 30MB แรกที่จัดที่ 512 แทน 256 (การจัดตำแหน่งนี้ดูดีกว่า): ยินดีต้อนรับแนวคิดเพิ่มเติมใด ๆ !
11 r  visualization 

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
แสดงรายการที่ซื้อบ่อยด้วยกัน
ฉันมีชุดข้อมูลในโครงสร้างต่อไปนี้แทรกอยู่ในไฟล์ CSV: Banana Water Rice Rice Water Bread Banana Juice แต่ละแถวบ่งชี้ชุดของรายการที่ซื้อด้วยกัน ตัวอย่างเช่นแถวแรกหมายถึงว่ารายการBanana, WaterและRiceกำลังซื้อด้วยกัน ฉันต้องการสร้างภาพข้อมูลดังนี้: นี่เป็นแผนภูมิกริดโดยทั่วไป แต่ฉันต้องการเครื่องมือบางอย่าง (อาจเป็น Python หรือ R) ที่สามารถอ่านโครงสร้างอินพุตและสร้างแผนภูมิเช่นด้านบนเป็นเอาต์พุต

2
ggvis vs. ggplot2 + Shiny; สิ่งที่หนึ่งที่เลือกสำหรับการสร้างภาพเชิงโต้ตอบ?
มีคำถามที่คล้ายกันใน CrossValidated และฉันได้อ่านคำตอบแล้ว คำถามของฉันแตกต่างกันเล็กน้อย ฉันไม่ต้องการเพียงแค่เห็นภาพข้อมูลของฉันและแน่นอนสิ่งที่ฉันต้องการเห็นภาพไม่ใช่เรื่องง่ายที่จะเห็นภาพด้วยแพคเกจทั้งสอง ฉันมีจุดสองชุด ( พิกัด ) ในแผนของฉัน ฉันต้องการเพิ่มขอบและทำให้มันคล้ายกับกราฟ หากฉันมีจำนวนคะแนนจากนั้นขึ้นอยู่กับลักษณะของปัญหาของฉันฉันต้องเพิ่มขอบลงในพล็อตx , yx,Yx,ynnn( n / 2 )2(n/2)2(n/2)^2 จากนั้นฉันต้องการเพิ่มฟีเจอร์แบบโต้ตอบลงในพล็อตของฉัน ตัวอย่างเช่นโดยการคลิกที่จุดหนึ่ง (จุดยอด) จุดยอดอื่น ๆ ทั้งหมดที่ไม่ได้เชื่อมต่อกับจุดสุดยอดที่ถูกคลิกนี้จะต้องหายไปเพื่อให้มีพล็อตที่ชัดเจนและมุ่งเน้นมากขึ้น ฉันพยายามค้นหาแพ็คเกจการสร้างภาพเครือข่ายที่เหมาะกับโครงการของฉัน แต่ดูเหมือนว่าพวกเขาทั้งหมดใช้ข้อมูลเกี่ยวกับการเชื่อมต่อของขอบหรือโหนดและจัดหาเครือข่ายตามอัลกอริทึมโครงร่างเฉพาะบางอย่าง ข้อมูลของฉันแตกต่าง ฉันมีพิกัดของโหนดและฉันต้องการสร้างขอบระหว่างบางส่วนของพวกเขา ในข้อมูลของฉันโหนดมีตำแหน่งคงที่ของตัวเองและต้องไม่ย้ายไปมา สุดท้ายฉันแคบลงแพคเกจไปและggvis ใหม่และสดใหม่นอกเหนือจากการออกแบบโดยเจตนาเพื่อสร้างแปลงแบบโต้ตอบ แต่ฉันพบว่ายังสามารถสร้างแปลงแบบโต้ตอบได้ (ถูกต้องหรือไม่) นอกจากนี้ฉันคิดว่าความสามารถของมันนั้นหลากหลายและสมบูรณ์กว่า: ตัวอย่างเช่นมีคุณสมบัติการซูมในขณะที่ไม่มี ที่สำคัญกว่านั้นคือฉันกำลังเติบโตและเปลี่ยนแปลงฉันไม่ต้องการลงทุนเวลามากกับงานที่ล้าสมัยทางเทคนิคหรือบั๊กกี้ในหนึ่งปีหรือมากกว่านั้น ผมคิดว่าเป็นกรณีนี้ถ้าฉันรหัสอยู่บนพื้นฐานของggplot2ggvisggplot2+Shinyggplot2ggvisggplot2ggvisggvisggvis ตอนนี้คุณช่วยประเมินทางเลือกของฉัน ( ggplot2+shiny) และแนะนำฉันเกี่ยวกับความเป็นไปได้ที่จะทำสิ่งที่ฉันต้องการจะทำอย่างไร? เนื่องจากฉันไม่รู้จักแพ็คเกจที่กล่าวมาฉันได้เริ่มเรียนรู้ggplot2จากหนังสือของ Wickham และฉันรักมัน! Shinyแต่ผมกลัวของการใช้จ่ายไม่กี่สัปดาห์ที่ผ่านมาและพบว่าแพคเกจที่น่าตื่นตาตื่นใจนี้ไม่สามารถทำในสิ่งที่ฉันต้องการจะทำแม้จะมีความช่วยเหลือของ PS: ฉันต้องการที่จะใส่รหัสสุดท้ายใน GitHub เพื่อให้ผู้ใช้ที่น่าจะเป็นสามารถดาวน์โหลดและเรียกใช้มัน ดังนั้นฉันไม่จำเป็นต้องสร้างเว็บแอปพลิเคชันไม่จำเป็นต้องมีเว็บไซต์หรือวางแผนที่แบบโต้ตอบออนไลน์ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.