วิทยาศาสตร์ข้อมูล r

4

มีชุดการเรียนรู้ของเครื่องสำหรับ R ที่สามารถใช้ GPU เพื่อปรับปรุงความเร็วการฝึกอบรม (เช่น theano จากโลกหลาม) หรือไม่? ฉันเห็นว่ามีแพ็กเกจที่เรียกว่า gputools ซึ่งอนุญาตให้เรียกใช้โค้ดบน gpu แต่ฉันกำลังมองหาไลบรารี่ที่สมบูรณ์สำหรับการเรียนรู้ของเครื่อง

15 machine-learning r gpu

1

การเอาสตริงออกหลังจากอักขระบางตัวในข้อความที่กำหนด

ฉันมีชุดข้อมูลเหมือนหนึ่งชุดด้านล่าง ฉันต้องการลบตัวละครทั้งหมดหลังจากตัวละคร© ฉันจะทำสิ่งนั้นใน R ได้อย่างไร data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

5

ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่

ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …

14 python r data-cleaning data sql

3

การทำนายเงื่อนไขทางการแพทย์ต่อไปจากเงื่อนไขที่ผ่านมาในข้อมูลการเรียกร้อง

ฉันกำลังทำงานกับข้อมูลการเคลมประกันสุขภาพจำนวนมากซึ่งรวมถึงการอ้างสิทธิ์ในห้องปฏิบัติการและร้านขายยา อย่างไรก็ตามข้อมูลที่สอดคล้องกันมากที่สุดในชุดข้อมูลประกอบด้วยการวินิจฉัย (ICD-9CM) และรหัสขั้นตอน (CPT, HCSPCS, ICD-9CM) เป้าหมายของฉันคือ: ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง ระบุโอกาส (หรือความน่าจะเป็น) ที่ผู้ป่วยจะพัฒนาเงื่อนไขทางการแพทย์ตามเงื่อนไขที่เคยมีในอดีต ทำเช่นเดียวกับ 1 และ 2 แต่มีขั้นตอนและ / หรือการวินิจฉัย โดยเฉพาะอย่างยิ่งผลลัพธ์จะถูกตีความโดยแพทย์ ฉันได้ดูสิ่งต่าง ๆ เช่นเอกสารไมล์สโตนเฮอริเทจและได้เรียนรู้อะไรมากมายจากพวกเขา แต่พวกเขามุ่งเน้นไปที่การทำนายการรักษาในโรงพยาบาล ดังนั้นนี่คือคำถามของฉัน: วิธีใดที่คุณคิดว่าทำงานได้ดีสำหรับปัญหาเช่นนี้ และทรัพยากรใดจะมีประโยชน์มากที่สุดสำหรับการเรียนรู้เกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลและวิธีการที่เกี่ยวข้องกับการดูแลสุขภาพและการแพทย์คลินิก แก้ไข # 2 เพื่อเพิ่มตารางธรรมดา: CKD เป็นเงื่อนไขเป้าหมาย "โรคไตเรื้อรัง", ".any" แสดงว่าพวกเขาได้รับเงื่อนไขดังกล่าวได้ตลอดเวลา ". isbefore.ckd" หมายความว่าพวกเขามีอาการนั้นก่อนการวินิจฉัยโรค CKD ครั้งแรก ตัวย่ออื่น ๆ สอดคล้องกับเงื่อนไขอื่น ๆ ที่ระบุโดยการจัดกลุ่มรหัส ICD-9CM การจัดกลุ่มนี้เกิดขึ้นใน …

12 machine-learning r

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

ความถูกต้องของแบบจำลอง 100% สำหรับข้อมูลเกินตัวอย่างหรือไม่?

ฉันเพิ่งเสร็จสิ้นการเรียนรู้ของเครื่องสำหรับหลักสูตร R ใน cognitiveclass.ai และได้เริ่มทำการทดลองด้วยการสุ่ม ฉันสร้างแบบจำลองโดยใช้ไลบรารี่ "randomForest" ในอาร์โมเดลแบ่งเป็นสองคลาสคือดีและไม่ดี ฉันรู้ว่าเมื่อแบบจำลองมีความเหมาะสมมากเกินไปมันทำงานได้ดีกับข้อมูลจากชุดฝึกอบรมของตัวเอง แต่มีข้อมูลที่ไม่อยู่ในเกณฑ์ตัวอย่าง ในการฝึกอบรมและทดสอบแบบจำลองของฉันฉันได้สับและแยกชุดข้อมูลที่สมบูรณ์เป็น 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ คำถามของฉัน: ฉันได้รับความแม่นยำ 100% จากการทำนายที่ทำไว้ในชุดการทดสอบ มันแย่ใช่ไหม? ดูเหมือนดีเกินกว่าที่จะเป็นจริง วัตถุประสงค์คือการจดจำรูปแบบของคลื่นในสี่ซึ่งกันและกันขึ้นอยู่กับรูปคลื่น คุณสมบัติของชุดข้อมูลนั้นเป็นผลจากต้นทุนของการวิเคราะห์สัญญาณเวลาแบบไดนามิกของรูปคลื่นด้วยรูปคลื่นเป้าหมาย

11 r random-forest prediction overfitting

1

การประมวลผลข้อมูล GPU แบบเร่งสำหรับ R ใน Windows

ขณะนี้ฉันกำลังเขียนบทความเกี่ยวกับ Big Data ที่ทำให้เราใช้ R เป็นอย่างมากในการวิเคราะห์ข้อมูล ฉันมี GTX1070 ในพีซีของฉันเพราะเหตุผลด้านการเล่นเกม ดังนั้นฉันคิดว่ามันจะเจ๋งจริง ๆ ถ้าฉันสามารถใช้มันเพื่อเร่งการประมวลผลสำหรับบางสิ่งที่อาจารย์ของฉันทำไว้ แต่มันไม่ง่ายเลยที่จะทำสิ่งนี้ ฉันได้ติดตั้ง gpuR, CUDA, Rtools และบิตและบ็อบอีกสองสามตัวและฉันสามารถสร้างวัตถุ gpuMatrix จากข้อมูลการแสดงออกทางจีโนม แต่ฉันยังไม่พบฟังก์ชั่นที่ใช้งานได้กับวัตถุ gpuMatrix และยังให้ความแตกต่างที่เห็นได้ชัดเจนในประสิทธิภาพ บางทีนี่อาจเกี่ยวข้องกับข้อ จำกัด ที่มีอยู่ในแพคเกจ gpuR - แพ็คเกจอื่น ๆ ดูเหมือนจะพูดถึงการมีฟังก์ชั่นที่ฟังดูเหมือนพวกเขาจะเหมือนกับสิ่งที่ฉันกำลังมองหา แพคเกจเหล่านั้นเกือบทั้งหมดมีเฉพาะสำหรับ Linux มันยากที่จะใช้ GPU รองรับ R ใน windows หรือไม่ หรือมีเหตุผลอื่นอีกไหมที่มีแพคเกจจำนวนน้อยที่มีให้ทำใน Windows ในแง่หนึ่งฉันแค่อยากรู้อยากเห็น แต่มันก็เจ๋งมากที่จะทำให้มันทำงานได้จริง มันทำให้ฉันประหลาดใจที่มี Windows เล็ก ๆ น้อย ๆ …

11 r gpu parallel

4

จะหลีกเลี่ยงการ overfitting ในป่าสุ่มได้อย่างไร

ฉันต้องการหลีกเลี่ยง overfitting ในป่าสุ่ม ในเรื่องนี้ฉันตั้งใจจะใช้ mtry, nodesize และ maxnodes เป็นต้นคุณช่วยฉันเลือกค่าสำหรับพารามิเตอร์เหล่านี้ได้ไหม? ฉันกำลังใช้อาร์ นอกจากนี้ถ้าเป็นไปได้โปรดบอกฉันว่าฉันสามารถใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับฟอเรสต์แบบสุ่ม (ใน R) ได้อย่างไร

11 machine-learning data-mining r predictive-modeling random-forest

1

Fisher Scoring v / s พิกัดโคตรสำหรับ MLE ใน R

ฟังก์ชันฐาน R glm()ใช้การให้คะแนน Fishers สำหรับ MLE ในขณะที่วิธีการglmnetดูเหมือนจะใช้พิกัดโคตรเพื่อแก้สมการเดียวกัน โคตรประสานงานนั้นใช้เวลาได้อย่างมีประสิทธิภาพมากกว่า Fisher Scoring เนื่องจาก Fisher Scoring คำนวณเมทริกซ์อนุพันธ์ลำดับที่สองนอกเหนือจากการดำเนินการเมทริกซ์อื่น ๆ ซึ่งทำให้มีราคาแพงในการปฏิบัติในขณะที่โคตรประสานงานสามารถทำงานเดียวกันในเวลา O (np) ทำไมฟังก์ชั่นพื้นฐานของ R จึงใช้ Fisher Scoring? วิธีนี้มีความได้เปรียบเหนือวิธีการเพิ่มประสิทธิภาพอื่น ๆ หรือไม่? การประสานงานทางสายเลือดและการให้คะแนนของชาวประมงเปรียบเทียบกันอย่างไร ฉันค่อนข้างใหม่ในการทำฟิลด์นี้ดังนั้นความช่วยเหลือหรือทรัพยากรใด ๆ จะเป็นประโยชน์

11 machine-learning r algorithms optimization

3

การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?

ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

11 classification r python regression predictive-modeling

3

การสร้างภาพข้อมูลสำหรับการวิเคราะห์รูปแบบ (ไม่ขึ้นกับภาษา แต่ต้องการ R)

ฉันต้องการพล็อตไบต์จากดิสก์อิมเมจเพื่อทำความเข้าใจกับรูปแบบในนั้น นี่เป็นงานวิชาการส่วนใหญ่เนื่องจากฉันเกือบจะแน่ใจว่ารูปแบบนี้ถูกสร้างขึ้นโดยโปรแกรมทดสอบดิสก์ แต่ฉันต้องการทำวิศวกรรมย้อนกลับ ฉันรู้อยู่แล้วว่ารูปแบบดังกล่าวอยู่ในแนวเดียวกันโดยมีระยะเวลา 256 อักขระ ฉันสามารถจินตนาการได้สองวิธีในการแสดงข้อมูลนี้: ระนาบ 16x16 ที่ดูผ่านเวลา (3 มิติ) โดยที่แต่ละพิกเซลของสีคือรหัส ASCII สำหรับตัวละครหรือ 256 พิกเซลสำหรับแต่ละช่วงเวลา (2 มิติ) นี่เป็นภาพรวมของรูปแบบ (คุณสามารถดูได้มากกว่าหนึ่งรายการ) มองเห็นผ่านxxd(32x16): ฉันกำลังพยายามหาวิธีแสดงภาพข้อมูลนี้ นี่อาจไม่ใช่เรื่องยากสำหรับทุกคนในการวิเคราะห์สัญญาณ แต่ฉันไม่สามารถหาวิธีใช้ซอฟต์แวร์โอเพ่นซอร์ส ฉันต้องการหลีกเลี่ยง Matlab หรือ Mathematica และฉันต้องการคำตอบใน R เนื่องจากฉันได้เรียนรู้เมื่อเร็ว ๆ นี้ แต่กระนั้นภาษาใดก็ยินดีต้อนรับ อัปเดต, 2014-07-25: ได้รับคำตอบจาก Emre ด้านล่างนี่เป็นรูปแบบที่ได้รับจากรูปแบบ 30MB แรกที่จัดที่ 512 แทน 256 (การจัดตำแหน่งนี้ดูดีกว่า): ยินดีต้อนรับแนวคิดเพิ่มเติมใด ๆ !

11 r visualization

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

แสดงรายการที่ซื้อบ่อยด้วยกัน

ฉันมีชุดข้อมูลในโครงสร้างต่อไปนี้แทรกอยู่ในไฟล์ CSV: Banana Water Rice Rice Water Bread Banana Juice แต่ละแถวบ่งชี้ชุดของรายการที่ซื้อด้วยกัน ตัวอย่างเช่นแถวแรกหมายถึงว่ารายการBanana, WaterและRiceกำลังซื้อด้วยกัน ฉันต้องการสร้างภาพข้อมูลดังนี้: นี่เป็นแผนภูมิกริดโดยทั่วไป แต่ฉันต้องการเครื่องมือบางอย่าง (อาจเป็น Python หรือ R) ที่สามารถอ่านโครงสร้างอินพุตและสร้างแผนภูมิเช่นด้านบนเป็นเอาต์พุต

10 python r data-mining visualization association-rules

2

ggvis vs. ggplot2 + Shiny; สิ่งที่หนึ่งที่เลือกสำหรับการสร้างภาพเชิงโต้ตอบ?

มีคำถามที่คล้ายกันใน CrossValidated และฉันได้อ่านคำตอบแล้ว คำถามของฉันแตกต่างกันเล็กน้อย ฉันไม่ต้องการเพียงแค่เห็นภาพข้อมูลของฉันและแน่นอนสิ่งที่ฉันต้องการเห็นภาพไม่ใช่เรื่องง่ายที่จะเห็นภาพด้วยแพคเกจทั้งสอง ฉันมีจุดสองชุด ( พิกัด ) ในแผนของฉัน ฉันต้องการเพิ่มขอบและทำให้มันคล้ายกับกราฟ หากฉันมีจำนวนคะแนนจากนั้นขึ้นอยู่กับลักษณะของปัญหาของฉันฉันต้องเพิ่มขอบลงในพล็อตx , yx,Yx,ynnn( n / 2 )2(n/2)2(n/2)^2 จากนั้นฉันต้องการเพิ่มฟีเจอร์แบบโต้ตอบลงในพล็อตของฉัน ตัวอย่างเช่นโดยการคลิกที่จุดหนึ่ง (จุดยอด) จุดยอดอื่น ๆ ทั้งหมดที่ไม่ได้เชื่อมต่อกับจุดสุดยอดที่ถูกคลิกนี้จะต้องหายไปเพื่อให้มีพล็อตที่ชัดเจนและมุ่งเน้นมากขึ้น ฉันพยายามค้นหาแพ็คเกจการสร้างภาพเครือข่ายที่เหมาะกับโครงการของฉัน แต่ดูเหมือนว่าพวกเขาทั้งหมดใช้ข้อมูลเกี่ยวกับการเชื่อมต่อของขอบหรือโหนดและจัดหาเครือข่ายตามอัลกอริทึมโครงร่างเฉพาะบางอย่าง ข้อมูลของฉันแตกต่าง ฉันมีพิกัดของโหนดและฉันต้องการสร้างขอบระหว่างบางส่วนของพวกเขา ในข้อมูลของฉันโหนดมีตำแหน่งคงที่ของตัวเองและต้องไม่ย้ายไปมา สุดท้ายฉันแคบลงแพคเกจไปและggvis ใหม่และสดใหม่นอกเหนือจากการออกแบบโดยเจตนาเพื่อสร้างแปลงแบบโต้ตอบ แต่ฉันพบว่ายังสามารถสร้างแปลงแบบโต้ตอบได้ (ถูกต้องหรือไม่) นอกจากนี้ฉันคิดว่าความสามารถของมันนั้นหลากหลายและสมบูรณ์กว่า: ตัวอย่างเช่นมีคุณสมบัติการซูมในขณะที่ไม่มี ที่สำคัญกว่านั้นคือฉันกำลังเติบโตและเปลี่ยนแปลงฉันไม่ต้องการลงทุนเวลามากกับงานที่ล้าสมัยทางเทคนิคหรือบั๊กกี้ในหนึ่งปีหรือมากกว่านั้น ผมคิดว่าเป็นกรณีนี้ถ้าฉันรหัสอยู่บนพื้นฐานของggplot2ggvisggplot2+Shinyggplot2ggvisggplot2ggvisggvisggvis ตอนนี้คุณช่วยประเมินทางเลือกของฉัน ( ggplot2+shiny) และแนะนำฉันเกี่ยวกับความเป็นไปได้ที่จะทำสิ่งที่ฉันต้องการจะทำอย่างไร? เนื่องจากฉันไม่รู้จักแพ็คเกจที่กล่าวมาฉันได้เริ่มเรียนรู้ggplot2จากหนังสือของ Wickham และฉันรักมัน! Shinyแต่ผมกลัวของการใช้จ่ายไม่กี่สัปดาห์ที่ผ่านมาและพบว่าแพคเกจที่น่าตื่นตาตื่นใจนี้ไม่สามารถทำในสิ่งที่ฉันต้องการจะทำแม้จะมีความช่วยเหลือของ PS: ฉันต้องการที่จะใส่รหัสสุดท้ายใน GitHub เพื่อให้ผู้ใช้ที่น่าจะเป็นสามารถดาวน์โหลดและเรียกใช้มัน ดังนั้นฉันไม่จำเป็นต้องสร้างเว็บแอปพลิเคชันไม่จำเป็นต้องมีเว็บไซต์หรือวางแผนที่แบบโต้ตอบออนไลน์ …

10 r visualization ggplot2

คำถามติดแท็ก r