วิทยาศาสตร์ข้อมูล r

2

การทดสอบซอฟต์แวร์สำหรับวิทยาศาสตร์ข้อมูลในอาร์

ฉันมักจะใช้Nose, Tox หรือ Unittestเมื่อทดสอบโค้ดไพ ธ อนของฉันโดยเฉพาะเมื่อต้องรวมเข้ากับโมดูลอื่นหรือโค้ดอื่น ๆ อย่างไรก็ตามตอนนี้ฉันพบว่าตัวเองใช้ R มากกว่า python สำหรับ ML model และการพัฒนา ฉันรู้ว่าฉันไม่ได้ทดสอบโค้ด R ของฉัน (และที่สำคัญกว่านั้นคือฉันไม่รู้ว่าจะทำอย่างไรดี) ดังนั้นคำถามของฉันคืออะไรแพ็คเกจที่ดีที่ให้คุณทดสอบรหัส R ในลักษณะที่คล้ายกับ Nose, Tox หรือ Unittest ใน Python การอ้างอิงเพิ่มเติมเช่นบทเรียนจะได้รับการชื่นชมอย่างมากเช่นกัน คะแนนโบนัสสำหรับแพ็คเกจใน R คล้ายกับ สมมติฐาน หรือ คุณสมบัติปลอม พูดคุยที่เกี่ยวข้อง: Trey Causey: การทดสอบสำหรับนักวิทยาศาสตร์ข้อมูล

10 r software-development

1

การบรรจบกันของวิธีการ Hartigan-Wong k-mean และอัลกอริธึมอื่น ๆ

ฉันพยายามทำความเข้าใจเกี่ยวกับอัลกอริธึมการจัดกลุ่ม k-mean ต่าง ๆ ซึ่งส่วนใหญ่นำไปใช้ในstatsแพ็คเกจRภาษา ฉันเข้าใจอัลกอริทึมของ Lloyd และอัลกอริทึมออนไลน์ของ MacQueen วิธีที่ฉันเข้าใจพวกเขามีดังนี้: อัลกอริทึมของ Lloyd: การสำรวจแบบสุ่ม 'k' ในขั้นต้นจะถูกเลือกซึ่งจะทำหน้าที่เป็น centroids ของกลุ่ม 'k' จากนั้นขั้นตอนต่อไปนี้เกิดขึ้นในการทำซ้ำจนกว่าเซนทรอยด์จะบรรจบกัน ระยะทางแบบยุคลิดระหว่างการสังเกตแต่ละครั้งและเซนทรอยด์ที่เลือกจะถูกคำนวณ การสังเกตที่ใกล้เคียงกับเซนทรอยด์แต่ละตัวจะถูกติดแท็กไว้ภายในที่เก็บข้อมูล 'k' ค่าเฉลี่ยของการสังเกตทั้งหมดในถังแต่ละใบทำหน้าที่เป็นเซนทรอยด์ใหม่ เซนทรอยด์ใหม่จะแทนที่เซนทรอยด์เก่าและการทำซ้ำจะกลับไปที่ขั้นตอนที่ 1 หากเซนทรอยด์เก่าและใหม่ไม่ได้แปรสภาพ เงื่อนไขที่จะมาบรรจบกันมีดังต่อไปนี้: เซนทรอยด์เก่าและใหม่นั้นเหมือนกันทุกประการความแตกต่างระหว่างเซนทรอยด์นั้นเล็ก (จากลำดับที่ 10 ^ -3) หรือถึงจำนวนสูงสุดของการทำซ้ำ (10 หรือ 100) อัลกอริทึมของ MacQueen: นี่เป็นเวอร์ชั่นออนไลน์ที่อินสแตนซ์ 'k' ตัวแรกถูกเลือกเป็น centroids จากนั้นแต่ละอินสแตนซ์จะถูกวางในถังขึ้นอยู่กับเซนทรอยด์ที่ใกล้เคียงกับอินสแตนซ์นั้น เซนทรอยด์ที่เกี่ยวข้องจะถูกคำนวณใหม่ ทำซ้ำขั้นตอนนี้จนกระทั่งแต่ละอินสแตนซ์ถูกวางในที่ฝากข้อมูลที่เหมาะสม อัลกอริทึมนี้มีการวนซ้ำเพียงครั้งเดียวและการวนซ้ำดำเนินต่อไปสำหรับอินสแตนซ์ 'x' อัลกอริทึม Hartigan-Wong: กำหนดคะแนน …

10 r clustering k-means

5

LSTM หรือแพ็คเกจ RNN อื่น ๆ สำหรับ R

ฉันเห็นผลลัพธ์ที่น่าประทับใจจากโมเดล LSTM ที่ผลิตเช็คสเปียร์เหมือนตำรา ฉันสงสัยว่ามีแพ็คเกจ LSTM สำหรับ R. I googled แต่พบแพ็คเกจสำหรับ Python และ Julia เท่านั้น (อาจมีปัญหาประสิทธิภาพการทำงานบางอย่างซึ่งอธิบายว่าทำไมโปรแกรมเหล่านี้จึงเป็นที่นิยมมากกว่า R) คุณรู้จักแพ็คเกจ LSTM (หรืออย่างน้อย RNN) สำหรับ R หรือไม่? หากมีบทเรียนใดบ้างสำหรับการใช้งาน

10 r neural-network rnn

1

ไลบรารี่สำหรับ (อัลกอริธึมการแพร่กระจายฉลาก / การทำเหมืองกราฟย่อยบ่อย) สำหรับกราฟใน R

คำอธิบายทั่วไปของปัญหา ฉันมีกราฟที่จุดยอดบางจุดติดป้ายกำกับประเภทที่มีค่าที่เป็นไปได้ 3 หรือ 4 สำหรับจุดยอดอื่นไม่ทราบประเภท เป้าหมายของฉันคือการใช้กราฟเพื่อทำนายประเภทของจุดยอดที่ไม่มีป้ายกำกับ กรอบที่เป็นไปได้ ฉันสงสัยว่าสิ่งนี้เหมาะสมกับกรอบทั่วไปของปัญหาการแพร่กระจายของฉลากตามการอ่านวรรณกรรมของฉัน (เช่นดูบทความนี้และบทความนี้ ) อีกวิธีหนึ่งที่กล่าวถึงมักจะเป็นFrequent Subgraph Miningซึ่งรวมถึงขั้นตอนวิธีการเช่นSUBDUE, และSLEUTHgSpan พบใน R เพียงการดำเนินการขยายพันธุ์ฉลากฉันจัดการเพื่อหาRคือlabel.propagation.community()จากigraphห้องสมุด อย่างไรก็ตามตามชื่อที่แนะนำส่วนใหญ่จะใช้เพื่อค้นหาชุมชนไม่ใช่สำหรับการจำแนกจุดยอดที่ไม่มีป้ายกำกับ ดูเหมือนว่าจะมีการอ้างอิงหลายรายการไปยังsubgraphMiningห้องสมุด (ตัวอย่างเช่นที่นี่) แต่ดูเหมือนว่ามันจะหายไปจาก CRAN คำถาม คุณรู้จักห้องสมุดหรือกรอบงานที่อธิบายไว้หรือไม่?

10 classification r graphs

4

เรียนรู้การถดถอยอันดับใน R?

ฉันกำลังทำงานในโครงการและต้องการทรัพยากรเพื่อให้ได้ความเร็ว ชุดข้อมูลอยู่ที่ประมาณ 35000 ข้อสังเกตในตัวแปร 30 ตัวหรือมากกว่านั้น ประมาณครึ่งหนึ่งของตัวแปรนั้นมีการจัดหมวดหมู่และบางส่วนมีค่าที่เป็นไปได้ที่แตกต่างกันมากมายเช่นถ้าคุณแบ่งตัวแปรเด็ดขาดออกเป็นตัวแปรดัมมี่คุณจะมีตัวแปรมากกว่า 30 ตัว แต่ก็ยังคงอยู่ในคำสั่งของสองสามร้อยสูงสุด (n> P) การตอบสนองที่เราต้องการทำนายคือลำดับที่ 5 ระดับ (1,2,3,4,5) ตัวทำนายนั้นเป็นการผสมผสานอย่างต่อเนื่องและเป็นหมวดหมู่ประมาณครึ่งหนึ่ง นี่คือความคิด / แผนของฉันจนถึงตอนนี้: 1. ปฏิบัติต่อการตอบสนองอย่างต่อเนื่องและดำเนินการถดถอยเชิงเส้นวานิลลา 2. เรียกใช้ค่าปกติและเลขลอจิสติกและการถดถอยแบบ probit 3. ใช้ MARS และ / หรือรสชาติอื่นของการถดถอยแบบไม่เชิงเส้น ฉันคุ้นเคยกับการถดถอยเชิงเส้น MARS อธิบายได้ดีจาก Hastie และ Tibshirani แต่ฉันกำลังสูญเสียเมื่อพูดถึงลำดับ logit / probit โดยเฉพาะกับตัวแปรจำนวนมากและชุดข้อมูลขนาดใหญ่ ดูเหมือนว่าแพคเกจ r ของglmnetcrจะเป็นทางออกที่ดีที่สุดของฉันจนถึงตอนนี้ แต่เอกสารแทบจะไม่พอเลยที่จะได้รับตำแหน่งที่ฉันต้องการ ฉันจะไปเรียนรู้เพิ่มเติมได้ที่ไหน

10 r logistic-regression

3

ข้อ จำกัด ของหน่วยความจำของ R คืออะไร?

ในการตรวจสอบ“ แบบจำลองการพยากรณ์ที่ประยุกต์ใช้ ” รัฐผู้ตรวจสอบ : คำวิจารณ์อย่างหนึ่งที่ฉันมีเกี่ยวกับการเรียนการสอนเชิงสถิติ (SL) คือการขาดการพิจารณาประสิทธิภาพการคำนวณในการประเมินเทคนิคการสร้างแบบจำลองที่แตกต่างกัน ด้วยความมุ่งมั่นในการทำ bootstrapping และ cross-validation เพื่อปรับแต่ง / ทดสอบแบบจำลอง SL นั้นค่อนข้างใช้งานเชิงคำนวณ เพิ่มไปที่การสุ่มตัวอย่างใหม่ที่ฝังอยู่ในเทคนิคต่าง ๆ เช่นการบรรจุถุงและการเพิ่มระดับและคุณมีปีศาจแห่งการคำนวณสำหรับการเรียนรู้แบบกำกับดูแลของชุดข้อมูลขนาดใหญ่ ในความเป็นจริงข้อ จำกัด หน่วยความจำของ R กำหนดข้อ จำกัด ที่ค่อนข้างรุนแรงต่อขนาดของรุ่นที่สามารถปรับให้พอดีกับวิธีที่มีประสิทธิภาพสูงสุดเช่นฟอเรสต์แบบสุ่ม แม้ว่า SL จะทำการปรับเทียบประสิทธิภาพของแบบจำลองกับชุดข้อมูลขนาดเล็กได้ดี แต่ก็มั่นใจว่าจะเข้าใจประสิทธิภาพและค่าใช้จ่ายในการคำนวณสำหรับข้อมูลขนาดใหญ่ ข้อ จำกัด ของหน่วยความจำของ R คืออะไรและพวกเขากำหนดข้อ จำกัด ที่รุนแรงกับขนาดของแบบจำลองที่สามารถปรับให้เหมาะสมโดยวิธีการที่มีประสิทธิภาพสูงสุดเช่นป่าสุ่มหรือไม่

10 apache-hadoop r

1

คุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อสร้างต้นไม้ตัดสินใจโดยใช้ R หรือไม่?

ดังนั้นชุดข้อมูลของเราในสัปดาห์นี้มี 14 แอตทริบิวต์และแต่ละคอลัมน์มีค่าแตกต่างกันมาก คอลัมน์หนึ่งมีค่าต่ำกว่า 1 ในขณะที่อีกคอลัมน์หนึ่งมีค่าที่เปลี่ยนจากตัวเลขสามหลักเป็นสี่หลัก เราเรียนรู้การทำให้เป็นมาตรฐานในสัปดาห์ที่แล้วและดูเหมือนว่าคุณควรจะทำให้ข้อมูลเป็นมาตรฐานเมื่อพวกเขามีค่าแตกต่างกันมาก สำหรับต้นไม้ตัดสินใจมันเหมือนกันหรือไม่? ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ แต่การทำข้อมูลให้เป็นมาตรฐานจะส่งผลต่อโครงสร้างการตัดสินใจที่เกิดจากชุดข้อมูลเดียวกันหรือไม่ ดูเหมือนไม่ควร แต่ ...

10 r beginner

3

ฟอเรสต์แบบสุ่มในข้อผิดพลาด Amazon ec2: ไม่สามารถจัดสรรเวกเตอร์ที่มีขนาด 5.4 Gb

ฉันกำลังฝึกอบรมโมเดลฟอเรสต์แบบสุ่มใน R โดยใช้randomForest()ต้นไม้ 1,000 ต้นและเฟรมข้อมูลพร้อมตัวทำนาย 20 ตัวและแถว 600K ทุกอย่างในแล็ปท็อปของฉันใช้งานได้ดี แต่เมื่อฉันย้ายไปที่ amazon ec2 เพื่อทำงานแบบเดียวกันฉันได้รับข้อผิดพลาด: Error: cannot allocate vector of size 5.4 Gb Execution halted ฉันใช้c3.4xlargeประเภทอินสแตนซ์ดังนั้นมันจึงค่อนข้างอ้วน ไม่มีใครรู้วิธีแก้ปัญหานี้เพื่อให้มันทำงานบนอินสแตนซ์นี้หรือไม่? ฉันชอบที่จะทราบถึงความแตกต่างของหน่วยความจำที่ทำให้เกิดปัญหานี้เฉพาะในอินสแตนซ์ ec2 เท่านั้นและไม่ได้อยู่ในแล็ปท็อปของฉัน (โปรเซสเซอร์ X OS 10.9.5 2.7 GHz Intel Core i7; หน่วยความจำ 16 GB 1600 MHz DDR3) ขอบคุณ

9 r random-forest

3

มีเทคนิคการเรียนรู้ด้วยเครื่องเพื่อระบุคะแนนในแปลง / ภาพหรือไม่?

ฉันมีข้อมูลสำหรับตำแหน่งด้านข้างของรถแต่ละคันเมื่อเวลาผ่านไปและหมายเลขช่องทางตามที่แสดงใน 3 แปลงในภาพและข้อมูลตัวอย่างด้านล่าง > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 ตำแหน่งด้านข้างแตกต่างกันไปตามกาลเวลาเนื่องจากคนขับรถมนุษย์ไม่สามารถควบคุมตำแหน่งของยานพาหนะได้อย่างสมบูรณ์แบบ การเปลี่ยนเลนเริ่มต้นเมื่อตำแหน่งด้านข้างเปลี่ยนไปอย่างมากและสิ้นสุดลงเมื่อความแปรปรวนกลายเป็น 'ปกติ' อีกครั้ง ไม่สามารถระบุได้จากข้อมูลโดยตรง ฉันต้องดูพล็อตของยานพาหนะแต่ละคันด้วยตนเองเพื่อกำหนดจุดเริ่มต้นและจุดสิ้นสุดของการเปลี่ยนเลนเพื่อประเมินระยะเวลาของการเปลี่ยนเลน แต่ฉันมียานพาหนะหลายพันคันในชุดข้อมูล คุณช่วยชี้แนะทางไปยังอัลกอริธึมการวิเคราะห์รูปภาพ / เครื่องเรียนรู้ที่เกี่ยวข้องซึ่งสามารถฝึกฝนเพื่อระบุประเด็นเหล่านี้ได้หรือไม่? ฉันทำงานในอาร์ขอบคุณล่วงหน้า

8 machine-learning r

คำถามติดแท็ก r