สถิติและข้อมูลขนาดใหญ่ r

4

แพลตฟอร์มการประมวลผลแบบคลาวด์สำหรับการเรียนรู้ของเครื่อง [ปิด]

ฉันมีรายชื่อ บริษัท เล็ก ๆ ที่ให้บริการแพลตฟอร์มสำหรับการรันสคริปต์ R, python หรืออ็อกเทฟบนคลัสเตอร์ที่สร้างขึ้นบน amazon EC2 มีชื่ออื่นที่ฉันควรเพิ่มหรือไม่ Cloudnumbers Opani crdata

36 r machine-learning

3

สร้าง "คะแนนความมั่นใจ" จากคะแนนในป่าสุ่ม?

ฉันกำลังมองหาในการฝึกอบรมลักษณนามที่จะแยกแยะระหว่างType AและType Bวัตถุที่มีชุดการฝึกอบรมที่มีขนาดใหญ่พอสมควรประมาณ 10,000 วัตถุประมาณครึ่งหนึ่งของที่มีและครึ่งหนึ่งของที่มีType A Type Bชุดข้อมูลประกอบด้วย 100 คุณสมบัติอย่างต่อเนื่องซึ่งมีรายละเอียดคุณสมบัติทางกายภาพของเซลล์ (ขนาด, รัศมีเฉลี่ย, ฯลฯ ) การแสดงข้อมูลในสปิตเตอร์แพล็ตฟอร์มและแผนการแปลงความหนาแน่นบอกเราว่ามีการทับซ้อนกันอย่างมีนัยสำคัญในการแจกแจงของเซลล์มะเร็งและเซลล์ปกติในคุณลักษณะหลายอย่าง ขณะนี้ฉันกำลังสำรวจป่าสุ่มเป็นวิธีการจำแนกสำหรับชุดข้อมูลนี้และฉันได้เห็นผลลัพธ์ที่ดี การใช้ R ป่าแบบสุ่มสามารถจำแนกวัตถุได้อย่างถูกต้องประมาณ 90% หนึ่งในสิ่งที่เราต้องการลองทำคือการสร้าง "คะแนนความเชื่อมั่น" ที่จะบอกปริมาณว่าเรามีความมั่นใจในการจำแนกประเภทของวัตถุอย่างไร เรารู้ว่าลักษณนามของเราจะไม่ถูกต้อง 100% และแม้ว่าความแม่นยำสูงในการคาดการณ์ที่จะประสบความสำเร็จเราจะต้องการเทคนิคการฝึกอบรมที่จะระบุว่าวัตถุอย่างแท้จริงและType A Type Bดังนั้นแทนที่จะให้การคาดการณ์ที่แน่วแน่ของType AหรือType Bเราต้องการที่จะนำเสนอคะแนนสำหรับแต่ละวัตถุที่จะอธิบายถึงวิธีการAหรือBวัตถุ ตัวอย่างเช่นถ้าเรากำหนดคะแนนที่มีช่วงตั้งแต่ 0 ถึง 10 คะแนน 0 อาจบ่งบอกว่าวัตถุนั้นคล้ายกับType Aวัตถุมากในขณะที่คะแนน 10 จะบ่งบอกว่าวัตถุนั้นมีลักษณะคล้ายType Bกันมาก ฉันคิดว่าฉันสามารถใช้คะแนนภายในป่าสุ่มเพื่อคิดคะแนนเช่นนี้ เนื่องจากการจำแนกในป่าสุ่มจะกระทำโดยการโหวตส่วนใหญ่ภายในป่าของต้นไม้ที่สร้างขึ้นฉันจะสมมติว่าวัตถุที่ได้รับการโหวต 100% ของต้นไม้Type Aจะแตกต่างจากวัตถุที่ได้รับการโหวตโดยพูดว่า 51% ของต้นไม้ Type …

36 r machine-learning random-forest

5

ฟังก์ชั่นจับเวลาใน R [ปิด]

ฉันต้องการวัดเวลาที่ใช้ในการเรียกใช้ฟังก์ชันซ้ำ มีreplicate()และใช้ for-loops ที่เทียบเท่าหรือไม่ ตัวอย่างเช่น: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); ซึ่งเป็นวิธีที่ต้องการ ในเอาต์พุตของsystem.time(), sys+userเวลา CPU จริงสำหรับการรันโปรแกรมคืออะไร? เป็นelapsedมาตรการที่ดีของการทำงานช่วงเวลาของโปรแกรมได้หรือไม่

36 r

2

วิธีการตีความ glmnet?

ฉันกำลังพยายามปรับตัวแบบการถดถอยเชิงเส้นหลายตัวแปรที่มีตัวแปรทำนาย 60 ตัวและการสังเกต 30 ครั้งดังนั้นฉันจึงใช้แพ็คเกจglmnetสำหรับการถดถอยแบบปกติเพราะ p> n ฉันได้อ่านเอกสารและคำถามอื่น ๆ แล้ว แต่ฉันก็ยังไม่สามารถตีความผลลัพธ์ได้นี่คือตัวอย่างโค้ด (ที่มีตัวทำนาย 20 ตัวและตัวสังเกต 10 ข้อเพื่อลดความซับซ้อน): ฉันสร้างเมทริกซ์ x พร้อมแถว num = การสังเกต num และ num cols = ตัวทำนาย NUM และเวกเตอร์ y ซึ่งแสดงถึงตัวแปรตอบสนอง > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) ฉันพอดีกับรูปแบบ glmnet ที่ปล่อยให้อัลฟาเป็นค่าเริ่มต้น (= 1 สำหรับการลงโทษบ่วงบาศ) > fit1=glmnet(x,y) > print(fit1) ฉันเข้าใจว่าฉันได้รับการทำนายที่แตกต่างจากการลดค่าแลมบ์ดา (เช่นการลงโทษ) Call: glmnet(x …

36 r regression regularization glmnet

1

ทำไมการทดสอบของ Mantel จึงเป็นที่ต้องการมากกว่า Moran I

การทดสอบของ Mantelใช้กันอย่างแพร่หลายในการศึกษาทางชีววิทยาเพื่อตรวจสอบความสัมพันธ์ระหว่างการกระจายของพื้นที่ของสัตว์ (ตำแหน่งในอวกาศ) ด้วยเช่นความสัมพันธ์ทางพันธุกรรมอัตราการรุกรานหรือคุณลักษณะอื่น ๆ มีวารสารที่ดีมากมายที่ใช้มัน ( PNAS, พฤติกรรมสัตว์, นิเวศวิทยาโมเลกุล ... ) ฉันประดิษฐ์รูปแบบบางอย่างที่อาจเกิดขึ้นตามธรรมชาติ แต่การทดสอบของ Mantel ดูเหมือนว่าไม่มีประโยชน์เลยที่จะตรวจจับพวกมัน บนมืออื่น ๆ , โมแรนฉันได้ผลลัพธ์ที่ดีกว่า(ดูหน้าค่าในแต่ละล็อต) ทำไมนักวิทยาศาสตร์ไม่ใช้โมแรนฉันแทน? มีเหตุผลซ่อนเร้นที่ฉันไม่เห็นหรือไม่? และถ้ามีเหตุผลบางอย่างฉันจะรู้ได้อย่างไร (จะต้องสร้างสมมติฐานต่างกันอย่างไร) เพื่อใช้การทดสอบของ Mantel หรือ Moran I อย่างเหมาะสม? ตัวอย่างในชีวิตจริงจะเป็นประโยชน์ ลองนึกภาพสถานการณ์นี้:มีสวนผลไม้ (17 x 17 ต้น) ที่มีอีกากำลังนั่งอยู่บนต้นไม้แต่ละต้น ระดับของ "เสียงรบกวน" สำหรับแต่ละอีกานั้นมีให้บริการและคุณต้องการทราบว่าการกระจายของอีกาในอวกาศนั้นถูกกำหนดโดยเสียงรบกวนหรือไม่ มี (อย่างน้อย) 5 ความเป็นไปได้: "นกขนนกแห่กันไป" กาที่คล้ายกันมากขึ้นมีขนาดเล็กของระยะทางระหว่างพวกเขา(กลุ่มเดียว) "นกขนนกแห่กันไป" อีกครั้งที่อีกาที่คล้ายกันคือระยะทางทางภูมิศาสตร์ที่เล็กกว่า(หลายกลุ่ม)แต่กลุ่มที่มีเสียงดังกาไม่มีความรู้เกี่ยวกับการมีอยู่ของกระจุกดาวที่สอง "แนวโน้มแบบโมโนโทนิก" "ตรงกันข้ามดึงดูด" …

36 r correlation spatial pattern-recognition

6

วิธีการจับคู่กึ่งเวกเตอร์ของสตริง (ใน R) อย่างไร

ฉันไม่แน่ใจว่าควรจะเรียกศัพท์นี้ได้อย่างไรดังนั้นโปรดแก้ไขให้ถูกต้องหากคุณรู้จักคำศัพท์ที่ดีขึ้น ฉันมีสองรายการ หนึ่งใน 55 รายการ (เช่น: เวกเตอร์ของสตริง) อีก 92 รายการชื่อจะคล้ายกัน แต่ไม่เหมือนกัน ฉันต้องการที่จะหาสิ่งที่ดีที่สุดสำหรับผู้สมัครsใน 92 รายการกับรายการใน 55 รายการ (จากนั้นผมก็จะผ่านมันไปและเลือกที่เหมาะสมถูกต้อง) จะทำอย่างไร? ความคิดเห็นที่ฉันมีต่อ: ดูรายการที่ตรงกันทั้งหมด (ใช้รายการที่ตรงกันหรือไม่) ลองใช้เมทริกซ์ระยะทางระหว่างสตริงเวกเตอร์ แต่ฉันไม่แน่ใจว่าจะกำหนดได้ดีที่สุดอย่างไร (จำนวนตัวอักษรเหมือนกันลำดับของสตริงล่ะ) ดังนั้นแพคเกจ / ฟังก์ชั่น / สาขาการวิจัยที่เกี่ยวข้องกับงานดังกล่าวและอย่างไร Update: นี่คือตัวอย่างของเวคเตอร์ที่ฉันต้องการจับคู่ vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", …

36 r text-mining

1

Quantile regression: ข้อผิดพลาดมาตรฐานใด

summary.rqฟังก์ชั่นจากบทความ quantregให้ความหลากหลายของตัวเลือกสำหรับการประมาณการข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอย quantile สถานการณ์พิเศษอะไรบ้างที่แต่ละสถานการณ์มีความเหมาะสมที่สุด "อันดับ" ซึ่งสร้างช่วงความเชื่อมั่นสำหรับพารามิเตอร์ที่ประเมินโดยการคว่ำการทดสอบยศตามที่อธิบายไว้ใน Koenker (1994) ตัวเลือกเริ่มต้นจะถือว่าความผิดพลาดคือ iid ในขณะที่ตัวเลือก iid = FALSE ใช้ข้อเสนอของ Koenker Machado (1999) ดูเอกสารประกอบสำหรับ rq.fit.br สำหรับข้อโต้แย้งเพิ่มเติม "iid" ซึ่งสันนิษฐานว่าข้อผิดพลาดคือ iid และคำนวณการประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบ asymptotic เช่นเดียวกับใน KB (1978) "nid" ซึ่งทึกทักท้องถิ่น (เป็นเอกภาพ) เป็นเชิงเส้น (ใน x) ของฟังก์ชั่นที่เป็นเงื่อนไขและคำนวณคำนวณแซนวิชฮิวเบอร์โดยใช้ประมาณการท้องถิ่นของกระจัดกระจาย "เคอร์" ซึ่งใช้การประเมินเคอร์เนลของแซนด์วิชตามที่เสนอโดย Powell (1990) "boot" ซึ่งใช้หนึ่งในหลาย ๆ ทางเลือกในการบู๊ตที่เป็นไปได้เพื่อประเมินข้อผิดพลาดมาตรฐาน ฉันได้อ่านเอกสารเชิงประจักษ์อย่างน้อย 20 เรื่องซึ่งมีการนำไปใช้ในชุดเวลาหรือมิติตัดขวางและไม่เคยเห็นการกล่าวถึงตัวเลือกข้อผิดพลาดมาตรฐาน

35 r standard-error quantile-regression estimators

2

สูตร R-squared ที่ปรับแล้วใน lm ใน R คืออะไรและควรตีความอย่างไร

สูตรที่แน่นอนที่ใช้ใน R lm() สำหรับการปรับ R-squared คืออะไร? ฉันจะตีความมันได้อย่างไร ปรับสูตร r-squared ดูเหมือนจะมีสูตรอยู่หลายสูตรในการคำนวณการปรับ R-squared สูตรของ Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} สูตรของ McNemar: 1 - ( 1 - R2) ( n - 1 )( n - v - 1 )1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} สูตรของลอร์ด: 1 - …

35 r regression r-squared lm shrinkage

3

วิธีการตีความ OOB และเมทริกซ์ความสับสนสำหรับป่าสุ่ม?

ฉันได้สคริปต์ R จากบางคนเพื่อใช้โมเดลฟอเรสต์แบบสุ่ม ฉันแก้ไขและรันด้วยข้อมูลพนักงานบางส่วน เราพยายามทำนายการแยกโดยสมัครใจ นี่คือข้อมูลเพิ่มเติม: นี่คือรูปแบบการจัดหมวดหมู่คือ 0 = พนักงานยังคงอยู่ 1 = พนักงานถูกยกเลิกตอนนี้เรากำลังดูตัวแปรทำนายโหลเพียงอย่างเดียวข้อมูลคือ "ไม่สมดุล" ในคำว่าระเบียนทำขึ้นประมาณ 7 % ของชุดระเบียนทั้งหมด ฉันรันโมเดลด้วยการเลือก mtry และ ntree ที่หลากหลาย แต่ตัดสินที่ด้านล่าง OOB คือ 6.8% ซึ่งฉันคิดว่าดี แต่เมทริกซ์ความสับสนดูเหมือนจะบอกเล่าเรื่องราวที่แตกต่างกันสำหรับการทำนายเงื่อนไขเนื่องจากอัตราความผิดพลาดค่อนข้างสูงที่ 92.79% ฉันคิดถูกว่าฉันไม่สามารถพึ่งพาและใช้โมเดลนี้ได้เพราะ อัตราความผิดพลาดสูงสำหรับการทำนายคำศัพท์คืออะไร? หรือมีบางอย่างที่ฉันสามารถทำได้เพื่อใช้ RF และได้รับอัตราความผิดพลาดน้อยลงสำหรับการทำนายคำศัพท์? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% …

35 r classification error random-forest

5

การใช้ฟังก์ชั่น 'comment' ใน R คืออะไรดี?

ฉันเพิ่งค้นพบcommentฟังก์ชั่นในอาร์ตัวอย่าง: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) นี่เป็นครั้งแรกที่ฉันมาด้วยฟังก์ชั่นนี้และสงสัยว่าการใช้งานทั่วไป / มีประโยชน์คืออะไร เนื่องจากเป็นการยากที่จะค้นหา "ความคิดเห็น R" ใน google และค้นหาผลลัพธ์ที่เกี่ยวข้องฉันจึงหวังว่าจะมีใครบางคนที่นี่อาจแชร์ด้วยประสบการณ์ของเขา

35 r

1

การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)

ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

35 r regression logistic statistical-significance generalized-linear-model

4

เหตุใดการถดถอยของโลจิสติกจึงไม่เสถียรเมื่อมีการแยกคลาสอย่างชัดเจน

ทำไมการถดถอยโลจิสติกจึงไม่เสถียรเมื่อชั้นเรียนถูกแยกออกจากกัน คลาสที่แยกกันอย่างดีหมายถึงอะไร ฉันจะขอบคุณจริง ๆ ถ้ามีคนอธิบายตัวอย่างได้

34 r regression logistic separation

3

R - สับสนในคำศัพท์ที่เหลือ

รูทหมายความว่าข้อผิดพลาดกำลังสอง ผลรวมที่เหลือของกำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ หมายถึงข้อผิดพลาดกำลังสอง ข้อผิดพลาดในการทดสอบ ฉันคิดว่าฉันเคยเข้าใจเงื่อนไขเหล่านี้ แต่ยิ่งฉันมีปัญหาทางสถิติมากเท่าไหร่ฉันก็ยิ่งสับสนมากขึ้น ฉันต้องการความมั่นใจอีกครั้ง & เป็นตัวอย่างที่ชัดเจน ฉันสามารถหาสมการได้อย่างง่ายดายพอออนไลน์ แต่ฉันมีปัญหาในการอธิบาย 'อธิบายเหมือนฉัน 5' ของคำศัพท์เหล่านี้เพื่อให้ฉันสามารถตกผลึกในหัวของฉันความแตกต่างและวิธีหนึ่งนำไปสู่อีก หากใครสามารถใช้รหัสนี้ด้านล่างและชี้ให้เห็นว่าฉันจะคำนวณเงื่อนไขเหล่านี้ได้อย่างไรฉันจะขอบคุณมัน รหัส R จะดีมาก .. ใช้ตัวอย่างนี้ด้านล่าง: summary(lm(mpg~hp, data=mtcars)) แสดงให้ฉันในรหัส R วิธีการค้นหา: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ คะแนนโบนัสสำหรับการอธิบายเช่นฉัน …

34 r regression residuals

2

รูปแบบเอฟเฟกต์ผสมกับการทำรัง

ฉันมีข้อมูลที่รวบรวมจากการทดสอบที่จัดระเบียบดังนี้: สองไซต์แต่ละแห่งมีต้นไม้ 30 ต้น ได้รับการปฏิบัติ 15, 15 คือการควบคุมในแต่ละเว็บไซต์ จากต้นไม้แต่ละต้นเราสุ่มตัวอย่างก้านสามชิ้นและรากสามชิ้นดังนั้น 6 ระดับ 1 ตัวอย่างต่อต้นซึ่งแสดงโดยหนึ่งในสองระดับปัจจัย (รากลำต้น) จากนั้นตัวอย่างต้นกำเนิด / รากเราใช้สองตัวอย่างโดยการผ่าเนื้อเยื่อต่าง ๆ ภายในตัวอย่างซึ่งแสดงโดยหนึ่งในสองระดับปัจจัยสำหรับประเภทเนื้อเยื่อ (ประเภทเนื้อเยื่อ A, ประเภทเนื้อเยื่อ B) ตัวอย่างเหล่านี้วัดเป็นตัวแปรต่อเนื่อง จำนวนการสังเกตทั้งหมดคือ 720; 2 ไซต์ * ต้นไม้ 30 ต้น * (ตัวอย่างลำต้นสามชิ้น + ตัวอย่างรากสามต้น) * (เนื้อเยื่อหนึ่งตัวอย่าง + เนื้อเยื่อหนึ่งตัวอย่าง B) ข้อมูลมีลักษณะเช่นนี้ ... ï..Site Tree Treatment Organ Sample Tissue Total_Length …

34 r mixed-model model nested-data lme4-nlme

3

วิธีการตีความค่าเฉลี่ยลดลงในความแม่นยำและค่าเฉลี่ยลดลง GINI ในรูปแบบป่าสุ่ม

ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่ สมมติว่าเรามีรูปแบบดังต่อไปนี้: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of …

34 r machine-learning classification random-forest

คำถามติดแท็ก r