สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ตัวแปรสำคัญจาก GLMNET
ฉันกำลังดูการใช้ lasso เป็นวิธีการเลือกคุณสมบัติและปรับโมเดลการทำนายให้เหมาะสมกับเป้าหมายไบนารี ด้านล่างนี้เป็นรหัสที่ฉันเล่นด้วยเพื่อลองใช้วิธีที่มีการถดถอยโลจิสติกปกติ คำถามของฉันคือฉันได้รับกลุ่มตัวแปร "สำคัญ" แต่ฉันสามารถจัดอันดับสิ่งเหล่านี้เพื่อประเมินความสำคัญสัมพัทธ์ของแต่ละรายการได้หรือไม่ สัมประสิทธิ์สามารถเป็นมาตรฐานสำหรับจุดประสงค์ของการจัดอันดับนี้ด้วยค่าสัมบูรณ์ (ฉันเข้าใจว่าพวกเขาจะแสดงในระดับตัวแปรดั้งเดิมผ่านcoefฟังก์ชั่น)? หากดังนั้นวิธีที่จะทำเช่นนั้น (ใช้ค่าเบี่ยงเบนมาตรฐานของ x และ y) วางมาตรฐานค่าสัมประสิทธิ์การถดถอย รหัสตัวอย่าง: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), …

5
การจำแนกข้อความขนาดใหญ่
ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ ) ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน): การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ ( tf-idfหรือvector space model) Feature selection( Mutual Informationโดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ ) การฝึกอบรมลักษณนาม ( SVM, Naive Bayes, Logistic RegressionหรือRandom Forest) การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่? ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? …

4
กรอบการเรียนรู้แบบเบย์ดีกว่าในการตีความอย่างไรเมื่อเรามักใช้นักบวชที่ไม่เป็นทางการหรือเป็นอัตนัย
มันมักจะเป็นที่ถกเถียงกันอยู่ว่ากรอบการทำงานแบบเบย์มีประโยชน์อย่างมากในการตีความ (มากกว่าบ่อยครั้ง) เพราะมันคำนวณความน่าจะเป็นของพารามิเตอร์ที่กำหนดข้อมูล -แทนใน กรอบบ่อย จนถึงตอนนี้ดีมากp(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta) แต่สมการทั้งหมดขึ้นอยู่กับ: p(θ|x)=p(x|θ).p(θ)p(x)p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} ฉันสงสัยเล็กน้อยด้วยเหตุผล 2 ประการ: ในเอกสารจำนวนมากมีการใช้ตัวพิมพ์ใหญ่แบบปกติ (การแจกแจงแบบสม่ำเสมอ) และใช้เพียงแค่ดังนั้น Bayesians จะได้ผลลัพธ์เช่นเดียวกับผู้ที่ได้รับบ่อย การตีความเมื่อเบย์หลังและบ่อยครั้งความน่าจะเป็นการแจกแจงเดียวกันคืออะไร? มันให้ผลลัพธ์ที่เหมือนกันp(θ|x)=p(x|θ)p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) เมื่อใช้ข้อมูลที่มีค่าคุณจะได้รับผลลัพธ์ที่แตกต่างกัน แต่ Bayesian ได้รับผลกระทบจากบุคคลก่อนดังนั้นทั้งหมดจึงมีสีแบบอัตนัยเช่นกันp(θ|x)p(θ|x)p(\theta|x) กล่าวอีกนัยหนึ่งการโต้แย้งทั้งหมดของดีกว่าในการตีความมากกว่าp (x | \ theta) ที่สร้างขึ้นบนสมมุติฐานว่าp (\ theta)เป็น "จริง" ชนิดซึ่งปกติไม่ใช่มัน เป็นเพียงจุดเริ่มต้นที่เราเลือกที่จะทำให้การเรียกใช้ MCMC เป็นข้อสันนิษฐาน แต่ไม่ใช่คำอธิบายของความเป็นจริง (มันไม่สามารถนิยามได้ฉันคิด)p(θ|x)p(θ|x)p(\theta|x)p(x|θ)p(x|θ)p(x|\theta)p(θ)p(θ)p(\theta) แล้วเราจะเถียงได้อย่างไรว่าชาวเบเซียนนั้นดีกว่าในการตีความ?


1
ควรคำนวณข้อผิดพลาดมาตรฐานสำหรับการประมาณตัวแบบผสมผลกระทบอย่างไร
โดยเฉพาะอย่างยิ่งควรคำนวณข้อผิดพลาดมาตรฐานของเอฟเฟกต์คงที่ในรูปแบบเอฟเฟกต์แบบผสมเชิงเส้นอย่างไร (ในแง่ที่ใช้บ่อย) ฉันได้รับนำไปสู่การเชื่อว่าประมาณการทั่วไป ( ) เช่นผู้ที่นำเสนอในสกอตแลนด์และสุขภัณฑ์ [1982] จะให้ SE ของที่ได้รับการประเมินในขนาดเพราะ องค์ประกอบความแปรปรวนโดยประมาณได้รับการปฏิบัติเสมือนเป็นค่าที่แท้จริงVar(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} ฉันสังเกตเห็นว่า SE ที่ผลิตโดยlmeและsummaryฟังก์ชันในnlmeแพ็คเกจสำหรับ R ไม่เท่ากับรากที่สองของเส้นทแยงมุมของเมทริกซ์แปรปรวน - ความแปรปรวนร่วมแปรปรวนที่ให้ไว้ข้างต้น พวกเขาคำนวณอย่างไร ฉันยังอยู่ภายใต้การแสดงผลที่ Bayesians ใช้ inverse gamma priors สำหรับการประเมินส่วนประกอบความแปรปรวน สิ่งเหล่านี้ให้ผลลัพธ์ที่เหมือนกัน (ในการตั้งค่าที่ถูกต้อง) เช่นเดียวกับlme?


2
เรียนรู้อย่างลึกซึ้งเทียบกับต้นไม้ตัดสินใจและวิธีการส่งเสริม
ฉันกำลังมองหาเอกสารหรือข้อความที่เปรียบเทียบและพูดคุย (ทั้งสังเกตุหรือในทางทฤษฎี): การเพิ่มและตัดสินใจอัลกอริธึมทรีของต้นไม้เช่นป่าสุ่มหรือAdaBoostและ GentleBoost นำไปใช้กับต้นไม้ตัดสินใจ กับ วิธีการเรียนรู้อย่างลึกซึ้งเช่นเครื่องจักร Boltzmann ที่ จำกัด , หน่วยความจำชั่วคราวลำดับชั้น , เครือข่ายประสาทเทียม , ฯลฯ มีใครรู้หรือไม่ว่าข้อความที่กล่าวถึงหรือเปรียบเทียบสองช่วงตึกของวิธีการ ML ในแง่ของความเร็วความแม่นยำหรือการลู่เข้า นอกจากนี้ฉันกำลังมองหาข้อความที่อธิบายหรือสรุปความแตกต่าง (เช่นข้อดีและข้อเสีย) ระหว่างแบบจำลองหรือวิธีการในบล็อกที่สอง คำแนะนำหรือคำตอบใด ๆ เกี่ยวกับการเปรียบเทียบดังกล่าวโดยตรงจะได้รับการชื่นชมอย่างมาก

3
มีวิธีการเพิ่ม / ลดฟังก์ชั่นที่กำหนดเองใน R หรือไม่?
ฉันกำลังพยายามลดฟังก์ชั่นที่กำหนดเอง ควรยอมรับห้าพารามิเตอร์และชุดข้อมูลและทำการคำนวณทุกประเภทโดยสร้างตัวเลขเดียวเป็นเอาต์พุต ฉันต้องการค้นหาการรวมกันของพารามิเตอร์อินพุตห้าตัวซึ่งให้ผลลัพธ์ที่เล็กที่สุดของฟังก์ชันของฉัน
18 r  optimization 

3
การคำนวณอันดับไทล์ไทล์ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันจะเพิ่มตัวแปรใหม่ลงในกรอบข้อมูลซึ่งจะเป็นเปอร์เซนต์ไทล์ของตัวแปรตัวใดตัวหนึ่งได้อย่างไร ฉันสามารถทำสิ่งนี้ใน Excel ได้อย่างง่ายดาย แต่ฉันต้องการทำอย่างนั้นในอาร์ ขอบคุณ
18 r  quantiles 

2
การเรียนรู้แนวคิดทางสถิติผ่านแบบฝึกหัดการวิเคราะห์ข้อมูล
ฉันพบว่าแบบฝึกหัดการวิเคราะห์ข้อมูลอย่างง่ายมักจะสามารถช่วยอธิบายและอธิบายแนวคิดทางสถิติได้ แบบฝึกหัดการวิเคราะห์ข้อมูลใดที่คุณใช้เพื่อสอนแนวคิดทางสถิติ
18 teaching 

5
แพ็คเกจ R สำหรับการสร้างแบบจำลองสมการโครงสร้างหลายระดับ?
ฉันต้องการทดสอบแบบจำลองเส้นทางแบบหลายขั้นตอน (เช่น A คาดการณ์ B, B ทำนาย C, C คาดการณ์ D) ซึ่งตัวแปรทั้งหมดของฉันคือการสังเกตการณ์แบบซ้อนภายในกลุ่ม จนถึงตอนนี้ฉันได้ทำสิ่งนี้ผ่านการวิเคราะห์หลายระดับที่ไม่ซ้ำกันใน R ฉันต้องการใช้เทคนิคเช่น SEM ที่ให้ฉันทดสอบหลายเส้นทางในเวลาเดียวกัน (A -> B -> C -> D) และยังคงรองรับ 2 ระดับ (บุคคลในกลุ่ม) อย่างถูกต้อง ฉันเข้าใจว่า MPLUS สามารถจัดการสิ่งนี้ได้ ฉันสามารถใช้แพ็คเกจ R ได้หรือไม่?

4
การเปลี่ยนสมมติฐานว่างในการถดถอยเชิงเส้น
ฉันมีข้อมูลบางอย่างที่มีความสัมพันธ์สูง ถ้าฉันใช้การถดถอยเชิงเส้นฉันจะได้เส้นการถดถอยที่มีความชันใกล้กับหนึ่ง (= 0.93) สิ่งที่ฉันอยากทำคือทดสอบว่าความชันนี้แตกต่างจาก 1.0 อย่างมากหรือไม่ ความคาดหวังของฉันคือมันไม่ได้เป็น กล่าวอีกนัยหนึ่งฉันต้องการเปลี่ยนสมมติฐานว่างของการถดถอยเชิงเส้นจากความชันที่ศูนย์เป็นความชันที่หนึ่ง นี่เป็นแนวทางที่สมเหตุสมผลหรือไม่? ฉันขอขอบคุณที่คุณสามารถรวมรหัส R ในคำตอบของคุณเพื่อให้ฉันสามารถใช้วิธีนี้ (หรือดีกว่าที่คุณแนะนำ!) ขอบคุณ

4
การกำหนดฟังก์ชันการกระชับส่วนโค้งที่เหมาะสมที่สุดจากฟังก์ชันเชิงเส้น, เลขชี้กำลังและฟังก์ชันลอการิทึม
บริบท: จากคำถามเกี่ยวกับ Mathematics Stack Exchange (ฉันสามารถสร้างโปรแกรม)มีใครบางคนมีชุดของจุดและต้องการให้พอดีกับเส้นโค้งกับมันเส้นเชิงเส้นชี้แจงหรือลอการิทึม วิธีปกติคือการเริ่มต้นด้วยการเลือกหนึ่งในวิธีเหล่านี้ (ซึ่งระบุรุ่น) แล้วทำการคำนวณทางสถิติx - yx-Yx-y แต่สิ่งที่เป็นที่ต้องการจริงๆคือการหาเส้นโค้ง 'ที่ดีที่สุด' จากเส้นตรง, เลขชี้กำลังหรือลอการิทึม เห็นได้ชัดว่าใครจะลองทั้งสามและเลือกเส้นโค้งที่พอดีที่สุดของทั้งสามตามค่าสัมประสิทธิ์สหสัมพันธ์ที่ดีที่สุด แต่อย่างใดฉันรู้สึกว่านี่ไม่ใช่เพียว วิธีที่ได้รับการยอมรับโดยทั่วไปคือการเลือกแบบจำลองของคุณก่อนหนึ่งในสามนั้น (หรือฟังก์ชันการเชื่อมโยงอื่น ๆ ) จากนั้นข้อมูลจะคำนวณค่าสัมประสิทธิ์ และโพสต์พฤตินัยการเลือกที่ดีที่สุดของทั้งหมดคือการเก็บเชอร์รี่ แต่สำหรับฉันไม่ว่าคุณจะกำหนดฟังก์ชั่นหรือค่าสัมประสิทธิ์จากข้อมูลที่ยังคงเป็นสิ่งเดียวกันขั้นตอนของคุณคือการค้นพบสิ่งที่ดีที่สุด ... (สมมติว่าฟังก์ชันใดคือ คำถาม: เหมาะสมหรือไม่ที่จะเลือกแบบจำลองการกระชับที่ดีที่สุดจากแบบจำลองเชิงเส้นเอ็กซ์โพเนนเชียลและลอการิทึมตามการเปรียบเทียบสถิติแบบเต็ม? ถ้าเป็นเช่นนั้นวิธีที่เหมาะสมที่สุดในการทำเช่นนี้คืออะไร? หากการถดถอยช่วยค้นหาพารามิเตอร์ (สัมประสิทธิ์) ในฟังก์ชั่นเหตุใดจึงไม่มีพารามิเตอร์ที่แยกออกมาเพื่อเลือกว่าตระกูลใดในสามตระกูลที่ดีที่สุดมาจากไหน

8
แพคเกจร่วมกันสำหรับ R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ คุณช่วยแนะนำแพ็คเกจการวิเคราะห์ร่วมที่ใช้งานง่ายหรือครอบคลุมสำหรับ R ได้หรือไม่?

3
การรับสูตรสำหรับการ จำกัด การทำนายในตัวแบบเชิงเส้น (เช่น: ช่วงการทำนาย)
ลองมาตัวอย่างต่อไปนี้: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) สิ่งนี้สร้างรูปแบบของ y โดยยึดตาม x1 และ x2 โดยใช้การถดถอยแบบ OLS ถ้าเราต้องการที่จะคาดการณ์ปีสำหรับให้ x_vec summary(fit)เราก็สามารถใช้สูตรที่เราได้รับจาก อย่างไรก็ตามถ้าเราต้องการที่จะทำนายการคาดการณ์ที่ต่ำกว่าและบนของ y? (สำหรับระดับความเชื่อมั่นที่กำหนด) แล้วเราจะสร้างสูตรได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.