สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ปรีชาสำหรับความคาดหวังตามเงื่อนไขของ -algebra
Letมีพื้นที่ความน่าจะเป็นที่ได้รับตัวแปรสุ่มและพีชคณิตเราสามารถสร้างตัวแปรสุ่มใหม่ซึ่งเป็นความคาดหวังตามเงื่อนไข( Ω , F , μ ) (Ω,F,μ)(\Omega,\mathscr{F},\mu)ξ : Ω → Rξ:Ω→R\xi:\Omega \to \mathbb{R} σ σ\sigmaG ⊆ FG⊆F\mathscr{G}\subseteq \mathscr{F} E [ ξ | ช ]E[ξ|G]E[\xi|\mathscr{G}] ว่าอะไรคือสัญชาตญาณสำหรับการคิดเกี่ยวกับ ? ฉันเข้าใจสัญชาตญาณสำหรับสิ่งต่อไปนี้:E [ ξ | ช ]E[ξ|G]E[\xi|\mathscr{G}] (i) โดยที่คือเหตุการณ์ (ที่มีความน่าจะเป็นบวก)E [ ξ | A ] E[ξ|A]E[\xi|A]AAA (ii) โดยที่เป็นตัวแปรสุ่มแบบแยกE [ ξ | η ] E[ξ|η]E[\xi|\eta]ηη\eta …

3
ทำไมน้ำหนักของเครือข่าย RNN / LSTM จึงถูกแชร์ข้ามเวลา
เมื่อไม่นานมานี้ฉันสนใจ LSTM และฉันรู้สึกประหลาดใจเมื่อรู้ว่าน้ำหนักจะถูกแบ่งปันข้ามเวลา ฉันรู้ว่าถ้าคุณแบ่งปันน้ำหนักข้ามช่วงเวลาลำดับการป้อนข้อมูลของคุณอาจเป็นความยาวผันแปรได้ ด้วยน้ำหนักที่ใช้ร่วมกันคุณจะมีพารามิเตอร์น้อยลงในการฝึกอบรม จากความเข้าใจของฉันเหตุผลที่จะกลายเป็น LSTM กับวิธีการเรียนรู้อื่น ๆ ก็เพราะคุณเชื่อว่ามีโครงสร้าง / ลำดับ / การพึ่งพาชั่วคราวในข้อมูลของคุณที่คุณต้องการเรียนรู้ หากคุณเสียสละความยาว 'หรูหรา' และยอมรับเวลาคำนวณนาน RNN / LSTM จะไม่มีน้ำหนักที่ใช้ร่วมกัน (เช่นสำหรับทุกขั้นตอนที่คุณมีน้ำหนักแตกต่างกัน) ทำงานได้ดีขึ้นหรือมีบางสิ่งที่ขาดหายไป?

2
อะไรคือความหมายของ super script 2 subscript 2 ภายในบริบทของบรรทัดฐาน?
ฉันใหม่สำหรับการเพิ่มประสิทธิภาพ ฉันเห็นสมการที่มีตัวยก 2 และตัวห้อย 2 อยู่ทางด้านขวาของบรรทัดฐาน ตัวอย่างเช่นนี่คือสมการกำลังสองน้อยที่สุด ต่ำสุด||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 ฉันคิดว่าฉันเข้าใจตัวยกที่ 2: มันหมายถึงการเพิ่มมูลค่าของบรรทัดฐาน แต่ตัวห้อยคืออะไร ฉันจะอ่านสมการเหล่านี้ได้อย่างไร

1
k-fold การตรวจสอบความถูกต้องของการเรียนรู้ทั้งมวล
ฉันสับสนเกี่ยวกับวิธีแบ่งพาร์ติชันข้อมูลสำหรับการตรวจสอบความถูกต้องของวง k-fold สมมติว่าฉันมีกรอบการเรียนรู้ทั้งมวลสำหรับการจำแนก เลเยอร์แรกของฉันมีโมเดลการจัดหมวดหมู่เช่น svm แผนภูมิการตัดสินใจ เลเยอร์ที่สองของฉันมีโมเดลการลงคะแนนซึ่งรวมการทำนายจากเลเยอร์แรกและให้การทำนายขั้นสุดท้าย หากเราใช้การตรวจสอบความถูกต้อง 5 เท่าของ cross-cross ฉันคิดว่าจะใช้ 5 folds ดังนี้: 3 เท่าสำหรับการฝึกชั้นแรก 1 เท่าสำหรับฝึกซ้อมเลเยอร์ที่สอง 1 เท่าสำหรับการทดสอบ นี้เป็นวิธีที่ถูกต้องหรือไม่? ข้อมูลการฝึกอบรมสำหรับชั้นหนึ่งและชั้นสองควรเป็นอิสระหรือไม่? ฉันคิดว่าพวกเขาควรจะมีความเป็นอิสระเพื่อให้กรอบการเรียนรู้ทั้งมวลจะแข็งแกร่ง เพื่อนของฉันแนะนำข้อมูลการฝึกอบรมสำหรับเลเยอร์แรกและเลเยอร์ที่สองควรเหมือนกันเช่น 4 เท่าสำหรับการฝึกชั้นหนึ่งและชั้นสอง 1 เท่าสำหรับการทดสอบ ด้วยวิธีนี้เราจะมีข้อผิดพลาดที่แม่นยำยิ่งขึ้นของกรอบการเรียนรู้ทั้งมวลและการปรับกรอบซ้ำ ๆ จะมีความแม่นยำมากขึ้นเนื่องจากมีพื้นฐานจากข้อมูลการฝึกอบรมเพียงครั้งเดียว นอกจากนี้เลเยอร์ที่สองอาจมีอคติต่อข้อมูลการฝึกอบรมที่เป็นอิสระ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก

3
ข้อผิดพลาดการคาดการณ์ที่คาดหวัง - มา
ฉันกำลังพยายามเข้าใจถึงข้อผิดพลาดที่คาดการณ์ไว้ต่อไปนี้ (ESL) โดยเฉพาะอย่างยิ่งเกี่ยวกับการสืบทอดมาของ 2.11 และ 2.12 (การปรับเงื่อนไขขั้นตอนสู่จุดต่ำสุดที่ฉลาด) พอยน์เตอร์หรือลิงค์ใด ๆ ชื่นชมมาก ด้านล่างฉันกำลังรายงานข้อความที่ตัดตอนมาจาก ESL pg 18. สองสมการแรกคือตามลำดับสมการ 2.11 และ 2.12 Let X∈RpX∈RpX \in \mathbb{R}^pแสดงว่ามูลค่าที่แท้จริงเวกเตอร์การป้อนข้อมูลแบบสุ่มและY∈RY∈RY \in \mathbb{R}ตัวแปรการส่งออกมีมูลค่าที่แท้จริงสุ่มที่มีการกระจายร่วมPr(X,Y)Pr(X,Y)\text{Pr}(X,Y) ) เราพยายามที่ฟังก์ชั่นf(X)f(X)f(X)ในการทำนายค่ากำหนดของการป้อนข้อมูลXทฤษฎีนี้ต้องการฟังก์ชั่นการสูญเสียสำหรับการลงโทษข้อผิดพลาดในการทำนายและโดยทั่วไปที่สะดวกที่สุดคือการสูญเสียข้อผิดพลาดกำลังสอง : 2 สิ่งนี้ทำให้เรามีเกณฑ์สำหรับการเลือกYYYXXX L(Y,f(X))L(Y,f(X))L(Y,f(X))L ( Y , f ( X ) ) = ( Y - f (L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff, EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - …

1
การควบคุมระยะไกล: การดูแลแบบกึ่งควบคุมหรือทั้งสองอย่าง?
"การดูแลระยะไกล" เป็นรูปแบบการเรียนรู้ที่ตัวจำแนกลักษณนามได้รับชุดฝึกอบรมที่มีป้ายกำกับอ่อนแอ (ข้อมูลการฝึกอบรมจะมีป้ายกำกับโดยอัตโนมัติตามการวิเคราะห์พฤติกรรม / กฎ) ฉันคิดว่าทั้งการเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบกึ่งมีส่วนร่วมอาจรวมถึง "การกำกับดูแลที่ห่างไกล" หากข้อมูลที่ติดฉลากของพวกเขานั้นมีการแก้ปัญหาด้วยวิธีฮิวริสติก / อัตโนมัติ อย่างไรก็ตามในหน้านี้ "การกำกับดูแลที่ห่างไกล" หมายถึง "การเรียนรู้แบบกึ่งภายใต้การดูแล" (เช่น จำกัด เฉพาะ "การควบคุมกึ่ง") ดังนั้นคำถามของฉันคือ"การควบคุมดูแลที่ห่างไกล" อ้างถึงการควบคุมกึ่งหรือไม่? ในความคิดของฉันมันสามารถนำไปใช้กับการเรียนรู้ทั้งแบบมีผู้สอนและแบบกึ่งมีผู้สอน โปรดระบุข้อมูลอ้างอิงที่เชื่อถือได้หากมี

1
อันตรายพื้นฐานของ Cox
สมมติว่าฉันมีชุดข้อมูล "สายสวนไต" ฉันกำลังพยายามสร้างโมเดลกราฟความอยู่รอดโดยใช้โมเดล Cox หากฉันพิจารณาโมเดล Cox:ฉันต้องมีการประเมินความเป็นอันตรายพื้นฐาน ด้วยการใช้ฟังก์ชั่นแพคเกจ R ฉันสามารถทำสิ่งนี้ได้อย่างง่ายดาย:h ( t , Z)) = h0ประสบการณ์( b'Z) ,ชั่วโมง(เสื้อ,Z)=ชั่วโมง0ประสบการณ์⁡(ข'Z),h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) แต่ถ้าฉันต้องการเขียนฟังก์ชันทีละขั้นตอนของอันตรายพื้นฐานสำหรับการประมาณค่าพารามิเตอร์ที่กำหนดbฉันจะดำเนินการต่อได้อย่างไร ฉันเหนื่อย: bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time …
20 r  cox-model  hazard 

1
การเปรียบเทียบระหว่าง SHAP (คำอธิบายเพิ่มเติมของแชปลีย์) และ LIME (คำอธิบายแบบจำลองผู้ไม่เชื่อเรื่องพระเจ้าแบบท้องถิ่น)
ฉันกำลังอ่านเทคนิคการตีความโมเดลโพสต์ hoc ที่เป็นที่นิยมสองวิธี: LIMEและSHAP ฉันมีปัญหาในการทำความเข้าใจความแตกต่างที่สำคัญในสองเทคนิคนี้ หากต้องการอ้างอิง Scott Lundbergสมองที่อยู่เบื้องหลัง SHAP: ค่า SHAP มาพร้อมกับข้อได้เปรียบในการประมาณกล่องดำของ LIME แต่มาพร้อมกับการรับประกันเชิงทฤษฎีเกี่ยวกับความสอดคล้องและความถูกต้องในท้องถิ่นจากทฤษฎีเกม (คุณลักษณะจากวิธีการอื่น ๆ ที่เรารวมเป็นหนึ่ง) ฉันกำลังมีปัญหาในการทำความเข้าใจว่า ' การรับประกันเชิงทฤษฎีเกี่ยวกับความสอดคล้องและความถูกต้องในท้องถิ่นจากทฤษฎีเกม ' คืออะไร เนื่องจาก SHAP ได้รับการพัฒนาหลังจาก LIME ฉันจึงคิดว่ามันเต็มไปด้วยช่องว่างที่ LIME ไม่สามารถจัดการได้ นู้นคืออะไร? หนังสือของ Christoph Molnar ในบทหนึ่งเกี่ยวกับ Shapley Estimation ฯ : ความแตกต่างระหว่างการทำนายและการคาดคะเนเฉลี่ยนั้นได้รับการกระจายอย่างเป็นธรรมในค่าคุณสมบัติของอินสแตนซ์ - คุณสมบัติประสิทธิภาพแชพลีย์ คุณสมบัตินี้ตั้งค่า Shapley นอกเหนือจากวิธีอื่นเช่น LIME LIME ไม่รับประกันว่าจะสามารถกระจายเอฟเฟกต์ได้อย่างสมบูรณ์แบบ มันอาจทำให้ค่าแชปลีย์เป็นวิธีเดียวที่จะส่งคำอธิบายแบบเต็ม การอ่านสิ่งนี้ฉันเข้าใจว่า SHAP …

4
เป็นความคิดที่ดีหรือไม่ที่จะใช้ CNN เพื่อจำแนกสัญญาณ 1D?
ฉันกำลังทำงานเกี่ยวกับการจำแนกการนอนหลับ ฉันอ่านบทความวิจัยเกี่ยวกับหัวข้อนี้หลายคนใช้วิธี SVM หรือ ensemble เป็นความคิดที่ดีหรือไม่ที่จะใช้โครงข่ายประสาทเทียมในการจำแนกสัญญาณ EEG ในมิติเดียว? ฉันใหม่สำหรับงานประเภทนี้ ให้อภัยฉันถ้าฉันถามอะไรผิดหรือเปล่า?

1
เมื่อไหร่จะใช้การสุ่มตัวอย่างของกิ๊บส์แทนเมโทรโพลิส - แฮสติ้ง
อัลกอริทึม MCMC มีหลายประเภท: มหานครเฮสติ้งส์ กิ๊บส์ การสุ่มตัวอย่างความสำคัญ / การปฏิเสธ (เกี่ยวข้อง) เหตุใดจึงใช้การสุ่มตัวอย่างของกิ๊บส์แทนเมโทรโพลิส - แฮสติ้ง ฉันสงสัยว่ามีบางกรณีที่การอนุมานทำได้ง่ายกว่าด้วยการสุ่มตัวอย่างของกิ๊บส์มากกว่ากับเมโทรโพลิส - เฮสติงส์ แต่ฉันไม่ชัดเจนในเรื่องเฉพาะ

1
ช่วยฉันเข้าใจอัตราส่วนอัตราต่อรองที่ปรับแล้วในการถดถอยโลจิสติกส์
ฉันมีปัญหาในการพยายามทำความเข้าใจการใช้การถดถอยโลจิสติกส์ในเอกสาร กระดาษที่มีให้ที่นี่ใช้การถดถอยโลจิสติกในการทำนายความน่าจะเป็นของภาวะแทรกซ้อนในระหว่างการผ่าตัดต้อกระจก สิ่งที่ทำให้ฉันสับสนคือกระดาษเสนอรูปแบบที่กำหนดอัตราต่อรองที่ 1 ให้กับค่าพื้นฐานที่อธิบายไว้ดังนี้ ผู้ป่วยที่มีความเสี่ยงอยู่ในกลุ่มอ้างอิงสำหรับตัวชี้วัดความเสี่ยงทั้งหมด (เช่นปรับ OR = 1.00 สำหรับทุกคนในตารางที่ 1) อาจถือได้ว่ามี 'โปรไฟล์ความเสี่ยงพื้นฐาน' และแบบจำลองการถดถอยโลจิสติกส์ระบุว่า สำหรับ PCR หรือ VL หรือทั้งคู่ = 0.736% ดังนั้นความน่าจะเป็นของ 0.00736 จะแสดงด้วยอัตราเดิมพัน 1 จากการเปลี่ยนแปลงจากความน่าจะเป็นอัตราส่วนอัตราต่อรอง:สิ่งนี้ไม่สามารถเท่ากับ 1: {}o=p1−po=p1−po=\frac{p}{1-p}0.00741=0.007361−0.007360.00741=0.007361−0.007360.00741=\frac{0.00736}{1-0.00736} มันยิ่งทำให้สับสนมากขึ้น อัตราส่วนอัตราต่อรองแบบคอมโพสิตที่แสดงถึงค่าความแปรปรวนร่วมหลายค่าที่มีค่าแตกต่างจากค่าพื้นฐานจะใช้ในการคำนวณความเสี่ยงที่คาดการณ์ไว้ ... คอมโพสิตหรือจากตารางที่ 1 จะเป็น 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 และจากกราฟในรูปที่ 1 …

2
เครื่องเรียนรู้ขั้นสูง: มันคืออะไรกัน?
ฉันได้คิดถึงการนำไปใช้และใช้กระบวนทัศน์ Extreme Learning Machine (ELM) มานานกว่าหนึ่งปีแล้วและยิ่งฉันทำอีกต่อไปฉันยิ่งสงสัยว่ามันเป็นสิ่งที่ดีจริงๆ อย่างไรก็ตามความคิดเห็นของฉันดูเหมือนจะตรงกันข้ามกับชุมชนวิทยาศาสตร์ที่ - เมื่อใช้การอ้างอิงและสิ่งพิมพ์ใหม่เป็นมาตรการ - ดูเหมือนว่าจะเป็นประเด็นร้อน Huang และ ELM ได้รับการแนะนำให้รู้จักกับ อัล ประมาณปี 2003 แนวคิดพื้นฐานนั้นค่อนข้างง่าย: เริ่มต้นด้วยโครงข่ายประสาทเทียม 2 ชั้นและสุ่มค่าสัมประสิทธิ์ในชั้นแรก สิ่งนี้หนึ่งแปลงปัญหาการปรับให้เหมาะสมแบบไม่เป็นเชิงเส้นซึ่งโดยทั่วไปจะถูกจัดการผ่าน backpropagation เป็นปัญหาการถดถอยเชิงเส้นอย่างง่าย รายละเอียดเพิ่มเติมสำหรับx∈RDx∈RD\mathbf x \in \mathbb R^Dรุ่นคือ f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk).f(x)=∑i=1Nhiddenwiσ(vi0+∑k=1Dvikxk). f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,. ทีนี้มีการปรับเฉพาะwiwiw_i (เพื่อลดความผิดพลาดกำลังสองน้อยที่สุด) ในขณะที่vikvikv_{ik}ถูกเลือกแบบสุ่มทั้งหมด เพื่อเป็นการชดเชยการสูญเสียในองศาอิสระคำแนะนำตามปกติคือการใช้โหนดที่ซ่อนอยู่จำนวนมาก (เช่นพารามิเตอร์อิสระwiwiw_i ) จากมุมมองอื่น …
20 regression 

1
ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท
ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

1
การอภิปรายเกี่ยวกับ overfit ใน xgboost
การตั้งค่าของฉันมีดังต่อไปนี้: ฉันกำลังติดตามแนวทางใน "การทำนายแบบจำลองประยุกต์" ดังนั้นฉันได้กรองคุณสมบัติที่เกี่ยวข้องและจบลงด้วยสิ่งต่อไปนี้: จุดข้อมูล 4900 ในชุดฝึกอบรมและ 1600 จุดข้อมูลในชุดทดสอบ ฉันมีคุณสมบัติ 26 อย่างและเป้าหมายเป็นตัวแปรต่อเนื่อง ฉันใช้ crossvalidation 5 เท่ากับโมเดลรถไฟโดยใช้caretแพ็คเกจ เมื่อฉันใช้แบบจำลอง MARS ฉันจะได้รับข้อผิดพลาดแบบสัมบูรณ์ (MAE) ประมาณ 4 ในชุดฝึกอบรมและชุดทดสอบ อย่างไรก็ตามการใช้ xgboost (เป็นอัลกอริทึมแบบต้นไม้หรือแบบเชิงเส้น) ฉันได้รับบางอย่างเช่น 0.32 (!) ในชุดการฝึกอบรมและ 2.4 ในชุดทดสอบ ดังนั้นหากข้อผิดพลาดการทดสอบเป็น 8 เท่าของข้อผิดพลาดในการฝึกอบรมฉันจะบอกว่า: ฉันมีข้อมูลการฝึกอบรมมากเกินไป ฉันยังได้รับข้อผิดพลาดเล็กน้อยในการทดสอบอย่างไรก็ตาม ฉันใช้พารามิเตอร์ต่อไปนี้ใน xgboost: nrounds = 1000และeta = 0.01(การเพิ่ม nrounds และการลดลงของกทพ. สามารถช่วยได้ แต่ฉันมีหน่วยความจำไม่เพียงพอและเวลาในการรันนานเกินไป) max_depth = …

2
หลักฐานการบรรจบกันของค่า k
สำหรับงานที่มอบหมายฉันถูกขอให้แสดงหลักฐานว่า k-หมายถึงการบรรจบกันในขั้นตอนจำนวน จำกัด นี่คือสิ่งที่ฉันเขียน: คคCE( C) = ∑xนาทีi = 1k∥ x - cผม∥2E(ค)=Σxนาทีผม=1k‖x-คผม‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E( C)E(ค)E(C) ขั้นตอนที่ 2 อ้างถึงขั้นตอนที่ติดป้ายแต่ละจุดข้อมูลโดยศูนย์คลัสเตอร์ที่ใกล้ที่สุดและขั้นตอนที่ 3 เป็นขั้นตอนที่ศูนย์มีการปรับปรุงโดยใช้ค่าเฉลี่ย สิ่งนี้ไม่เพียงพอที่จะพิสูจน์ว่าการบรรจบกันในขั้นตอนที่ จำกัด พลังงานมีขนาดเล็กลงเรื่อย ๆ แต่ก็ไม่ได้ตัดทอนความเป็นไปได้ที่จุดศูนย์กลางสามารถกระโดดได้โดยไม่ต้องเปลี่ยนพลังงานมากนัก กล่าวอีกนัยหนึ่งอาจมีพลังงานขั้นต่ำหลายอย่างและอัลกอริทึมสามารถข้ามไปมาระหว่างกันได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.