สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
โครงข่ายประสาทเทียมที่มีการเชื่อมต่อแบบข้ามชั้น
ฉันสนใจในการถดถอยกับเครือข่ายประสาท โครงข่ายประสาทเทียมที่ไม่มีโหนดซ่อนเร้น + การเชื่อมต่อข้ามชั้นเป็นโมเดลเชิงเส้น สิ่งที่เกี่ยวกับมุ้งประสาทเดียวกัน แต่มีโหนดที่ซ่อนอยู่? ฉันสงสัยว่าสิ่งที่จะเป็นบทบาทของการเชื่อมต่อข้ามชั้น? โดยสังเขปฉันจะบอกว่าถ้าคุณรวมการเชื่อมต่อข้ามชั้นแล้วรูปแบบสุดท้ายจะเป็นผลรวมของแบบจำลองเชิงเส้น + บางส่วนที่ไม่ใช่เชิงเส้น มีข้อได้เปรียบหรือเสียเปรียบในการเพิ่มการเชื่อมต่อข้ามชั้นไปยังตาข่ายประสาทหรือไม่?

3
ความสัมพันธ์ระหว่างการแจกแจงแกมม่ากับการแจกแจงแบบปกติ
ฉันเพิ่งพบว่าจำเป็นต้องได้รับ PDF สำหรับสแควร์ของตัวแปรสุ่มปกติที่มีค่าเฉลี่ย 0 ไม่ว่าด้วยเหตุผลใดก็ตามฉันเลือกที่จะไม่ทำให้ค่าความแปรปรวนเป็นปกติก่อน ถ้าฉันทำอย่างถูกต้องแล้วไฟล์ PDF นี้เป็นดังนี้: N2(x;σ2)=1σ2π−−√x−−√e−x2σ2N2(x;σ2)=1σ2πxe−x2σ2 N^2(x; \sigma^2) = \frac{1}{\sigma \sqrt{2 \pi} \sqrt{x}} e^{\frac{-x}{2\sigma^2}} ฉันสังเกตเห็นว่านี่เป็นความจริงเพียงแค่การกระจายตัวของแกมม่า: N2(x;σ2)=Gamma(x;12,2σ2)N2(x;σ2)=Gamma⁡(x;12,2σ2) N^2(x; \sigma^2) = \operatorname{Gamma}(x; \frac{1}{2}, 2 \sigma^2) และจากข้อเท็จจริงที่ว่าผลรวมของ gammas สองตัว (ที่มีพารามิเตอร์มาตราส่วนเดียวกัน) เท่ากับแกมม่าอีกอันหนึ่งมันก็จะบอกว่าแกมม่านั้นเทียบเท่ากับผลรวมของตัวแปรสุ่มปกติkkkกำลังสอง N2Σ(x;k,σ2)=Gamma(x;k2,2σ2)NΣ2(x;k,σ2)=Gamma⁡(x;k2,2σ2) N^2_\Sigma(x; k, \sigma^2) = \operatorname{Gamma}(x; \frac{k}{2}, 2 \sigma^2) ฉันรู้สึกประหลาดใจเล็กน้อย แม้ว่าฉันจะรู้ว่าการแจกแจงχ2χ2\chi^2 - การกระจายของผลรวมของRVs มาตรฐานแบบธรรมดา - เป็นกรณีพิเศษของแกมม่า, ฉันไม่ได้ตระหนักว่าแกมม่านั้นเป็นเพียงลักษณะทั่วไปที่อนุญาตให้ใช้ผลรวมของตัวแปรสุ่มปกติ ของความแปรปรวนใด ๆ …

4
เมื่อใดที่จะเข้าสู่การแปลงอนุกรมเวลาก่อนที่จะติดตั้งแบบจำลอง ARIMA
ก่อนหน้านี้ฉันเคยใช้โปรแกรมพยากรณ์อากาศเพื่อคาดการณ์อนุกรมเวลาที่ไม่เปลี่ยนแปลง แต่ฉันเปลี่ยนเวิร์กโฟลว์ของฉันไปเป็น R แพ็คเกจพยากรณ์สำหรับ R มีฟังก์ชั่นที่มีประโยชน์มากมาย แต่สิ่งหนึ่งที่มันไม่ได้ทำคือการแปลงข้อมูลชนิดใด ๆ .arima () ในบางกรณีการคาดการณ์โปรตัดสินใจที่จะเข้าสู่ระบบการแปลงข้อมูลก่อนที่จะทำการคาดการณ์ แต่ฉันยังไม่ได้หาสาเหตุ ดังนั้นคำถามของฉันคือ: เมื่อใดที่ฉันควรเปลี่ยนชุดเวลาของฉันก่อนที่จะลองใช้วิธี ARIMA กับมัน / แก้ไข: หลังจากอ่านคำตอบของคุณฉันจะใช้สิ่งนี้โดยที่ x คืออนุกรมเวลาของฉัน: library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } มันสมเหตุสมผลหรือไม่

5
ใช้เวลาในการตีรูปแบบของหัวและก้อยในชุดเหรียญโยน
โดยได้รับแรงบันดาลใจจากคำปราศรัยของ Peter Donnelly ที่TEDซึ่งเขากล่าวถึงว่าต้องใช้เวลานานเท่าใดในการที่รูปแบบบางอย่างจะปรากฏในชุดเหรียญโยนฉันสร้างสคริปต์ต่อไปนี้ใน R. ด้วยรูปแบบสอง 'hth' และ 'htt' คำนวณระยะเวลาเฉลี่ย (เช่นจำนวนเหรียญที่โยน) โดยเฉลี่ยก่อนที่คุณจะเข้าสู่หนึ่งในรูปแบบเหล่านี้ coin <- c('h','t') hit <- function(seq) { miss <- TRUE fail <- 3 trp <- sample(coin,3,replace=T) while (miss) { if (all(seq == trp)) { miss <- FALSE } else { trp <- c(trp[2],trp[3],sample(coin,1,T)) fail <- fail + 1 …

5
ความแตกต่างทางคณิตศาสตร์ระหว่างแบบสุ่มและแบบคงที่คืออะไร
ฉันพบมากบนอินเทอร์เน็ตเกี่ยวกับการตีความแบบสุ่มและแบบคงที่ อย่างไรก็ตามฉันไม่สามารถดึงแหล่งที่มาได้ดังต่อไปนี้: ความแตกต่างทางคณิตศาสตร์ระหว่างแบบสุ่มและแบบคงที่คืออะไร โดยที่ฉันหมายถึงสูตรทางคณิตศาสตร์ของแบบจำลองและวิธีการประมาณค่าพารามิเตอร์

2
วิธีลดน้ำหนัก KLD เทียบกับการสูญเสียการสร้างใหม่ในโปรแกรมเปลี่ยนเกียร์อัตโนมัติแบบแปรผัน
ในตัวอย่างโค้ดเกือบทั้งหมดที่ฉันเคยเห็น VAE ฟังก์ชั่นการสูญเสียมีการกำหนดไว้ดังนี้ (นี่คือรหัส tenorflow แต่ฉันเคยเห็นคล้ายกับ theano ไฟฉาย ฯลฯ มันสำหรับ convnet แต่ก็ไม่เกี่ยวข้องกันเกินไป เพียงแค่ส่งผลกระทบต่อแกนที่ต้องใช้เงินก้อน): # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # …

4
การใช้ scale_pos_weight ที่เหมาะสมใน xgboost สำหรับชุดข้อมูลที่ไม่สมดุลคืออะไร
ฉันมีชุดข้อมูลที่ไม่สมดุลมาก ฉันพยายามทำตามคำแนะนำในการจูนและใช้scale_pos_weightแต่ไม่แน่ใจว่าฉันควรจูนอย่างไร ฉันเห็นได้ว่าRegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight ดังนั้นการไล่ระดับสีของตัวอย่างที่เป็นบวกจะมีอิทธิพลมากกว่า อย่างไรก็ตามตามกระดาษ xgboostสถิติการไล่ระดับสีจะถูกใช้ในเครื่อง = ภายในอินสแตนซ์ของโหนดที่ระบุในต้นไม้เฉพาะ: ภายในบริบทของโหนดเพื่อประเมินการลดการสูญเสียของการแบ่งผู้สมัคร ภายในบริบทของ leaf node เพื่อปรับน้ำหนักให้เหมาะสมกับโหนดนั้น ดังนั้นจึงไม่มีทางรู้ล่วงหน้าว่าอะไรจะดีscale_pos_weight- เป็นจำนวนที่แตกต่างกันมากสำหรับโหนดที่ลงท้ายด้วยอัตราส่วน 1: 100 ระหว่างอินสแตนซ์บวกและลบและสำหรับโหนดที่มีอัตราส่วน 1: 2 คำใบ้ใด ๆ

2
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่
เป็นความจริงที่ว่าวิธีการแบบเบย์ไม่เหมาะสมหรือไม่ (ฉันเห็นเอกสารและแบบฝึกหัดที่อ้างสิทธิ์นี้) ตัวอย่างเช่นหากเราใช้กระบวนการแบบเกาส์เซียนกับ MNIST (การจำแนกตัวเลขด้วยลายมือ) แต่แสดงเพียงตัวอย่างเดียวมันจะเปลี่ยนเป็นการกระจายก่อนหน้าสำหรับอินพุตใด ๆ ที่แตกต่างจากตัวอย่างเดี่ยว แต่มีความแตกต่างเล็กน้อยหรือไม่?

1
ตารางสถิติในหนังสือเก่าผิดวัตถุประสงค์หรือไม่
ฉันจำได้ว่าเคยอ่านมานานแล้วว่าในหนังสือเก่า (ก่อนยุคคอมพิวเตอร์) ตัวเลขสุดท้ายของปริมาณทางทฤษฎีที่แสดงในภาคผนวกนั้นไม่ถูกต้องเพื่อที่จะกีดกันการลอกเลียนแบบ (ความคิดจะเป็นเช่นนั้น ภาคผนวกที่ตัวเลขสุดท้ายเหมือนกันกับที่พบในของคุณจากนั้นผู้เขียนคนนั้นจะต้องลอกเลียนตารางของคุณ) ฉันพยายามค้นหาแหล่งที่มาของเรื่องนี้หรือลิงค์ไปยังที่กล่าวถึง แต่หลังจากการค้นหาหลายชั่วโมงฉันไม่สามารถทำได้

1
มีอัลกอริทึมใดบ้างที่รวมการจำแนกและการถดถอย
ฉันสงสัยว่ามีอัลกอริทึมใดที่สามารถจำแนกและถดถอยได้ในเวลาเดียวกัน ตัวอย่างเช่นฉันต้องการให้อัลกอริทึมเรียนรู้ลักษณนามและในเวลาเดียวกันภายในแต่ละเลเบลมันก็เรียนรู้เป้าหมายอย่างต่อเนื่อง ดังนั้นสำหรับตัวอย่างการฝึกอบรมแต่ละรายการจะมีป้ายกำกับหมวดหมู่และค่าต่อเนื่อง ฉันสามารถฝึกลักษณนามก่อนแล้วจึงฝึก regressor ภายในแต่ละ label แต่ฉันแค่คิดว่าถ้ามีอัลกอริทึมที่สามารถทำทั้งสองอย่างได้มันจะวิเศษมาก

1
เมื่อใดที่โมเดลเชิงผสมแบบ zero-correlation จะได้ยินทฤษฎี
ใบเสนอราคาบล็อกด้านล่างจากผู้นำในฟิลด์ของการสร้างแบบจำลองเอฟเฟกต์แบบผสมอ้างว่าประสานงานการเปลี่ยนแปลงในแบบจำลองโดยไม่มีสหสัมพันธ์ระหว่างผลแบบสุ่ม (โมเดล 'ZCP') เปลี่ยนการทำนายแบบจำลอง แต่ใครบางคนสามารถอธิบายรายละเอียดเพิ่มเติมหรือปรับการเรียกร้องของพวกเขา? งบในคำถามจากเบตส์ et al, ของ 2015 กระดาษlme4, ฟิตติ้งเชิงเส้นผสมผลกระทบรุ่นใช้ lme4 , หน้า 7 วรรคสอง ( ลิงค์ดาวน์โหลด ) \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} นี่คือการถอดความสิ่งที่พวกเขาเขียน: แม้ว่าตัวแบบพารามิเตอร์ความสัมพันธ์แบบศูนย์จะใช้ในการลดความซับซ้อนของแบบจำลองความชันแบบสุ่ม แบบจำลองที่ความลาดชันและจุดตัดขวางได้รับอนุญาตให้มีความสัมพันธ์ที่ไม่เป็นศูนย์นั้นไม่แปรเปลี่ยนไปจากการเปลี่ยนแปลงแบบเสริมของตัวทำนายอย่างต่อเนื่อง ความไม่แปรเปลี่ยนนี้จะหยุดลงเมื่อความสัมพันธ์ถูก จำกัด ให้เป็นศูนย์ การเปลี่ยนแปลงใด ๆ ในตัวทำนายจะจำเป็นต้องนำไปสู่การเปลี่ยนแปลงในความสัมพันธ์โดยประมาณและในโอกาสและการทำนายของแบบจำลอง 1ตัวอย่างเช่นเราสามารถขจัดความสัมพันธ์ในFM1เพียงโดยการขยับวัน [ทำนายที่มาพร้อมกับslopeslope\slope ] ตามจำนวนเงินที่เท่ากับอัตราส่วนของประมาณการหมู่-เรื่องค่าเบี่ยงเบนมาตรฐานคูณด้วยความสัมพันธ์โดยประมาณคือ2 , ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} การใช้แบบจำลองดังกล่าวควรถูก จำกัด ในกรณีที่ตัวทำนายถูกวัดในอัตราส่วนสเกล (กล่าวคือจุดศูนย์บนสเกลนั้นมีความหมายไม่ใช่เฉพาะตำแหน่งที่กำหนดโดยความสะดวกสบายหรือแบบแผน) คำถาม: หมายเลขตามตัวยกด้านบน ... ฉันสามารถเห็นได้ว่าการเปลี่ยนแปลงใด ๆ ในระบบพิกัดซึ่งตัวทำนายถูกวัดจะนำไปสู่การเปลี่ยนแปลงของความสัมพันธ์โดยประมาณซึ่งนำไปสู่ความสัมพันธ์ที่ไม่เป็นศูนย์ สิ่งนี้สนับสนุนคำแถลงว่าแบบจำลองพารามิเตอร์ศูนย์ความสัมพันธ์ไม่คงที่ภายใต้การเปลี่ยนแปลงในระบบพิกัดทำนายและดังนั้นรูปแบบใด ๆ …

5
โมเดลที่ติดตั้งเกินความจำเป็นไร้ประโยชน์หรือไม่?
สมมติว่าแบบจำลองมีความแม่นยำ 100% สำหรับข้อมูลการฝึกอบรม แต่ความแม่นยำ 70% สำหรับข้อมูลการทดสอบ อาร์กิวเมนต์ต่อไปนี้เป็นจริงเกี่ยวกับโมเดลนี้หรือไม่? เห็นได้ชัดว่านี่เป็นรุ่นที่ติดตั้งมากเกินไป ความแม่นยำในการทดสอบสามารถปรับปรุงได้โดยการลดการ overfitting แต่รุ่นนี้ยังคงเป็นรุ่นที่มีประโยชน์เนื่องจากมีความแม่นยำที่ยอมรับได้สำหรับข้อมูลการทดสอบ

2
ช่วยฉันเข้าใจฟังก์ชัน quantile (inverse CDF)
ฉันกำลังอ่านเกี่ยวกับฟังก์ชั่นควอไทล์ แต่มันไม่ชัดเจนสำหรับฉัน คุณสามารถให้คำอธิบายที่เข้าใจง่ายกว่าคำอธิบายด้านล่างได้ไหม? เนื่องจาก cdfเป็นฟังก์ชันที่เพิ่มขึ้นแบบ monotonically จึงมีค่าผกผัน ให้เราแสดงถึงนี้โดย1} ถ้าเป็น cdf ของดังนั้นคือค่าของเช่นนั้น ; นี้เรียกว่า quantile ของFค่าคือค่ามัธยฐานของการแจกแจงโดยมีค่าความน่าจะเป็นครึ่งทางด้านซ้ายและครึ่งทางด้านขวา ค่า และเป็นควอไทล์ส่วนบนและล่างF - 1 F X F - 1 ( α ) x α P ( X ≤ x α ) = α α F F - 1 ( 0.5 ) F - 1 ( …

3
“ รุ่นรั้วกระโดดข้าม” เป็นแบบจำลองเดียวจริง ๆ หรือไม่ หรือเพียงแค่สองรุ่นแยกตามลำดับ?
พิจารณาตัวแบบอุปสรรค์ที่ทำนายข้อมูลนับyจากตัวทำนายปกติx: set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 ในกรณีนี้ฉันมีข้อมูลนับด้วย 69 ศูนย์และจำนวนบวก 31 รายการ ไม่เป็นไรตอนนี้โดยนิยามของกระบวนการสร้างข้อมูลเป็นกระบวนการปัวซองเพราะคำถามของฉันเกี่ยวกับแบบจำลองอุปสรรค์ สมมติว่าฉันต้องการจัดการค่าศูนย์ส่วนเกินเหล่านี้ด้วยแบบจำลองอุปสรรค์ จากการอ่านของฉันเกี่ยวกับพวกเขาดูเหมือนว่าแบบจำลองอุปสรรค์ไม่ใช่แบบจำลองที่แท้จริงต่อพวกเขากำลังทำการวิเคราะห์สองแบบที่ต่างกันตามลำดับ ก่อนอื่นการถดถอยแบบลอจิสติกจะทำนายว่าค่านั้นเป็นค่าบวกกับศูนย์หรือไม่ ประการที่สองการถดถอยปัวซองที่ไม่มีการตัดทอนด้วยการรวมกรณีที่ไม่เป็นศูนย์เท่านั้น ขั้นตอนที่สองนี้รู้สึกผิดกับฉันเพราะเป็น (ก) ทิ้งข้อมูลที่ดีอย่างสมบูรณ์แบบซึ่ง (b) อาจนำไปสู่ปัญหาด้านพลังงานเนื่องจากข้อมูลส่วนใหญ่เป็นศูนย์และ (c) ไม่ใช่ …

8
ทำไมจึงเป็นสิ่งสำคัญที่จะมีทฤษฎีหลักการและคณิตศาสตร์สำหรับการเรียนรู้ของเครื่อง?
ฉันสงสัยอยู่แล้วว่าทำไมการเรียนรู้ด้วยเครื่อง / ทฤษฎีอย่างมีเหตุผลจึงสำคัญ? จากมุมมองส่วนบุคคลในฐานะมนุษย์ฉันสามารถเข้าใจได้ว่าทำไมการเรียนรู้ด้วยเครื่องแบบแยกส่วนจึงสำคัญ: มนุษย์ชอบทำความเข้าใจกับสิ่งที่พวกเขากำลังทำเราค้นหาความงามและความพึงพอใจต่อความเข้าใจ จากมุมมองทางทฤษฎีคณิตศาสตร์ก็สนุก เมื่อมีหลักการที่เป็นแนวทางในการออกแบบสิ่งต่าง ๆ มีเวลาน้อยลงในการคาดเดาแบบสุ่มการลองผิดลองถูกและผิดพลาด ถ้าเราเข้าใจพูดได้ว่าโครงข่ายประสาททำงานอย่างไรเราอาจใช้เวลาที่ดีกว่าในการออกแบบพวกมันมากกว่าการลองผิดลองถูกจำนวนมหาศาล อีกไม่นานหากหลักการมีความชัดเจนและทฤษฎีก็ชัดเจนเช่นกันก็ควรจะมีความโปร่งใสมากขึ้นในระบบ สิ่งนี้เป็นสิ่งที่ดีเพราะถ้าเราเข้าใจว่าระบบทำงานอะไรอยู่ AI ก็มีความเสี่ยงที่ผู้คนจำนวนมากจะหายตัวไปในทันที หลักการดูเหมือนจะเป็นวิธีที่กระชับเพื่อสรุปโครงสร้างที่สำคัญที่โลกอาจมีและเมื่อต้องใช้เครื่องมือมากกว่าที่อื่น อย่างไรก็ตามเหตุผลเหล่านี้มีความแข็งแกร่งเพียงพอที่จะพิสูจน์การศึกษาเชิงทฤษฎีที่เข้มข้นของการเรียนรู้ด้วยเครื่องได้หรือไม่? หนึ่งในข้อวิจารณ์ที่ใหญ่ที่สุดของทฤษฎีก็คือเพราะมันยากที่จะทำพวกเขามักจะจบลงด้วยการศึกษากรณีที่ถูก จำกัด มากหรือข้อสันนิษฐานที่ต้องนำมาเป็นหลักทำให้ผลลัพธ์ไร้ประโยชน์ ฉันคิดว่าฉันได้ยินเรื่องนี้อีกครั้งในการพูดคุยที่ MIT โดยผู้สร้าง Tor การวิพากษ์วิจารณ์บางส่วนของทอร์ที่เขาเคยได้ยินเป็นข้อโต้แย้งเชิงทฤษฎี แต่โดยพื้นฐานแล้วผู้คนไม่สามารถพิสูจน์สิ่งต่าง ๆ เกี่ยวกับสถานการณ์จริงของชีวิตจริงเพราะพวกเขาซับซ้อนมาก ในยุคใหม่นี้ด้วยพลังการประมวลผลและข้อมูลที่มากมายเราสามารถทดสอบโมเดลของเราด้วยชุดข้อมูลจริงและชุดทดสอบ เราสามารถดูว่าสิ่งต่าง ๆ ทำงานโดยใช้ประสบการณ์นิยม ถ้าเราสามารถบรรลุ AGI หรือระบบที่ทำงานกับวิศวกรรมและประสบการณ์นิยมได้มันก็ยังคุ้มค่าที่จะทำตามหลักการและเหตุผลทางทฤษฎีสำหรับการเรียนรู้ของเครื่องจักรโดยเฉพาะอย่างยิ่งเมื่อขอบเขตเชิงปริมาณนั้นยากที่จะบรรลุ แต่สัญชาตญาณและคำตอบเชิงคุณภาพ บรรลุด้วยวิธีการขับเคลื่อนข้อมูล? วิธีการนี้ไม่สามารถใช้ได้ในสถิติแบบดั้งเดิมซึ่งเป็นเหตุผลที่ฉันคิดว่าทฤษฎีมีความสำคัญในช่วงเวลาเหล่านั้นเพราะคณิตศาสตร์เป็นวิธีเดียวที่เราจะมั่นใจได้ว่าสิ่งต่าง ๆ ถูกต้องหรือว่าพวกเขาทำงานจริงอย่างที่เราคิด ฉันชอบทฤษฎีความคิดส่วนตัวและความคิดส่วนตัวอยู่เสมอ แต่ด้วยพลังของความสามารถในการทดลองกับข้อมูลจริงและพลังการประมวลผลทำให้ฉันสงสัยว่าความพยายามในระดับสูง ทฤษฎีและหลักการของการเรียนรู้ของเครื่องเป็นสิ่งสำคัญจริง ๆ หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.