สถิติและข้อมูลขนาดใหญ่

3

อะไรคือความแตกต่างระหว่างเครือข่ายฟีดไปข้างหน้าและเกิดขึ้นอีก?

อะไรคือความแตกต่างระหว่างเครือข่ายการส่งต่อและการเกิดซ้ำของเส้นประสาท? ทำไมคุณถึงใช้อันอื่น? ทอพอโลยีเครือข่ายอื่นมีอยู่จริงหรือไม่?

58 machine-learning neural-networks terminology rnn topologies

6

รุ่น“ อิ่มตัว” คืออะไร?

หมายความว่าอย่างไรเมื่อเราบอกว่าเรามีแบบจำลองที่อิ่มตัว?

58 modeling regression

11

เครื่องมือพัฒนาสมอง: จะสร้างจำนวนเต็ม 7 จำนวนด้วยความน่าจะเป็นที่เท่าเทียมกันโดยใช้เหรียญลำเอียงที่มี pr (หัว) = p อย่างไร

นี่เป็นคำถามที่ฉันพบในGlassdoor : เราสร้างจำนวนเต็ม 7 ตัวที่มีความน่าจะเป็นเท่ากันในการใช้เหรียญที่มีอย่างไรP r ( หัวหน้า) = p ∈ ( 0 , 1 )Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) โดยทั่วไปคุณมีเหรียญที่อาจจะใช่หรือไม่ยุติธรรมและนี่เป็นกระบวนการสร้างเลขสุ่มเพียงตัวเดียวที่คุณมีดังนั้นเกิดขึ้นกับตัวสร้างตัวเลขสุ่มที่แสดงจำนวนเต็มตั้งแต่ 1 ถึง 7 โดยที่ความน่าจะเป็นที่จะได้จำนวนเต็มแต่ละตัว คือ 1/7 ประสิทธิภาพของกระบวนการสร้างข้อมูล

58 probability binomial random-generation

3

หมายถึงข้อผิดพลาดสัมบูรณ์หรือรูทหมายความว่าข้อผิดพลาดกำลังสอง?

เหตุใดจึงต้องใช้ Root Mean Squared Error (RMSE) แทนที่จะเป็น Mean Absolute Error (MAE)? สวัสดี ฉันได้ตรวจสอบข้อผิดพลาดที่สร้างขึ้นในการคำนวณ - ในขั้นต้นฉันคำนวณข้อผิดพลาดเป็นข้อผิดพลาดรูตค่าเฉลี่ย Normalized Root เมื่อมองดูใกล้ ๆ ฉันจะเห็นผลกระทบของการยกกำลังข้อผิดพลาดนั้นให้น้ำหนักมากกว่าข้อผิดพลาดที่ใหญ่กว่าตัวที่เล็กกว่า นี่ค่อนข้างชัดเจนในการหวนกลับ ดังนั้นคำถามของฉัน - ในกรณีที่รูทค่าเฉลี่ยของข้อผิดพลาดกำลังสองเป็นข้อผิดพลาดที่เหมาะสมกว่าการวัดค่าความผิดพลาดแบบสัมบูรณ์ หลังดูเหมาะสมกว่าสำหรับฉันหรือฉันขาดอะไรไป? เพื่อแสดงสิ่งนี้ฉันได้แนบตัวอย่างด้านล่าง: พล็อตกระจายกระจายแสดงตัวแปรสองตัวที่มีความสัมพันธ์ที่ดี ฮิสโทแกรมสองแผนภูมิทางด้านขวาข้อผิดพลาดระหว่าง Y (สังเกต) และ Y (ทำนาย) โดยใช้ RMSE ปกติ (บนสุด) และแม่ (ล่าง) ไม่มีค่าผิดปกติที่สำคัญในข้อมูลนี้และ MAE ให้ข้อผิดพลาดต่ำกว่า RMSE มีเหตุผลอื่นใดนอกเหนือจากแม่ที่เป็นที่นิยมกว่าสำหรับการใช้ข้อผิดพลาดหนึ่งวัดเหนืออื่น ๆ ?

58 least-squares mean rms mae

2

ฉันจะเปลี่ยนชื่อของตำนานใน ggplot2 ได้อย่างไร [ปิด]

ฉันมีพล็อตที่ฉันทำใน ggplot2 เพื่อสรุปข้อมูลที่มาจากชุดข้อมูล celled 2 x 4 x 3 ฉันได้รับสามารถที่จะทำให้การติดตั้งสำหรับตัวแปร 2 ระดับการใช้facet_grid(. ~ Age)และการตั้งค่า x และแกน y aes(x=4leveledVariable, y=DV)ที่ใช้ ฉันเคยaes(group=3leveledvariable, lty=3leveledvariable)ผลิตเนื้อเรื่องจนถึงตอนนี้ สิ่งนี้ทำให้ฉันเห็นภาพที่เป็นแบบพาเนลโดยตัวแปร 2 ระดับโดยที่แกน X เป็นตัวแทนของตัวแปร 4 ระดับและเส้นที่แตกต่างกันที่พล็อตภายในพาเนลสำหรับตัวแปร 3 ระดับ แต่ที่สำคัญสำหรับตัวแปร 3 ระดับนั้นมีชื่อว่าด้วยชื่อของตัวแปร 3 ระดับและฉันต้องการให้มันเป็นชื่อที่มีช่องว่างของอักขระ ฉันจะเปลี่ยนชื่อตำนานได้อย่างไร? สิ่งที่ฉันพยายามที่ดูเหมือนจะไม่ทำงาน (ที่abpเป็นวัตถุ ggplot2 ของฉัน): abp <- abp + opts(legend.title="Town Name") abp <- abp + …

58 r data-visualization ggplot2

7

reparameterization trick สำหรับ VAEs ทำงานอย่างไรและทำไมจึงมีความสำคัญ

อย่างไรเคล็ดลับ reparameterizationสำหรับ autoencoders แปรผัน (VAE) ทำงานอย่างไร มีคำอธิบายที่เข้าใจง่ายและเข้าใจง่ายโดยไม่ทำให้คณิตศาสตร์ง่ายขึ้นหรือไม่? แล้วทำไมเราถึงต้องการ 'เคล็ดลับ'?

57 mathematical-statistics autoencoders variational-bayes generative-models

1

ทำความเข้าใจเกี่ยวกับเส้นโค้ง ROC

ฉันมีปัญหาในการเข้าใจเส้นโค้ง ROC มีข้อได้เปรียบ / การปรับปรุงในพื้นที่ภายใต้เส้นโค้ง ROC หรือไม่ถ้าฉันสร้างแบบจำลองที่แตกต่างจากชุดย่อยเฉพาะแต่ละชุดของการฝึกอบรมและใช้มันเพื่อสร้างความน่าจะเป็น ตัวอย่างเช่นถ้ามีค่าเป็นและฉันสร้างแบบจำลองโดยใช้จากค่าที่ 1-4 ของและค่าที่ 8-9 ของและสร้างแบบจำลองโดยใช้ข้อมูลรถไฟที่ยังคงอยู่ ในที่สุดสร้างความน่าจะเป็น ความคิด / ความคิดเห็นใด ๆ จะได้รับการชื่นชมมากyyy{a,a,a,a,b,b,b,b}{a,a,a,a,b,b,b,b}\{a, a, a, a, b, b, b, b\}AAAaaayyyyyyBBB นี่คือรหัส r สำหรับคำอธิบายที่ดีกว่าสำหรับคำถามของฉัน: Y = factor(0,0,0,0,1,1,1,1) X = matirx(rnorm(16,8,2)) ind = c(1,4,8,9) ind2 = -ind mod_A = rpart(Y[ind]~X[ind,]) mod_B = rpart(Y[-ind]~X[-ind,]) mod_full = rpart(Y~X) pred …

57 r roc

1

ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล

มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λλ\lambda คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

13

10 หัวในแถวจะเพิ่มโอกาสในการโยนต่อไปหรือไม่?

ฉันถือว่าสิ่งต่อไปนี้เป็นจริง: สมมติว่าเป็นเหรียญที่ยุติธรรมการได้รับ 10 หัวติดต่อกันในขณะที่การโยนเหรียญไม่เพิ่มโอกาสในการโยนเหรียญถัดไปเป็นหางไม่ว่าจะมีความน่าจะเป็นและ / หรือศัพท์แสงทางสถิติจำนวนเท่าใด (แก้ตัวการเล่น) สมมติว่าเป็นอย่างนั้นคำถามของฉันคือ: ฉันจะโน้มน้าวให้คนที่เป็นอย่างนั้นได้อย่างไร พวกเขาฉลาดและมีการศึกษา แต่ดูเหมือนตั้งใจว่าจะไม่พิจารณาว่าฉันอาจจะถูก (โต้แย้ง)

57 probability independence intuition games bernoulli-process

7

ตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะโอกาสสูงสุดในกลุ่มตัวอย่างขนาดเล็ก?

ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพแบบเชิงเส้นกำกับ เราเห็นผลลัพธ์ที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณการณ์ (MoM) (เมื่อมีความแตกต่างกัน) แม้ในขนาดตัวอย่างที่มีขนาดเล็ก ที่นี่ 'ดีกว่า' หมายถึงในแง่ของการมีความแปรปรวนน้อยลงเมื่อทั้งสองไม่เอนเอียงและโดยทั่วไปแล้วความคลาดเคลื่อนกำลังสองน้อยกว่า (MSE) หมายถึงมากขึ้น อย่างไรก็ตามคำถามที่เกิดขึ้น: มีบางกรณีที่ MoM สามารถเอาชนะ MLE - บนMSE ได้หรือไม่พูดในกลุ่มตัวอย่างขนาดเล็ก? (ซึ่งนี่ไม่ใช่สถานการณ์ที่แปลก / เลว - กล่าวคือให้เงื่อนไขว่า ML จะมีอยู่ / มีประสิทธิภาพในการถือ asymptotically) คำถามติดตามจะเป็น 'ขนาดเล็กได้อย่างไร' - นั่นคือถ้ามีตัวอย่างมีบางอย่างที่ยังคงมีขนาดตัวอย่างที่ค่อนข้างใหญ่บางทีแม้แต่ขนาดตัวอย่างที่แน่นอนทั้งหมด? [ฉันสามารถหาตัวอย่างของตัวประมาณแบบเอนเอียงที่สามารถเอาชนะ ML ในตัวอย่างที่ จำกัด ได้ แต่ไม่ใช่ MoM] เพิ่มการบันทึกย้อนหลัง: การมุ่งเน้นของฉันที่นี่เป็นหลักในกรณีที่ไม่มีการเปลี่ยนแปลง (ซึ่งจริงๆแล้วคือสิ่งที่ความอยากรู้พื้นฐานของฉันมาจาก) ฉันไม่ต้องการแยกแยะกรณีหลายตัวแปร แต่ฉันก็ไม่ต้องการโดยเฉพาะอย่างยิ่งที่จะหลงทางในการอภิปรายอย่างกว้างขวางเกี่ยวกับการประเมินของ James-Stein

57 estimation maximum-likelihood mse method-of-moments efficiency

4

เหตุผลที่ฟังก์ชั่นความน่าจะเป็นไม่ใช่ pdf คืออะไร?

เหตุผลที่ฟังก์ชันความน่าจะเป็นไม่ใช่ pdf (ฟังก์ชันความหนาแน่นของความน่าจะเป็น) คืออะไร

57 likelihood pdf

4

มันสมเหตุสมผลหรือไม่ที่จะเพิ่มคำกำลังสอง แต่ไม่ใช่เชิงเส้นตรงกับแบบจำลอง?

ฉันมีแบบจำลอง (ผสม) ที่หนึ่งในตัวทำนายของฉันควรจะมีการจัดลำดับความสำคัญก่อนที่จะเกี่ยวข้องกับสมการกำลังสองเท่านั้น (เนื่องจากการจัดการทดลอง) ดังนั้นฉันต้องการเพิ่มเฉพาะคำกำลังสองเข้ากับโมเดล มีสองสิ่งที่ขัดขวางไม่ให้ทำเช่นนั้น: ฉันคิดว่าฉันอ่านมาแล้วว่าคุณควรจะรวมพหุนามลำดับที่ต่ำลงไปเสมอ ฉันลืมที่ฉันพบมันและในวรรณคดีที่ฉันดู (เช่น Faraway, 2002; Fox, 2002) ฉันไม่สามารถหาคำอธิบายที่ดีได้ เมื่อฉันเพิ่มทั้งคำเชิงเส้นและกำลังสองทั้งสองมีความสำคัญ เมื่อฉันเพิ่มเพียงหนึ่งเดียวพวกเขาไม่สำคัญ อย่างไรก็ตามความสัมพันธ์เชิงเส้นของตัวทำนายและข้อมูลไม่สามารถตีความได้ บริบทของคำถามของฉันมีลักษณะเป็นแบบผสมโดยlme4เฉพาะ แต่ฉันอยากได้คำตอบที่สามารถอธิบายได้ว่าทำไมมันถึงเป็นหรือทำไมมันไม่เป็นไรที่จะรวมพหุนามลำดับที่สูงกว่าและไม่ใช่พหุนามลำดับที่ต่ำกว่า หากจำเป็นฉันสามารถให้ข้อมูลได้

57 regression polynomial

5

ปริมาณที่ควรเพิ่มลงไปใน x เพื่อหลีกเลี่ยงการบันทึกเป็นศูนย์?

ฉันวิเคราะห์ข้อมูลของฉันแล้ว ตอนนี้ฉันต้องการดูการวิเคราะห์ของฉันหลังจากจดบันทึกตัวแปรทั้งหมด ตัวแปรหลายตัวมีค่าศูนย์จำนวนมาก ดังนั้นฉันจะเพิ่มจำนวนเล็กน้อยเพื่อหลีกเลี่ยงการบันทึกของศูนย์ จนถึงตอนนี้ฉันได้เพิ่ม 10 ^ -10 โดยไม่มีเหตุผลใด ๆ จริง ๆ เพียงเพราะฉันรู้สึกว่าการเพิ่มจำนวนน้อยมากจะแนะนำให้ลดผลกระทบของปริมาณที่ฉันเลือกโดยพลการ แต่ตัวแปรบางตัวมีค่าศูนย์เป็นส่วนใหญ่ดังนั้นเมื่อบันทึกไว้ส่วนใหญ่ -23.02 ช่วงของช่วงตัวแปรของฉันคือ 1.33-8819.21 และความถี่ของเลขศูนย์ก็แตกต่างกันเช่นกัน ดังนั้นตัวเลือกส่วนตัวของฉัน "ปริมาณน้อย" จึงมีผลต่อตัวแปรต่างกันมาก เป็นที่ชัดเจนแล้วว่า 10 ^ -10 เป็นตัวเลือกที่ไม่สามารถยอมรับได้อย่างสมบูรณ์เนื่องจากความแปรปรวนส่วนใหญ่ในตัวแปรทั้งหมดนั้นมาจาก "ปริมาณเล็กน้อย" โดยพลการ ฉันสงสัยว่าอะไรจะเป็นวิธีที่ถูกต้องมากขึ้นในการทำเช่นนี้ อาจจะดีกว่าถ้าเราหาปริมาณจากตัวแปรแต่ละตัวจากการกระจายตัว มีแนวทางใดบ้างเกี่ยวกับ "ปริมาณเล็กน้อย" ที่ควรได้รับ การวิเคราะห์ของฉันส่วนใหญ่เป็นรูปแบบค็อกซ์ที่เรียบง่ายกับตัวแปรและอายุ / เพศเป็น IV ตัวแปรคือความเข้มข้นของไขมันในเลือดต่าง ๆ ซึ่งมักมีค่าสัมประสิทธิ์การเปลี่ยนแปลงค่อนข้างมาก แก้ไข : การเพิ่มค่าที่ไม่เป็นศูนย์ที่เล็กที่สุดของตัวแปรดูเหมือนจะเป็นประโยชน์สำหรับข้อมูลของฉัน แต่อาจจะมีวิธีแก้ปัญหาทั่วไปใช่ไหม แก้ไข 2 : เนื่องจากศูนย์เพียงระบุความเข้มข้นต่ำกว่าขีด จำกัด การตรวจจับอาจตั้งค่าให้เป็น …

57 data-transformation chemometrics

17

เครื่องเรียนรู้ตำราอาหาร / บัตรอ้างอิง / สูตรชีท?

ฉันค้นหาทรัพยากรเช่นตำราความน่าจะเป็นและสถิติและบัตรอ้างอิง R สำหรับการขุดข้อมูลมีประโยชน์อย่างเหลือเชื่อ เห็นได้ชัดว่าพวกเขาทำหน้าที่เป็นข้อมูลอ้างอิง แต่ยังช่วยฉันในการจัดระเบียบความคิดของฉันในเรื่องและได้รับการวางของแผ่นดิน ถาม: มีสิ่งใดเช่นทรัพยากรเหล่านี้สำหรับวิธีการเรียนรู้ของเครื่องหรือไม่? ฉันจินตนาการบัตรอ้างอิงซึ่งสำหรับวิธีการ ML แต่ละอันจะรวมถึง: คุณสมบัติทั่วไป เมื่อวิธีการทำงานได้ดี เมื่อวิธีการทำไม่ดี จากวิธีการใดหรือวิธีอื่นใดที่วิธีการทั่วไป มันถูกแทนที่ส่วนใหญ่? เอกสารเชื้อเกี่ยวกับวิธีการ ปัญหาเปิดที่เกี่ยวข้องกับวิธีการ ความเข้มในการคำนวณ ทุกสิ่งเหล่านี้สามารถพบได้ด้วยการขุดน้อยที่สุดผ่านตำราเรียนฉันแน่ใจ มันจะสะดวกจริง ๆ มีไว้ในไม่กี่หน้า

57 machine-learning references

11

แหล่งข้อมูลสำหรับการเรียนรู้โซ่มาร์คอฟและโมเดลมาร์คอฟที่ซ่อนอยู่

ฉันกำลังมองหาแหล่งข้อมูล (แบบฝึกหัดตำราเรียนเว็บคาสต์ ฯลฯ ) เพื่อเรียนรู้เกี่ยวกับ Markov Chain และ HMM พื้นหลังของฉันเป็นนักชีววิทยาและปัจจุบันฉันมีส่วนร่วมในโครงการที่เกี่ยวข้องกับชีวสารสนเทศศาสตร์ นอกจากนี้พื้นหลังทางคณิตศาสตร์ที่จำเป็นต้องมีความเข้าใจเพียงพอของโมเดลของมาร์คอฟ & HMM คืออะไร ฉันได้ดูรอบ ๆ โดยใช้ Google แต่จนถึงตอนนี้ฉันยังไม่พบบทแนะนำเบื้องต้นที่ดี ฉันแน่ใจว่าคนที่นี่รู้ดีกว่า

57 references markov-process hidden-markov-model bioinformatics