สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
น้ำหนักได้รับการปรับปรุงในวิธีการเรียนรู้แบบแบตช์ในเครือข่ายประสาทเทียมอย่างไร
ใครช่วยบอกฉันทีว่าฉันควรจะสร้างเครือข่ายประสาทโดยใช้วิธีการแบทช์ได้ไหม ฉันได้อ่านแล้วว่าในโหมดแบทช์สำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมเราคำนวณข้อผิดพลาดเดลต้าและทำให้น้ำหนักเดลต้าสำหรับเซลล์ประสาทแต่ละตัวในเครือข่ายและจากนั้นแทนที่จะอัปเดตน้ำหนักทันทีเราสะสมพวกเขาและจากนั้นก่อนเริ่ม ยุคต่อไปเราจะปรับปรุงน้ำหนัก ฉันยังอ่านบางที่ว่าวิธีการแบทช์เป็นเหมือนวิธีการออนไลน์ แต่ด้วยความแตกต่างที่เราต้องการเพียงข้อสรุปข้อผิดพลาดสำหรับตัวอย่างทั้งหมดในชุดการฝึกอบรมแล้วใช้ค่าเฉลี่ยของมันแล้วใช้ค่าเฉลี่ยของมัน วิธีการหนึ่งในวิธีออนไลน์ (ความแตกต่างเป็นเพียงค่าเฉลี่ย) เช่นนี้: for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update …

1
รวมถึงเงื่อนไขการโต้ตอบในป่าสุ่ม
สมมติว่าเรามีคำตอบ Y และตัวทำนาย X1, .... , Xn ถ้าเราพยายามทำให้พอดีกับ Y ผ่านโมเดลเชิงเส้นของ X1, .... , Xn และมันก็เกิดขึ้นที่ความสัมพันธ์ที่แท้จริงระหว่าง Y และ X1, ... , Xn ไม่เชิงเส้นเราอาจจะสามารถ เพื่อแก้ไขตัวแบบโดยการแปลง X ของมันให้เข้ากับโมเดล ยิ่งกว่านั้นถ้ามันเกิดขึ้นเมื่อ X1, ... , XN ไม่ได้ส่งผลกระทบต่อคุณสมบัติที่เป็นอิสระของ y อื่น ๆ เราก็อาจจะสามารถปรับปรุงรูปแบบโดยรวมถึงเงื่อนไขการโต้ตอบ x1 * x3 หรือ x1 * x4 * x7 หรืออะไรทำนองนั้น ดังนั้นในกรณีเชิงเส้นเงื่อนไขการโต้ตอบอาจนำมาซึ่งมูลค่าโดยการแก้ไขการไม่เป็นเชิงเส้นหรือการละเมิดความเป็นอิสระระหว่างการตอบสนองและคุณลักษณะ อย่างไรก็ตามป่าสุ่มไม่ได้ตั้งสมมติฐานเหล่านี้ การรวมคำศัพท์ในการโต้ตอบมีความสำคัญหรือไม่เมื่อปรับป่าที่เหมาะสม หรือจะรวมถึงข้อกำหนดของแต่ละบุคคลและการเลือกพารามิเตอร์ที่เหมาะสมจะช่วยให้ป่าสุ่มจับความสัมพันธ์เหล่านี้?

3
ตัวชี้วัดสำหรับการประเมินอัลกอริทึมการจัดอันดับ
ฉันสนใจที่จะดูตัวชี้วัดการจัดอันดับอัลกอริทึมที่แตกต่างกัน - มีอยู่ไม่กี่รายการในหน้าวิกิพีเดียการเรียนรู้การจัดอันดับซึ่งรวมถึง: •ค่าเฉลี่ยความแม่นยำเฉลี่ย (MAP); • DCG และ NDCG; •ความแม่นยำ @ n, NDCG @ n โดยที่ "@n" แสดงว่าตัวชี้วัดได้รับการประเมินเฉพาะบนเอกสาร n อันดับเท่านั้น •หมายถึงอันดับซึ่งกันและกัน; •เอกภาพของเคนดัลล์ • Rho ของ Spearman •อันดับที่คาดหวังซึ่งกันและกัน •กองยานของยานเดกซ์ แต่มันไม่ชัดเจนสำหรับฉันสิ่งที่ข้อดี / ข้อเสียของแต่ละคนหรือเมื่อคุณอาจเลือกอย่างใดอย่างหนึ่งมากกว่า (หรือสิ่งที่มันจะหมายถึงถ้าอัลกอริทึมหนึ่งมีประสิทธิภาพดีกว่าอีกใน NDGC แต่แย่กว่าเมื่อประเมินด้วย MAP) มีที่ไหนที่ฉันสามารถไปเรียนรู้เพิ่มเติมเกี่ยวกับคำถามเหล่านี้หรือไม่

1
อะไรคือ“ ความคาดหวังความเป็นไปได้สูงสุดที่ตั้งเป้าหมายไว้”?
ฉันพยายามทำความเข้าใจกับเอกสารของ Mark van der Laan เขาเป็นนักสถิติเชิงทฤษฎีที่ Berkeley ที่ทำงานกับปัญหาที่ทับซ้อนกันอย่างมีนัยสำคัญกับการเรียนรู้ของเครื่อง ปัญหาหนึ่งสำหรับฉัน (นอกเหนือจากคณิตศาสตร์ลึก) คือเขามักจะอธิบายวิธีการเรียนรู้ของเครื่องที่คุ้นเคยโดยใช้คำศัพท์ที่แตกต่างกันโดยสิ้นเชิง หนึ่งในแนวคิดหลักของเขาคือ "ความคาดหวังสูงสุดตามเป้าหมาย" TMLE ใช้ในการวิเคราะห์ข้อมูลเชิงการเซ็นเซอร์จากการทดลองที่ไม่มีการควบคุมในลักษณะที่ช่วยให้การประเมินผลกระทบแม้ในที่ที่มีปัจจัยรบกวน ฉันสงสัยอย่างยิ่งว่ามีแนวคิดแบบเดียวกันหลายอย่างอยู่ภายใต้ชื่ออื่นในสาขาอื่น แต่ฉันยังไม่เข้าใจดีพอที่จะจับคู่มันกับอะไรก็ได้โดยตรง ความพยายามในการเชื่อมช่องว่างกับ "การวิเคราะห์ข้อมูลเชิงคำนวณ" อยู่ที่นี่: การเข้าสู่ยุคของวิทยาศาสตร์ข้อมูล: การเรียนรู้แบบเป้าหมายและการบูรณาการสถิติและการวิเคราะห์ข้อมูลเชิงคำนวณ และการแนะนำสำหรับนักสถิติอยู่ที่นี่: การอนุมานสาเหตุเชิงสาเหตุสูงสุดตามเป้าหมาย: ส่วนที่ 1 จากวินาที: ในบทความนี้เราพัฒนาตัวประมาณความน่าจะเป็นเป้าหมายสูงสุดเฉพาะของผลกระทบเชิงสาเหตุของการแทรกแซงจุดเวลาหลายจุด สิ่งนี้เกี่ยวข้องกับการใช้การสูญเสียการเรียนรู้ระดับสูงเพื่อรับการประเมินเบื้องต้นของปัจจัยที่ไม่ทราบของสูตรการคำนวณ G และต่อมาใช้ฟังก์ชันพารามิเตอร์ความผันผวนที่เหมาะสมที่สุดที่เป็นเป้าหมายเฉพาะพารามิเตอร์ การประมาณค่าพารามิเตอร์ความผันผวนด้วยการประมาณค่าความน่าจะเป็นสูงสุดและวนซ้ำขั้นตอนการอัปเดตของปัจจัยเริ่มต้นจนถึงการลู่เข้า ขั้นตอนการอัพเดทโอกาสสูงสุดที่เป็นเป้าหมายซ้ำ ๆ นี้ทำให้ตัวประมาณค่าผลลัพธ์ของผลลัพธ์เชิงสาเหตุมีความแข็งแกร่งเป็นสองเท่าในแง่ที่ว่ามีความสอดคล้องกันหากตัวประมาณค่าเริ่มต้นสอดคล้องกัน หรือตัวประมาณของฟังก์ชันความผันผวนที่เหมาะสมนั้นสอดคล้องกัน ฟังก์ชั่นความผันผวนที่ดีที่สุดจะถูกระบุอย่างถูกต้องหากการแจกแจงแบบมีเงื่อนไขของโหนดในกราฟเชิงสาเหตุระบุการแทรกแซงอย่างใดอย่างหนึ่ง ในคำศัพท์ของเขา "การเรียนรู้ขั้นสูง" คือการเรียนรู้ทั้งมวลด้วยทฤษฎีที่มีน้ำหนักที่ไม่เป็นลบ แต่สิ่งที่เขาหมายถึงโดย "การใช้ฟังก์ชั่นความผันผวนที่ดีที่สุดเฉพาะพารามิเตอร์เป้าหมายพารามิเตอร์ หรือแบ่งเป็นสามคำถามที่แตกต่างกัน TMLE มีการเรียนรู้แบบขนานในเครื่องเรียนรู้ว่าอะไรคือ "รูปแบบพารามิเตอร์ที่มีประโยชน์น้อยที่สุด" และ "ฟังก์ชันความผันผวน" ในสาขาอื่นคืออะไร

2
คำจำกัดความของความแม่นยำสูงสุดคืออะไร
ฉันกำลังอ่านกระดาษวิทยาศาสตร์เกี่ยวกับการจำแนกภาพ ในผลการทดลองพวกเขาพูดถึงความแม่นยำระดับท็อป 1 และ 5 อันดับแรก แต่ฉันไม่เคยได้ยินคำนี้มาก่อนและไม่สามารถค้นหาได้โดยใช้ google ใครสามารถให้คำจำกัดความหรือชี้แนะฉันได้? :)

4
ตัวแปรใดอธิบายถึงส่วนประกอบ PCA และในทางกลับกัน
ใช้ข้อมูลนี้: head(USArrests) nrow(USArrests) ฉันสามารถทำ PCA เป็นเช่นนี้: plot(USArrests) otherPCA <- princomp(USArrests) ฉันสามารถรับส่วนประกอบใหม่ได้ otherPCA$scores และสัดส่วนของความแปรปรวนที่อธิบายโดยส่วนประกอบด้วย summary(otherPCA) แต่ถ้าฉันต้องการรู้ว่าตัวแปรใดที่อธิบายส่วนใหญ่โดยองค์ประกอบหลัก? และในทางกลับกัน: เป็นเช่น PC1 หรือ PC2 ส่วนใหญ่อธิบายโดยmurder? ฉันจะทำสิ่งนี้ได้อย่างไร ฉันสามารถพูดได้เช่นว่า PC1 นั้นสามารถอธิบายได้ 80% โดยmurderหรือassault? ฉันคิดว่าการโหลดช่วยฉันที่นี่ แต่พวกเขาแสดงทิศทางที่ไม่อธิบายความแปรปรวนตามที่ฉันเข้าใจเช่น otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

1
วิธีการตีความ ACF เชิงลบ (ฟังก์ชั่นความสัมพันธ์อัตโนมัติ)?
ดังนั้นฉันจึงวางแผน ACF / PACFของผลตอบแทนน้ำมันและคาดว่าจะเห็นความสัมพันธ์เชิงบวกบางอย่าง แต่ด้วยความประหลาดใจของฉันฉันได้รับความสัมพันธ์เชิงลบที่สำคัญเท่านั้น ฉันจะตีความกราฟข้างต้นได้อย่างไร พวกเขาดูเหมือนจะบ่งชี้ว่ามีแนวโน้มที่ผลตอบแทนน้ำมันจะเพิ่มขึ้นเมื่อมันลดลงก่อนหน้านี้และในทางกลับกันพฤติกรรมจึงสั่นไหว โปรดแก้ไขฉันหากฉันผิด

3
ทดสอบว่าการกระจายหลายมิติเหมือนกันหรือไม่
ให้บอกว่าฉันมีประชากรตัวอย่างสองตัวหรือมากกว่าของเวกเตอร์ที่มีมูลค่าต่อเนื่องแบบมิติ n มีวิธีที่ไม่ใช้พารามิเตอร์เพื่อทดสอบว่าตัวอย่างเหล่านี้มาจากการแจกแจงแบบเดียวกันหรือไม่? ถ้าเป็นเช่นนั้นจะมีฟังก์ชั่นใน R หรือหลามนี้หรือไม่?

2
ทำไมการปรับขนาดจึงมีความสำคัญสำหรับการจัดประเภท SVM เชิงเส้น
เมื่อทำการจัดหมวดหมู่ SVM แบบเส้นตรงมักจะเป็นประโยชน์ในการทำให้ข้อมูลการฝึกอบรมเป็นปกติเช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน ทำไมกระบวนการนี้จึงเปลี่ยนประสิทธิภาพการจำแนกอย่างรวดเร็ว?

3
การเปรียบเทียบรายการอันดับ
สมมติว่าทั้งสองกลุ่มประกอบด้วยและแต่ละชุดมี 25 รายการจากมากไปน้อยสำคัญ อะไรคือวิธีที่ดีที่สุดในการเปรียบเทียบอันดับเหล่านี้n 2n1n1n_1n2n2n_2 เห็นได้ชัดว่ามีความเป็นไปได้ที่จะทำการทดสอบ Mann-Whitney U 25 ครั้ง แต่สิ่งนี้จะส่งผลให้ผลการทดสอบ 25 รายการตีความได้ซึ่งอาจมากเกินไป (และในการใช้อย่างเข้มงวด มันยังไม่ชัดเจนสำหรับฉันที่จะจัดอันดับความพึงพอใจทุกข้อสันนิษฐานของการทดสอบนี้ ฉันจะสนใจพอยน์เตอร์ในวรรณคดีเรื่องเรตติ้งและอันดับ บริบทบางอย่าง: 25 รายการเหล่านี้เกี่ยวข้องกับการศึกษาและทั้งสองกลุ่มเป็นนักการศึกษาประเภทต่างๆ ทั้งสองกลุ่มมีขนาดเล็ก แก้ไขในการตอบสนองต่อ @ttnphns: ฉันไม่ได้ตั้งใจจะเปรียบเทียบลำดับทั้งหมดของรายการในกลุ่ม 1 กับกลุ่ม 2 - นั่นคงเป็นค่าคงที่ @ttnphns ชี้ให้เห็น แต่อันดับในกลุ่ม 1 และกลุ่ม 2 จะแตกต่างกัน นั่นคือกลุ่ม 1 อาจจัดอันดับรายการ 1 สูงกว่ากลุ่ม 2 ฉันสามารถเปรียบเทียบพวกเขาแต่ละรายการได้รับค่าเฉลี่ยหรืออันดับเฉลี่ยของแต่ละรายการและทำการทดสอบ 25 ครั้ง แต่ฉันสงสัยว่ามีวิธีที่ดีกว่าในการทำเช่นนี้

2
พารามิเตอร์ที่ไม่มีตัวคั่นที่กำหนดใน Stan
ผมได้เริ่มต้นเพียงเพื่อเรียนรู้ที่จะใช้สแตนrstanและ นอกจากว่าฉันมักจะสับสนเกี่ยวกับวิธีการทำงานของ JAGS / BUGS ฉันคิดว่าคุณต้องกำหนดการแจกจ่ายก่อนหน้าบางชนิดสำหรับพารามิเตอร์ทุกตัวในโมเดลที่จะดึงมา ดูเหมือนว่าคุณไม่จำเป็นต้องทำสิ่งนี้ใน Stan ตามเอกสารประกอบของมัน นี่คือรูปแบบตัวอย่างที่พวกเขาให้ที่นี่ data { int<lower=0> J; // number of schools real y[J]; // estimated treatment effects real<lower=0> sigma[J]; // s.e. of effect estimates } parameters { real theta[J]; real mu; real<lower=0> tau; } model { theta ~ normal(mu, tau); y ~ normal(theta, …

9
อ้างอิงกับการแจกแจงที่มีคุณสมบัติต่าง ๆ
ฉันมักจะพบว่าตัวเองถามคำถามเช่น "ฉันรู้ว่าตัวแปรนี้ อยู่ในและมวลส่วนใหญ่อยู่ในแล้วลดลงอย่างต่อเนื่องต่อ 1 ฉันจะใช้การกระจายแบบใด "( 0 , 1 ) ( 0 , .20 )xxx( 0 , 1 )(0,1)(0,1)( 0 , .20 )(0,.20)(0,.20) ในทางปฏิบัติฉันไขลานโดยใช้การแจกแจงสองสามครั้งซ้ำแล้วซ้ำอีกเพียงเพราะฉันรู้จักพวกเขา แต่ฉันต้องการค้นหาพวกเขาอย่างเป็นระบบมากกว่า ฉันจะไปเกี่ยวกับการเข้าถึงความมั่งคั่งของงานที่ probabilitists ได้ทำการพัฒนาการกระจายเหล่านี้ทั้งหมดได้อย่างไร เป็นการดีที่ฉันต้องการการอ้างอิงที่จัดโดยคุณสมบัติ (ภูมิภาคที่ให้การสนับสนุน ฯลฯ ) ดังนั้นฉันจึงสามารถหาการแจกแจงตามลักษณะของพวกเขาแล้วเรียนรู้เพิ่มเติมเกี่ยวกับการแจกแจงแต่ละครั้งตามความสามารถในการรองรับของ pdf / cdf และความใกล้ชิด ปัญหาที่ฉันกำลังทำอยู่ มีการอ้างอิงดังกล่าวอยู่หรือไม่ถ้าไม่คุณจะเลือกการแจกแจงได้อย่างไร

1
ความสัมพันธ์ของระยะทางกับข้อมูลร่วมกัน
ฉันทำงานกับข้อมูลร่วมกันมาระยะหนึ่งแล้ว แต่ฉันพบว่ามีการวัดล่าสุดใน "โลกแห่งความสัมพันธ์" ที่สามารถใช้เพื่อวัดความเป็นอิสระของการกระจายตัวที่เรียกว่า "ระยะทางสหสัมพันธ์" (หรือเรียกอีกอย่างว่าความสัมพันธ์ Brownian): http://en.wikipedia.org/wiki/Brownian_covariance . ฉันตรวจสอบเอกสารที่มีการใช้มาตรการนี้ แต่ไม่พบการพาดพิงถึงข้อมูลร่วมกัน ดังนั้นคำถามของฉันคือ: พวกเขาแก้ปัญหาเดียวกันได้หรือไม่? ถ้าไม่ปัญหาต่างกันอย่างไร? และหากคำถามก่อนหน้านี้สามารถตอบคำถามในเชิงบวกข้อดีของการใช้อย่างใดอย่างหนึ่งคืออะไร

2
ทำไมการทดสอบ Mann-Whitney U ถึงมีความสำคัญเมื่อค่ามัธยฐานเท่ากัน?
ฉันได้รับผลลัพธ์จากการทดสอบระดับ Mann-Whitney ที่ฉันไม่เข้าใจ ค่ามัธยฐานของ 2 ประชากรนั้นเหมือนกัน (6.9) ตัวพิมพ์ใหญ่และควอนไทล์ที่ต่ำกว่าของแต่ละประชากรคือ: 6.64 และ 7.2 6.60 และ 7.1 ค่า p ที่เป็นผลมาจากการทดสอบเปรียบเทียบประชากรเหล่านี้คือ 0.007 ประชากรเหล่านี้จะแตกต่างกันอย่างมีนัยสำคัญได้อย่างไร? เป็นเพราะการแพร่กระจายเกี่ยวกับค่าเฉลี่ยหรือไม่ boxplot เปรียบเทียบ 2 แสดงว่าอันที่สองมีค่าผิดปกติมากกว่าครั้งแรก ขอบคุณสำหรับคำแนะนำใด ๆ

1
ขอบเขตหางรู้จักที่คมชัดที่สุดสำหรับตัวแปรแบบกระจายคืออะไร
Letจะเป็นตัวแปรสุ่มไคสแควกระจายกับองศาอิสระ ขอบเขตที่ทราบกันดีที่สุดสำหรับความน่าจะเป็นดังต่อไปนี้คืออะไรX∼χ2kX∼χk2X \sim \chi^2_kkkk P[X&gt;t]≤1−δ1(t,k)P[X&gt;t]≤1−δ1(t,k) \mathbb{P}[X > t] \leq 1 - \delta_1(t, k) และ P[X&lt;z]≤1−δ2(z,k)P[X&lt;z]≤1−δ2(z,k) \mathbb{P}[X < z] \leq 1 - \delta_2(z, k) โดยที่และเป็นฟังก์ชั่นบางอย่าง ตัวชี้ไปยังเอกสารที่เกี่ยวข้องจะได้รับการชื่นชมδ1δ1\delta_1δ2δ2\delta_2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.