สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ป่าสุ่มไม่ไวต่อค่าผิดปกติอย่างไร
ฉันได้อ่านในแหล่งข้อมูลไม่กี่แห่งซึ่งรวมถึงอันนี้ว่าป่าสุ่มไม่ไวต่อค่าผิดปกติ (เช่นวิธีการที่ Logistic Regression และวิธีการ ML อื่น ๆ เป็นตัวอย่าง) อย่างไรก็ตามสัญชาตญาณสองชิ้นบอกฉันเป็นอย่างอื่น: เมื่อใดก็ตามที่ต้นไม้การตัดสินใจถูกสร้างขึ้นคะแนนทั้งหมดจะต้องจำแนก ซึ่งหมายความว่าแม้แต่ผู้ผิดกฎหมายก็จะถูกจัดประเภทและด้วยเหตุนี้จะส่งผลต่อต้นไม้การตัดสินใจที่พวกเขาได้รับเลือกในระหว่างการส่งเสริม Bootstrapping เป็นส่วนหนึ่งของการสุ่มตัวอย่างแบบสุ่มป่าไม้ การบูตสแตรปมีความอ่อนไหวต่อค่าผิดปกติ มีวิธีใดบ้างที่จะกระทบยอดปรีชาญาณของฉันเกี่ยวกับความอ่อนไหวต่อผู้ผิดกฎหมายกับแหล่งที่ไม่เห็นด้วยหรือไม่?

4
สัน, เชือกและยางยืด
วิธีเปรียบเทียบมาตรฐานของสันเขา LASSO และ elasticnet ทำอย่างไร? อะไรคือข้อดีและข้อเสียของพวกเขา? เอกสารทางเทคนิคที่ดีหรือบันทึกการบรรยายจะได้รับการชื่นชมเช่นกัน

2
การทำความเข้าใจรูปร่างและการคำนวณแถบความเชื่อมั่นในการถดถอยเชิงเส้น
ฉันพยายามเข้าใจที่มาของรูปโค้งของแถบความเชื่อมั่นที่เกี่ยวข้องกับการถดถอยเชิงเส้น OLS และวิธีการที่เกี่ยวข้องกับช่วงความมั่นใจของพารามิเตอร์การถดถอย (ความชันและจุดตัด) ตัวอย่างเช่น (โดยใช้ R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) ปรากฏว่าวงดนตรีมีความเกี่ยวข้องกับขีด จำกัด ของเส้นที่คำนวณด้วยการสกัด 2.5% และความชัน 97.5% เช่นเดียวกับการสกัดกั้น 97.5% และความชัน 2.5% (แม้ว่าจะไม่มาก): xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) สิ่งที่ฉันไม่เข้าใจมีสองสิ่ง: สิ่งที่เกี่ยวกับการรวมกันของความชัน 2.5% และการสกัดกั้น 2.5% รวมถึงความชัน 97.5% และการสกัดกั้น 97.5% สิ่งเหล่านี้ให้เส้นที่ชัดเจนนอกวงที่วางแผนไว้ด้านบน บางทีฉันอาจไม่เข้าใจความหมายของช่วงความมั่นใจ แต่ถ้าใน 95% ของกรณีที่การประมาณการของฉันอยู่ในช่วงความเชื่อมั่นสิ่งเหล่านี้ดูเหมือนจะเป็นผลลัพธ์ที่เป็นไปได้หรือไม่ อะไรเป็นตัวกำหนดระยะห่างขั้นต่ำระหว่างขีด …

3
'ผู้เรียนที่อ่อนแอ' มีความหมายอย่างไร
ใครสามารถบอกฉันได้ว่าวลี 'ผู้เรียนที่อ่อนแอ' มีความหมายอย่างไร มันควรจะเป็นสมมติฐานที่อ่อนแอหรือไม่? ฉันสับสนเกี่ยวกับความสัมพันธ์ระหว่างผู้เรียนที่อ่อนแอและผู้จําแนกอ่อนแอ ทั้งคู่เหมือนกันหรือแตกต่างกันบ้างไหม? ในขั้นตอนวิธี AdaBoost T=10ที่ สิ่งนั้นมีความหมายอย่างไร ทำไมเราเลือกT=10?

3
ความแตกต่างที่ใช้งานง่ายระหว่างโมเดล Markov ที่ซ่อนอยู่และฟิลด์สุ่มแบบมีเงื่อนไข
ฉันเข้าใจว่า HMM (โมเดลมาร์กมาร์คอฟ) เป็นรุ่นทั่วไปและ CRF เป็นรุ่นที่จำแนกได้ ฉันยังเข้าใจว่า CRFs (เขตสุ่มแบบมีเงื่อนไข) ได้รับการออกแบบและใช้งานอย่างไร สิ่งที่ฉันไม่เข้าใจก็คือพวกเขาแตกต่างจาก HMM อย่างไร ฉันอ่านว่าในกรณีของ HMM เราสามารถจำลองสถานะต่อไปของเราบนโหนดก่อนหน้าโหนดปัจจุบันและความน่าจะเป็นการเปลี่ยนแปลง แต่ในกรณีของ CRF เราสามารถทำสิ่งนี้ได้และสามารถเชื่อมต่อจำนวนโหนดด้วยกันเพื่อสร้างการอ้างอิง หรือบริบท ฉันแก้ไขที่นี่หรือไม่

2
การกำหนดขนาดตัวอย่างที่จำเป็นสำหรับวิธี bootstrap / วิธีการเสนอ
ฉันรู้ว่านี่เป็นหัวข้อที่ค่อนข้างร้อนแรงซึ่งไม่มีใครสามารถให้คำตอบง่ายๆได้ อย่างไรก็ตามฉันสงสัยว่าวิธีการต่อไปนี้ไม่มีประโยชน์หรือไม่ วิธีบู๊ตสแตรปจะมีประโยชน์ก็ต่อเมื่อตัวอย่างของคุณติดตามการกระจายตัวมากหรือน้อยเช่นเดียวกับประชากรดั้งเดิม เพื่อให้แน่ใจว่าเป็นกรณีนี้คุณต้องทำให้ขนาดตัวอย่างของคุณมีขนาดใหญ่พอ แต่อะไรที่ใหญ่พอ? หากหลักฐานของฉันถูกต้องคุณมีปัญหาเดียวกันเมื่อใช้ทฤษฎีบทขีด จำกัด กลางเพื่อกำหนดค่าเฉลี่ยประชากร เฉพาะเมื่อขนาดตัวอย่างของคุณมีขนาดใหญ่พอคุณสามารถมั่นใจได้ว่าประชากรของค่าเฉลี่ยตัวอย่างของคุณมีการกระจายตามปกติ (รอบค่าเฉลี่ยประชากร) กล่าวอีกนัยหนึ่งตัวอย่างของคุณต้องแสดงถึงประชากรของคุณ (การกระจาย) ที่เพียงพอ แต่อีกครั้งสิ่งที่มีขนาดใหญ่พอ? ในกรณีของฉัน (กระบวนการบริหาร: เวลาที่ต้องการเพื่อให้เสร็จสิ้นความต้องการเทียบกับปริมาณความต้องการ) ฉันมีประชากรที่มีการกระจายแบบหลายคำกริยา (ความต้องการทั้งหมดที่เสร็จสิ้นในปี 2554) ซึ่งฉันมั่นใจ 99% ว่ามันน้อยลง กระจายตามปกติมากกว่าประชากร (ความต้องการทั้งหมดที่เสร็จสิ้นระหว่างวันที่ปัจจุบันและวันที่ผ่านมานึกคิดช่วงเวลานี้มีขนาดเล็กที่สุดเท่าที่เป็นไปได้) ฉันต้องการวิจัย ประชากร 2,011 ของฉันที่มีอยู่ออกมาจากหน่วยพอที่จะทำให้ตัวอย่างขนาดตัวอย่างnฉันเลือกค่า สมมติว่า ( ) ตอนนี้ฉันใช้การลองผิดลองถูกเพื่อกำหนดขนาดตัวอย่างที่ดี ฉันใช้และดูว่าประชากรเฉลี่ยตัวอย่างของฉันกระจายโดยใช้ Kolmogorov-Smirnov หรือไม่ ถ้าเป็นเช่นนั้นฉันจะทำซ้ำขั้นตอนเดียวกัน แต่มีขนาดตัวอย่างถ้าไม่ทำซ้ำด้วยขนาดตัวอย่าง (ฯลฯ )xxxnnnxxx101010x = 10x=10x=10n = 50n=50n=50404040606060 หลังจากที่ในขณะที่ฉันสรุปว่าเป็นขนาดตัวอย่างขั้นต่ำที่แน่นอนเพื่อให้ได้เป็นตัวแทนที่ดีของประชากร 2011 ของฉัน เนื่องจากฉันรู้ว่าประชากรที่ฉันสนใจ (ความต้องการทั้งหมดที่ดำเนินการเสร็จระหว่างวันปัจจุบันและวันหนึ่งในอดีต) มีความแปรปรวนน้อยกว่าฉันจึงสามารถใช้ขนาดตัวอย่างที่เพื่อ …

5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

5
การได้รับสารสนเทศข้อมูลร่วมกันและมาตรการที่เกี่ยวข้อง
Andrew More กำหนดข้อมูลที่ได้รับเป็น: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) ที่H(Y|X)H(Y|X)H(Y|X)เป็นเอนโทรปีเงื่อนไข อย่างไรก็ตามวิกิพีเดียเรียกปริมาณดังกล่าวข้างต้นข้อมูลซึ่งกันและกัน วิกิพีเดียในอีกด้านหนึ่งกำหนดข้อมูลที่ได้รับเมื่อ Kullback – Leibler divergence (aka data divergence หรือ entropy สัมพัทธ์) ระหว่างตัวแปรสุ่มสองตัว: DKL(P||Q)=H(P,Q)−H(P)DKL(P||Q)=H(P,Q)−H(P)D_{KL}(P||Q) = H(P,Q) - H(P) ที่H(P,Q)H(P,Q)H(P,Q)ถูกกำหนดให้เป็นข้ามเอนโทรปี คำจำกัดความทั้งสองนี้ดูเหมือนจะไม่สอดคล้องกัน ฉันได้เห็นผู้เขียนคนอื่นพูดถึงแนวคิดที่เกี่ยวข้องเพิ่มเติมอีกสองแนวคิดคือเอนโทรปีต่างกันและการได้รับข้อมูลญาติ คำจำกัดความหรือความสัมพันธ์ที่แม่นยำระหว่างปริมาณเหล่านี้คืออะไร มีหนังสือเรียนที่ดีที่ครอบคลุมพวกเขาทั้งหมดหรือไม่? ได้รับข้อมูล ข้อมูลร่วมกัน ข้ามเอนโทรปี เอนโทรปีแบบมีเงื่อนไข เอนโทรปีต่างกัน ได้รับข้อมูลญาติ

7
คุณถ่ายทอดความงามของทฤษฎีขีด จำกัด กลางไปยังผู้ที่ไม่ใช่สถิติได้อย่างไร?
พ่อของฉันเป็นคนที่ชอบคณิตศาสตร์ แต่ไม่ค่อยสนใจสถิติมากนัก มันจะเป็นการดีที่จะพยายามอธิบายบางส่วนของสถิติที่ยอดเยี่ยมและ CLT เป็นตัวเลือกอันดับต้น ๆ คุณจะถ่ายทอดความงามทางคณิตศาสตร์และผลกระทบของทฤษฎีบทขีด จำกัด กลางให้กับผู้ที่ไม่ใช่สถิติได้อย่างไร?

7
มีคำจำกัดความที่ยอมรับได้สำหรับค่ามัธยฐานของตัวอย่างบนระนาบหรือเว้นวรรคที่สูงขึ้นหรือไม่
ถ้าเป็นเช่นนั้นอะไร ถ้าไม่ทำไมไม่ สำหรับตัวอย่างในบรรทัดค่ามัธยฐานจะลดความเบี่ยงเบนสัมบูรณ์ทั้งหมด มันดูเหมือนเป็นธรรมชาติที่จะขยายคำจำกัดความให้เป็น R2 เป็นต้น แต่ฉันไม่เคยเห็นมาก่อน แต่ฉันออกไปจากสนามไปนานแล้ว

2
ทฤษฎีเบื้องหลังการถดถอยกำลังสองน้อยที่สุด
ใครสามารถแนะนำการอธิบายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยกำลังสองน้อยที่สุด (มีให้ทางออนไลน์) สำหรับคนที่เข้าใจ SVD และ PCA? ฉันดูแหล่งข้อมูลออนไลน์มากมายและไม่พบสิ่งใดที่มีการผสมผสานที่ถูกต้องของความแม่นยำและการเข้าถึง ฉันได้ดูเป็นองค์ประกอบของการเรียนรู้ทางสถิติซึ่งได้รับการแนะนำในความคิดเห็นในคำถามที่ถามเกี่ยวกับการรอการตรวจสอบ , สี่เหลี่ยมอย่างน้อยบางส่วน (PLS) ถดถอยคืออะไรและวิธีการที่แตกต่างจาก OLS? แต่ฉันไม่คิดว่าการอ้างอิงนี้จะทำให้เกิดความยุติธรรมในหัวข้อ (สั้นเกินไปที่จะทำเช่นนั้นและไม่ได้ให้ทฤษฎีเกี่ยวกับเรื่องนี้มากนัก) จากสิ่งที่ฉันได้อ่าน PLS ใช้ประโยชน์จากการรวมกันเชิงเส้นของตัวแปรทำนายที่เพิ่มความแปรปรวนร่วมภายใต้ข้อ จำกัดและz_i ^ Tz_j = 0ถ้าฉัน \ neq j , ที่\ varphi_izi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i Z T ฉัน Z J = 0 ฉัน≠ เจφ ฉัน∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq jφiφi\varphi_iจะถูกเลือกซ้ำตามลำดับที่พวกเขาเพิ่มความแปรปรวนร่วมสูงสุด แต่หลังจากทั้งหมดที่ฉันอ่านฉันยังคงไม่แน่ใจว่ามันเป็นเรื่องจริงและถ้าเป็นเช่นนั้นวิธีการที่จะดำเนินการ

1
การตรวจสอบแบบคาดการณ์ล่วงหน้าคืออะไรและอะไรทำให้มีประโยชน์
ฉันเข้าใจว่าการกระจายการคาดการณ์หลังคืออะไรและฉันได้อ่านเกี่ยวกับการตรวจสอบการคาดการณ์หลังแม้ว่ามันจะไม่ชัดเจนสำหรับฉันว่ามันทำอะไร การตรวจสอบการคาดการณ์หลังคืออะไร? เหตุใดผู้เขียนบางคนกล่าวว่าการเรียกใช้การตรวจสอบการคาดการณ์หลังคือ "ใช้ข้อมูลสองครั้ง" และไม่ควรถูกทำร้าย (หรือแม้กระทั่งว่าไม่ใช่ Bayesian)? (เช่นดูสิ่งนี้หรือสิ่งนี้ ) การตรวจสอบนี้มีประโยชน์อะไรบ้าง? สามารถใช้กับการเลือกแบบจำลองได้จริงหรือไม่? (เช่นมีปัจจัยทั้งในเรื่องความฟิตและความซับซ้อนของโมเดลหรือไม่)

2
การเลือกวิธีการเชื่อมโยงที่ถูกต้องสำหรับการทำคลัสเตอร์แบบลำดับชั้น
ฉันกำลังทำการจัดกลุ่มตามลำดับชั้นกับข้อมูลที่ฉันรวบรวมและประมวลผลจากการถ่ายโอนข้อมูล reddit ใน Google BigQuery กระบวนการของฉันมีดังต่อไปนี้: รับโพสต์ล่าสุด 1,000 รายการใน / r / การเมือง รวบรวมความคิดเห็นทั้งหมด ประมวลผลข้อมูลและคำนวณn x mเมทริกซ์ข้อมูล (n: ผู้ใช้ / ตัวอย่าง, m: โพสต์ / คุณสมบัติ) คำนวณเมทริกซ์ระยะทางสำหรับการจัดกลุ่มลำดับชั้น เลือกวิธีการลิงก์และดำเนินการจัดกลุ่มตามลำดับชั้น ลงจุดข้อมูลเป็น dendrogram คำถามของฉันคือฉันจะกำหนดวิธีการเชื่อมโยงที่ดีที่สุดได้อย่างไร ฉันกำลังใช้Wardแต่ฉันจะรู้ว่าฉันควรจะใช้single, complete, averageetc? ฉันยังใหม่กับสิ่งนี้ แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนออนไลน์ได้เพราะฉันไม่แน่ใจว่ามี ดังนั้นอาจเป็นความคิดที่ดีสำหรับใบสมัครของฉัน? โปรดทราบว่าข้อมูลค่อนข้างเบาบางในแง่ที่ว่าn x mเมทริกซ์มีศูนย์เป็นจำนวนมาก (คนส่วนใหญ่ไม่แสดงความคิดเห็นในโพสต์มากกว่าสองสามโพสต์)

4
ทำไม tanh เกือบดีกว่า sigmoid ในฐานะฟังก์ชั่นการเปิดใช้งานเกือบทุกครั้ง
ในแอนดรูอึ้งของหลักสูตรโครงข่ายประสาทและลึกการเรียนรู้เกี่ยวกับ Courseraเขากล่าวว่าการใช้มักจะดีกว่าที่จะใช้sigmoidtanhtanhtanhsigmoidsigmoidsigmoid เหตุผลที่เขาให้คือผลลัพธ์ที่ใช้ศูนย์ประมาณ 0 มากกว่า 's 0.5 และสิ่งนี้ "ทำให้การเรียนรู้สำหรับชั้นถัดไปง่ายขึ้นเล็กน้อย"tanhtanhtanhsigmoidsigmoidsigmoid เหตุใดการทำให้การเรียนรู้ความเร็วของการเปิดใช้งานเป็นศูนย์อยู่ตรงกลาง ฉันคิดว่าเขาพูดถึงเลเยอร์ก่อนหน้านี้เมื่อการเรียนรู้เกิดขึ้นระหว่างการทำโพสต์? มีคุณสมบัติอื่น ๆ ที่ทำให้ดีกว่า ? การไล่ระดับสีชันช้ากว่าจะทำให้การไล่ระดับสีหายไปหรือไม่tanhtanhtanh มีสถานการณ์ใดบ้างที่น่าจะดีกว่า?sigmoidsigmoidsigmoid ต้องการคำตอบทางคณิตศาสตร์ที่เข้าใจง่าย

2
คุณจะทำการ bootstrapping ด้วยข้อมูลอนุกรมเวลาได้อย่างไร
ฉันเพิ่งเรียนรู้เกี่ยวกับการใช้เทคนิคการบูตสต็อกเพื่อคำนวณข้อผิดพลาดมาตรฐานและช่วงความมั่นใจสำหรับผู้ประมาณค่า สิ่งที่ฉันเรียนรู้คือถ้าข้อมูลเป็น IID คุณสามารถปฏิบัติต่อข้อมูลตัวอย่างเป็นประชากรและทำการสุ่มตัวอย่างด้วยการแทนที่และสิ่งนี้จะช่วยให้คุณได้รับการจำลองสถิติการทดสอบหลายครั้ง ในกรณีของอนุกรมเวลาคุณไม่สามารถทำสิ่งนี้ได้อย่างชัดเจนเพราะมีความสัมพันธ์แบบอัตโนมัติ ฉันมีอนุกรมเวลาและต้องการคำนวณค่าเฉลี่ยของข้อมูลก่อนและหลังวันที่กำหนด มีวิธีที่ถูกต้องในการใช้ bootstrapping รุ่นที่แก้ไขหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.