สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
“ ความลำเอียง” คืออะไร?
ฉันพยายามเข้าใจแนวคิดเรื่องความเอนเอียงในบริบทของการวิเคราะห์การถดถอยเชิงเส้น นิยามทางคณิตศาสตร์ของอคติคืออะไร? ลำเอียงคืออะไรและทำไม / อย่างไร? ตัวอย่างที่แสดง?

3
Auto.arima พร้อมข้อมูลรายวัน: วิธีจับฤดูกาลและช่วงเวลา
ฉันเหมาะสมกับโมเดล ARIMA ในซีรีย์เวลารายวัน ข้อมูลจะถูกรวบรวมทุกวันตั้งแต่ 02-01-2010 ถึง 30-07-2011 และเกี่ยวกับการขายหนังสือพิมพ์ เนื่องจากสามารถหารูปแบบการขายรายสัปดาห์ได้ (โดยปกติปริมาณการขายต่อวันโดยทั่วไปจะเหมือนกันทุกวันจันทร์ถึงศุกร์จากนั้นเพิ่มขึ้นในวันเสาร์และวันอาทิตย์) ฉันพยายามจับภาพ "ฤดูกาล" นี้ รับข้อมูลการขาย "ข้อมูล" ฉันสร้างอนุกรมเวลาดังนี้ salests<-ts(data,start=c(2010,1),frequency=365) จากนั้นฉันใช้ฟังก์ชั่น auto.arima (.) เพื่อเลือกรุ่น ARIMA ที่ดีที่สุดผ่านเกณฑ์ AIC ผลลัพธ์จะเป็นโมเดล ARIMA ที่ไม่ใช่ฤดูกาลเสมอ แต่ถ้าฉันลองใช้แบบจำลอง SARIMAs ด้วยไวยากรณ์ต่อไปนี้เป็นตัวอย่าง: sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) ฉันสามารถรับผลลัพธ์ที่ดีกว่า มีอะไรผิดปกติในข้อกำหนดคุณสมบัติคำสั่ง ts / arima หรือไม่ …

4
ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุมีความสัมพันธ์กับ Google ในระดับใด
บริบท คำถามยอดนิยมในไซต์นี้คือ " บาปทางสถิติทั่วไปคืออะไร " หนึ่งในความผิดที่กล่าวมานั้นคือการสันนิษฐานว่าลิงก์ จากนั้นในความคิดเห็นที่มี 5 upvotes แนะนำว่า: "Google ทำเงิน $ 65B ต่อปีโดยไม่สนใจความแตกต่าง" เมื่อมีความเสี่ยงในการวิเคราะห์คำศัพท์แสงฉันคิดว่านี่อาจเป็นจุดสนทนาที่มีประโยชน์สำหรับการแยกแยะความแตกต่างระหว่างสหสัมพันธ์และสาเหตุและความเกี่ยวข้องเชิงปฏิบัติของความแตกต่าง และบางทีมันอาจเน้นบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างการเรียนรู้ของเครื่องและความแตกต่างระหว่างสหสัมพันธ์และสาเหตุ ฉันถือว่าความคิดเห็นคือการระบุเทคโนโลยีที่รองรับการสร้างผลลัพธ์ของเครื่องมือค้นหาและเทคโนโลยีที่เกี่ยวข้องกับการแสดงโฆษณา คำถาม ความแตกต่างระหว่างสหสัมพันธ์และสาเหตุที่เกี่ยวข้องกับการสร้างรายได้ของ Google อาจจะเน้นเฉพาะในการสร้างรายได้ผ่านเทคโนโลยีการแสดงผลโฆษณาที่เกี่ยวข้องและผลการค้นหาคุณภาพหรือไม่

1
การติดตั้งแบบจำลองเลขชี้กำลังเข้ากับข้อมูล
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 8 ปีที่ผ่านมา ฉันมี 2 ตัวแปรทั้งจากคลาส "numeric": > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 ฉันวางแผนพวกเขาและตอนนี้ฉันต้องการให้พอดีกับรูปแบบเลขชี้กำลังในข้อมูล (และเพิ่มลงในพล็อต) แต่ฉันไม่สามารถหาข้อมูลเกี่ยวกับตัวแบบที่เหมาะสมกับข้อมูลหลายตัวแปรใน R! มีเพียงข้อมูลที่ไม่ได้รับการแก้ไขใครบางคนสามารถช่วยได้หรือไม่ ฉันไม่รู้ด้วยซ้ำว่าจะเริ่มต้นอย่างไร ... ขอบคุณ!
21 r 

4
ต้นไม้การตัดสินใจเป็นต้นไม้ไบนารีหรือไม่?
เกือบทุกตัวอย่างการตัดสินใจที่ฉันเจอเจอจะเป็นต้นไม้คู่ เป็นสากลที่สวยมากใช่ไหม อัลกอริธึมมาตรฐานส่วนใหญ่ (C4.5, CART และอื่น ๆ ) สนับสนุนเฉพาะต้นไม้ไบนารีหรือไม่ จากสิ่งที่ฉันรวบรวมCHAIDไม่ได้ จำกัด อยู่ที่ต้นไม้ไบนารี แต่ดูเหมือนว่าจะเป็นข้อยกเว้น การแยกแบบสองทางแล้วตามด้วยการแยกแบบสองทางอีกทางหนึ่งของเด็ก ๆ นั้นไม่เหมือนกับการแยกแบบสามทางเดียว นี่อาจเป็นประเด็นทางวิชาการ แต่ฉันพยายามทำให้แน่ใจว่าฉันเข้าใจกรณีที่ใช้บ่อยที่สุด

1
การกระจายตัวเล็กน้อยของเส้นทแยงมุมของเมทริกซ์ Wishart แบบกระจาย
สมมติว่า ) ฉันสนใจในการกระจายร่อแร่ขององค์ประกอบในแนวทแยงวินิจฉัย( X ) = ( x 11 , ... , x พีพี ) มีผลลัพธ์ง่าย ๆ สองสามข้อเกี่ยวกับการกระจายตัวของเมทริกซ์ย่อยของX (อย่างน้อยก็บางอันอยู่ในวิกิพีเดีย) จากนี้ฉันสามารถคิดได้ว่าการกระจายตัวขององค์ประกอบเดี่ยวใด ๆ ในแนวทแยงเป็นแกมมาผกผัน แต่ฉันไม่สามารถอนุมานการกระจายข้อต่อได้X∼ InvWishart( ν, Σ0)X~InvWishart⁡(ν,Σ0)X\sim \operatorname{InvWishart}(\nu, \Sigma_0)วินิจฉัย( X) = ( x11, … , xพีพี)วินิจฉัย⁡(X)=(x11,...,xพีพี)\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})XXX ฉันคิดว่าบางทีมันอาจจะมาจากองค์ประกอบเช่น: p ( x11|xผมฉัน, ฉัน> 1 ) p ( x22|xผมฉัน, ฉัน> …

5
เริ่มต้นอย่างไรกับการประยุกต์ใช้ทฤษฎีการตอบกลับข้อสอบและซอฟต์แวร์ที่จะใช้?
บริบท ฉันได้อ่านเกี่ยวกับทฤษฎีการตอบสนองของรายการและฉันคิดว่ามันน่าหลงใหล ฉันเชื่อว่าฉันเข้าใจพื้นฐาน แต่ฉันก็ยังสงสัยว่าจะใช้เทคนิคทางสถิติที่เกี่ยวข้องกับพื้นที่นั้นได้อย่างไร ด้านล่างเป็นสองบทความที่คล้ายกับพื้นที่ที่ฉันต้องการใช้ ITR ใน: http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 อย่างที่สองคือสิ่งที่ฉันอยากจะขยายออกไป ณ เวลานี้ ฉันดาวน์โหลดโปรแกรมฟรีชื่อ jMetrik และดูเหมือนว่าจะใช้งานได้ดี ฉันคิดว่ามันอาจจะพื้นฐานเกินไปที่ IRT จะไป แต่ฉันไม่แน่ใจ ฉันรู้ว่าวิธีที่ "ดีที่สุด" น่าจะเกี่ยวข้องกับการเรียนรู้ R อย่างไรก็ตามฉันไม่รู้ว่าฉันสามารถใช้เวลาในการจัดการกับช่วงโค้งการเรียนรู้นั้นได้หรือไม่ โปรดทราบว่าเรามีเงินทุนสำหรับการซื้อซอฟต์แวร์ แต่จากสิ่งที่ฉันเห็นดูเหมือนจะไม่มีโปรแกรม IRT ที่ยอดเยี่ยม คำถาม คุณคิดอย่างไรกับประสิทธิภาพของ jMetrik คุณจะแนะนำให้ฉันใช้ IRT ต่อไปได้อย่างไร โปรแกรมที่ดีที่สุดสำหรับการสมัคร IRT คืออะไร? คุณใช้ IRT เป็นประจำหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร

2
ความยากลำบากในการทดสอบความเป็นเชิงเส้นในการถดถอย
ในการสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม Leo Breiman เขียน แนวปฏิบัติที่ใช้ในปัจจุบันคือการตรวจสอบแบบจำลองข้อมูลโดยใช้การทดสอบแบบดีและการวิเคราะห์ส่วนที่เหลือ เมื่อถึงจุดหนึ่งหลายปีที่ผ่านมาฉันตั้งค่าปัญหาการถดถอยแบบจำลองในเจ็ดมิติด้วยจำนวนที่ไม่ควบคุมเชิงเส้น การทดสอบมาตรฐานของความดีพอดีไม่ได้ปฏิเสธความเป็นเชิงเส้นจนกว่าความไม่เชิงเส้นจะรุนแรงมาก Breiman ไม่ได้ให้รายละเอียดเกี่ยวกับการจำลองของเขา เขาอ้างอิงกระดาษที่เขาบอกว่าให้เหตุผลทางทฤษฎีสำหรับการสังเกตของเขา แต่กระดาษไม่ได้ตีพิมพ์ มีใครเคยเห็นผลการจำลองที่ตีพิมพ์หรือรายงานทางทฤษฎีเพื่อสนับสนุนข้อเรียกร้องของ Brieman บ้างไหม?

2
จะใช้ตุ้มน้ำหนักในฟังก์ชั่น lm ใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ใครช่วยเสนอตัวชี้วิธีการใช้weightsอาร์กิวเมนต์ในlmฟังก์ชั่นของ R ? ตัวอย่างเช่นคุณกำลังพยายามปรับนางแบบให้สอดคล้องกับข้อมูลการจราจรและคุณมีหลายร้อยแถวซึ่งแต่ละเมืองเป็นตัวแทนของเมือง (มีประชากรแตกต่างกัน) หากคุณต้องการให้แบบจำลองปรับอิทธิพลสัมพัทธ์ของการสังเกตแต่ละครั้งตามขนาดประชากรคุณสามารถระบุได้weights=[the column containing the city's population]หรือไม่ นั่นคือการเรียงตัวของเวกเตอร์ที่สามารถเข้าไปได้weightsหรือไม่? หรือคุณจะต้องใช้ฟังก์ชั่น R / แพ็คเกจ / แนวทางอื่นโดยสิ้นเชิง? อยากรู้ว่าคนจัดการเรื่องนี้อย่างไร - ไม่เห็นว่ามันครอบคลุมในบทเรียนการสร้างแบบจำลองเชิงเส้นใด ๆ ที่ฉันเห็นที่นั่น ขอบคุณ!
21 r  regression 

7
จะตีความช่วงความเชื่อมั่นของความแตกต่างในค่าเฉลี่ยในการทดสอบ T-test หนึ่งตัวอย่างได้อย่างไร?
SPSS ให้เอาต์พุต "ช่วงความมั่นใจของความแตกต่าง" ฉันได้อ่านในบางแห่งว่ามันหมายถึง "95 ครั้งจาก 100 ตัวอย่างเฉลี่ยของเราจะแตกต่างกันระหว่างขอบเขตเหล่านี้" ฉันพบว่าไม่ชัดเจน ใครสามารถแนะนำถ้อยคำที่ชัดเจนขึ้นเพื่ออธิบาย "ช่วงความเชื่อมั่นของความแตกต่างในค่าเฉลี่ย" เอาต์พุตนี้ปรากฏขึ้นในบริบทของการทดสอบ t-test หนึ่งตัวอย่าง

2
วิธีเลือกระหว่างอัลกอริทึมการเรียนรู้
ฉันต้องใช้โปรแกรมที่จะจัดประเภทระเบียนเป็น 2 หมวดหมู่ (จริง / เท็จ) ขึ้นอยู่กับข้อมูลการฝึกอบรมบางอย่างและฉันสงสัยว่าอัลกอริทึม / วิธีการที่ฉันควรจะดู ดูเหมือนจะมีพวกเขาให้เลือกมากมาย - โครงข่ายประสาทเทียม, อัลกอริทึมทางพันธุกรรม, การเรียนรู้ของเครื่อง, การเพิ่มประสิทธิภาพเบย์เซียนเป็นต้นและอื่น ๆ ฉันไม่แน่ใจว่าจะเริ่มจากตรงไหน ดังนั้นคำถามของฉันคือ ฉันจะเลือกอัลกอริทึมการเรียนรู้ที่ฉันควรใช้สำหรับปัญหาของฉันได้อย่างไร หากสิ่งนี้ช่วยได้นี่คือปัญหาที่ฉันต้องแก้ไข ข้อมูลการฝึกอบรม: ข้อมูล การฝึกอบรมประกอบด้วยแถวจำนวนมากเช่นนี้: Precursor1, Precursor2, Boolean (true/false) การวิ่งที่ ฉันจะได้รับมาก่อน จากนั้น ฉันเลือกอัลกอริทึม A จากอัลกอริธึมที่แตกต่างกัน (หรือสร้างอัลกอริทึมแบบไดนามิก) และใช้กับชุดค่าผสมที่เป็นไปได้ของสารตั้งต้นเหล่านี้และรวบรวม "บันทึก" ที่ถูกปล่อยออกมา "บันทึก" ประกอบด้วยคู่ค่าคีย์หลายคู่ * ฉันใช้อัลกอริทึมที่ยอดเยี่ยมและจัดประเภทระเบียนเหล่านี้เป็น 2 หมวดหมู่ (จริง / เท็จ) ฉันจะสร้างตารางที่มีรูปแบบเดียวกับข้อมูลรถไฟ: Precursor1, Precursor2, Boolean …

3
การเปรียบเทียบระหว่าง MaxEnt, ML, Bayes และวิธีอนุมานเชิงสถิติประเภทอื่น ๆ
ฉันไม่มีทางสถิติ (ฉันมีหลักสูตรในสถิติทางคณิตศาสตร์ แต่ไม่มีอะไรมากไปกว่านั้น) และเมื่อเร็ว ๆ นี้ในขณะที่ศึกษาทฤษฎีข้อมูลและกลไกทางสถิติฉันพบสิ่งนี้เรียกว่า "วัดความไม่แน่นอน" / "เอนโทรปี" ฉันอ่าน Khinchin ที่มาของมันเป็นตัวชี้วัดความไม่แน่นอนและมันก็สมเหตุสมผลสำหรับฉัน อีกสิ่งหนึ่งที่สมเหตุสมผลก็คือคำอธิบายของเจย์เนสของ MaxEnt เพื่อให้ได้สถิติเมื่อคุณทราบค่าเฉลี่ยเลขคณิตของหนึ่งหรือมากกว่าหนึ่งฟังก์ชัน / s ในตัวอย่าง (สมมติว่าคุณยอมรับเป็นตัวชี้วัดความไม่แน่นอน) - ∑ pผมLNพีผม−∑piln⁡pi-\sum p_i\ln p_i ดังนั้นฉันค้นหาบนอินเทอร์เน็ตเพื่อค้นหาความสัมพันธ์กับวิธีการอนุมานเชิงสถิติอื่น ๆ และพระเจ้าฉันสับสน ตัวอย่างเช่นบทความนี้แนะนำโดยสมมติว่าฉันเข้าใจถูกต้องว่าคุณเพิ่งได้ตัวประมาณ ML ภายใต้การปรับแก้ปัญหาที่เหมาะสม MacKey ในหนังสือของเขาบอกว่า MaxEnt สามารถให้สิ่งแปลก ๆ แก่คุณและคุณไม่ควรใช้มันแม้แต่การประเมินเบื้องต้นในการอนุมานแบบเบย์ ฯลฯ ฉันมีปัญหาในการหาการเปรียบเทียบที่ดี คำถามของฉันคือคุณสามารถให้คำอธิบายและ / หรือการอ้างอิงที่ดีเกี่ยวกับจุดอ่อนและจุดแข็งของ MaxEnt เป็นวิธีการอนุมานเชิงสถิติด้วยการเปรียบเทียบเชิงปริมาณกับวิธีอื่น ๆ (เมื่อนำไปใช้กับโมเดลของเล่นเป็นต้น)

3
การถดถอยปัวซองกับการนับการถดถอยกำลังสองน้อยที่สุด?
การถดถอยปัวซองคือGLM ที่มีฟังก์ชั่นบันทึกลิงค์ อีกวิธีหนึ่งในการสร้างแบบจำลองข้อมูลการกระจายที่ไม่ใช่แบบปกติคือการประมวลผลล่วงหน้าโดยการบันทึก (หรือมากกว่าบันทึก (1 + จำนวน) เพื่อจัดการกับ 0) หากคุณทำการถดถอยอย่างน้อยกำลังสองในการตอบกลับนับบันทึกนั่นเกี่ยวข้องกับการถดถอยปัวซองหรือไม่ มันสามารถรองรับปรากฏการณ์ที่คล้ายกันได้หรือไม่?

2
การตรวจสอบความถูกต้องไขว้ (ข้อผิดพลาดทั่วไป) หลังจากการเลือกรูปแบบ
หมายเหตุ: เคสคือ n >> p ฉันกำลังอ่านองค์ประกอบของการเรียนรู้ทางสถิติและมีหลายสิ่งที่กล่าวถึงวิธี "ถูกต้อง" ในการตรวจสอบข้าม (เช่นหน้า 60, หน้า 245) โดยเฉพาะคำถามของฉันคือวิธีการประเมินรุ่นสุดท้าย (ไม่มีชุดทดสอบแยก) โดยใช้ k-fold CV หรือ bootstrapping เมื่อมีการค้นหารูปแบบ? ดูเหมือนว่าในกรณีส่วนใหญ่ (อัลกอริทึม ML ที่ไม่มีการเลือกคุณสมบัติแบบฝัง) จะมี ขั้นตอนการเลือกคุณสมบัติ ขั้นตอนการเลือกพารามิเตอร์ meta (เช่นพารามิเตอร์ต้นทุนใน SVM) คำถามของฉัน: ฉันได้เห็นแล้วว่าขั้นตอนการเลือกคุณสมบัติสามารถทำได้เมื่อการเลือกคุณสมบัติเสร็จสิ้นในชุดฝึกอบรมทั้งหมด จากนั้นใช้ k-fold CV อัลกอริทึมการเลือกคุณลักษณะจะใช้ในแต่ละเท่า (รับคุณลักษณะที่แตกต่างกันซึ่งอาจเลือกได้ในแต่ละครั้ง) และข้อผิดพลาดเฉลี่ย จากนั้นคุณจะใช้คุณสมบัติที่เลือกโดยใช้ข้อมูลทั้งหมด (ที่ถูกตั้งค่าไว้) เพื่อฝึกโหมดสุดท้าย แต่ใช้ข้อผิดพลาดจากการตรวจสอบความถูกต้องของข้อมูลเพื่อประเมินประสิทธิภาพในอนาคตของโมเดล ถูกต้องหรือไม่ เมื่อคุณใช้การตรวจสอบความถูกต้องไขว้กันเพื่อเลือกพารามิเตอร์โมเดลแล้วจะประเมินประสิทธิภาพของโมเดลได้อย่างไร? มันเป็นกระบวนการที่เหมือนกันกับ # 1 ข้างต้นหรือคุณควรใช้ CV CV …


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.