สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อนุกรมเวลาไม่สม่ำเสมอในการวิจัยทางการเงิน / เศรษฐศาสตร์
ในงานวิจัยทางเศรษฐศาสตร์การเงินมันเป็นเรื่องธรรมดามากที่จะตรวจสอบความสัมพันธ์ระหว่างอนุกรมเวลาทางการเงินที่จะใช้รูปแบบของข้อมูลรายวัน ตัวแปรมักจะทำให้โดยการบันทึกความแตกต่างเช่น; LN ( P T ) - LN ( P T - 1 )I(0)I(0)I(0)ln(Pt)−ln(Pt−1)ln⁡(Pt)−ln⁡(Pt−1)\ln(P_t)-\ln(P_{t-1}) อย่างไรก็ตามข้อมูลรายวันหมายความว่ามีจุดข้อมูลในแต่ละสัปดาห์และวันเสาร์และวันอาทิตย์จะหายไป ดูเหมือนจะไม่ได้กล่าวถึงในวรรณคดีประยุกต์ที่ฉันรู้ นี่คือคำถามที่เกี่ยวข้องอย่างใกล้ชิดที่ฉันมีที่มาจากการสังเกตนี้:555 สิ่งนี้มีคุณสมบัติเป็นข้อมูลที่เว้นระยะไม่สม่ำเสมอหรือไม่แม้ว่าตลาดการเงินจะปิดทำการในช่วงสุดสัปดาห์ ถ้าเป็นเช่นนั้นจะมีผลต่อความถูกต้องของผลลัพธ์เชิงประจักษ์ที่ยังไม่ได้รวบรวมไว้ในเอกสารจำนวนมหาศาลที่ไม่สนใจเรื่องนี้อย่างไร

3
คุณจะทำ Bayesian ANOVA และการถดถอยใน R อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันมีชุดข้อมูลที่ค่อนข้างง่ายซึ่งประกอบด้วยตัวแปรอิสระหนึ่งตัวหนึ่งตัวแปรขึ้นอยู่กับหนึ่งตัวและตัวแปรเด็ดขาด ผมมีประสบการณ์มากมายการทดสอบการทำงาน frequentist ชอบaov()และlm()แต่ฉันไม่สามารถหาวิธีการดำเนินการเทียบเท่าแบบเบย์ในอาร์ ฉันต้องการเรียกใช้การถดถอยเชิงเส้นแบบเบย์ในสองตัวแปรแรกและการวิเคราะห์ความแปรปรวนแบบเบย์โดยใช้ตัวแปรหมวดหมู่เป็นการจัดกลุ่ม แต่ฉันไม่สามารถหาตัวอย่างง่ายๆเกี่ยวกับวิธีการทำเช่นนี้กับอาร์ ทั้งสอง? นอกจากนี้สถิติผลลัพธ์ที่สร้างขึ้นโดยการวิเคราะห์แบบเบย์คืออะไรและพวกเขาแสดงอะไร? ฉันไม่ได้มีความเชี่ยวชาญในสถิติมากนัก แต่ฉันทามติดูเหมือนว่าการใช้การทดสอบขั้นพื้นฐานที่มีค่า p นั้นตอนนี้คิดว่าค่อนข้างผิดและฉันพยายามติดตาม ความนับถือ.

3
ฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov และประมาณค่าพารามิเตอร์การกระจายได้หรือไม่
ฉันได้อ่านแล้วว่าการทดสอบ Kolmogorov-Smirnov ไม่ควรใช้เพื่อทดสอบความดีของการแจกแจงที่มีการประมาณค่าพารามิเตอร์จากตัวอย่าง การแยกตัวอย่างของฉันออกเป็นสองส่วนและใช้ครึ่งแรกสำหรับการประมาณค่าพารามิเตอร์และอีกอันสำหรับการทดสอบ KS หรือไม่ ขอบคุณล่วงหน้า

3
ฟังก์ชั่นค่าใช้จ่ายใน cv.glm ในแพ็คเกจการบูตของ R คืออะไร?
ฉันกำลังทำการตรวจสอบความถูกต้องโดยใช้วิธีการตรวจสอบ ผมมีการตอบสนองไบนารีและกำลังใช้แพคเกจการบูตสำหรับ R และฟังก์ชั่น cv.glm ปัญหาของฉันคือฉันไม่เข้าใจส่วน "ต้นทุน" ในฟังก์ชั่นนี้ จากสิ่งที่ฉันสามารถเข้าใจได้นี่คือฟังก์ชั่นที่ตัดสินว่าควรประเมินค่าที่ประมาณว่าเป็น 1 หรือ 0 นั่นคือค่าเกณฑ์สำหรับการจำแนกประเภท ถูกต้องหรือไม่ cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)และในความช่วยเหลือในการวิจัยที่พวกเขาใช้ฟังก์ชั่นนี้สำหรับรูปแบบทวินาม: ฉันจะตีความฟังก์ชั่นนี้ได้อย่างไร? ดังนั้นฉันสามารถแก้ไขได้อย่างถูกต้องสำหรับการวิเคราะห์ของฉัน ความช่วยเหลือใด ๆ ที่ได้รับการชื่นชมไม่ต้องการที่จะใช้ฟังก์ชั่นที่ฉันไม่เข้าใจ

2
วิธีการ: ทำนายช่วงเวลาสำหรับการถดถอยเชิงเส้นผ่าน bootstrapping
ฉันมีปัญหาในการทำความเข้าใจวิธีการใช้การบูตการคำนวณเพื่อคำนวณช่วงการทำนายสำหรับตัวแบบการถดถอยเชิงเส้น มีใครบางคนสามารถร่างกระบวนการทีละขั้นตอนได้หรือไม่? ฉันค้นหาผ่าน google แต่ไม่มีอะไรเหมาะสมกับฉัน ฉันเข้าใจวิธีใช้การบูตสแตรปปิ้งเพื่อคำนวณช่วงความมั่นใจสำหรับพารามิเตอร์โมเดล

3
คำถามเกี่ยวกับ bootstrap แบบพารามิเตอร์และไม่อิงพารามิเตอร์
ฉันกำลังอ่านบทเกี่ยวกับสถิติที่ใช้บ่อยจากหนังสือของเควินเมอร์ฟี่เรื่อง " การเรียนรู้ของเครื่องจักร - มุมมองที่น่าจะเป็น " ส่วนบน bootstrap อ่าน: bootstrap เป็นเทคนิค Monte Carlo แบบง่าย ๆ เพื่อประมาณการกระจายตัวตัวอย่าง สิ่งนี้มีประโยชน์อย่างยิ่งในกรณีที่ตัวประมาณเป็นฟังก์ชันที่ซับซ้อนของพารามิเตอร์จริง ความคิดนั้นง่าย ถ้าเรารู้พารามิเตอร์จริงเราสามารถสร้างจำนวนมาก (พูดS ) ชุดข้อมูลปลอมแต่ละขนาดNจากการกระจายจริงx_i ^ s \ ซิมพี (· | θ ^ *)สำหรับs = 1: S, i = 1: N จากนั้นเราสามารถคำนวณตัวประมาณของเราจากตัวอย่างแต่ละตัวอย่าง \ hat {\ theta ^ s} = f (x ^ s_ …

1
ผู้เข้าชมที่ไม่ซ้ำไปยังเว็บไซต์ทำตามกฎหมายเรื่องอำนาจหรือไม่
สมมติว่าฉันมีเวกเตอร์ที่สั่งซื้อซึ่งองค์ประกอบแรกคือจำนวนการเข้าชมเว็บไซต์ในช่วงเวลาที่กำหนดโดย IP ที่ไม่ซ้ำกับจำนวนการเข้าชมสูงสุดองค์ประกอบที่สองคือจำนวนการเข้าชมโดย IP ที่ไม่ซ้ำกับวินาที จำนวนการเข้าชมสูงสุดและอื่น ๆ ฉันเข้าใจว่าอาจมีรูปแบบของไซต์ต่อหนึ่งรูปแบบ แต่โดยทั่วไปจะมีรูปแบบที่ถือว่าเป็นรูปร่างของเวกเตอร์นี้หรือไม่ ยกตัวอย่างเช่นทำตามการกระจายอำนาจหรือไม่
14 web  power-law 

2
การใช้ข้อมูลนับเป็นตัวแปรอิสระละเมิดสมมติฐาน GLM ใด ๆ หรือไม่
ฉันต้องการใช้ข้อมูลนับเป็น covariates ในขณะที่เหมาะสมกับรูปแบบการถดถอยโลจิสติก คำถามของฉันคือ: ฉันจะละเมิดสมมติฐานใด ๆ ของโมเดลโลจิสติกส์ (และโดยทั่วไปของโมเดลเชิงเส้นทั่วไป) โดยใช้การนับตัวแปรที่ไม่เป็นลบจำนวนเต็มเป็นตัวแปรอิสระหรือไม่? ฉันพบการอ้างอิงจำนวนมากในวรรณคดีที่เกี่ยวกับการใช้ข้อมูลนับร้อนเป็นผลลัพธ์ แต่ไม่เป็น covariates ดูตัวอย่างกระดาษที่ชัดเจนมาก: "NE Breslow (1996) โมเดลเชิงเส้นทั่วไป: การตรวจสอบข้อสรุปและการเสริมสร้างข้อสรุป, Congresso Nazionale Societa Italianeta di Biometria, Cortona มิถุนายน 1995", มีอยู่ที่ http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf พูดอย่างหลวม ๆ ดูเหมือนว่าสมมติฐาน GLM อาจแสดงได้ดังนี้: iid ส่วนที่เหลือ; ฟังก์ชั่นลิงค์จะต้องแสดงความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรอิสระอย่างถูกต้อง กรณีที่ไม่มีค่าผิดปกติ ทุกคนทราบหรือไม่ว่ามีข้อสันนิษฐานอื่น ๆ / ปัญหาทางเทคนิคที่อาจแนะนำให้ใช้รูปแบบอื่น ๆ เพื่อจัดการกับ covariates นับหรือไม่? ท้ายที่สุดโปรดสังเกตว่าข้อมูลของฉันมีตัวอย่างค่อนข้างน้อย (<100) และช่วงการนับตัวแปรอาจแตกต่างกันภายใน …

2
ข้อผิดพลาด LME () - ถึงขีด จำกัด การวนซ้ำ
ในการระบุรูปแบบเอฟเฟกต์แบบผสมข้ามฉันกำลังพยายามรวมการโต้ตอบ อย่างไรก็ตามฉันได้รับข้อความแสดงข้อผิดพลาดต่อไปนี้: Error in lme.formula(rate ~ nozzle, random = ~nozzle | operator, data = Flow) : nlminb problem, convergence error code = 1 message = iteration limit reached without convergence (10) แบบจำลองมีดังต่อไปนี้: 1. หัวฉีด 3 แบบ (เอฟเฟกต์คงที่) 2. ผู้ปฏิบัติงาน 5 คนแต่ละคนมีการวัดซ้ำ 3 ครั้งสำหรับการไหลของเชื้อเพลิงจากหัวฉีดทั้ง 3 แบบ ฉันถูกขอให้รวมการทำงานร่วมกันระหว่างประเภทของหัวฉีดและตัวดำเนินการในโมเดล นี่คือรหัสของฉันสำหรับรูปแบบ: flow.lme <- lme(rate …

1
RandomForest - การตีความการแปลง MDS
ฉันใช้ randomForest เพื่อจำแนกพฤติกรรมสัตว์ 6 อย่าง (เช่นการยืนการเดินการว่ายน้ำ ฯลฯ ) โดยใช้ตัวแปร 8 ตัว (ท่าทางการเคลื่อนไหวและการเคลื่อนไหวที่แตกต่างกัน) MDSplot ในแพ็คเกจ randomForest ให้ผลลัพธ์นี้กับฉันและฉันมีปัญหาในการตีความผลลัพธ์ ฉันทำ PCA ด้วยข้อมูลเดียวกันและได้รับการแยกที่ดีระหว่างคลาสทั้งหมดใน PC1 และ PC2 แล้ว แต่ที่นี่ Dim1 และ Dim2 ดูเหมือนจะแยกพฤติกรรม 3 อย่างเท่านั้น สิ่งนี้หมายความว่าพฤติกรรมทั้งสามนี้มีความแตกต่างมากกว่าพฤติกรรมอื่น ๆ ทั้งหมด (ดังนั้น MDS จึงพยายามค้นหาความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างตัวแปร แต่ไม่จำเป็นต้องเป็นตัวแปรทั้งหมดในขั้นตอนแรก) การจัดตำแหน่งของทั้งสามคลัสเตอร์ (เช่นใน Dim1 และ Dim2) บ่งชี้ว่าอย่างไร เนื่องจากฉันค่อนข้างใหม่สำหรับ RI ก็มีปัญหาในการพล็อตเรื่องนี้ (แต่ฉันมีความคิดว่าสีที่ต่างกันหมายถึงอะไร) แต่บางทีใครบางคนอาจช่วยได้? ขอบคุณมาก!! ฉันเพิ่มพล็อตที่สร้างด้วยฟังก์ชัน …

4
วิธีการวัดรูปร่างของคลัสเตอร์?
ฉันรู้ว่าคำถามนี้ไม่ได้กำหนดไว้อย่างชัดเจน แต่บางกลุ่มมีแนวโน้มที่จะเป็นรูปไข่หรือนอนในพื้นที่มิติที่ต่ำกว่าในขณะที่คนอื่นมีรูปร่างไม่เชิงเส้น (ในตัวอย่าง 2D หรือ 3D) มีการวัดความไม่เชิงเส้น (หรือ "รูปร่าง") ของกลุ่มใดบ้าง? โปรดสังเกตว่าในพื้นที่ 2D และ 3D ไม่ใช่ปัญหาในการดูรูปร่างของคลัสเตอร์ใด ๆ แต่ในพื้นที่มิติที่สูงขึ้นเป็นปัญหาที่จะพูดบางอย่างเกี่ยวกับรูปร่าง โดยเฉพาะมีมาตรการว่าคลัสเตอร์นูนเป็นอย่างไร ฉันได้รับแรงบันดาลใจสำหรับคำถามนี้จากคำถามการจัดกลุ่มอื่น ๆ ที่ผู้คนพูดถึงกลุ่ม แต่ไม่มีใครสามารถเห็นพวกเขา (ในพื้นที่มิติที่สูงขึ้น) นอกจากนี้ฉันรู้ว่ามีมาตรการไม่เชิงเส้นสำหรับเส้นโค้ง 2D

3
ข้อดีและข้อเสียของการวิเคราะห์อภิมาน
ฉันกำลังพิจารณาทำการวิเคราะห์อภิมานสำหรับสาขาวิชาเฉพาะทางด้านการวิวัฒนาการ แต่ก่อนที่ฉันจะไปไกลกว่านี้ฉันอยากรู้ ข้อดีและข้อเสียของกระบวนการคืออะไร ตัวอย่างเช่นไม่จำเป็นต้องทำการทดลองเชิงปฏิบัติเป็นข้อได้เปรียบ (เวลาและเงิน) แต่จะมีอคติการตีพิมพ์ (มีการเผยแพร่ผลลัพธ์ที่น่าตื่นเต้นมากขึ้น) ซึ่งจะเสียเปรียบ วารสารทางสถิติเรื่องใดที่กล่าวถึงข้อดีข้อเสียของการวิเคราะห์อภิมาน

2
จะพิสูจน์ได้อย่างไรว่าไม่มีพื้นที่ จำกัด สำหรับเคอร์เนล Gaussian RBF?
วิธีการพิสูจน์ว่าสำหรับฟังก์ชันพื้นฐานของรัศมีไม่มีคุณลักษณะพื้นที่ จำกัด มิติHดังกล่าวว่าสำหรับบางΦ:Rn→Hเรามีk(x,Y)=⟨Φ(x),Φ(Y)⟩?k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})HHHΦ:Rn→HΦ:Rn→H\Phi: \text{R}^n \to Hk(x,y)=⟨Φ(x),Φ(y)⟩k(x,y)=⟨Φ(x),Φ(y)⟩k(x, y) = \langle \Phi(x), \Phi(y)\rangle

1
เป็นวิธีการของการสุ่มตัวอย่างเวลาชุดใหม่นี้เป็นที่รู้จักในวรรณคดี? มันมีชื่อหรือไม่?
เมื่อเร็ว ๆ นี้ฉันกำลังมองหาวิธีในการสุ่มตัวอย่างอนุกรมเวลาใหม่ในแบบที่ ประมาณรักษาความสัมพันธ์อัตโนมัติของกระบวนการหน่วยความจำยาว เก็บรักษาโดเมนของการสังเกต (ตัวอย่างเช่นชุดข้อมูลจำนวนเต็มครั้งที่ resampled ยังคงเป็นชุดข้อมูลจำนวนเต็มครั้ง) อาจส่งผลกระทบต่อเครื่องชั่งบางตัวเท่านั้นหากจำเป็น ฉันคิดรูปแบบการเปลี่ยนแปลงต่อไปนี้สำหรับอนุกรมเวลาที่มีความยาว :2ยังไม่มีข้อความ2ยังไม่มีข้อความ2^N Bin อนุกรมเวลาโดยการสังเกตต่อเนื่องเป็นคู่ (มีถังขยะ) พลิกแต่ละของพวกเขา ( เช่นดัชนีจากไป) อย่างอิสระที่มีความน่าจะเป็น1/22ยังไม่มีข้อความ- 12ยังไม่มีข้อความ-12^{N-1}1:22:11 / 21/21/2 Bin อนุกรมเวลาที่ได้รับจากการสังเกตครั้งติดต่อกัน(มีถังขยะ) ย้อนกลับแต่ละของพวกเขา ( เช่นดัชนีจากไป) independelty กับความน่า1/24442ยังไม่มีข้อความ- 22ยังไม่มีข้อความ-22^{N-2}1:2:3:44:3:2:11 / 21/21/2 ทำซ้ำขั้นตอนที่มีถังขยะขนาด , , ... ,เสมอย้อนกลับถังขยะที่มีความน่าจะเป็น1/28881616162N−12N−12^{N-1}1/21/21/2 การออกแบบนี้เป็นเชิงประจักษ์ล้วนและฉันกำลังมองหางานที่จะได้รับการตีพิมพ์ในประเภทของการเปลี่ยนแปลงนี้ ฉันยังเปิดรับข้อเสนอแนะสำหรับวิธีเรียงสับเปลี่ยนหรือโครงร่างการสุ่มใหม่

5
การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?
ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.