สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
มีการกระจายรูปที่ราบสูงหรือไม่?
ฉันกำลังมองหาการกระจายที่ความหนาแน่นของความน่าจะเป็นลดลงอย่างรวดเร็วหลังจากบางจุดห่างจากค่าเฉลี่ยหรือในคำพูดของฉันเป็น "การกระจายตัวของรูปที่ราบสูง" บางสิ่งบางอย่างในระหว่าง Gaussian และเครื่องแบบ

2
ทดสอบการกระจาย bimodal
ฉันสงสัยว่ามีการทดสอบทางสถิติเพื่อ "ทดสอบ" ความสำคัญของการกระจาย bimodal หรือไม่ ฉันหมายความว่าข้อมูลของฉันตรงกับการกระจาย bimodal มากแค่ไหน? ถ้าเป็นเช่นนั้นมีการทดสอบในโปรแกรม R หรือไม่?

2
สมมติฐานของการถดถอยแบบทวินามเชิงลบคืออะไร?
ฉันทำงานกับชุดข้อมูลขนาดใหญ่ (เป็นความลับดังนั้นฉันจึงไม่สามารถแบ่งปันได้มากเกินไป) และมาถึงข้อสรุปการถดถอยเชิงลบแบบทวินามก็เป็นสิ่งที่จำเป็น ฉันไม่เคยทำการถดถอยแบบ glm มาก่อนและฉันไม่สามารถหาข้อมูลที่ชัดเจนเกี่ยวกับสมมติฐานได้ พวกเขาเหมือนกันสำหรับ MLR หรือไม่ ฉันสามารถแปลงตัวแปรในลักษณะเดียวกันได้หรือไม่ (ฉันได้ค้นพบแล้วว่าการเปลี่ยนตัวแปรตามคือการโทรที่ไม่ดีเนื่องจากต้องเป็นจำนวนธรรมชาติ) ฉันได้พิจารณาแล้วว่าการแจกแจงทวินามลบจะช่วยในการกระจายตัวมากเกินไปในข้อมูลของฉัน (ความแปรปรวนอยู่ที่ประมาณ 2000 ค่าเฉลี่ยคือ 48) ขอบคุณสำหรับความช่วยเหลือ !!

2
เปรียบเทียบ lme และ lmer
ฉันสงสัยว่าถ้าใครสามารถทำให้ฉันเข้าใจถึงความแตกต่างในปัจจุบันระหว่างฟังก์ชั่นทั้งสองนี้ ฉันพบคำถามต่อไปนี้: วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม? แต่วันนั้นมาจากสองสามปีที่ผ่านมา นั่นคืออายุการใช้งานในแวดวงซอฟต์แวร์ คำถามเฉพาะของฉันคือ: มี (ยัง) โครงสร้างความสัมพันธ์ใด ๆlmeที่lmerไม่จัดการ? เป็นไปได้ / แนะนำให้ใช้lmerกับข้อมูลพาเนลหรือไม่ ขออภัยหากสิ่งเหล่านี้ค่อนข้างพื้นฐาน รายละเอียดเพิ่มเติมเล็กน้อย: ข้อมูลพาเนลคือที่ที่เรามีการวัดหลายรายการในบุคคลเดียวกัน ณ เวลาต่างๆ โดยทั่วไปฉันทำงานในบริบททางธุรกิจซึ่งคุณอาจมีข้อมูลสำหรับลูกค้าซ้ำ / ระยะยาวในช่วงหลายปีที่ผ่านมา เราต้องการอนุญาตให้มีการเปลี่ยนแปลงเมื่อเวลาผ่านไป แต่การปรับตัวแปรดัมมี่ให้ชัดเจนสำหรับแต่ละเดือนหรือปีนั้นไม่มีประสิทธิภาพ อย่างไรก็ตามฉันไม่แน่ใจว่าlmerเป็นเครื่องมือที่เหมาะสมสำหรับข้อมูลประเภทนี้หรือไม่หรือว่าฉันต้องการโครงสร้างความสัมพันธ์อัตโนมัติที่lmeมี

1
ฟังก์ชันการแจกแจงทวินามเหนือด้านบน / ด้านล่างของฟังก์ชันการแจกแจงปัวซองคืออะไร
ให้แสดงถึงฟังก์ชันการแจกแจงทวินาม (DF) พร้อมพารามิเตอร์และประเมินที่ : และปล่อยให้แสดง Poisson DF พร้อมพารามิเตอร์a \ in \ mathbb R ^ +ประเมินที่r \ in \ {0,1,2, \ ldots \} : \ start {equation} F (a , r) = e ^ {- a} \ sum_ {i = 0} ^ r \ frac {a ^ i} {i!} \ end …

5
ข้อมูล "การสำรวจ" เทียบกับข้อมูล "การสอดแนม" / "การทรมาน" หรือไม่
หลายครั้งที่ฉันเจอคำเตือนแบบไม่เป็นทางการกับ "การสอดแนมข้อมูล" (นี่เป็นตัวอย่างที่น่าขบขัน ) และฉันคิดว่าฉันมีความคิดที่เข้าใจง่ายเกี่ยวกับสิ่งที่แปลว่าอะไรและทำไมมันถึงเป็นปัญหา ในทางกลับกัน "การวิเคราะห์ข้อมูลเชิงสำรวจ" ดูเหมือนจะเป็นขั้นตอนที่ได้รับการยกย่องอย่างสมบูรณ์ในทางสถิติอย่างน้อยก็ตัดสินจากความจริงที่ว่าหนังสือที่มีชื่อนั้นยังคงอ้างถึงในฐานะคลาสสิก ในสายงานของฉันฉันมักจะเจอสิ่งที่ดูเหมือนฉันชอบอาละวาด "ข้อมูลการสอดแนม" หรือบางทีมันอาจจะอธิบายได้ดีกว่าว่า " การทรมานข้อมูล" แม้ว่าผู้ที่ทำมันดูเหมือนจะเห็นกิจกรรมเดียวกันกับการสำรวจที่สมเหตุสมผลและไม่มีเหตุผลทั้งหมด " นี่คือสถานการณ์ทั่วไป: การทดลองที่มีราคาแพงเกิดขึ้น (โดยไม่ต้องคิดมากนักกับการวิเคราะห์ที่ตามมา) นักวิจัยดั้งเดิมไม่สามารถมองเห็น "เรื่องราว" ในข้อมูลที่รวบรวมได้อย่างง่ายดายใครบางคนจะถูกนำไปใช้เพื่อ "พ่อมดทางสถิติ" หลังจากการแบ่งและการทำให้ข้อมูลเป็นไปตามลำดับในที่สุดก็สามารถดึง "เรื่องราว" ที่เผยแพร่ได้ออกมา แน่นอนว่ามักจะมี "การตรวจสอบความถูกต้อง" ถูกโยนลงในรายงาน / กระดาษขั้นสุดท้ายเพื่อแสดงให้เห็นว่าการวิเคราะห์ทางสถิติอยู่ในสภาพที่ดีและมากขึ้น แต่ทัศนคติการตีพิมพ์เผยแพร่ที่เห็นได้ชัดทั้งหมดทำให้ฉันสงสัย น่าเสียดายที่ความเข้าใจที่ จำกัด ของฉันเกี่ยวกับสิ่งที่ต้องทำและไม่ได้ทำการวิเคราะห์ข้อมูลทำให้ฉันพ้นจากข้อสงสัยที่คลุมเครือเช่นนั้นดังนั้นการตอบสนองแบบอนุรักษ์นิยมของฉันคือการไม่สนใจสิ่งที่ค้นพบ ความหวังของฉันคือไม่เพียง แต่เข้าใจถึงความแตกต่างระหว่างการสำรวจและการสอดแนม / การทรมาน แต่ยังรวมถึงและที่สำคัญกว่านั้นคือการเข้าใจหลักการและเทคนิคที่ดีกว่าสำหรับการตรวจจับเมื่อสายนั้นผ่านไปแล้ว วิธีที่สมเหตุสมผลสามารถอธิบายขั้นตอนการวิเคราะห์ที่น้อยกว่าที่ดีที่สุดและสามารถไปไกลกว่าการตอบสนองในปัจจุบันของฉันที่ค่อนข้างง่ายสำหรับการไม่เชื่อฟังผ้าห่ม แก้ไข: ขอบคุณทุกท่านสำหรับความคิดเห็นและคำตอบที่น่าสนใจมาก เมื่อพิจารณาจากเนื้อหาของพวกเขาฉันคิดว่าฉันอาจไม่ได้อธิบายคำถามของฉันได้ดีพอ ฉันหวังว่าการอัปเดตนี้จะอธิบายให้ชัดเจน คำถามของฉันที่นี่ไม่เกี่ยวข้องกับสิ่งที่ฉันควรทำมากนักเพื่อหลีกเลี่ยงการทรมานข้อมูลของฉัน (แม้ว่านี่จะเป็นคำถามที่ให้ความสนใจฉันด้วย) แต่: ฉันควรคำนึงถึง (หรือประเมิน) ผลลัพธ์ที่ฉันรู้มาอย่างไร …

4
เทคนิคการเรียนรู้ของเครื่องสำหรับการวิเคราะห์สตริง?
ฉันมีสตริงที่อยู่จำนวนมาก: 1600 Pennsylvania Ave, Washington, DC 20500 USA ฉันต้องการแยกพวกเขาเป็นส่วนประกอบของพวกเขา street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA แต่แน่นอนว่าข้อมูลสกปรก: มันมาจากหลายประเทศในหลาย ๆ ภาษาเขียนในรูปแบบที่แตกต่างกันมีการสะกดผิดชิ้นส่วนที่ขาดหายไปมีขยะพิเศษ ฯลฯ ตอนนี้แนวทางของเราคือการใช้กฎรวมกับการจับคู่ gazetteer แต่เราต้องการสำรวจเทคนิคการเรียนรู้ของเครื่อง เราได้ระบุข้อมูลการฝึกอบรมเพื่อการเรียนรู้แบบมีผู้สอน คำถามคือปัญหาการเรียนรู้ของเครื่องเป็นแบบใด ดูเหมือนจะไม่ใช่การรวมกลุ่มหรือการจำแนกหรือการถดถอย .... สิ่งที่ใกล้เคียงที่สุดที่ฉันสามารถทำได้คือจำแนกแต่ละโทเค็น แต่คุณต้องการจัดหมวดหมู่ทั้งหมดพร้อมกันข้อ จำกัด ที่น่าพอใจเช่น "ควรมีอย่างน้อยหนึ่งประเทศ และจริงๆมีหลายวิธีในการโทเค็นสตริงและคุณต้องการลองแต่ละอันและเลือกสิ่งที่ดีที่สุด .... ฉันรู้ว่ามีบางสิ่งที่เรียกว่าการแยกวิเคราะห์ทางสถิติ แต่ไม่รู้อะไรเกี่ยวกับมัน ดังนั้น: เทคนิคการเรียนรู้ของเครื่องใดที่ฉันสามารถสำรวจเพื่อแยกที่อยู่ได้

4
วิธีการลดขนาดด้วย PCA ใน R
ฉันมีชุดข้อมูลขนาดใหญ่และฉันต้องการลดขนาดข้อมูล ตอนนี้ทุกที่ฉันอ่านว่าฉันสามารถใช้ PCA สำหรับสิ่งนี้ อย่างไรก็ตามฉันยังดูเหมือนจะไม่ได้สิ่งที่ต้องทำหลังจากการคำนวณ / การแสดง PCA princompในการวิจัยนี้จะกระทำได้อย่างง่ายดายด้วยคำสั่ง แต่จะทำอย่างไรหลังจากคำนวณ PCA หากฉันตัดสินใจว่าจะใช้ส่วนประกอบหลักแรกฉันจะลดชุดข้อมูลของฉันได้อย่างไร100100100
30 r  pca 

3
วิธีการกำหนดโอกาสอย่างจริงจัง?
โอกาสที่สามารถกำหนดได้หลายวิธีตัวอย่างเช่น: ฟังก์ชั่นจากซึ่งแผนที่เพื่อเช่น{R}LLLΘ×XΘ×X\Theta\times{\cal X}(θ,x)(θ,x)(\theta,x)L(θ∣x)L(θ∣x)L(\theta \mid x)L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} ฟังก์ชั่นแบบสุ่มL(⋅∣X)L(⋅∣X)L(\cdot \mid X) เราอาจพิจารณาได้ว่าความน่าจะเป็นเป็นเพียงโอกาส "สังเกต"L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) ในทางปฏิบัติความน่าจะเป็นที่นำข้อมูลไปสู่ขึ้นอยู่กับค่าคงที่แบบ multiplicative เท่านั้นดังนั้นเราจึงสามารถพิจารณาความเป็นไปได้ว่าเป็นคลาสเทียบเท่าของฟังก์ชันแทนที่จะเป็นฟังก์ชันθθ\theta อีกคำถามที่เกิดขึ้นเมื่อพิจารณาการเปลี่ยนแปลงของ parametrization: ถ้าเป็น parameterization ใหม่ที่เรามักจะแสดงโดยโอกาสในและนี่ไม่ใช่การประเมินฟังก์ชั่นก่อนหน้าที่แต่ในพี} นี่คือเครื่องหมายที่ไม่เหมาะสม แต่มีประโยชน์ซึ่งอาจทำให้เกิดความยุ่งยากสำหรับผู้เริ่มต้นหากไม่ได้เน้นϕ=θ2ϕ=θ2\phi=\theta^2L(ϕ∣x)L(ϕ∣x)L(\phi \mid x)ϕϕ\phiL(⋅∣x)L(⋅∣x)L(\cdot \mid x)θ2θ2\theta^2ϕ−−√ϕ\sqrt{\phi} คำจำกัดความที่คุณชื่นชอบอย่างเข้มงวดของความน่าจะเป็นคืออะไร? นอกจากนี้คุณจะเรียกอย่างไร ฉันมักจะพูดว่า "ความน่าจะเป็นในเมื่อสังเกต "L(θ∣x)L(θ∣x)L(\theta \mid x)θθ\thetaxxx แก้ไข: ในมุมมองของความคิดเห็นด้านล่างฉันรู้ว่าฉันควรจะมีบริบท ฉันพิจารณาแบบจำลองทางสถิติที่กำหนดโดยตระกูลพารามิเตอร์ของความหนาแน่นที่เกี่ยวกับการวัดที่มีอิทธิพลเหนือแต่ละอันที่มีกำหนดไว้ในพื้นที่สังเกตX} ดังนั้นเราจึงกำหนดและคำถามคือ "คืออะไร?" (คำถามไม่ได้เกี่ยวกับความหมายทั่วไปของความน่าจะเป็น)ฉ( ⋅ | θ ) X L ( θ …

5
กลยุทธ์การสอนการกระจายตัวตัวอย่าง
รุ่น tl; dr เวอร์ชัน ใดที่คุณใช้กลยุทธ์ที่ประสบความสำเร็จในการสอนการกระจายตัวตัวอย่าง (ของค่าเฉลี่ยตัวอย่าง) ในระดับปริญญาตรีเบื้องต้น? พื้นหลัง ในเดือนกันยายนฉันจะสอนหลักสูตรสถิติเบื้องต้นสำหรับนักศึกษาปีที่สองทางสังคมศาสตร์ (ส่วนใหญ่เป็นรัฐศาสตร์และสังคมวิทยา) โดยใช้David Basic Moore มันจะเป็นครั้งที่ห้าที่ผมเคยสอนหลักสูตรนี้และปัญหาหนึ่งที่ฉันเคยมีอย่างต่อเนื่องคือการที่นักเรียนได้ต่อสู้จริงๆกับความคิดของการกระจายการสุ่มตัวอย่าง มันครอบคลุมเป็นพื้นหลังสำหรับการอนุมานและปฏิบัติตามการแนะนำเบื้องต้นเกี่ยวกับความน่าจะเป็นที่พวกเขาดูเหมือนจะไม่มีปัญหาหลังจากมีอาการสะอึกเริ่มแรก (และโดยพื้นฐานแล้วฉันหมายถึงพื้นฐาน- หลังจากทั้งหมดนักเรียนเหล่านี้จำนวนมากได้รับการคัดเลือกด้วยตนเองเป็นสตรีมหลักสูตรที่เฉพาะเจาะจงเพราะพวกเขาพยายามที่จะหลีกเลี่ยงสิ่งใดก็ตามด้วยคำใบ้ที่คลุมเครือของ "คณิตศาสตร์") ฉันเดาว่าอาจจะออกจากหลักสูตร 60% โดยไม่มีความเข้าใจน้อยที่สุดประมาณ 25% เข้าใจหลักการ แต่ไม่ใช่การเชื่อมต่อกับแนวคิดอื่น ๆ และอีก 15% ที่เหลือเข้าใจอย่างถ่องแท้ ประเด็นหลัก ปัญหาที่นักเรียนดูเหมือนมีอยู่กับแอปพลิเคชัน เป็นการยากที่จะอธิบายว่าปัญหาที่แม่นยำคืออะไรนอกจากบอกว่าพวกเขาไม่เข้าใจ จากการสำรวจความคิดเห็นที่ฉันได้ดำเนินการภาคการศึกษาที่ผ่านมาและจากการตอบการสอบฉันคิดว่าส่วนหนึ่งของความยากลำบากคือความสับสนระหว่างวลีที่เกี่ยวข้องและคล้ายกันสองเสียง (การกระจายตัวตัวอย่างและการกระจายตัวอย่าง) ดังนั้นฉันจึงไม่ใช้วลี อีกต่อไป แต่แน่นอนว่านี่คือสิ่งที่ในขณะที่เกิดความสับสนในตอนแรกสามารถเข้าใจได้ง่ายด้วยความพยายามเพียงเล็กน้อยและไม่สามารถอธิบายความสับสนทั่วไปเกี่ยวกับแนวคิดของการแจกแจงตัวอย่าง (ฉันตระหนักว่าอาจเป็นฉันและการสอนของฉันที่เป็นปัญหาที่นี่! อย่างไรก็ตามฉันคิดว่าการเพิกเฉยต่อความเป็นไปได้ที่ไม่สะดวกนั้นมีเหตุผลที่จะทำเพราะนักเรียนบางคนดูเหมือนจะเข้าใจและโดยรวมแล้วทุกคน สิ่งที่ฉันได้ลอง ฉันต้องเถียงกับผู้ดูแลระบบระดับปริญญาตรีในแผนกของเราเพื่อแนะนำเซสชันในห้องปฏิบัติการคอมพิวเตอร์ที่คิดว่าการสาธิตซ้ำอาจเป็นประโยชน์ (ก่อนที่ฉันจะเริ่มสอนหลักสูตรนี้ไม่มีการใช้คอมพิวเตอร์ที่เกี่ยวข้อง) ในขณะที่ฉันคิดว่าสิ่งนี้ช่วยให้เข้าใจเนื้อหาโดยรวมของเนื้อหาหลักสูตรโดยทั่วไปฉันไม่คิดว่าหัวข้อนี้จะช่วยได้ ความคิดหนึ่งที่ฉันมีก็คือการไม่สอนอะไรเลยหรือไม่ให้น้ำหนักมากท่าทีที่ได้รับการสนับสนุนจากบางคน (เช่นAndrew Gelman ) ฉันไม่พบสิ่งนี้ที่น่าพึงพอใจโดยเฉพาะเนื่องจากมีการสอนที่รวดเร็วถึงตัวหารร่วมที่ต่ำที่สุดและที่สำคัญกว่านั้นคือปฏิเสธนักเรียนที่แข็งแกร่งและมีแรงจูงใจที่ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการประยุกต์ใช้ทางสถิติจากการทำความเข้าใจว่า ) ในทางตรงกันข้ามนักเรียนที่เป็นสื่อกลางดูเหมือนจะเข้าใจค่า p …

3
วิธีการกำหนดคุณภาพของตัวแยกประเภทมัลติคลาส
ป.ร. ให้ไว้ ชุดข้อมูลที่มีอินสแตนซ์xผมxผมx_iพร้อมกับคลาสที่ทุกอินสแตนซ์เป็นของคลาสหนึ่งยังไม่มีข้อความยังไม่มีข้อความNxผมxผมx_iYผมYผมy_i ตัวแยกประเภทมัลติคลาส หลังจากการฝึกอบรมและการทดสอบผมโดยทั่วไปมีตารางที่มีที่จริงชั้นและคาดการณ์ระดับเช่นทุกอยู่ในชุดทดสอบ ดังนั้นทุกครั้งที่ฉันมีการแข่งขัน ( ) หรือ miss ( )YผมYผมy_ix i y i = a i y i ≠ a iaผมaผมa_ixผมxผมx_iYผม= aผมYผม=aผมy_i= a_iYผม≠ผมYผม≠aผมy_i\neq a_i ฉันจะประเมินคุณภาพของการแข่งขันได้อย่างไร ปัญหาคือบางคลาสสามารถมีสมาชิกจำนวนมากได้เช่นหลายอินสแตนซ์เป็นสมาชิก เห็นได้ชัดว่าถ้า 50% ของจุดข้อมูลทั้งหมดอยู่ในชั้นหนึ่งและตัวจําแนกสุดท้ายของฉันนั้นถูกต้อง 50% โดยรวมแล้วฉันก็ไม่ได้อะไรเลย ฉันสามารถสร้างลักษณนามเล็กน้อยที่เอาท์พุทว่าคลาสที่ใหญ่ที่สุดไม่ว่าอินพุตจะเป็นเช่นไร มีวิธีมาตรฐานในการประมาณคุณภาพของตัวจําแนกตามการทดสอบที่ทราบชุดผลลัพธ์ของการจับคู่และการเข้าชมสำหรับแต่ละคลาสหรือไม่? อาจเป็นสิ่งสำคัญยิ่งที่จะแยกแยะอัตราการจับคู่สำหรับแต่ละชั้นเรียนหรือไม่ วิธีที่ง่ายที่สุดที่ฉันคิดได้คือยกเว้นการแข่งขันที่ถูกต้องของคลาสที่ใหญ่ที่สุด มีอะไรอีกบ้าง?

8
นักสถิติทุกคนควรรู้ทฤษฎีอะไร
ฉันกำลังคิดถึงสิ่งนี้จากมุมมองความต้องการขั้นพื้นฐานที่น้อยที่สุด ทฤษฎีสำคัญที่นักสถิติอุตสาหกรรมควรรู้ทำความเข้าใจและใช้เป็นประจำคืออะไร สิ่งสำคัญที่นึกถึงคือกฎของคนจำนวนมาก สิ่งที่สำคัญที่สุดสำหรับการประยุกต์ใช้ทฤษฎีทางสถิติกับการวิเคราะห์ข้อมูลคืออะไร?

9
ความแตกต่างระหว่างตัวประมาณและสถิติคืออะไร?
ฉันได้เรียนรู้ว่าสถิติเป็นคุณลักษณะที่คุณสามารถหาได้จากกลุ่มตัวอย่างจากการทดลองขนาดที่มีขนาดเดียวกันจำนวนมากการคำนวณคุณลักษณะนี้สำหรับพวกเขาทั้งหมดและพล็อตไฟล์ pdf เราได้การกระจายของแอตทริบิวต์ที่เกี่ยวข้องหรือการกระจายของสถิติที่เกี่ยวข้อง ฉันยังได้ยินด้วยว่าสถิติถูกสร้างขึ้นเพื่อเป็นตัวประมาณสองแนวคิดนี้แตกต่างกันอย่างไร

3
เป็นวิธีที่ดีในการใช้ R เพื่อสร้าง scatterplot ที่แยกข้อมูลโดยการรักษาคืออะไร?
ฉันใหม่มากกับ R และสถิติโดยทั่วไป แต่ฉันต้องสร้างโปรเจ็กต์ที่ฉันคิดว่าอาจเกินขีดความสามารถดั้งเดิม ฉันมีเวกเตอร์ของการสังเกตสองสามอันและฉันต้องการทำ scatterplot กับพวกเขาและแต่ละคู่ตกอยู่ในหนึ่งในสามประเภท ฉันต้องการสร้าง scatterplot ที่แยกแต่ละหมวดหมู่ตามสีหรือตามสัญลักษณ์ ฉันคิดว่าสิ่งนี้จะดีกว่าการสร้างแผนการกระจายที่แตกต่างกันสามแบบ ฉันมีปัญหาอีกอันหนึ่งกับความจริงที่ว่าในแต่ละหมวดหมู่มีกลุ่มขนาดใหญ่ ณ จุดหนึ่ง แต่กลุ่มนั้นมีขนาดใหญ่กว่ากลุ่มหนึ่งมากกว่าอีกสองกลุ่ม ไม่มีใครรู้วิธีที่ดีในการทำเช่นนี้? แพ็คเกจที่ฉันควรติดตั้งและเรียนรู้วิธีการใช้งาน? ใครทำอะไรที่คล้ายกัน? ขอบคุณ

3
จะทราบได้อย่างไรว่าอนุกรมเวลาอยู่กับที่หรือหยุดนิ่ง?
ผมใช้ R, ฉันค้นหาใน Google และได้เรียนรู้ว่าkpss.test(), PP.test()และadf.test()มีการใช้ความรู้เกี่ยวกับ stationarity ของอนุกรมเวลา แต่ฉันไม่ใช่นักสถิติที่สามารถตีความผลลัพธ์ของพวกเขาได้ > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.