คำถามติดแท็ก dataset

การร้องขอสำหรับชุดข้อมูลเป็นนอกหัวข้อในเว็บไซต์นี้ ใช้แท็กนี้สำหรับคำถามเกี่ยวกับการสร้างการประมวลผลหรือการบำรุงรักษาชุดข้อมูล


2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

2
การคำนวณเปอร์เซ็นต์ไทล์ 95: การเปรียบเทียบการแจกแจงแบบปกติ, R Quantile และ Excel
ฉันพยายามคำนวณเปอร์เซ็นต์ไทล์ไทล์ที่ 95 บนชุดข้อมูลต่อไปนี้ ฉันเจอการอ้างอิงทางออนไลน์ไม่กี่แห่ง วิธีที่ 1: อ้างอิงจากข้อมูลตัวอย่าง แรกบอกฉันจะได้รับTOP 95 Percentของชุดข้อมูลและจากนั้นเลือกMINหรือAVGของชุดผลลัพธ์ การทำเช่นนั้นสำหรับชุดข้อมูลต่อไปนี้ให้ฉัน: AVG: 29162 MIN: 0 วิธีที่ 2: สมมติว่าการแจกแจงแบบปกติ อันที่สองบอกว่าเปอร์เซ็นไทล์ที่ 95 นั้นประมาณสองส่วนเบี่ยงเบนมาตรฐานเหนือค่าเฉลี่ย (ซึ่งฉันเข้าใจ) และฉันแสดง: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 วิธีที่ 3: R Quantile ฉันเคยRได้รับ 95 เปอร์เซ็นต์: > quantile(data$V1, 0.95) 79515.2 วิธีที่ 4: วิธีการของ Excel ในที่สุดฉันก็เจอสิ่งนี้ซึ่งอธิบายว่า Excel ทำได้อย่างไร สรุปวิธีการดังต่อไปนี้: รับชุดของNค่าที่สั่ง{v[1], v[2], ...}และข้อกำหนดในการคำนวณpthเปอร์เซ็นต์ไทล์ให้ทำดังต่อไปนี้: คำนวณ …
17 r  dataset  quantiles  sql 

6
จะหาคลังข้อความขนาดใหญ่ได้ที่ไหน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันกำลังมองหาคลังข้อความขนาดใหญ่ (> 1,000) ดาวน์โหลด โดยเฉพาะอย่างยิ่งกับข่าวโลกหรือชนิดของบางรายงาน ฉันพบเพียงสิทธิบัตรเดียวเท่านั้น ข้อเสนอแนะใด ๆ
16 dataset 

5
การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร
บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น

4
ชุดข้อมูลที่ดีที่แสดงถึงลักษณะเฉพาะของการวิเคราะห์ทางสถิติคืออะไร
ฉันรู้ว่านี่เป็นเรื่องส่วนตัว แต่ฉันคิดว่ามันคงจะดีถ้าได้พูดถึงชุดข้อมูลที่เราโปรดปรานและสิ่งที่เราคิดว่าทำให้พวกเขาน่าสนใจ มีข้อมูลมากมายและสิ่งที่ API ทั้งหมด (เช่นDatamob ) พร้อมกับชุดข้อมูลคลาสสิก (เช่นข้อมูล R ) ฉันคิดว่านี่อาจมีคำตอบที่น่าสนใจมาก ตัวอย่างเช่นฉันเคยชอบชุดข้อมูลเช่นชุดข้อมูล "Boston Housing" (ความหมายที่โชคร้ายแม้จะมี) และ "mtcars" สำหรับความเก่งกาจของพวกเขา จากมุมมองของการสอนเราสามารถแสดงให้เห็นถึงข้อดีของเทคนิคทางสถิติที่หลากหลายโดยใช้พวกเขา และชุดข้อมูลม่านตาของ Anderson / Fisher จะมีที่อยู่ในใจของฉันเสมอ คิด?
16 dataset 

5
มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?
ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม คำถามคือ: ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

4
ฟรีโฮสติ้งข้อมูลสาธารณะที่น่าสนใจ? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีรายงานอุณหภูมิรายชั่วโมงและรายวันสำหรับสถานีหลายแห่งที่ http://data.barrycarter.info/ ฉันแนะนำให้คนดาวน์โหลด แต่ที่ 6.6G นั้นใช้แบนด์วิดท์เยอะมาก มีบริการที่โฮสต์ข้อมูล "สาธารณะประโยชน์" ฟรีหรือไม่ ฉันรู้เกี่ยวกับhttp://aws.amazon.com/publicdatasetsแต่คุณต้องมีบัญชี Amazon EC2 เพื่อเข้าถึงข้อมูลนั้น
14 dataset 

3
จะทำการแยกข้อมูลและตรวจสอบความถูกต้องของรถไฟได้อย่างไร?
ฉันกำลังจำแนกภาพโดยใช้การเรียนรู้ของเครื่อง สมมติว่าฉันมีข้อมูลการฝึกอบรม (ภาพ) และจะแบ่งข้อมูลออกเป็นชุดการฝึกอบรมและการตรวจสอบความถูกต้อง และฉันยังต้องการที่จะเพิ่มข้อมูล (สร้างภาพใหม่จากภาพต้นฉบับ) โดยการหมุนแบบสุ่มและการฉีดสัญญาณรบกวน augmentaion ทำแบบออฟไลน์ วิธีใดที่ถูกต้องในการเพิ่มข้อมูล? ขั้นแรกให้แบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้องจากนั้นทำการเพิ่มข้อมูลทั้งชุดฝึกอบรมและชุดตรวจสอบ ขั้นแรกให้แบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้องจากนั้นทำการเพิ่มข้อมูลในชุดฝึกอบรมเท่านั้น ก่อนอื่นทำการเพิ่มข้อมูลบนข้อมูลจากนั้นแบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้อง

6
วิธีที่รวดเร็วใน R เพื่อให้แถวแรกของเฟรมข้อมูลจัดกลุ่มตามตัวระบุ [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บางครั้งฉันต้องรับเฉพาะแถวแรกของชุดข้อมูลที่จัดกลุ่มตามตัวระบุเช่นเดียวกับเมื่อดึงข้อมูลอายุและเพศเมื่อมีการสังเกตหลายครั้งต่อบุคคล อะไรคือวิธีที่รวดเร็ว (หรือเร็วที่สุด) ในการทำเช่นนี้ใน R? ฉันใช้การรวม () ด้านล่างและสงสัยว่ามีวิธีที่ดีกว่า ก่อนโพสต์คำถามนี้ฉันค้นหาบิตบน google พบและลองใช้ ddply และรู้สึกประหลาดใจที่มันช้ามากและทำให้ฉันมีข้อผิดพลาดของหน่วยความจำในชุดข้อมูลของฉัน (400,000 แถว x 16 cols, 7,000 ID ที่ไม่ซ้ำ) ในขณะที่รุ่นรวม เร็วพอสมควร (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # …
14 r  dataset  aggregation  plyr 

2
การตรวจสอบความถูกต้องด้วย k-fold มีความเหมาะสมกับบริบทของชุดฝึกอบรม / ตรวจสอบ / ตรวจสอบได้อย่างไร
คำถามหลักของฉันคือการพยายามเข้าใจว่าการตรวจสอบข้าม k-fold เหมาะสมกับบริบทของการมีชุดฝึกอบรม / ตรวจสอบ / ทดสอบได้อย่างไร (ถ้าเหมาะสมในบริบทดังกล่าว) โดยทั่วไปแล้วผู้คนพูดถึงการแยกข้อมูลออกเป็นชุดฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ - พูดในอัตราส่วน 60/20/20 ต่อหลักสูตรของ Andrew Ng โดยชุดการตรวจสอบจะใช้เพื่อระบุพารามิเตอร์ที่เหมาะสมสำหรับการฝึกอบรมแบบจำลอง อย่างไรก็ตามหากต้องการใช้การตรวจสอบความถูกต้องข้ามแบบพับของ k-fold โดยหวังว่าจะได้รับการวัดความแม่นยำของตัวแทนมากขึ้นเมื่อปริมาณข้อมูลมีขนาดค่อนข้างเล็กสิ่งที่การตรวจสอบความถูกต้องไขว้แบบ k-fold นั้น สถานการณ์? ตัวอย่างเช่นนั่นหมายความว่าเราจะรวมชุดการฝึกอบรมและการทดสอบจริง ๆ (80% ของข้อมูล) และทำการตรวจสอบความถูกต้องด้วย k-fold เพื่อให้ได้การวัดความถูกต้องของเรา (ทิ้งอย่างมีประสิทธิภาพด้วยชุดทดสอบ ถ้าเป็นเช่นนั้นเราใช้โมเดล a) ในการผลิตและ b) เพื่อใช้กับชุดการตรวจสอบความถูกต้องและระบุพารามิเตอร์การฝึกอบรมที่เหมาะสมที่สุด? ตัวอย่างเช่นคำตอบหนึ่งที่เป็นไปได้สำหรับ a และ b อาจใช้โมเดลที่ดีที่สุด

4
จะหาข้อมูลดิบเกี่ยวกับการทดลองทางคลินิกได้ที่ไหน? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันต้องการใช้ข้อมูลดิบเกี่ยวกับการทดลองทางคลินิกสำหรับการสอบปลายปีของนักศึกษาปริญญาโทของฉัน ข้อมูลเหล่านี้สามารถจัดการกับโมเลกุลชนิดใดก็ได้ตราบใดที่การทดลองเสร็จสมบูรณ์ (ระยะที่ 1 ถึง 4) คุณมีความคิดที่จะหาชุดข้อมูลฟรีดังกล่าวบนเว็บหรือไม่? ขอขอบคุณ.

2
วิธีแปลงตารางความถี่ให้เป็นเวกเตอร์ของค่าได้อย่างไร
การใช้ R หรือ Excel วิธีที่ง่ายที่สุดในการแปลงตารางความถี่เป็นเวกเตอร์ของค่าคืออะไร เช่นคุณจะแปลงตารางความถี่ต่อไปนี้เป็นอย่างไร Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 ในเวกเตอร์ต่อไปนี้? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5
13 r  dataset  excel 

4
แยกประชากรสองกลุ่มออกจากตัวอย่าง
ฉันพยายามแยกค่าสองกลุ่มออกจากชุดข้อมูลเดียว ฉันสามารถสมมติว่าหนึ่งในประชากรมีการกระจายตามปกติและมีขนาดอย่างน้อยครึ่งหนึ่งของตัวอย่าง ค่าของอันที่สองนั้นต่ำกว่าหรือสูงกว่าค่าจากอันแรก (ไม่ทราบการกระจาย) สิ่งที่ฉันพยายามทำคือค้นหาขีด จำกัด บนและล่างที่จะล้อมรอบประชากรที่กระจายตัวตามปกติจากอีกอัน สมมติฐานของฉันให้ฉันด้วยจุดเริ่มต้น: จุดทั้งหมดที่อยู่ในช่วง interquartile ของตัวอย่างนั้นมาจากประชากรที่กระจายตัวตามปกติ ฉันพยายามที่จะทดสอบหาผู้ผิดกฎหมายที่นำพวกเขาออกจากส่วนที่เหลือของกลุ่มตัวอย่างจนกว่าพวกเขาจะไม่เข้ากับ 3 st.dev ของประชากรที่กระจายตัวตามปกติ ซึ่งไม่เหมาะ แต่ดูเหมือนจะให้ผลลัพธ์ที่สมเหตุสมผล การสันนิษฐานของฉันเป็นไปตามสถิติหรือไม่ อะไรจะเป็นวิธีที่ดีกว่าที่จะไปเกี่ยวกับเรื่องนี้? ป.ล. โปรดแก้ไขแท็กใครบางคน

4
วิธีที่ดีที่สุดในการรวบรวมและวิเคราะห์ข้อมูล
เมื่อไม่นานมานี้เริ่มสอนตนเองเกี่ยวกับการเรียนรู้ของเครื่องจักรและการวิเคราะห์ข้อมูลฉันพบว่าตัวเองชนกำแพงอิฐที่ต้องการสร้างและค้นหาชุดข้อมูลขนาดใหญ่ ฉันต้องการใช้ข้อมูลที่รวบรวมไว้ในชีวิตการงานและชีวิตส่วนตัวของฉันแล้ววิเคราะห์ แต่ฉันไม่แน่ใจว่าจะทำสิ่งต่อไปนี้ได้ดีที่สุด: ฉันจะเก็บข้อมูลนี้ได้อย่างไร Excel? SQL? ?? เป็นวิธีที่ดีสำหรับผู้เริ่มต้นในการเริ่มพยายามวิเคราะห์ข้อมูลนี้อย่างไร ฉันเป็นโปรแกรมเมอร์คอมพิวเตอร์มืออาชีพดังนั้นความซับซ้อนไม่ได้อยู่ในการเขียนโปรแกรม แต่เฉพาะเจาะจงมากขึ้นหรือน้อยลงในโดเมนของการวิเคราะห์ข้อมูล แก้ไข: ขอโทษสำหรับความคลุมเครือของฉันเมื่อคุณเริ่มเรียนรู้เกี่ยวกับบางสิ่งบางอย่างมันยากที่จะรู้ว่าสิ่งที่คุณไม่รู้ไม่รู้ใช่มั้ย ;) ต้องบอกว่าจุดมุ่งหมายของฉันคือการใช้สิ่งนี้กับสองหัวข้อหลัก: การวัดทีมงานซอฟแวร์ (คิดว่าความเร็ว Agile, ความเสี่ยงเชิงปริมาณ, ความน่าจะเป็นของการทำซ้ำที่เสร็จสมบูรณ์ได้รับ x จำนวนเรื่องคะแนน) การเรียนรู้ของเครื่อง (ข้อยกเว้นของระบบได้เกิดขึ้นในชุดของโมดูลที่กำหนดความน่าจะเป็นที่โมดูลจะโยนข้อยกเว้นในฟิลด์จะมีค่าใช้จ่ายเท่าไหร่ข้อมูลจะบอกฉันเกี่ยวกับโมดูลหลักเพื่อปรับปรุงที่จะได้รับ คาดเดาได้ว่าส่วนใดของระบบที่ผู้ใช้จะต้องการใช้ต่อไปเพื่อเริ่มการโหลดข้อมูล ฯลฯ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.