สถิติและข้อมูลขนาดใหญ่ eda

5

มันจะดีกว่าที่จะทำการวิเคราะห์ข้อมูลเชิงสำรวจในชุดข้อมูลการฝึกอบรมเท่านั้น?

ฉันกำลังทำการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ในชุดข้อมูล จากนั้นฉันจะเลือกคุณสมบัติบางอย่างเพื่อทำนายตัวแปรตาม คำถามคือ: ฉันควรทำ EDA บนชุดข้อมูลการฝึกอบรมของฉันเท่านั้นหรือไม่ หรือฉันควรเข้าร่วมการฝึกอบรมและการทดสอบชุดข้อมูลจากนั้นทำ EDA กับพวกเขาทั้งสองและเลือกคุณสมบัติตามการวิเคราะห์นี้?

15 dataset feature-selection feature-construction eda

2

มีความแตกต่างในวิธีการแบบเบย์และวิธี EDA เป็นประจำหรือไม่?

กล่าวอย่างง่ายมาก: มีความแตกต่างในวิธีการแบบเบย์และความถี่ในการวิเคราะห์ข้อมูลเชิงสำรวจหรือไม่? ฉันรู้ว่าไม่มีอคติโดยธรรมชาติในวิธีการ EDA เช่นเดียวกับฮิสโตแกรมคือฮิสโตแกรม, Scatterplot เป็น scatterplot, ฯลฯ และฉันไม่พบตัวอย่างของความแตกต่างในวิธีการสอนหรือนำเสนอ EDA (โดยไม่สนใจบทความเชิงทฤษฎีโดย A. Gelman) . ในที่สุดฉันดู CRAN ผู้ตัดสินทุกสิ่งที่นำไปใช้: ฉันไม่พบแพ็คเกจที่ปรับให้เข้ากับวิธีการแบบเบย์ อย่างไรก็ตามฉันคิดว่าประวัติย่ออาจมีบางคนที่สามารถแสดงความเห็นเกี่ยวกับเรื่องนี้ ทำไมต้องมีความแตกต่าง สำหรับผู้เริ่ม: เมื่อระบุการแจกแจงที่เหมาะสมก่อนใครควรตรวจสอบสิ่งนี้ด้วยตาเปล่าหรือไม่? เมื่อสรุปข้อมูลและแนะนำว่าควรใช้โมเดลประจำหรือ Bayesian EDA ไม่ควรแนะนำทิศทางใดให้ไป ทั้งสองวิธีมีความแตกต่างอย่างชัดเจนในวิธีการจัดการกับแบบจำลองการผสม การระบุว่าตัวอย่างที่น่าจะมาจากการผสมของประชากรนั้นมีความท้าทายและเกี่ยวข้องโดยตรงกับวิธีการที่ใช้ในการประมาณค่าพารามิเตอร์การผสม ทั้งสองวิธีรวมโมเดล Stochastic และการเลือกแบบจำลองนั้นมาจากการทำความเข้าใจข้อมูล ข้อมูลที่ซับซ้อนมากขึ้นหรือตัวแบบที่ซับซ้อนมากขึ้นทำให้ EDA มีเวลามากขึ้น ด้วยความแตกต่างดังกล่าวระหว่างโมเดล Stochastic หรือกระบวนการสร้างจึงมีความแตกต่างในกิจกรรม EDA ดังนั้นจึงไม่ควรมีความแตกต่างที่เกิดขึ้นจากวิธี Stochastic ที่แตกต่างกันใช่หรือไม่ หมายเหตุ 1: ฉันไม่ได้กังวลเกี่ยวกับปรัชญาของ "ค่าย" - ฉันต้องการพูดถึงช่องว่างใด ๆ ในชุดเครื่องมือและวิธีการ …

14 bayesian frequentist eda

3

ผังงานเพื่อช่วยในการเลือกเทคนิคการวิเคราะห์และทดสอบที่เหมาะสม

ในฐานะคนที่ต้องการความรู้ทางสถิติ แต่ไม่ใช่นักสถิติที่ได้รับการฝึกฝนอย่างเป็นทางการฉันคิดว่ามันมีประโยชน์ที่จะมีแผนผังลำดับงาน (หรือต้นไม้แห่งการตัดสินใจบางอย่าง) เพื่อช่วยฉันเลือกวิธีที่ถูกต้องในการแก้ปัญหาเฉพาะเจาะจง ต้องการสิ่งนี้และรู้ว่าและนั่นและพิจารณาว่าข้อมูลจะกระจายตามปกติหรือไม่ใช้เทคนิค X หากข้อมูลไม่ปกติให้ใช้ Y หรือ Z ") หลังจากgooglingฉันได้เห็นความพยายามและคุณภาพที่หลากหลาย (ในขณะนี้ยังไม่พร้อม) ฉันเคยเห็นผังงานที่คล้ายกันในตำราเรียนสถิติที่ฉันเคยปรึกษาในห้องสมุด โบนัสจะเป็นเว็บไซต์เชิงโต้ตอบที่นอกเหนือจากการมีแผนภูมิจะให้ข้อมูลเพิ่มเติม (เช่นสมมติฐาน) และชี้ไปที่วิธีการปฏิบัติเทคนิคเหล่านั้นในแพ็คเกจสถิติยอดนิยม "ต้องการทำ ANOVA ใน R หรือไม่คุณต้องมีแพ็คเกจ X และนี่คือบทช่วยสอน" ฉันถามคำถามชุมชนด้วยความหวังว่ามีแหล่งข้อมูลที่ดีกว่าที่ฉันไม่สามารถหาได้ เนื่องจากสถิติเป็นวิชาที่มีขนาดใหญ่ฉันคิดว่าผังงานดังกล่าวจะเหมาะสำหรับเทคนิคที่สามารถเข้าถึงได้โดยผู้ที่มีความรู้ระดับเริ่มต้นหรือระดับกลาง อะไรที่ซับซ้อนกว่านี้ก็ต้องมีใครสักคนที่มีการฝึกฝนอย่างเป็นทางการ

14 hypothesis-testing data-mining eda

6

แพ็คเกจ R สำหรับการระบุความสัมพันธ์ระหว่างตัวแปร [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว มีแพ็คเกจ R ที่ฉันสามารถใช้เพื่อสำรวจว่ามีความสัมพันธ์ระหว่างตัวแปรหรือไม่? โดยทั่วไปเมื่อฉันกำลังมองหารูปแบบที่ฉันดูที่ความสัมพันธ์แล้วพล็อตด้าน จากนั้นฉันใช้การแปลงบางอย่างกับตัวแปรในข้อมูลด้วยตนเอง ฉันสงสัยว่าฉันสามารถเร่งกระบวนการนี้ผ่านแพ็คเกจ R ได้หรือไม่

13 r data-visualization correlation eda

4

วิธีที่ดีที่สุดในการรวบรวมและวิเคราะห์ข้อมูล

เมื่อไม่นานมานี้เริ่มสอนตนเองเกี่ยวกับการเรียนรู้ของเครื่องจักรและการวิเคราะห์ข้อมูลฉันพบว่าตัวเองชนกำแพงอิฐที่ต้องการสร้างและค้นหาชุดข้อมูลขนาดใหญ่ ฉันต้องการใช้ข้อมูลที่รวบรวมไว้ในชีวิตการงานและชีวิตส่วนตัวของฉันแล้ววิเคราะห์ แต่ฉันไม่แน่ใจว่าจะทำสิ่งต่อไปนี้ได้ดีที่สุด: ฉันจะเก็บข้อมูลนี้ได้อย่างไร Excel? SQL? ?? เป็นวิธีที่ดีสำหรับผู้เริ่มต้นในการเริ่มพยายามวิเคราะห์ข้อมูลนี้อย่างไร ฉันเป็นโปรแกรมเมอร์คอมพิวเตอร์มืออาชีพดังนั้นความซับซ้อนไม่ได้อยู่ในการเขียนโปรแกรม แต่เฉพาะเจาะจงมากขึ้นหรือน้อยลงในโดเมนของการวิเคราะห์ข้อมูล แก้ไข: ขอโทษสำหรับความคลุมเครือของฉันเมื่อคุณเริ่มเรียนรู้เกี่ยวกับบางสิ่งบางอย่างมันยากที่จะรู้ว่าสิ่งที่คุณไม่รู้ไม่รู้ใช่มั้ย ;) ต้องบอกว่าจุดมุ่งหมายของฉันคือการใช้สิ่งนี้กับสองหัวข้อหลัก: การวัดทีมงานซอฟแวร์ (คิดว่าความเร็ว Agile, ความเสี่ยงเชิงปริมาณ, ความน่าจะเป็นของการทำซ้ำที่เสร็จสมบูรณ์ได้รับ x จำนวนเรื่องคะแนน) การเรียนรู้ของเครื่อง (ข้อยกเว้นของระบบได้เกิดขึ้นในชุดของโมดูลที่กำหนดความน่าจะเป็นที่โมดูลจะโยนข้อยกเว้นในฟิลด์จะมีค่าใช้จ่ายเท่าไหร่ข้อมูลจะบอกฉันเกี่ยวกับโมดูลหลักเพื่อปรับปรุงที่จะได้รับ คาดเดาได้ว่าส่วนใดของระบบที่ผู้ใช้จะต้องการใช้ต่อไปเพื่อเริ่มการโหลดข้อมูล ฯลฯ )

13 data-mining dataset eda

2

ความแตกต่างระหว่างการวิเคราะห์เชิงสำรวจและปัจจัยเชิงยืนยันในการพิจารณาความเป็นอิสระในการก่อสร้าง

นักวิจัยมักใช้สองมาตรการที่มีรายการที่คล้ายกันมากและให้เหตุผลว่าพวกเขาวัดสิ่งต่าง ๆ (เช่น "ฉันมักจะกังวลเมื่อฉันอยู่ใกล้รถยนต์"; "ฉันกลัวรถยนต์") ให้เรียกมาตรการที่เป็นสมมุติว่ากลัวการวัดรถยนต์และความวิตกกังวลจากมาตราส่วนของรถยนต์ ฉันสนใจที่จะทดสอบสังเกตุถ้าพวกเขาประเมินโครงสร้างแฝงที่แตกต่างกันหรือถ้าพวกเขาวัดสิ่งเดียวกัน สองวิธีที่ดีที่สุดที่ฉันสามารถคิดได้ว่าทำได้โดยผ่านการวิเคราะห์จากโรงงานเพื่อการสำรวจ (EFA) หรือการวิเคราะห์ปัจจัยยืนยัน (CFA) ฉันคิดว่า EFA จะดีเพราะช่วยให้ทุกรายการโหลดได้อย่างอิสระโดยไม่มีข้อ จำกัด หากรายการจากเครื่องชั่งสองเครื่องโหลดด้วยปัจจัยเดียวกันฉันสามารถสรุปได้ว่ามาตรการที่มีแนวโน้มจะไม่ประเมินสิ่งต่าง ๆ เป็นอย่างดี ฉันยังสามารถเห็นประโยชน์ใน CFA อย่างไรก็ตามเนื่องจากฉันจะทดสอบแบบจำลองที่กำหนดไว้ล่วงหน้า ตัวอย่างเช่นฉันสามารถเปรียบเทียบความพอดีของแบบจำลองที่รายการทั้งหมดโหลดไปยังปัจจัยเดียว (เช่นพวกเขาไม่ได้ประเมินโครงสร้างที่แตกต่างกัน) หรือรายการจะถูกแยกออกเป็นมาตรการที่คาดหวัง ฉันคิดว่าปัญหาเกี่ยวกับ CFA คือมันจะไม่พิจารณารูปแบบทางเลือกอื่น ๆ (เช่นแบบจำลองปัจจัยสามตัว) สำหรับวัตถุประสงค์ของการสนทนาขอให้พิจารณาด้วยว่าอาจมีอีกสองมาตรการที่คล้ายกันออกไป (เช่นแบบสอบถามความวิตกกังวลในรถยนต์และเครื่องชั่งสำหรับการประเมินความกลัวของรถยนต์) ที่ฉันต้องการจะผสม! ฉันจะกำหนดสถิติได้ดีที่สุดว่าสองมาตรการประเมินโครงสร้างที่แตกต่างกันอย่างไร

12 factor-analysis confirmatory-factor eda

2

หากฮิสโตแกรมของฉันแสดงเส้นโค้งรูประฆังฉันสามารถพูดได้ว่าข้อมูลของฉันได้รับการกระจายตามปกติ?

ฉันสร้างฮิสโตแกรมสำหรับอายุผู้ตอบและจัดการเพื่อให้ได้เส้นโค้งรูประฆังที่ดีมากจากการที่ฉันสรุปว่าการแจกแจงเป็นเรื่องปกติ จากนั้นฉันรันการทดสอบเชิงปกติใน SPSS โดยมีn = 169 การทดสอบp -value (Sig.) ของการทดสอบ Kolmogorov-Smirnov น้อยกว่า 0.05 และดังนั้นข้อมูลจึงละเมิดสมมติฐานของภาวะปกติ ทำไมการทดสอบแสดงว่าการกระจายอายุไม่ปกติ แต่ฮิสโตแกรมแสดงเส้นโค้งรูประฆังซึ่งจากความเข้าใจของฉันเป็นเรื่องปกติ ฉันควรทำตามผลลัพธ์ใด

11 normality-assumption kolmogorov-smirnov histogram eda

1

วิธีการตีความแปลงกล่องหยัก

ในขณะที่ทำ EDA ฉันตัดสินใจใช้พล็อตกล่องเพื่อแสดงความแตกต่างระหว่างสองระดับของปัจจัย วิธีที่ggplotแสดงผลพล็อตกล่องนั้นเป็นที่น่าพอใจ แต่ก็ค่อนข้างง่าย (พล็อตแรกด้านล่าง) ในขณะที่ค้นคว้าลักษณะของกล่องแปลงผมเริ่มทำการทดลองด้วยรอยหยัก ฉันเข้าใจว่ารอยหยักแสดงค่า CI รอบ ๆ ค่ามัธยฐานและหากรอยหยักสองกล่องไม่ทับซ้อนกันก็มี 'หลักฐานที่แข็งแกร่ง' - ที่ระดับความเชื่อมั่น 95% - ค่าเฉลี่ยนั้นแตกต่างกัน ในกรณีของฉัน (พล็อตที่สอง) รอยหยักไม่ทับซ้อนกันอย่างมีความหมาย แต่ทำไมด้านล่างของกล่องทางด้านขวามือจึงมีรูปร่างแปลก ๆ ? การพล็อตข้อมูลเดียวกันในพล็อตไวโอลินไม่ได้ระบุสิ่งผิดปกติเกี่ยวกับความหนาแน่นของความน่าจะเป็นของไวโอลินที่เกี่ยวข้อง

11 data-visualization ggplot2 eda

2

อะไรคือ“ ให้ข้อมูลพูดเพื่อตัวเอง”

ในการอ่านกระดาษต่อไปนี้ฉันเจอคำสั่งต่อไปนี้: ดังที่กล่าวมามักจะถูกนำเสนอโดยไม่มีการอ้างอิงถึงโมเดลความน่าจะเป็นซึ่งสอดคล้องกับแนวคิดของ Benzecri [1973] ในการ "ให้ข้อมูลพูดด้วยตนเอง" (การอ้างอิงมาจาก JP Benzécriber. L'analyse des données. Tome II: การติดต่อ L'analyse des. Dunod, 1973. ) จากวิธีการที่ฉันกำลังอ่านบทความนี้ดูเหมือน "ให้ข้อมูลที่พูดให้ตัวเอง" หมายถึงสิ่งที่ตามสายในการพิจารณามาตรการต่างๆทั่วข้อมูลโดยไม่คำนึงถึงฟังก์ชั่นความน่าจะเป็นหรือก่อให้เกิดการประมวลผลข้อมูล ในขณะที่ฉันได้ยินคำพูด "ให้ข้อมูลพูดเพื่อตัวเอง" ก่อนหน้านี้ฉันไม่ได้ให้ความคิดอย่างหนักกับสิ่งที่บอกเป็นนัย การตีความข้างต้นของฉันมีความหมายตามที่บัญญัติไว้ในที่นี้หรือไม่

10 eda quotation

3

การเหลือบมองครั้งแรกอย่างรวดเร็วที่ชุดข้อมูล

กรุณาให้อภัยความไม่รู้ของฉัน แต่ ... ฉันพบตัวเองอยู่ในสถานการณ์ที่ฉันต้องเผชิญกับข้อมูลใหม่ ๆ มากมายที่ฉันพยายามหา ข้อมูลนี้มักจะมีลักษณะดังนี้: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) โดยทั่วไปในครั้งแรกที่ฉันไม่สามารถบอกได้ว่ามีแนวโน้มใด ๆ ที่นี่หรือไม่ ความสัมพันธ์ระหว่างคอลัมน์ต่าง ๆ อาจไม่สำคัญมาก แต่ฉันจะดีใจถ้าฉันไม่ต้องสร้างพล็อตด้วยตนเองสำหรับทุกชุดของคอลัมน์ / หมวดหมู่ที่เป็นไปได้ มีเครื่องมือที่จะยอมรับตารางของข้อมูลพร้อมกับข้อมูลที่คอลัมน์ควรจะถือว่าเป็นตัวเลขวันที่และหมวดหมู่แล้วดำเนินการพล็อต: ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์ ความสัมพันธ์ระหว่างแต่ละคอลัมน์สองคอลัมน์โดยมีเส้นแนวโน้มแยกกันสำหรับแต่ละหมวดหมู่ แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลา แต่ละคอลัมน์ตัวเลขเป็นอนุกรมเวลาคั่นด้วยหมวดหมู่ เป็นต้น ในที่สุดสิ่งนี้จะสร้างแปลงจำนวนมากซึ่งส่วนใหญ่จะแสดงเพียงเสียงรบกวน ตามหลักการแล้วเครื่องมือสามารถทำคะแนนพล็อตตามความสัมพันธ์และในที่สุดก็แสดงสไลด์โชว์โดยเริ่มจากพล็อตการให้คะแนนสูงสุด นี่จะไม่สมบูรณ์มาก แต่มีประโยชน์อย่างรวดเร็วก่อนที่ชุดข้อมูล ดังนั้น? มีเครื่องมือที่ทุกคนใช้สำหรับสิ่งนี้และฉันไม่รู้เกี่ยวกับมันหรือเป็นสิ่งที่เราต้องทำหรือไม่?

10 data-visualization correlation data-mining eda

4

กลเม็ดและเคล็ดลับในการเริ่มต้นกับการสร้างแบบจำลองทางสถิติ?

ฉันทำงานด้านการขุดข้อมูลและมีสถิติการศึกษาน้อยมาก เมื่อเร็ว ๆ นี้ฉันได้อ่านงานจำนวนมากที่มุ่งเน้นกระบวนทัศน์แบบเบย์สำหรับการเรียนรู้และการขุดซึ่งฉันพบว่าน่าสนใจมาก คำถามของฉันคือ (ในหลายส่วน) เนื่องจากปัญหามีกรอบทั่วไปที่เป็นไปได้หรือไม่ที่จะสร้างแบบจำลองทางสถิติ สิ่งแรกที่คุณทำเมื่อได้รับชุดข้อมูลที่คุณต้องการสร้างแบบจำลองกระบวนการพื้นฐานคืออะไร? มีหนังสือ / แบบฝึกหัดที่ดีที่อธิบายกระบวนการนี้หรือเป็นเรื่องของประสบการณ์หรือไม่? การอนุมานอยู่ในระดับแนวหน้าของความคิดของคุณเมื่อสร้างแบบจำลองของคุณหรือคุณต้องการที่จะอธิบายข้อมูลก่อนที่คุณจะกังวลเกี่ยวกับวิธีการใช้ในการคำนวณ? ความเข้าใจใด ๆ จะได้รับการชื่นชมอย่างมาก! ขอบคุณ

10 bayesian modeling references eda

4

ทำไมความจริงที่ว่า 1 มัธยฐานต่ำกว่าค่ามัธยฐานอื่นหมายความว่าส่วนใหญ่ในกลุ่ม 1 ต่ำกว่าในกลุ่มที่ 2 มากที่สุด?

ฉันเชื่อว่ากล่องสี่เหลี่ยมด้านล่างอาจตีความได้ว่า "ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่" (ในชุดข้อมูลนี้) ส่วนใหญ่เป็นเพราะเวลาเฉลี่ยของผู้ชายต่ำกว่าเวลาเฉลี่ยของผู้หญิง แต่หลักสูตร EdX สำหรับแบบทดสอบ R และสถิติบอกฉันว่าไม่ถูกต้อง โปรดช่วยฉันเข้าใจว่าทำไมปรีชาของฉันไม่ถูกต้อง นี่คือคำถาม: ลองพิจารณาตัวอย่างของนักสำเร็จจากนิวยอร์กซิตี้มาราธอนในปี 2002 ชุดข้อมูลนี้สามารถพบได้ในแพคเกจ UsingR โหลดไลบรารีจากนั้นโหลดชุดข้อมูล nym.2002 library(dplyr) data(nym.2002, package="UsingR") ใช้บ็อกซ์พล็อตและฮิสโทแกรมเพื่อเปรียบเทียบเวลาสิ้นสุดของชายและหญิง ข้อใดต่อไปนี้อธิบายความแตกต่างได้ดีที่สุด เพศชายและเพศหญิงมีการกระจายตัวเหมือนกัน ผู้ชายส่วนใหญ่เร็วกว่าผู้หญิงส่วนใหญ่ ตัวผู้และตัวเมียมีการแจกแจงเบ้คล้ายกันกับแบบก่อนหน้านี้, 20 นาทีเปลี่ยนไปทางซ้าย การแจกแจงทั้งสองแบบจะกระจายตามปกติโดยมีความแตกต่างในค่าเฉลี่ยประมาณ 30 นาที ที่นี่เวลา NYC มาราธอนสำหรับชายและหญิงเป็น quantiles, histograms และ boxplots: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 …

9 quantiles histogram boxplot eda

2

พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม

ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

แนวทางการค้นหาความรู้ใหม่ในข้อมูล

ฉันพล็อตเรื่องเพื่อชี้ให้ตัวเองหรือคนอื่น โดยปกติแล้วคำถามจะเริ่มต้นกระบวนการนี้และบ่อยครั้งที่บุคคลนั้นขอความหวังเพื่อหาคำตอบเฉพาะ ฉันจะเรียนรู้สิ่งที่น่าสนใจเกี่ยวกับข้อมูลในแบบที่มีอคติน้อยลงได้อย่างไร ตอนนี้ฉันทำตามวิธีนี้อย่างคร่าวๆ: สถิติสรุป Stripchart พล็อตกระจาย อาจทำซ้ำกับชุดย่อยของข้อมูลที่น่าสนใจ แต่นั่นดูเหมือนจะไม่เป็นระเบียบหรือเป็นวิทยาศาสตร์เพียงพอ มีแนวทางหรือขั้นตอนการปฏิบัติตามที่เปิดเผยข้อมูลเกี่ยวกับข้อมูลที่ฉันไม่คิดว่าจะถามหรือไม่? ฉันจะรู้ได้อย่างไรว่าได้ทำการวิเคราะห์อย่างเพียงพอแล้ว

9 data-visualization eda knowledge-discovery

คำถามติดแท็ก eda