วิทยาศาสตร์ข้อมูล data-cleaning

6

ฉันจะแปลงชื่อในชุดข้อมูลที่เป็นความลับได้อย่างไรเพื่อให้เป็นแบบไม่ระบุชื่อ แต่ยังคงลักษณะบางอย่างของชื่อไว้

แรงจูงใจ ฉันทำงานกับชุดข้อมูลที่มีข้อมูลส่วนบุคคล (PII) และบางครั้งจำเป็นต้องแบ่งปันส่วนหนึ่งของชุดข้อมูลกับบุคคลที่สามในลักษณะที่ไม่เปิดเผยข้อมูล PII และบังคับให้นายจ้างรับผิดชอบ วิธีการตามปกติของเราที่นี่คือการระงับข้อมูลทั้งหมดหรือในบางกรณีเพื่อลดความละเอียด เช่นการแทนที่ที่อยู่ถนนที่แน่นอนด้วยเคาน์ตีหรือระบบการสำรวจสำมะโนประชากรที่เกี่ยวข้อง ซึ่งหมายความว่าต้องทำการวิเคราะห์และประมวลผลบางประเภทภายใน บริษัท แม้ว่าบุคคลที่สามจะมีทรัพยากรและความเชี่ยวชาญที่เหมาะสมกับงานมากกว่า เนื่องจากไม่มีการเปิดเผยข้อมูลต้นฉบับวิธีที่เราดำเนินการเกี่ยวกับการวิเคราะห์และการประมวลผลนี้จึงไม่มีความโปร่งใส ดังนั้นความสามารถของบุคคลที่สามในการดำเนินการ QA / QC ปรับพารามิเตอร์หรือทำการปรับแต่งอาจมีข้อ จำกัด มาก การเปิดเผยข้อมูลที่เป็นความลับ งานหนึ่งเกี่ยวข้องกับการระบุบุคคลตามชื่อของพวกเขาในข้อมูลที่ผู้ใช้ส่งในขณะที่คำนึงถึงข้อผิดพลาดของบัญชีและความไม่สอดคล้องกัน บุคคลที่เป็นส่วนตัวอาจถูกบันทึกไว้ในที่เดียวว่า "เดฟ" และที่อื่น ๆ ในฐานะ "เดวิด" หน่วยงานการค้าสามารถมีตัวย่อต่าง ๆ ได้มากมาย ฉันได้พัฒนาสคริปต์ตามเกณฑ์จำนวนหนึ่งที่กำหนดว่าเมื่อใดที่ระเบียนสองรายการที่มีชื่อไม่เหมือนกันแสดงถึงบุคคลเดียวกันและกำหนดรหัสทั่วไปให้กับพวกเขา ณ จุดนี้เราสามารถทำให้ชุดข้อมูลไม่ระบุชื่อโดยระงับชื่อและแทนที่ด้วยหมายเลข ID ส่วนบุคคลนี้ แต่นี่หมายความว่าผู้รับแทบจะไม่มีข้อมูลเกี่ยวกับเช่นความแข็งแกร่งของการแข่งขัน เราต้องการที่จะสามารถส่งผ่านข้อมูลให้ได้มากที่สุดโดยไม่เปิดเผยตัวตน อะไรไม่ทำงาน ตัวอย่างเช่นมันจะดีมากที่จะสามารถเข้ารหัสสตริงในขณะที่รักษาระยะแก้ไข ด้วยวิธีนี้บุคคลที่สามสามารถทำ QA / QC ของตนเองหรือเลือกที่จะดำเนินการเพิ่มเติมด้วยตนเองโดยไม่ต้องเข้าถึง (หรือสามารถย้อนกลับวิศวกรที่มีความสามารถ PII) บางทีเราอาจจับคู่สตริงภายในกับระยะการแก้ไข <= 2 และผู้รับต้องการดูความหมายของการทำให้ความอดทนนั้นแน่นขึ้นเพื่อแก้ไขระยะทาง …

42 data-cleaning anonymization

7

จัดระเบียบกระบวนการเพื่อล้างข้อมูล

จากการเล่นน้ำกับวิทยาศาสตร์ข้อมูลโดยใช้ R ฉันได้ตระหนักว่าการล้างข้อมูลที่ไม่ดีเป็นส่วนสำคัญในการเตรียมข้อมูลสำหรับการวิเคราะห์ มีวิธีปฏิบัติหรือกระบวนการที่ดีที่สุดในการล้างข้อมูลก่อนประมวลผลหรือไม่? ถ้าเป็นเช่นนั้นมีเครื่องมืออัตโนมัติหรือกึ่งอัตโนมัติที่ใช้แนวทางปฏิบัติที่ดีที่สุดเหล่านี้หรือไม่?

34 r data-cleaning

1

ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?

ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

วิธีการทั่วไปในการแยกข้อความสำคัญออกจากประโยค (nlp)

รับประโยคเช่น: Complimentary gym access for two for the length of stay ($12 value per person per day) ฉันสามารถใช้วิธีการทั่วไปในการระบุคำว่ายิมหรือการเข้าถึงยิมอย่างไร

27 machine-learning nlp text-mining data-cleaning

4

วิธีการเพิ่มความคิดเห็นเอกสารข้อความด้วย meta-data

มีเอกสารข้อความจำนวนมาก (ในภาษาธรรมชาติไม่มีโครงสร้าง) อะไรคือวิธีที่เป็นไปได้ในการเพิ่มความน่าเชื่อถือด้วย meta-data แบบ semantic ตัวอย่างเช่นพิจารณาเอกสารสั้น ๆ : I saw the company's manager last day. เพื่อให้สามารถดึงข้อมูลจากข้อมูลนั้นจะต้องมีคำอธิบายประกอบพร้อมด้วยข้อมูลเพิ่มเติมเพื่อให้มีความคลุมเครือน้อยลง กระบวนการค้นหาข้อมูลเมตาดังกล่าวไม่ได้เป็นปัญหาดังนั้นให้ถือว่ามีการทำด้วยตนเอง คำถามคือวิธีการจัดเก็บข้อมูลเหล่านี้ในลักษณะที่การวิเคราะห์เพิ่มเติมสามารถทำได้สะดวก / มีประสิทธิภาพมากขึ้น? แนวทางที่เป็นไปได้คือการใช้แท็ก XML (ดูด้านล่าง) แต่ดูเหมือนว่าละเอียดเกินไปและอาจมีแนวทาง / แนวทางที่ดีกว่าสำหรับการจัดเก็บเมตาดาต้าในเอกสารข้อความ <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

18 nlp metadata data-cleaning text-mining

3

มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?

ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

18 r python dataset data-cleaning pandas

1

การเอาสตริงออกหลังจากอักขระบางตัวในข้อความที่กำหนด

ฉันมีชุดข้อมูลเหมือนหนึ่งชุดด้านล่าง ฉันต้องการลบตัวละครทั้งหมดหลังจากตัวละคร© ฉันจะทำสิ่งนั้นใน R ได้อย่างไร data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)

15 r data-cleaning

4

วิธีทำที่อยู่ไปรษณีย์จับคู่แบบคลุมเครือ

ฉันต้องการทราบวิธีจับคู่ที่อยู่ทางไปรษณีย์เมื่อรูปแบบของพวกเขาแตกต่างกันหรือเมื่อหนึ่งในนั้นถูกสะกดผิด จนถึงตอนนี้ฉันได้พบวิธีแก้ไขปัญหาต่าง ๆ แต่ฉันคิดว่ามันค่อนข้างเก่าและไม่มีประสิทธิภาพมาก ฉันแน่ใจว่ามีวิธีที่ดีกว่าอยู่แล้วดังนั้นหากคุณมีการอ้างอิงสำหรับฉันที่จะอ่านฉันแน่ใจว่ามันเป็นเรื่องที่น่าสนใจหลายคน วิธีแก้ปัญหาที่ฉันพบ (ตัวอย่างอยู่ใน R): ระยะทางของ Levenshtein ซึ่งเท่ากับจำนวนอักขระที่คุณต้องแทรกลบหรือเปลี่ยนเพื่อแปลงคำหนึ่งไปเป็นอีกคำหนึ่ง agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE) ## [1] "accusait" "abusait" การเปรียบเทียบหน่วยเสียง library(RecordLinkage) soundex(x<-c('accusait','acusait','abusait')) ## [1] "A223" "A223" "A123" การใช้ตัวแก้ไขการสะกดคำ(ในที่สุดก็เป็นตัวแบบเบย์เหมือนของ Peter Norvig)แต่ก็ไม่ได้มีประสิทธิภาพมากสำหรับการพูด ฉันคิดเกี่ยวกับการใช้คำแนะนำของ Google แนะนำ แต่ก็ไม่ได้มีประสิทธิภาพมากสำหรับที่อยู่ไปรษณีย์ส่วนบุคคล คุณสามารถจินตนาการโดยใช้วิธีการเรียนรู้แบบมีผู้สอนในเครื่อง แต่คุณจำเป็นต้องจัดเก็บคำขอที่ผู้ใช้สะกดผิดให้ทำเช่นนั้นซึ่งไม่ใช่ตัวเลือกสำหรับฉัน

14 text-mining data-cleaning

5

ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่

ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …

14 python r data-cleaning data sql

1

แปลงคอลัมน์ pandas ของ int เป็นประเภทข้อมูลประทับเวลา

ฉันมีชื่อไฟล์ที่เหนือสิ่งอื่นใดมีคอลัมน์ของจำนวนมิลลิวินาทีที่ผ่านไปตั้งแต่ปี 1970-1-1 ฉันต้องการแปลงคอลัมน์ของ ints นี้เป็นข้อมูลการประทับเวลาดังนั้นในที่สุดฉันก็สามารถแปลงมันเป็นคอลัมน์ของข้อมูลวันที่และเวลาโดยเพิ่มชุดคอลัมน์เวลาลงในชุดที่ประกอบด้วยค่าวันที่และเวลาทั้งหมดสำหรับ 1970-1-1 ฉันรู้วิธีแปลงชุดสตริงเป็นข้อมูล datetime (pandas.to_datetime) แต่ฉันไม่สามารถค้นหาหรือคิดวิธีแก้ปัญหาใด ๆ ในการแปลงทั้งคอลัมน์ของintsเป็น datetime data หรือข้อมูลประทับเวลา

13 python time-series data-cleaning pandas

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

มีข้อมูลเพียงพอสำหรับการฝึกอบรมรูปแบบการเรียนรู้ของเครื่อง?

ฉันทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรและชีวสารสนเทศมาระยะหนึ่งแล้วและวันนี้ฉันได้สนทนากับเพื่อนร่วมงานเกี่ยวกับประเด็นทั่วไปที่สำคัญของการทำเหมืองข้อมูล เพื่อนร่วมงานของฉัน (ซึ่งเป็นผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง) กล่าวว่าในความคิดของเขาในด้านการปฏิบัติเนื้อหาที่สำคัญที่สุดของการเรียนรู้เครื่องเป็นวิธีที่จะเข้าใจว่าคุณมีการเก็บรวบรวมข้อมูลเพียงพอในการฝึกอบรมการเรียนรู้แบบเครื่องของคุณ คำสั่งนี้ทำให้ฉันประหลาดใจเพราะฉันไม่เคยให้ความสำคัญกับเรื่องนี้มากนัก ... จากนั้นผมก็มองหาข้อมูลเพิ่มเติมเกี่ยวกับอินเทอร์เน็ตและผมพบว่าการโพสต์เกี่ยวกับเรื่องนี้FastML.comรายงานเป็นกฎของหัวแม่มือที่คุณต้องการประมาณ10 ครั้งเป็นกรณีข้อมูลมากที่สุดเท่าที่มีคุณสมบัติ สองคำถาม: 1 - ปัญหานี้เกี่ยวข้องกับการเรียนรู้ของเครื่องจริงหรือไม่? 2 - กฎ 10 ครั้งทำงานใช่ไหม มีแหล่งข้อมูลที่เกี่ยวข้องอื่น ๆ สำหรับชุดรูปแบบนี้หรือไม่?

11 machine-learning data-mining dataset data-cleaning data

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

การสร้างคอลัมน์ใหม่โดยวนซ้ำแถวใน dataframe แพนด้า

ฉันมีกรอบข้อมูลแพนด้า (X11) เช่นนี้: ในความเป็นจริงฉันมี 99 คอลัมน์จนถึง dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 ฉันต้องการสร้างคอลัมน์เพิ่มเติมสำหรับค่าของเซลล์เช่น 25041,40391,5856 เป็นต้นดังนั้นจะมีคอลัมน์ 25041 ที่มีค่าเป็น 1 หรือ 0 หาก …

10 python data-cleaning pandas anaconda

คำถามติดแท็ก data-cleaning