คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

2
Keras Callback เป็นตัวอย่างสำหรับบันทึกโมเดลหลังจากทุกยุคหรือไม่
ใครช่วยกรุณาโพสต์ตัวอย่างที่ตรงไปตรงมาของ Keras โดยใช้การโทรกลับเพื่อบันทึกแบบจำลองหลังจากทุกยุค ฉันสามารถหาตัวอย่างของการบันทึกน้ำหนัก แต่ฉันต้องการที่จะสามารถบันทึกรูปแบบการทำงานอย่างสมบูรณ์หลังจากยุคการฝึกอบรมทุกครั้ง
17 python  keras 

8
จะนับจำนวนของค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร
ฉันจะรับจำนวนค่าที่หายไปในแต่ละแถวใน Pandas dataframe ได้อย่างไร ฉันต้องการแบ่งดาต้าไฟล์ให้เป็นดาต้าไฟล์อื่นที่มีจำนวนค่าหายไปเท่ากันในแต่ละแถว ข้อเสนอแนะใด ๆ
17 python  pandas 

2
เราควรจัดการกับข้อมูลที่หายไปที่ไหนในเวิร์กโฟลว์
ฉันกำลังสร้างเวิร์กโฟลว์สำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่อง (ในกรณีของฉันโดยใช้ Python pandasและsklearnแพ็คเกจ) จากข้อมูลที่ดึงมาจากฐานข้อมูลขนาดใหญ่มาก (ที่นี่ Vertica ด้วยวิธี SQL และpyodbc) และขั้นตอนสำคัญในกระบวนการนั้น ค่าของผู้ทำนาย สิ่งนี้ตรงไปตรงมาในแพลตฟอร์มการวิเคราะห์หรือสถิติเดียวไม่ว่าจะเป็น Python, R, Stata และอื่น ๆ --- แต่ฉันอยากรู้ว่าจะหาขั้นตอนนี้ได้ดีที่สุดในเวิร์กโฟลว์แบบหลายแพลตฟอร์มได้อย่างไร มันง่ายพอที่จะทำสิ่งนี้ใน Python ไม่ว่าจะเป็นsklearn.preprocessing.Imputerคลาสใช้pandas.DataFrame.fillnaวิธีการหรือด้วยมือ (ขึ้นอยู่กับความซับซ้อนของวิธีการใส่ความคิดที่ใช้) แต่เนื่องจากฉันจะใช้คอลัมน์นี้หลายสิบหรือหลายร้อยคอลัมน์ในหลายร้อยล้านระเบียนฉันสงสัยว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการทำสิ่งนี้โดยตรงผ่าน SQL ล่วงหน้าหรือไม่ นอกเหนือจากประสิทธิภาพที่เป็นไปได้ของการทำเช่นนี้ในแพลตฟอร์มแบบกระจายเช่น Vertica สิ่งนี้จะมีประโยชน์เพิ่มเติมที่ช่วยให้เราสามารถสร้างไปป์ไลน์อัตโนมัติสำหรับการสร้างตารางเวอร์ชัน "สมบูรณ์" ดังนั้นเราจึงไม่จำเป็นต้องกรอกชุดใหม่ ของค่าที่หายไปตั้งแต่เริ่มต้นทุกครั้งที่เราต้องการเรียกใช้แบบจำลอง ฉันไม่สามารถหาคำแนะนำมากมายเกี่ยวกับสิ่งนี้ แต่ฉันคิดว่าเราจะทำได้: สร้างตารางค่าทดแทน (เช่นค่าเฉลี่ย / มัธยฐาน / โหมดโดยรวมหรือตามกลุ่ม) สำหรับแต่ละคอลัมน์ที่ไม่สมบูรณ์ เข้าร่วมตารางค่าทดแทนกับตารางเดิมเพื่อกำหนดค่าทดแทนสำหรับแต่ละแถวและคอลัมน์ที่ไม่สมบูรณ์ ใช้ชุดคำสั่ง case เพื่อรับค่าดั้งเดิมหากมีและค่าทดแทนเป็นอย่างอื่น สิ่งนี้เป็นสิ่งที่สมเหตุสมผลที่ต้องทำใน Vertica / SQL …


3
การจำแนกประเภทจำแนกชั้นหนึ่งที่มีภูมิหลังติดลบแบบไม่สมดุล
ฉันกำลังพัฒนาตัวแยกประเภทที่มีการกำกับดูแลที่มีอยู่สำหรับการจัดลำดับ {โปรตีน} ว่าเป็นของคลาสเฉพาะ (สารตั้งต้นของฮอร์โมน Neuropeptide) หรือไม่ มี "ผลบวก" ที่รู้จักกันประมาณ 1,150 ตัวโดยมีพื้นหลังของลำดับโปรตีนประมาณ 13 ล้านลำดับ ("พื้นหลังที่ไม่รู้จัก / มีคำอธิบายประกอบไม่ดี") หรือมีการตรวจสอบประมาณ 100,000 รายการที่เกี่ยวข้องกับโปรตีน วิธี "ลบ") การนำไปใช้ก่อนหน้าของฉันดูที่นี่เป็นปัญหาการจำแนกเลขฐานสอง: Positive set = โปรตีนที่ทำเครื่องหมายเป็น Neuropeptides ชุดเชิงลบ: การสุ่มตัวอย่างตัวอย่าง 1,300 ตัวอย่าง (ทั้งหมด) จากบรรดาโปรตีนที่เหลืออยู่ซึ่งมีการกระจายความยาวที่คล้ายกัน ใช้งานได้ แต่ฉันต้องการปรับปรุงความสามารถในการแยกแยะอย่างมากของเครื่องจักร (ปัจจุบันมีความแม่นยำ 83-86% ในแง่ของความถูกต้อง AUC, F1 ซึ่งวัดโดย CV บนชุดลบสุ่มตัวอย่างหลายชุด) ความคิดของฉันคือ: 1) ทำให้นี่เป็นปัญหาแบบหลายคลาสโดยเลือกโปรตีน 2-3 คลาสที่จะเป็นเนกาทีฟโดยคุณสมบัติ / ชั้นเรียนการทำงานของพวกเขาพร้อมด้วย …

6
อะไรคือเหตุผลที่ทำให้การเปลี่ยนแปลงบันทึกของตัวแปรต่อเนื่องน้อย
ฉันได้รับปัญหาการจัดหมวดหมู่และฉันได้อ่านรหัสและแบบฝึกหัดของคนจำนวนมาก สิ่งหนึ่งที่ผมสังเกตเห็นก็คือว่าหลายคนใช้np.logหรือlogของตัวแปรอย่างต่อเนื่องเหมือนloan_amountหรือapplicant_incomeฯลฯ ฉันแค่ต้องการเข้าใจเหตุผลที่อยู่เบื้องหลัง มันช่วยปรับปรุงความแม่นยำในการทำนายแบบจำลองของเราหรือไม่ จำเป็นหรือไม่ หรือมีเหตุผลใด ๆ ที่อยู่เบื้องหลังมัน? โปรดระบุคำอธิบายหากเป็นไปได้ ขอขอบคุณ.

3
วิธีรับการทำนายด้วย predict_generator จากข้อมูลการทดสอบการสตรีมใน Keras
ในบล็อก Keras เกี่ยวกับการฝึกอบรมทำให้มั่นใจตั้งแต่เริ่มต้นรหัสจะแสดงเฉพาะเครือข่ายที่ทำงานกับข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้อง แล้วข้อมูลทดสอบล่ะ ข้อมูลการตรวจสอบเป็นเช่นเดียวกับข้อมูลทดสอบ (ฉันคิดว่าไม่) หากมีโฟลเดอร์ทดสอบแยกต่างหากในบรรทัดที่คล้ายกันเป็นโฟลเดอร์รถไฟและการตรวจสอบความถูกต้องเราจะได้รับเมทริกซ์ความสับสนสำหรับข้อมูลการทดสอบอย่างไร ฉันรู้ว่าเราต้องใช้ scikit learn หรือชุดอื่น ๆ เพื่อทำสิ่งนี้ แต่ฉันจะทำบางสิ่งให้สอดคล้องกับความน่าจะเป็นที่ชาญฉลาดของชั้นเรียนสำหรับข้อมูลการทดสอบ ฉันหวังว่าจะใช้สิ่งนี้กับเมทริกซ์ความสับสน

5
ไลบรารี Python เพื่อใช้โมเดล Markov ที่ซ่อนอยู่
ห้องสมุดไพ ธ อนที่มีเสถียรภาพอะไรบ้างที่ฉันสามารถใช้เพื่อสร้างโมเดลมาร์คอฟที่ซ่อนอยู่ได้ ฉันต้องการเอกสารที่ดีพอสมควรเพราะฉันไม่เคยใช้รุ่นนี้มาก่อน อีกวิธีหนึ่งมีวิธีที่ตรงกว่าในการทำการวิเคราะห์อนุกรมเวลาบนชุดข้อมูลโดยใช้ HMM หรือไม่

5
การทำนายความคล้ายคลึงกันของประโยค
ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

2
ทำไมตัวแปรของข้อมูลรถไฟและการทดสอบถูกกำหนดโดยใช้อักษรตัวใหญ่ (เป็น Python)
ฉันหวังว่าคำถามนี้เหมาะสมที่สุดในเว็บไซต์นี้ ... ใน Python โดยปกติชื่อคลาสจะถูกกำหนดโดยใช้อักษรตัวใหญ่เป็นอักขระตัวแรก class Vehicle: ... อย่างไรก็ตามในด้านการเรียนรู้เครื่องบ่อยครั้งการฝึกอบรมและการทดสอบข้อมูลที่จะถูกกำหนดเป็นXและY- ไม่ได้และx yตัวอย่างเช่นตอนนี้ฉันกำลังอ่านบทช่วยสอนนี้บน Kerasแต่มันใช้XและYเป็นตัวแปร: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target ทำไมสิ่งเหล่านี้ถูกนิยามเป็นตัวพิมพ์ใหญ่? มีการประชุมใด (อย่างน้อยใน Python) ในสาขาการเรียนรู้ของเครื่องว่าควรใช้ตัวพิมพ์ใหญ่เพื่อกำหนดตัวแปรเหล่านี้หรือไม่? หรือบางทีคนก็แยกแยะความแตกต่างระหว่างตัวแปรตัวพิมพ์เล็กและตัวพิมพ์เล็กในการเรียนรู้ของเครื่อง? ในความเป็นจริงการสอนเดียวกันภายหลังแยกตัวแปรเหล่านี้ดังนี้: from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
15 python  dataset 

2
SelectKBest ทำงานอย่างไร
ฉันกำลังดูบทช่วยสอนนี้: https://www.dataquest.io/mission/75/improving-your-submission ที่ส่วนที่ 8 ค้นหาคุณสมบัติที่ดีที่สุดจะแสดงรหัสต่อไปนี้ import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values for each feature, and transform from p-values into scores …

1
จำเป็นต้องมีการสุ่มตัวอย่างแบบแบ่งชั้น (ฟอเรสต์แบบสุ่ม, Python) หรือไม่
ฉันใช้ Python เพื่อรันโมเดลฟอเรสต์แบบสุ่มบนชุดข้อมูลที่ไม่สมดุลของฉัน (ตัวแปรเป้าหมายคือคลาสไบนารี) เมื่อแยกชุดข้อมูลการฝึกอบรมและการทดสอบฉันพยายามอย่างหนักว่าจะใช้การสุ่มตัวอย่างแบบแบ่งชั้น (เช่นรหัสที่แสดง) หรือไม่ จนถึงตอนนี้ฉันสังเกตเห็นในโครงการของฉันว่าคดีแบ่งชั้นจะนำไปสู่ประสิทธิภาพของโมเดลที่สูงขึ้น แต่ฉันคิดว่าถ้าฉันจะใช้แบบจำลองของฉันเพื่อทำนายกรณีใหม่ซึ่งอาจแตกต่างกันอย่างมากในการกระจายของคลาสเป้าหมายด้วยชุดข้อมูลปัจจุบันของฉัน ดังนั้นฉันจึงอยากคลายข้อ จำกัด นี้และใช้การแบ่งแบบไม่มีการกำหนด ใครสามารถให้คำแนะนำเพื่อชี้แจงประเด็นนี้? train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

2
แบบจำลองการจำแนกประเภทไบนารีสำหรับข้อมูลที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีข้อกำหนดต่อไปนี้: ชุดข้อมูลการฝึกอบรมที่มีตัวอย่าง 193,176 ตัวอย่างมีผลบวก 2,821 รายการ ชุดข้อมูลทดสอบ 82,887 ตัวอย่างที่มีผลบวก 673 รายการ มี 10 คุณสมบัติ ฉันต้องการทำการจำแนกเลขฐานสอง (0 หรือ 1) ปัญหาที่ฉันเผชิญคือข้อมูลไม่สมดุลมาก หลังจากการทำให้เป็นมาตรฐานและปรับขนาดข้อมูลพร้อมกับคุณสมบัติทางวิศวกรรมบางอย่างและการใช้อัลกอริธึมที่แตกต่างกันสองสามอย่างนี่เป็นผลลัพธ์ที่ดีที่สุดที่ฉันสามารถทำได้: mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] นั่นคือเพียง 6 การค้นพบในเชิงบวกที่ถูกต้อง นี่คือการใช้การถดถอยโลจิสติก นี่คือสิ่งต่าง ๆ ที่ฉันลองด้วย: อัลกอริทึมที่แตกต่างกันเช่น RandomForest, DecisionTree, SVM การเปลี่ยนค่าพารามิเตอร์เพื่อเรียกใช้ฟังก์ชัน คุณสมบัติทางวิศวกรรมตามสัญชาตญาณเพื่อรวมเอาคุณสมบัติที่รวมเข้าด้วยกัน ตอนนี้คำถามของฉันคือ: ฉันจะทำอย่างไรเพื่อปรับปรุงจำนวนครั้งการค้นหาที่เป็นค่าบวก เราจะตัดสินได้อย่างไรว่ามีกรณีเกินจริงในกรณีเช่นนี้? (ฉันได้ลองพล็อตและอื่น …

1
Heatmap บนแผนที่ใน Python
การวิเคราะห์โหมดมีคุณลักษณะ heatmap ที่ดี ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ) แต่มันไม่เอื้อต่อการเปรียบเทียบแผนที่ (เพียงหนึ่งต่อรายงาน) สิ่งที่พวกเขาอนุญาตคือการดึงข้อมูลเข้าสู่โน้ตบุ๊คไพ ธ อนที่ห่อหุ้มได้ง่าย จากนั้นภาพใด ๆ ในหลามสามารถเพิ่มลงในรายงานได้อย่างง่ายดาย ดังนั้นคำถามของฉันคือฉันจะสร้าง heatmap บนแผนที่จริงใน Python ได้อย่างไร ฉันได้ตรวจสอบ follium และชัดเจน แต่ดูเหมือนจะไม่มีฟังก์ชั่นที่คล้ายกัน

5
ไลบรารี R และ / หรือ Python สมัยใหม่ทำให้ SQL ล้าสมัยหรือไม่
ฉันทำงานในสำนักงานที่ SQL Server เป็นกระดูกสันหลังของทุกสิ่งที่เราทำตั้งแต่การประมวลผลข้อมูลไปจนถึงการทำความสะอาด เพื่อนร่วมงานของฉันมีความเชี่ยวชาญในการเขียนฟังก์ชั่นที่ซับซ้อนและขั้นตอนการจัดเก็บเพื่อประมวลผลข้อมูลที่เข้ามาอย่างเป็นระบบเพื่อให้สามารถเป็นมาตรฐานและนำไปใช้งานในรายงานการแสดงภาพและโครงการวิเคราะห์ ก่อนที่จะเริ่มต้นที่นี่ฉันมีประสบการณ์น้อยมากเกี่ยวกับ SQL นอกเหนือจากการเขียนข้อความค้นหาพื้นฐานที่สุด งานเตรียมการวิเคราะห์ส่วนใหญ่ของฉันเสร็จสิ้นแล้วในอาร์. เจ้านายของฉันยืนยันว่าฉันพัฒนาทักษะ SQL ของฉันแม้ว่าดูเหมือนจะมีงานมอบหมายน้อยมากที่ไม่สามารถทำได้อย่างมีประสิทธิภาพมากขึ้น แพคเกจเช่น dplyr, data.table และ tidyr (เพื่อชื่อไม่กี่) คำถามของฉันคือ - นี่สมเหตุสมผลไหม สองสามสัปดาห์ที่ผ่านมาฉันพบว่าตัวเองต้องเผชิญกับงานของการรับรายชื่อคอลัมน์สำหรับแต่ละแถวในตารางที่ตรงกับเกณฑ์บางอย่างและเชื่อมต่อพวกเขาเป็นเวกเตอร์ของสตริง มีกำหนดเวลาที่แน่นและในเวลานั้นฉันประสบปัญหาการอุดตันและไม่สามารถปิดหัวปัญหาได้ ฉันถามหัวหน้าของฉันใครจะขอให้เพื่อนร่วมงานของฉันเขียนสคริปต์ TSQL เพื่อแก้ปัญหา ในขณะที่เขากำลังทำงานอยู่ฉันก็หาวิธีที่จะทำมันในการเขียนฟังก์ชั่นที่ค่อนข้างง่ายและใช้มันในกรอบข้อมูล เพื่อนร่วมงานของฉันกลับมาพร้อมกับสคริปต์ของเขาประมาณสองชั่วโมงต่อมา อย่างน้อย 75 บรรทัดประกอบด้วยสองซ้อนกันสำหรับลูป ฉันขอให้เขาบอกเมื่อมันทำงานเสร็จและเขาบอกว่ามันจะใช้เวลาหลายชั่วโมง ในขณะเดียวกันสคริปต์ R ของฉันก็สามารถวนรอบระเบียนประมาณ 45,000 รายการได้ในเวลาประมาณ 30 วินาที ฉันคิดถูกหรือไม่ว่า R เป็นตัวเลือกที่ดีกว่ามากสำหรับการทำความสะอาดและการบันทึกข้อมูล? บางทีผู้พัฒนา SQL ในสำนักงานของฉันไม่ทำงาน ฉันอยากรู้ว่าใครที่ทำงานกับทั้ง R และ SQL (หรือ …
14 python  r  data-cleaning  data  sql 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.