คำถามติดแท็ก machine-learning

วิธีการและหลักการในการสร้าง "ระบบคอมพิวเตอร์ที่ปรับปรุงโดยอัตโนมัติด้วยประสบการณ์"

3
วิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่มีแอตทริบิวต์หลายประเภท
ฉันอยากจะรู้ว่าอะไรคือวิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่ประกอบด้วยคุณลักษณะหลายประเภทเช่นข้อความและตัวเลข ฉันรู้ว่าฉันสามารถแปลงข้อความเป็นบูลีนได้ แต่คำศัพท์นั้นมีความหลากหลายและข้อมูลก็เบาบางเกินไป ฉันพยายามจำแนกประเภทของคุณลักษณะแยกจากกันและรวมผลลัพธ์เข้ากับเทคนิคการเรียนรู้เมตา แต่มันก็ใช้งานไม่ได้

2
มี API ใดบ้างสำหรับการรวบรวมข้อมูลบทคัดย่อของกระดาษ?
หากฉันมีรายชื่อกระดาษที่ยาวมากฉันจะได้นามธรรมของเอกสารเหล่านี้จากอินเทอร์เน็ตหรือฐานข้อมูลใด ๆ ชื่อกระดาษมีลักษณะเหมือน "การประเมินยูทิลิตี้ในการขุดบนเว็บสำหรับโดเมนด้านสาธารณสุข" มีใครรู้ API ใดบ้างที่สามารถให้ทางออกแก่ฉันได้? ฉันพยายามรวบรวมข้อมูล google scholar อย่างไรก็ตาม google บล็อกโปรแกรมรวบรวมข้อมูลของฉัน

2
มีการเปลี่ยนแปลงตัวชี้วัดที่ใช้โดยการโทรกลับก่อนหยุดใน Keras หรือไม่
เมื่อใช้การเรียกกลับก่อนหยุดในการฝึกซ้อมของ Keras จะหยุดเมื่อตัวชี้วัดบางตัว (โดยปกติสูญเสียการตรวจสอบ) ไม่เพิ่มขึ้น มีวิธีใช้ตัวชี้วัดอื่น (เช่นความแม่นยำการเรียกคืนการวัด f) แทนการสูญเสียการตรวจสอบหรือไม่ ตัวอย่างทั้งหมดที่ฉันเคยเห็นมีความคล้ายคลึงกับนี้: callbacks.EarlyStopping (monitor = 'val_loss', อดทน = 5, verbose = 0, mode = 'auto')

3
หมายความว่าอย่างไรเมื่อเราพูดว่าจุดส่วนใหญ่ใน hypercube นั้นอยู่ที่ขอบเขต
ถ้าฉันมี hypercube 50 มิติ และผมนิยามว่ามันเป็นขอบเขตด้วยหรือโดยที่เป็นมิติของไฮคิวบ์ จากนั้นการคำนวณสัดส่วนของคะแนนในเขตแดนของ hypercube ที่จะเป็น0.995มันหมายความว่าอะไร? หมายความว่าส่วนที่เหลือของพื้นที่ว่างเปล่าหรือไม่ ถ้า99 \%ของคะแนนอยู่ที่ขอบเขตแล้วคะแนนภายในลูกบาศก์จะต้องไม่กระจายอย่างสม่ำเสมอ?0.95 &lt; x j &lt; 1 x j 0.995 99 %0&lt;xj&lt;0.050&lt;xj&lt;0.050<x_j<0.050.95&lt;xj&lt;10.95&lt;xj&lt;10.95<x_j<1xjxjx_j0.9950.9950.99599%99%99\%

4
ในอัลกอริธึม SVM ทำไมเวกเตอร์ w ตั้งฉากกับการแยกไฮเปอร์เพลน?
ฉันเป็นผู้เริ่มต้นในการเรียนรู้ของเครื่อง ใน SVM ที่ไฮเปอร์เพลแยกถูกกำหนดให้เป็นB ทำไมเราพูดเวกเตอร์มุมฉากกับไฮเปอร์เพลแยก?y=wTx+bY=WTx+ขy = w^T x + bwWw

3
ภาษาธรรมชาติในการสืบค้น SQL
ฉันทำงานพัฒนาระบบ "การแปลงภาษาธรรมชาติเป็น SQL Query" ฉันได้อ่านคำตอบจากคำถามที่คล้ายกัน แต่ไม่สามารถรับข้อมูลที่ฉันต้องการได้ ด้านล่างคือแผนผังลำดับงานสำหรับระบบดังกล่าวซึ่งฉันได้รับจากAlgorithm เพื่อแปลงภาษาธรรมชาติให้เป็นแบบสอบถาม SQL สำหรับฐานข้อมูลเชิงสัมพันธ์โดย Garima Singh, Arun Solanki ฉันเข้าใจจนเป็นส่วนหนึ่งของขั้นตอนการติดแท็กคำพูด แต่ฉันจะเข้าใกล้ขั้นตอนที่เหลือได้อย่างไร ฉันจำเป็นต้องฝึกเคียวรี SQL ที่เป็นไปได้ทั้งหมดหรือไม่? หรือเมื่อส่วนหนึ่งของการติดแท็กคำพูดเสร็จสิ้นฉันต้องเล่นกับคำและสร้างแบบสอบถาม SQL? แก้ไข: ฉันได้ติดตั้งจาก "ขั้นตอน" ผู้ใช้แบบสอบถาม "ถึง" ส่วนหนึ่งของการติดแท็กคำพูด "สำเร็จแล้ว ขอบคุณ.

4
ทางเลือกการเข้ารหัสแบบร้อนสำหรับค่าหมวดใหญ่?
สวัสดีมี dataframe ที่มีค่าหมวดใหญ่มากกว่า 1600 หมวดมีวิธีใดที่ฉันสามารถหาทางเลือกเพื่อที่ฉันจะได้ไม่เกิน 1600 คอลัมน์ ฉันพบลิงค์ด้านล่างที่น่าสนใจhttp://amunategui.github.io/feature-hashing/#sourcecode แต่พวกเขากำลังแปลงเป็นคลาส / วัตถุที่ฉันไม่ต้องการ ฉันต้องการผลลัพธ์สุดท้ายของฉันเป็น dataframe เพื่อให้ฉันสามารถทดสอบกับโมเดลการเรียนรู้ของเครื่องอื่นได้หรือไม่ หรือมีวิธีใดที่ฉันสามารถใช้เมทริกซ์ genetrated ในการฝึกอบรมโมเดลการเรียนรู้ของเครื่องอื่นนอกเหนือจาก Logistic ถดถอยหรือ XGBoost จะมีต่อไปฉันจะใช้?

1
การเรียนรู้หลายงานใน Keras
ฉันกำลังพยายามใช้เลเยอร์ที่แชร์ใน Keras ฉันเห็นว่า Keras มีkeras.layers.concatenateแต่ฉันไม่แน่ใจจากเอกสารเกี่ยวกับการใช้งาน ฉันสามารถใช้มันเพื่อสร้างเลเยอร์ที่ใช้ร่วมกันหลายชั้นได้หรือไม่ อะไรจะเป็นวิธีที่ดีที่สุดในการติดตั้งเครือข่ายประสาทส่วนกลางอย่างง่ายดังที่แสดงด้านล่างโดยใช้ Keras โปรดทราบว่ารูปร่างทั้งหมดของอินพุทเอาท์พุทและเลเยอร์ที่แชร์สำหรับ 3 NN ทั้งหมดนั้นเหมือนกัน มีเลเยอร์ที่แชร์หลายอัน (และเลเยอร์ที่ไม่แชร์) ใน NN สามตัว เลเยอร์สีมีความเป็นเอกลักษณ์ของ NN แต่ละตัวและมีรูปร่างเหมือนกัน โดยทั่วไปรูปภาพแสดงถึง NNs ที่เหมือนกัน 3 รายการพร้อมกับเลเยอร์ที่ซ่อนอยู่หลายชั้นตามด้วยเลเยอร์ที่ซ่อนอยู่ที่ไม่แชร์หลายชั้น ฉันไม่แน่ใจว่าจะแชร์หลายเลเยอร์ได้อย่างไรในตัวอย่าง Twitter มีเลเยอร์ที่แชร์เพียงหนึ่งเลเยอร์ (ตัวอย่างใน API เอกสาร)

5
สุดยอดห้องสมุด Julia สำหรับโครงข่ายประสาทเทียม
ฉันใช้ห้องสมุดนี้เพื่อการสร้างและวิเคราะห์โครงข่ายประสาทขั้นพื้นฐาน อย่างไรก็ตามมันไม่ได้รับการสนับสนุนสำหรับการสร้างโครงข่ายประสาทหลายชั้น ฯลฯ ดังนั้นฉันอยากจะรู้ว่ามีห้องสมุดที่ดีสำหรับการทำโครงข่ายประสาทขั้นสูงและการเรียนรู้ลึกในจูเลีย

1
Hashing Trick - เกิดอะไรขึ้นจริง
เมื่ออัลกอริธึม ML เช่น Vowpal Wabbit หรือเครื่องแยกตัวประกอบที่ชนะการคลิกผ่านอัตราการแข่งขัน ( Kaggle ) กล่าวถึงคุณลักษณะว่า 'แฮช' แล้วอะไรคือความหมายของแบบจำลองจริง ๆ ให้บอกว่ามีตัวแปรที่แสดง ID ของการเพิ่มอินเทอร์เน็ตซึ่งใช้กับค่าเช่น '236BG231' จากนั้นฉันเข้าใจว่าคุณลักษณะนี้ถูกแฮชเป็นจำนวนเต็มแบบสุ่ม แต่คำถามของฉันคือ: เป็นจำนวนเต็มตอนนี้ใช้ในรูปแบบเป็นจำนวนเต็ม (ตัวเลข) หรือ ค่าแฮชจริงยังคงปฏิบัติเหมือนตัวแปรเด็ดขาดและการเข้ารหัสแบบร้อนแรงหรือไม่ ดังนั้นเคล็ดลับการแปลงแป้นพิมพ์เป็นเพียงการประหยัดพื้นที่อย่างใดกับข้อมูลขนาดใหญ่?

3
การจำแนกข้อความที่ไม่มีโครงสร้าง
ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)

2
ข้อมูลความเชื่อมั่นสำหรับ Emoji
สำหรับการทดลองเราต้องการใช้Emoji ที่ฝังอยู่ในทวีตจำนวนมากเพื่อเป็นข้อมูลจริง / การฝึกอบรมสำหรับการวิเคราะห์เชิงปริมาณอย่างง่าย ทวีตมักจะไม่มีโครงสร้างเกินกว่าที่ NLP จะทำงานได้ดี อย่างไรก็ตามมี 722 Emoji ใน Unicode 6.0 และอาจเพิ่ม 250 อีกอันใน Unicode 7.0 มีฐานข้อมูล (เช่น SentiWordNet) ที่มีหมายเหตุประกอบไว้สำหรับพวกเขาหรือไม่? (โปรดทราบว่า SentiWordNet อนุญาตสำหรับความหมายที่ไม่ชัดเจนเช่นกันพิจารณาเช่นตลกซึ่งไม่เพียง แต่เป็นบวก: "รสชาตินี้ตลก" อาจไม่เป็นบวก ... เช่นเดียวกันจะถือ;-)เป็นตัวอย่าง แต่ฉันไม่คิดว่ามันยากกว่า สำหรับ Emoji มากกว่าสำหรับคำปกติ ... ) นอกจากนี้หากคุณมีประสบการณ์ในการใช้พวกเขาสำหรับการวิเคราะห์ความเชื่อมั่นฉันก็อยากจะได้ยิน

3
การทำนายเงื่อนไขทางการแพทย์ต่อไปจากเงื่อนไขที่ผ่านมาในข้อมูลการเรียกร้อง
ฉันกำลังทำงานกับข้อมูลการเคลมประกันสุขภาพจำนวนมากซึ่งรวมถึงการอ้างสิทธิ์ในห้องปฏิบัติการและร้านขายยา อย่างไรก็ตามข้อมูลที่สอดคล้องกันมากที่สุดในชุดข้อมูลประกอบด้วยการวินิจฉัย (ICD-9CM) และรหัสขั้นตอน (CPT, HCSPCS, ICD-9CM) เป้าหมายของฉันคือ: ระบุเงื่อนไขสารตั้งต้นที่มีอิทธิพลมากที่สุด (comorbidities) สำหรับเงื่อนไขทางการแพทย์เช่นโรคไตเรื้อรัง ระบุโอกาส (หรือความน่าจะเป็น) ที่ผู้ป่วยจะพัฒนาเงื่อนไขทางการแพทย์ตามเงื่อนไขที่เคยมีในอดีต ทำเช่นเดียวกับ 1 และ 2 แต่มีขั้นตอนและ / หรือการวินิจฉัย โดยเฉพาะอย่างยิ่งผลลัพธ์จะถูกตีความโดยแพทย์ ฉันได้ดูสิ่งต่าง ๆ เช่นเอกสารไมล์สโตนเฮอริเทจและได้เรียนรู้อะไรมากมายจากพวกเขา แต่พวกเขามุ่งเน้นไปที่การทำนายการรักษาในโรงพยาบาล ดังนั้นนี่คือคำถามของฉัน: วิธีใดที่คุณคิดว่าทำงานได้ดีสำหรับปัญหาเช่นนี้ และทรัพยากรใดจะมีประโยชน์มากที่สุดสำหรับการเรียนรู้เกี่ยวกับการประยุกต์ใช้วิทยาศาสตร์ข้อมูลและวิธีการที่เกี่ยวข้องกับการดูแลสุขภาพและการแพทย์คลินิก แก้ไข # 2 เพื่อเพิ่มตารางธรรมดา: CKD เป็นเงื่อนไขเป้าหมาย "โรคไตเรื้อรัง", ".any" แสดงว่าพวกเขาได้รับเงื่อนไขดังกล่าวได้ตลอดเวลา ". isbefore.ckd" หมายความว่าพวกเขามีอาการนั้นก่อนการวินิจฉัยโรค CKD ครั้งแรก ตัวย่ออื่น ๆ สอดคล้องกับเงื่อนไขอื่น ๆ ที่ระบุโดยการจัดกลุ่มรหัส ICD-9CM การจัดกลุ่มนี้เกิดขึ้นใน …

9
แอปพลิเคชันการเรียนรู้ด้วยเครื่องมีอะไรบ้าง [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา โดยทั่วไปการเรียนรู้ด้วยเครื่องจักรโดยทั่วไปฉันต้องการเริ่มเล่นและดูว่ามีความเป็นไปได้อย่างไร ฉันอยากรู้ว่าแอปพลิเคชันใดที่คุณอาจแนะนำว่าจะให้เวลาเร็วที่สุดจากการติดตั้งไปจนถึงการสร้างผลลัพธ์ที่มีความหมาย นอกจากนี้คำแนะนำใด ๆ สำหรับวัสดุเริ่มต้นที่ดีในเรื่องของการเรียนรู้ด้วยเครื่องโดยทั่วไปจะได้รับการชื่นชม

2
เครือข่ายประสาทเทียมสามารถคำนวณ
ด้วยจิตวิญญาณของเรื่องตลกTensorflow Fizz Buzz ที่มีชื่อเสียงและปัญหา XOrฉันเริ่มคิดว่าถ้าเป็นไปได้ในการออกแบบเครือข่ายประสาทที่ใช้ฟังก์ชัน ?Y= x2y=x2y = x^2 เมื่อพิจารณาถึงการแสดงตัวเลข (เช่นเวกเตอร์ในรูปแบบไบนารี่เพื่อให้ตัวเลข5นั้นแทน[1,0,1,0,0,0,0,...]) เครือข่ายประสาทควรเรียนรู้ที่จะคืนค่าสแควร์ - 25 ในกรณีนี้ หากฉันสามารถใช้ได้ฉันอาจใช้และโดยทั่วไปชื่อพหุนามของ x แล้วกับชุดอนุกรมฉันสามารถประมาณซึ่งจะแก้ปัญหา Fizz Buzz - เครือข่ายประสาทที่สามารถหาส่วนที่เหลือของY= x2y=x2y=x^2Y= x3y=x3y=x^3Y= บาป( x )y=sin⁡(x)y=\sin(x) เห็นได้ชัดว่าส่วนเชิงเส้นตรงของ NN จะไม่สามารถทำงานนี้ได้ดังนั้นหากเราสามารถคูณมันจะเกิดขึ้นด้วยฟังก์ชั่นการเปิดใช้งาน คุณสามารถแนะนำไอเดียหรืออ่านเรื่องใดได้บ้าง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.