วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

2
ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล?
ฉันต้องรู้ว่าทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล ฉันรู้วิธีจัดการกับมันและวิธีการที่แตกต่างกันในการแก้ปัญหาซึ่งคือการสุ่มตัวอย่างขึ้นหรือการสุ่มตัวอย่างหรือโดยใช้ Smote ตัวอย่างเช่นถ้าฉันมีโรคหายาก 1 เปอร์เซ็นต์จาก 100 และให้บอกว่าฉันตัดสินใจที่จะมีชุดข้อมูลที่สมดุลสำหรับชุดฝึกอบรมของฉันซึ่งก็คือ: ตัวอย่าง 50/50 จะไม่ทำให้เครื่องคิดว่า 50% ของผู้ป่วยจะมี โรค? แม้ว่าอัตราส่วนคือ 1 จาก 100 ดังนั้น ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล? อัตราส่วนที่แนะนำให้มีการตั้งค่าสมดุลคืออะไร

4
การตรวจจับความผิดปกติด้วยโครงข่ายประสาทเทียม
ฉันมีชุดข้อมูลหลายมิติขนาดใหญ่ที่สร้างขึ้นในแต่ละวัน อะไรจะเป็นวิธีที่ดีในการตรวจจับความผิดปกติใด ๆ เมื่อเปรียบเทียบกับวันก่อน? นี่เป็นปัญหาที่เหมาะสมที่สามารถจัดการกับโครงข่ายประสาทเทียมได้หรือไม่? ข้อเสนอแนะใด ๆ ที่ชื่นชม ข้อมูลเพิ่มเติม: ไม่มีตัวอย่างดังนั้นวิธีการควรตรวจสอบความผิดปกติของตัวเอง

4
ทางเลือกแทน TF-IDF และ Cosine Similarity เมื่อเปรียบเทียบเอกสารที่มีรูปแบบต่างกัน
ฉันทำงานเกี่ยวกับโครงการส่วนตัวขนาดเล็กซึ่งใช้ทักษะการทำงานของผู้ใช้และแนะนำอาชีพที่เหมาะสมที่สุดสำหรับพวกเขาตามทักษะเหล่านั้น ฉันใช้ฐานข้อมูลของรายการงานเพื่อให้ได้สิ่งนี้ ในขณะนี้รหัสทำงานดังนี้: 1) ประมวลผลข้อความของแต่ละรายการงานเพื่อแยกทักษะที่ระบุไว้ในรายการ 2) สำหรับแต่ละอาชีพ (เช่น "นักวิเคราะห์ข้อมูล") ให้รวมข้อความที่ประมวลผลของรายการงานสำหรับอาชีพนั้นไว้ในเอกสารเดียว 3) คำนวณ TF-IDF ของแต่ละทักษะภายในเอกสารประกอบอาชีพ หลังจากนี้ฉันไม่แน่ใจว่าวิธีการใดที่ฉันควรใช้เพื่อจัดอันดับอาชีพตามรายการทักษะของผู้ใช้ วิธีที่ได้รับความนิยมมากที่สุดที่ฉันเคยเห็นก็คือการใช้ทักษะของผู้ใช้เป็นเอกสารเช่นกันจากนั้นคำนวณ TF-IDF สำหรับเอกสารทักษะและใช้สิ่งที่คล้ายโคไซน์เพื่อคำนวณความคล้ายคลึงกันระหว่างเอกสารทักษะและแต่ละ เอกสารประกอบอาชีพ ดูเหมือนจะไม่เป็นทางออกที่ดีสำหรับฉันเนื่องจากความคล้ายคลึงกันทางโคไซน์นั้นถูกใช้งานได้ดีที่สุดเมื่อเปรียบเทียบเอกสารสองฉบับในรูปแบบเดียวกัน สำหรับเรื่องนั้น TF-IDF ดูเหมือนจะไม่ตรงกับตัวชี้วัดที่เหมาะสมที่จะนำไปใช้กับรายการทักษะของผู้ใช้เลย ตัวอย่างเช่นหากผู้ใช้เพิ่มทักษะเพิ่มเติมลงในรายการ TF ของแต่ละทักษะจะลดลง ในความเป็นจริงฉันไม่สนใจสิ่งที่ความถี่ของทักษะอยู่ในรายการทักษะของผู้ใช้ - ฉันแค่ใส่ใจว่าพวกเขามีทักษะเหล่านั้น (และบางทีพวกเขารู้ทักษะเหล่านั้นดีแค่ไหน) ดูเหมือนว่าตัวชี้วัดที่ดีกว่าจะทำสิ่งต่อไปนี้: 1) สำหรับแต่ละทักษะที่ผู้ใช้มีให้คำนวณ TF-IDF ของทักษะนั้นในเอกสารประกอบอาชีพ 2) สำหรับแต่ละอาชีพสรุปผล TF-IDF สำหรับทักษะทั้งหมดของผู้ใช้ 3) อันดับอาชีพตามผลรวมข้างต้น ฉันกำลังคิดตามบรรทัดที่นี่หรือไม่ ถ้าเป็นเช่นนั้นมีอัลกอริทึมใดบ้างที่ใช้งานได้ตามบรรทัดเหล่านี้ แต่มีความซับซ้อนมากกว่าผลรวมแบบง่ายหรือไม่? ขอบคุณสำหรับความช่วยเหลือ!

2
การบรรจุมากเกินไปสามารถเกิดขึ้นได้แม้จะมีการสูญเสียการตรวจสอบยังคงลดลง?
ฉันมีโมเดล + LSTM แบบ convolutional ใน Keras คล้ายกับที่นี่ (อ้างอิง 1) ที่ฉันใช้สำหรับการแข่งขัน Kaggle สถาปัตยกรรมที่แสดงด้านล่าง ฉันได้ฝึกมันในชุดตัวอย่างที่มีป้ายกำกับของฉัน 11000 ตัวอย่าง (สองคลาสความชุกเริ่มต้นคือ ~ 9: 1 ดังนั้นฉันจึงเพิ่ม 1 ต่อ 1 เป็นอัตราส่วน 1/1) สำหรับ 50 epochs ที่มีการตรวจสอบความถูกต้อง 20% ชั่วครู่หนึ่ง แต่ฉันคิดว่ามันสามารถควบคุมเสียงและเลเยอร์กลางคันได้ แบบจำลองดูเหมือนว่าจะเป็นการฝึกอบรมที่ยอดเยี่ยมในตอนท้ายได้คะแนน 91% จากชุดฝึกอบรมทั้งหมด แต่เมื่อทดสอบชุดข้อมูลการทดสอบแล้วขยะสมบูรณ์ ข้อสังเกต: ความแม่นยำในการตรวจสอบความถูกต้องสูงกว่าความแม่นยำในการฝึกอบรม นี่คือสิ่งที่ตรงกันข้ามกับการ overfitting "ทั่วไป" ปรีชาญาณของฉันคือเมื่อแยกการตรวจสอบความถูกต้องของไอซ์เล็กโมเดลยังคงจัดการเพื่อให้พอดีกับชุดอินพุตและการสูญเสียลักษณะทั่วไปมากเกินไป เบาะแสอื่น ๆ คือ val_acc นั้นดีกว่ามาตรฐานดูเหมือนว่าคาว นั่นเป็นสถานการณ์ที่เป็นไปได้มากที่สุดที่นี่ใช่ไหม หากสิ่งนี้มากเกินไปจะเพิ่มการแยกการตรวจสอบที่ลดลงทั้งหมดหรือฉันจะพบปัญหาเดียวกันเนื่องจากโดยเฉลี่ยแต่ละตัวอย่างจะเห็นครึ่งยุคทั้งหมดยังคงอยู่หรือไม่ …

3
วิธีการใช้ RBM สำหรับการจำแนกประเภท?
ในขณะที่ฉันกำลังเล่นกับ Restricted Boltzmann Machines และเมื่อฉันอยู่ที่จุดนั้นฉันต้องการที่จะจำแนกตัวเลขที่เขียนด้วยลายมือด้วย ตอนนี้โมเดลที่ฉันสร้างเป็นแบบจำลองกำเนิดที่ค่อนข้างแฟนซี แต่ฉันไม่รู้จะทำอย่างไรต่อไป ในบทความนี้ผู้เขียนบอกว่าหลังจากสร้างตัวแบบกำเนิดที่ดีหนึ่ง " แล้วฝึกลักษณนามจำแนก (เช่นลักษณนามเชิงเส้นเครื่องเวกเตอร์สนับสนุน) ด้านบนของ RBM โดยใช้ตัวอย่างที่มีข้อความ " และรัฐต่อไป " เนื่องจากคุณเผยแพร่ เวกเตอร์ข้อมูลไปยังหน่วยที่ซ่อนอยู่ของโมเดล RBM เพื่อรับเวกเตอร์หน่วยที่ซ่อนอยู่หรือการแสดงข้อมูลในระดับที่สูงขึ้น " ปัญหาคือว่าฉันไม่แน่ใจว่าฉันได้รับที่ถูกต้อง นั่นหมายความว่าทั้งหมดที่ฉันต้องทำคือแพร่กระจายข้อมูลไปยังหน่วยที่ซ่อนอยู่และฉันมีคุณสมบัติ RBM ของฉันสำหรับการจัดหมวดหมู่ ใครสามารถอธิบายขั้นตอนนี้ให้ฉันได้บ้าง

1
การเรียนรู้แบบมีผู้เรียนเทียบกับการเสริมแรงการเรียนรู้สำหรับรถบังคับเลี้ยวแบบ RC
ฉันกำลังสร้างรถขับเคลื่อนด้วยตนเองที่ควบคุมจากระยะไกลเพื่อความสนุกสนาน ฉันใช้ Raspberry Pi เป็นคอมพิวเตอร์ออนบอร์ด และฉันใช้ปลั๊กอินต่าง ๆ เช่นกล้อง Raspberry Pi และเซ็นเซอร์ระยะทางเพื่อรับคำติชมเกี่ยวกับสภาพแวดล้อมของรถ ฉันใช้ OpenCV เพื่อเปลี่ยนเฟรมวิดีโอเป็นเทนเซอร์และฉันใช้ TensorFlow ของ Google เพื่อสร้างเครือข่ายประสาทที่ซับซ้อนเพื่อเรียนรู้ขอบเขตถนนและอุปสรรค คำถามหลักของฉันคือฉันควรใช้การเรียนรู้แบบมีผู้สอนเพื่อสอนรถยนต์ให้ขับรถหรือฉันควรให้วัตถุประสงค์และบทลงโทษและเรียนรู้การเสริมแรง (เช่นไปที่จุด B ให้เร็วที่สุดเท่าที่จะทำได้ในขณะที่ไม่ชนอะไร ด้านล่างนี้เป็นรายการข้อดีและข้อเสียที่ฉันคิดขึ้นมา ผู้เชี่ยวชาญด้านการเรียนรู้ภายใต้การดูแล: อินพุตของอัลกอริทึมการเรียนรู้นั้นค่อนข้างตรงไปตรงมา รถเรียนรู้ที่จะเชื่อมโยงเทนเซอร์เฟรมวิดีโอและการอ่านระยะทางเซ็นเซอร์กับการเคลื่อนที่ไปข้างหน้าถอยหลังและล้อเชิงมุม ฉันสามารถสอนรถยนต์ให้มากขึ้นหรือน้อยลงได้อย่างที่ฉันต้องการ (โดยไม่ต้องใส่มากเกินไป) ฉันเคยทำปัญหาการเรียนรู้แบบมีผู้ควบคุมมาก่อนและวิธีนี้ดูเหมือนจะเหมาะกับทักษะที่มีอยู่ของฉัน ข้อเสียการเรียนรู้ภายใต้การดูแล: มันยังไม่ชัดเจนว่าจะสอนความเร็วอย่างไรและความเร็วที่ถูกต้องนั้นค่อนข้างไร้เหตุผลตราบใดที่รถไม่ไปอย่างรวดเร็วจนมันเบี่ยงเบนไปจากถนน ฉันคิดว่าฉันสามารถขับรถเร็วในระหว่างการฝึกอบรม แต่นี่ดูเหมือนจะเป็นวิธีที่หยาบ บางทีฉันสามารถเพิ่มตัวแปรคงที่ด้วยตนเองในระหว่างการฝึกอบรมที่สอดคล้องกับความเร็วสำหรับเซสชันการฝึกอบรมนั้นและเมื่อมีการปรับใช้อัลกอริทึมการเรียนรู้ฉันจะตั้งค่าตัวแปรนี้ตามความเร็วที่ฉันต้องการ? ข้อดีการเรียนรู้การเสริมแรง: ถ้าฉันสร้างรถด้วยจุดประสงค์เฉพาะในการแข่งรถขับด้วยตนเองของผู้อื่นการเรียนรู้การเสริมแรงนั้นดูเหมือนจะเป็นวิธีธรรมชาติในการบอกรถของฉันว่า "ไปถึงที่นั่นให้เร็วที่สุด" ฉันเคยอ่านว่า RL บางครั้งใช้สำหรับโดรนอัตโนมัติดังนั้นในทางทฤษฎีมันควรจะง่ายขึ้นในรถยนต์เพราะฉันไม่ต้องกังวลเกี่ยวกับการขึ้นลง ข้อเสียการเรียนรู้เสริม: ฉันรู้สึกว่าการเรียนรู้การเสริมแรงจะต้องใช้เซ็นเซอร์เพิ่มเติมจำนวนมากและตรงไปตรงมารถของฉันมีความยาวไม่มากพอที่จะพิจารณาว่ามันจำเป็นต้องใส่แบตเตอรี่, Raspberry Pi, และเขียงหั่นขนม รถจะมีพฤติกรรมที่ผิดพลาดอย่างมากในตอนแรกดังนั้นมันอาจทำลายตัวเองได้ อาจใช้เวลานานเกินสมควรในการเรียนรู้ (เช่นเดือนหรือปี) ฉันไม่สามารถสร้างกฎที่ชัดเจนได้ในภายหลังเช่นหยุดที่ไฟแดงของเล่น ด้วยการเรียนรู้ภายใต้การดูแลฉันสามารถรวมอัลกอริธึม …

2
มีกี่มิติที่จะลดลงเมื่อทำ PCA
จะเลือก K สำหรับ PCA ได้อย่างไร? K คือจำนวนมิติที่จะฉายภาพลงไป ข้อกำหนดเพียงอย่างเดียวคือการไม่สูญเสียข้อมูลมากเกินไป ฉันเข้าใจว่ามันขึ้นอยู่กับข้อมูล แต่ฉันกำลังมองหาภาพรวมทั่วไปอย่างง่าย ๆ เกี่ยวกับคุณสมบัติที่ต้องพิจารณาเมื่อเลือก K
12 pca 

1
จำแนกลูกค้าตามคุณสมบัติ 2 อย่างและช่วงเวลาของเหตุการณ์
ฉันต้องการความช่วยเหลือในขั้นตอนต่อไปของฉันในขั้นตอนวิธีที่ฉันออกแบบ เนื่องจาก NDA ฉันไม่สามารถเปิดเผยได้มากนัก แต่ฉันจะพยายามเข้าใจและเข้าใจได้ทั่วไป โดยทั่วไปหลังจากหลายขั้นตอนในอัลกอริทึมฉันมีสิ่งนี้: สำหรับลูกค้าแต่ละรายที่ฉันมีและกิจกรรมที่ทำในช่วงเดือนแรกในช่วงแรกฉันได้จัดกลุ่มเหตุการณ์เป็นหลายหมวดหมู่ (ลูกค้าแต่ละรายจะมีเหตุการณ์แยกออกเป็นหมวดหมู่ที่แยกจาก 1 เป็น x เป็น x ระหว่าง 1 ถึง 25 โดยทั่วไปประเภทแรกจะมีความหนาแน่นของกิจกรรมมากกว่าประเภทอื่น) สำหรับแต่ละหมวดหมู่และลูกค้าฉันได้สร้างอนุกรมเวลารวมเหตุการณ์ของเดือนต่อชั่วโมง (รับรูปแบบของเมื่อเหตุการณ์เหล่านี้เสร็จสิ้น) นอกจากนี้ฉันกำลังใช้ตัวแปร normalizing สองสามตัวตามจำนวนวันในหนึ่งเดือน (30 วัน) ที่ผู้ชายทำกิจกรรมอย่างน้อยหนึ่งเหตุการณ์และจำนวนวันที่มีเหตุการณ์อย่างน้อยหนึ่งเหตุการณ์ในจำนวนวันอย่างน้อยหนึ่งเหตุการณ์ เหตุการณ์ (รวมกลุ่มทั้งหมด) คนแรกให้ฉันอัตราส่วนของการใช้งานของลูกค้าในช่วงเดือนและที่สองน้ำหนักหมวดหมู่กับคนอื่น ๆ ตารางสุดท้ายมีลักษณะเช่นนี้ |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | …

5
สุดยอดห้องสมุด Julia สำหรับโครงข่ายประสาทเทียม
ฉันใช้ห้องสมุดนี้เพื่อการสร้างและวิเคราะห์โครงข่ายประสาทขั้นพื้นฐาน อย่างไรก็ตามมันไม่ได้รับการสนับสนุนสำหรับการสร้างโครงข่ายประสาทหลายชั้น ฯลฯ ดังนั้นฉันอยากจะรู้ว่ามีห้องสมุดที่ดีสำหรับการทำโครงข่ายประสาทขั้นสูงและการเรียนรู้ลึกในจูเลีย

1
MinHashing vs SimHashing
สมมติว่าฉันมีห้าชุดที่ฉันต้องการจัดกลุ่ม ฉันเข้าใจว่าเทคนิค SimHashing อธิบายไว้ที่นี่: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ ได้ผลสามกลุ่ม ( {A}, {B,C,D}และ{E}) ตัวอย่างเช่นถ้าผลของมันคือ: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 ในทำนองเดียวกันเทคนิค MinHashing ที่อธิบายไว้ในบทที่ 3 ของหนังสือ MMDS: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf ยังสามารถให้ผลเหมือนกันสามกลุ่มถ้าผลลัพธ์เป็น: A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> …

2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

7
'ชื่อเก่า' ของนักวิทยาศาสตร์ข้อมูลคืออะไร
คำศัพท์เช่น 'วิทยาศาสตร์ข้อมูล' และ 'นักวิทยาศาสตร์ข้อมูล' มีการใช้กันมากขึ้นทุกวันนี้ หลาย บริษัท กำลังจ้าง 'นักวิทยาศาสตร์ข้อมูล' แต่ฉันไม่คิดว่ามันเป็นงานใหม่ที่สมบูรณ์แบบ ข้อมูลมีอยู่ในอดีตและบางคนต้องจัดการกับข้อมูล ฉันเดาว่าคำว่า 'นักวิทยาศาสตร์ข้อมูล' ได้รับความนิยมมากขึ้นเพราะฟังดูแปลกและ 'เซ็กซี่' นักวิทยาศาสตร์ด้านข้อมูลเรียกในอดีตอย่างไร
12 bigdata 

1
Hashing Trick - เกิดอะไรขึ้นจริง
เมื่ออัลกอริธึม ML เช่น Vowpal Wabbit หรือเครื่องแยกตัวประกอบที่ชนะการคลิกผ่านอัตราการแข่งขัน ( Kaggle ) กล่าวถึงคุณลักษณะว่า 'แฮช' แล้วอะไรคือความหมายของแบบจำลองจริง ๆ ให้บอกว่ามีตัวแปรที่แสดง ID ของการเพิ่มอินเทอร์เน็ตซึ่งใช้กับค่าเช่น '236BG231' จากนั้นฉันเข้าใจว่าคุณลักษณะนี้ถูกแฮชเป็นจำนวนเต็มแบบสุ่ม แต่คำถามของฉันคือ: เป็นจำนวนเต็มตอนนี้ใช้ในรูปแบบเป็นจำนวนเต็ม (ตัวเลข) หรือ ค่าแฮชจริงยังคงปฏิบัติเหมือนตัวแปรเด็ดขาดและการเข้ารหัสแบบร้อนแรงหรือไม่ ดังนั้นเคล็ดลับการแปลงแป้นพิมพ์เป็นเพียงการประหยัดพื้นที่อย่างใดกับข้อมูลขนาดใหญ่?

3
การจำแนกข้อความที่ไม่มีโครงสร้าง
ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)

2
ข้อมูลความเชื่อมั่นสำหรับ Emoji
สำหรับการทดลองเราต้องการใช้Emoji ที่ฝังอยู่ในทวีตจำนวนมากเพื่อเป็นข้อมูลจริง / การฝึกอบรมสำหรับการวิเคราะห์เชิงปริมาณอย่างง่าย ทวีตมักจะไม่มีโครงสร้างเกินกว่าที่ NLP จะทำงานได้ดี อย่างไรก็ตามมี 722 Emoji ใน Unicode 6.0 และอาจเพิ่ม 250 อีกอันใน Unicode 7.0 มีฐานข้อมูล (เช่น SentiWordNet) ที่มีหมายเหตุประกอบไว้สำหรับพวกเขาหรือไม่? (โปรดทราบว่า SentiWordNet อนุญาตสำหรับความหมายที่ไม่ชัดเจนเช่นกันพิจารณาเช่นตลกซึ่งไม่เพียง แต่เป็นบวก: "รสชาตินี้ตลก" อาจไม่เป็นบวก ... เช่นเดียวกันจะถือ;-)เป็นตัวอย่าง แต่ฉันไม่คิดว่ามันยากกว่า สำหรับ Emoji มากกว่าสำหรับคำปกติ ... ) นอกจากนี้หากคุณมีประสบการณ์ในการใช้พวกเขาสำหรับการวิเคราะห์ความเชื่อมั่นฉันก็อยากจะได้ยิน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.