Kafka: Consumer API เทียบกับ Streams API

Question 1

ฉันเพิ่งเริ่มเรียนรู้คาฟคาและจบลงด้วยคำถามเหล่านี้

อะไรคือความแตกต่างระหว่าง Consumer และ Stream? สำหรับฉันหากเครื่องมือ / แอปพลิเคชันใด ๆ ใช้ข้อความจาก Kafka เป็นผู้บริโภคในโลก Kafka
สตรีมแตกต่างกันอย่างไรเนื่องจากใช้หรือสร้างข้อความไปยังคาฟคา และเหตุใดจึงจำเป็นเนื่องจากเราสามารถเขียนแอปพลิเคชันสำหรับผู้บริโภคของเราเองโดยใช้ Consumer API และประมวลผลได้ตามต้องการหรือส่งไปยัง Spark จากแอปพลิเคชันสำหรับผู้บริโภค

ฉันใช้ Google ในเรื่องนี้ แต่ไม่ได้รับคำตอบที่ดีสำหรับเรื่องนี้ ขออภัยหากคำถามนี้ไม่สำคัญเกินไป

Question 2

อัปเดตเมื่อวันที่ 9 เมษายน 2018 : ปัจจุบันคุณสามารถใช้ksqlDBซึ่งเป็นฐานข้อมูลการสตรีมเหตุการณ์สำหรับ Kafka เพื่อประมวลผลข้อมูลของคุณใน Kafka ksqlDB สร้างขึ้นจาก Streams API ของ Kafka และยังมาพร้อมกับการสนับสนุนระดับเฟิร์สคลาสสำหรับ "สตรีม" และ "ตาราง"

อะไรคือความแตกต่างระหว่าง Consumer API และ Streams API

Streams API ของ Kafka ( https://kafka.apache.org/documentation/streams/ ) สร้างขึ้นจากผู้ผลิตและลูกค้าผู้บริโภคของ Kafka มันมีประสิทธิภาพมากกว่าและแสดงออกมากกว่าลูกค้าผู้บริโภคของคาฟคาอย่างเห็นได้ชัด คุณลักษณะบางอย่างของ Kafka Streams API มีดังนี้

รองรับการประมวลผลความหมายเพียงครั้งเดียว (Kafka เวอร์ชัน 0.11+)
รองรับความผิดใจกว้างstateful (เช่นเดียวกับไร้สัญชาติของหลักสูตร) การประมวลผลรวมทั้งสตรีมมิ่งร่วม , การรวมและwindowing กล่าวอีกนัยหนึ่งก็คือสนับสนุนการจัดการสถานะการประมวลผลของแอปพลิเคชันของคุณแบบสำเร็จรูป
รองรับการประมวลผลตามเวลาเหตุการณ์เช่นเดียวกับการประมวลผลตามเวลาในการประมวลผลและเวลาในการส่งผ่านข้อมูล
มีการสนับสนุนชั้นหนึ่งสำหรับทั้งสตรีมและตารางซึ่งการประมวลผลสตรีมตรงตามฐานข้อมูล ในทางปฏิบัติแอปพลิเคชันการประมวลผลสตรีมส่วนใหญ่ต้องการทั้งสตรีมและตารางสำหรับการใช้งานกรณีการใช้งานตามลำดับดังนั้นหากเทคโนโลยีการประมวลผลสตรีมขาดสิ่งที่เป็นนามธรรมทั้งสองอย่าง (เช่นไม่รองรับตาราง) คุณอาจติดขัดหรือต้องใช้ฟังก์ชันนี้ด้วยตนเอง (ขอให้โชคดี ... )
รองรับการสืบค้นแบบโต้ตอบ (เรียกอีกอย่างว่า 'สถานะการสอบถาม ') เพื่อแสดงผลการประมวลผลล่าสุดไปยังแอปพลิเคชันและบริการอื่น ๆ
คือแสดงออกมากขึ้น: เรือด้วย (1) รูปแบบการเขียนโปรแกรมการทำงานDSLกับการดำเนินงานเช่นmap, filter, reduceเช่นเดียวกับ (2) รูปแบบความจำเป็นประมวลผล APIสำหรับเช่นทำประมวลเหตุการณ์ที่ซับซ้อน (CEP) และ (3) คุณยังสามารถรวม DSL และ Processor API

โปรดดูhttp://docs.confluent.io/current/streams/introduction.htmlสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับ Kafka Streams API ซึ่งจะช่วยให้คุณเข้าใจความแตกต่างของผู้บริโภค Kafka ระดับล่าง ลูกค้า. นอกจากนี้ยังมีบทช่วยสอนที่ใช้ Docker สำหรับ Kafka Streams APIซึ่งฉันบล็อกไว้เมื่อต้นสัปดาห์นี้

ดังนั้น Kafka Streams API จึงแตกต่างกันอย่างไรเนื่องจากใช้หรือสร้างข้อความไปยัง Kafka ด้วย

ใช่ Kafka Streams API สามารถอ่านข้อมูลและเขียนข้อมูลไปยัง Kafka ได้

และเหตุใดจึงจำเป็นเนื่องจากเราสามารถเขียนแอปพลิเคชันสำหรับผู้บริโภคของเราเองโดยใช้ Consumer API และประมวลผลได้ตามต้องการหรือส่งไปยัง Spark จากแอปพลิเคชันสำหรับผู้บริโภค

ใช่คุณสามารถเขียนแอปพลิเคชันสำหรับผู้บริโภคของคุณเองได้ดังที่ฉันได้กล่าวไว้ Kafka Streams API ใช้ไคลเอนต์ผู้บริโภคของ Kafka (รวมถึงไคลเอนต์ผู้ผลิต) เอง แต่คุณจะต้องใช้คุณลักษณะเฉพาะทั้งหมดที่ Streams API มีให้ด้วยตนเอง . ดูรายการด้านบนสำหรับทุกสิ่งที่คุณได้รับ "ฟรี" ดังนั้นจึงเป็นสถานการณ์ที่ค่อนข้างหายากที่ผู้ใช้จะเลือกไคลเอนต์ผู้บริโภคระดับต่ำแทนที่จะเป็น Kafka Streams API ที่ทรงพลังกว่า

Question 3

คอมโพเนนต์ Kafka Stream สร้างขึ้นเพื่อรองรับการแปลงข้อความประเภท ETL หมายถึงอินพุตสตรีมจากหัวข้อแปลงและเอาต์พุตไปยังหัวข้ออื่น รองรับการประมวลผลแบบเรียลไทม์และในขณะเดียวกันก็รองรับคุณสมบัติการวิเคราะห์ขั้นสูงเช่นการรวมการกำหนดหน้าต่างการเข้าร่วม ฯลฯ

"Kafka Streams ช่วยลดความยุ่งยากในการพัฒนาแอปพลิเคชันโดยสร้างจากผู้ผลิต Kafka และไลบรารีผู้บริโภคและใช้ประโยชน์จากความสามารถดั้งเดิมของ Kafka ในการนำเสนอความขนานของข้อมูลการประสานงานแบบกระจายการยอมรับข้อผิดพลาดและความเรียบง่ายในการปฏิบัติงาน"

ด้านล่างนี้เป็นคุณสมบัติทางสถาปัตยกรรมที่สำคัญของ Kafka Stream โปรดดูที่นี่

สตรีมพาร์ติชันและงานสตรีม: Kafka Streams ใช้แนวคิดของพาร์ติชันและงานเป็นหน่วยลอจิคัลของโมเดลแบบขนานตามพาร์ติชันหัวข้อ Kafka
รุ่นเธรด: Kafka Streams อนุญาตให้ผู้ใช้กำหนดค่าจำนวนเธรดที่ไลบรารีสามารถใช้เพื่อประมวลผลแบบขนานภายในอินสแตนซ์แอ็พพลิเคชัน
ร้านค้าของรัฐในท้องถิ่น : Kafka Streams ให้บริการที่เรียกว่าร้านค้าของรัฐซึ่งสามารถใช้โดยแอปพลิเคชันการประมวลผลสตรีมเพื่อจัดเก็บและสืบค้นข้อมูลซึ่งเป็นความสามารถที่สำคัญเมื่อใช้การดำเนินการที่มีสถานะ
Fault Tolerance: Kafka Streams สร้างขึ้นจากความสามารถในการยอมรับข้อผิดพลาดซึ่งรวมอยู่ใน Kafka พาร์ติชัน Kafka มีให้ใช้งานได้สูงและจำลองแบบดังนั้นเมื่อข้อมูลสตรีมยังคงอยู่ใน Kafka จะพร้อมใช้งานแม้ว่าแอปพลิเคชันจะล้มเหลวและจำเป็นต้องประมวลผลใหม่

จากความเข้าใจของฉันด้านล่างนี้คือความแตกต่างที่สำคัญฉันเปิดให้อัปเดตหากขาดหายไปหรือทำให้เข้าใจผิดในประเด็นใด

สถานที่ใช้ผู้บริโภค - ผู้ผลิต:

หากมีผู้บริโภครายเดียวให้ใช้กระบวนการข้อความ แต่ไม่แพร่กระจายไปยังหัวข้ออื่น ๆ
ในฐานะที่เป็นจุดที่ 1 หากมีผู้ผลิตเพียงแค่ผลิตข้อความเราไม่จำเป็นต้องมี Kafka Stream
หากข้อความของผู้บริโภคจากคลัสเตอร์ Kafka หนึ่ง แต่เผยแพร่ไปยังหัวข้อคลัสเตอร์ Kafka อื่น ในกรณีนี้แม้ว่าคุณจะใช้ Kafka Stream ได้ แต่คุณต้องใช้ Producer แยกต่างหากเพื่อเผยแพร่ข้อความไปยังคลัสเตอร์อื่น หรือใช้กลไก Kafka Consumer - Producer
การประมวลผลแบบกลุ่ม - หากมีความต้องการในการรวบรวมข้อความหรือชนิดของการประมวลผลแบบแบตช์คุณควรใช้วิธีดั้งเดิมตามปกติ

สถานที่ใช้ Kafka Stream:

หากคุณใช้ข้อความจากหัวข้อหนึ่งการแปลงและเผยแพร่ไปยังหัวข้ออื่น Kafka Stream จะเหมาะสมที่สุด
การประมวลผลแบบเรียลไทม์การวิเคราะห์แบบเรียลไทม์และการเรียนรู้ของเครื่อง
การแปลงสภาพเช่นการรวมหน้าต่างการเข้าร่วม ฯลฯ
การวางแผนที่จะใช้ร้านค้าของรัฐในท้องถิ่นหรือร้านค้าของรัฐที่ติดตั้งเช่น Portworx เป็นต้น
บรรลุการประมวลผลความหมายและความทนทานต่อความผิดพลาดที่กำหนดโดยอัตโนมัติหนึ่งรายการ