Paano Apache Kafka ang pagsasama ng mga gulong para sa malaking data

2024

4. How Kafka Works | Apache Kafka® Fundamentals

Karaniwang inilarawan ang Analytics bilang isa sa mga pinakamalaking hamon na nauugnay sa malaking data, ngunit kahit na bago mangyari ang hakbang na iyon, ang data ay dapat na maigugupo at magagamit sa mga gumagamit ng enterprise. Na kung saan dumating ang Apache Kafka.

Orihinal na binuo sa LinkedIn, Kafka ay isang open-source na sistema para sa pamamahala ng real-time na stream ng data mula sa mga website, mga application at sensor.

Mahalaga, ito ay nagsisilbing isang uri ng enterprise " halimbawa, at ginagawang magagamit bilang isang real-time na stream para sa pagkonsumo ng mga gumagamit ng enterprise.

[ Ang mas mahusay na puting LED smart bulbs]

Kafka ay madalas na inihambing sa mga teknolohiya tulad ng ActiveMQ o RabbitMQ para sa pagpapatupad sa mga nasasakupan, o sa Amazon Web Services 'Kinesis para sa mga customer ng ulap, sinabi Stephen O'Grady, isang co-founder at principal analyst na may RedMonk.

"Ito ay nagiging mas nakikita dahil ito ay isang mataas na kalidad na bukas-pinagmulan ng proyekto, ngunit din dahil ang kakayahan nito upang mahawakan ang mataas na daloy ng daloy ng impormasyon ay lalong in demand para sa paggamit sa servicing workloads tulad ng IoT, bukod sa iba pa, "idinagdag ni O'Grady.

Dahil sa pagiging conceived sa LinkedIn, nakuha ni Kafka ang mataas na profile na suporta mula sa mga kumpanya tulad ng Netflix, Uber, Cisco at Goldman Sachs. Sa Biyernes, nakuha ng isang sariwang tulong mula sa IBM, na inihayag ang pagkakaroon ng dalawang bagong serbisyo sa Kafka sa pamamagitan ng platform nito ng Bluemix.

Ang bagong serbisyo ng Streaming Analytics ng IBM ay naglalayong pag-aralan ang milyun-milyong mga pangyayari sa bawat segundo para sa mga sub-millisecond na mga oras ng pagtugon at instant na paggawa ng desisyon. Nagbibigay ang IBM Message Hub, ngayon sa beta, ay nagbibigay ng scalable, ipinamamahagi, high-throughput, asynchronous messaging para sa mga application ng ulap, na may pagpipilian ng paggamit ng REST o Apache Kafka API (application programming interface) upang makipag-ugnayan sa iba pang mga application. bukas-galing noong 2011. Noong nakaraang taon, tatlong inilunsad ng mga tagalikha ng Kafka ang Confluent, isang startup na nakatuon sa pagtulong sa mga enterprise na gamitin ito sa produksyon sa antas.

"Sa panahon ng aming eksplosibong yugto ng paglago sa LinkedIn, hindi namin mapapanatili ang lumalaking gumagamit base at ang data na maaaring magamit upang matulungan kaming mapabuti ang karanasan ng gumagamit, "sabi ni Neha Narkhede, isa sa mga tagalikha ng Kafka at mga co-founder ng Confluent.

" Ang pinapayagan ka ng Kafka mong gawin ay ilipat ang data sa buong kumpanya at gawin ito magagamit bilang isang patuloy na libreng pag-agos stream sa loob ng ilang segundo sa mga taong nangangailangan upang magamit ito, "ipinaliwanag ni Narkhede. "At ginagawa iyan sa sukat."

Ang epekto sa LinkedIn ay "transformational," ang sabi niya. Ngayon, ang LinkedIn ay nananatili ang pinakamalaking pag-deploy ng Kafka sa produksyon; Lumalagpas ito ng 1.1 trilyong mensahe kada araw.

Ang confluent, samantala, ay nag-aalok ng advanced management software sa pamamagitan ng subscription upang matulungan ang mga malalaking kumpanya na tumakbo sa Kafka para sa mga sistema ng produksyon. Kabilang sa mga customer nito ang isang pangunahing retailer ng big-box at "isa sa pinakamalaking issuer ng credit-card sa Estados Unidos," sabi ni Narkhede.

Ang huli ay gumagamit ng teknolohiya para sa proteksyon sa real-time na pandaraya, sinabi niya. > Kafka ay isang "hindi kapani-paniwalang mabilis na messaging bus" na mabuti sa pagtulong upang maisama ang maraming iba't ibang uri ng data nang mabilis, sinabi Jason Stamper, isang analyst na may 451 Research. "Iyon ang dahilan kung bakit ito ay umuusbong bilang isa sa mga pinakasikat na pagpipilian."

Bukod sa ActiveMQ at RabbitMQ, isa pang produkto na nag-aalok ng katulad na pag-andar ay Apache Flume, sinabi niya; Ang mga kumpetisyon ng Confluent ay ang IBM InfoSphere Streams, ang Ultra Messaging Streaming Edition ng Informatica at ang Event Stream Processing Engine (ESP) ng SAS kasama ang Apama ng Software AG, Tibco's StreamBase at Idinagdag ni Aleri ng SAP, Stamper. Kasama sa mas maliit na kakumpitensiya ang DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic at Glassbeam.

Sa cloud, ang serbisyo ng pagproseso ng stream ng Kinesis ng AWS "ay may dagdag na benepisyo ng pagsasama sa kagustuhan ng Redshift data warehouse at S3 storage platform," sabi niya.

Ang bagong inihayag ng Teradata ay isa pang kalaban, at ito ay batay sa Kafka Gayunpaman, nabanggit ni Brian Hopkins, isang vice president at principal analyst na may Forrester Research.

Sa pangkalahatan, mayroong isang markang trend patungo sa real-time na data, sinabi ni Hopkins.

Hanggang sa 2013 o kaya, "ang malaking data ay lahat tungkol sa napakalaking dami ng data na pinupunan sa Hadoop, "sabi niya. "Ngayon, kung hindi mo ginagawa iyan, nasa likod ka na ng curve ng lakas."

Ngayon, ang data mula sa mga smartphone at iba pang pinagkukunan ay nagbibigay sa mga empleyado ng pagkakataong makisali sa mga mamimili sa real time at magbigay ng mga karanasan sa konteksto, siya sinabi. Sa kabilang banda, nakasalalay sa kakayahang maunawaan ang data nang mas mabilis.

"Ang Internet ng Mga Bagay ay katulad ng ikalawang alon ng mobile," paliwanag ni Hopkins. "Ang bawat vendor ay nagpoposisyon para sa isang avalanche ng data."

Bilang resulta, ang teknolohiya ay umaayon nang naaayon.

"Hanggang sa 2014 ito ay tungkol sa Hadoop, pagkatapos ito ay Spark," sabi niya. "Ngayon, ito ay Hadoop, Spark at Kafka. Ang mga ito ay tatlong katumbas na kapantay sa pipeline ng data-ingestion sa modernong analytic architecture."

Ano ang iyong nakukuha kapag tumawid ka ng isang laptop, isang hanay ng gulong, isang iPhone, at isang Arduino board? Ito ay hindi pangkaraniwang para sa isang iPhone na gagamitin upang magpatakbo ng mga gadget ng remote control tulad ng AR Drone quadrocopter o upang magtrabaho kasama ang iyong computer, ngunit ang hack na ito sa pamamagitan ng Avadhut Deshmukh pinagsasama ang mga may isang laptop sa gulong.

Upang makontrol ang robot, pinindot mo ang mga pindutan sa keyboard ng iPhone upang magpadala ng mga command sa laptop, na kumokontrol sa direksyon na ang robot na ito ay nakaupo sa ay mapupunta sa pamamagitan ng isang nakalakip na Arduino board.

Paano Apache Kafka ang pagsasama ng mga gulong para sa malaking data

Karaniwang inilarawan ang Analytics bilang isa sa mga pinakamalaking hamon na nauugnay sa malaking data, ngunit kahit na bago ang hakbang na iyon ay maaaring mangyari, ang data ay dapat na ingested at ginawang magagamit sa mga gumagamit ng enterprise. Na kung saan ang Apache Kafka ay pumasok.