什麼是 Confluent Platform?
先說下什麼是 Confluent ? Confluent由ApacheKafka®的原始創建者創立的,以Kafka爲技術核心的公司。
Confluent提供了業界唯一的企業級事件流平臺,從而爲應用程序和數據基礎架構帶來了新的範例。Confluent Platform(平臺)基於此理念開發出來, 可以很方便的建立實時的數據流和流處理應用。讓用戶更加關注於業務價值。
快速開始
官網提供了三種使用方式,每個人都可以根據自己實際需求選擇最合適的。我因個人練習,所以使用了 Confluent Platform Quick Start (Docker)。
Confluent Platform Quick Start
Confluent Platform Quick Start using Community Components
Confluent Cloud Quick Start
Step1 使用的Docker-Compose 快速的啓動所需服務
Docker-compose 對於搭建基礎環境,簡直不要太爽。Confluent Platform的基礎環境Docker-Compose文件如下:
version: "2"
services:
zookeeper:
image: confluentinc/cp-zookeeper:5.4.1
hostname: zookeeper
container_name: zookeeper
ports:
- "2181:2181"
environment:
ZOOKEEPER_CLIENT_PORT: 2181
ZOOKEEPER_TICK_TIME: 2000
broker:
image: confluentinc/cp-server:5.4.1
hostname: broker
container_name: broker
depends_on:
- zookeeper
ports:
- "9092:9092"
environment:
KAFKA_BROKER_ID: 1
KAFKA_ZOOKEEPER_CONNECT: "zookeeper:2181"
KAFKA_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT,PLAINTEXT_HOST:PLAINTEXT
KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://broker:29092,PLAINTEXT_HOST://localhost:9092
KAFKA_METRIC_REPORTERS: io.confluent.metrics.reporter.ConfluentMetricsReporter
KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR: 1
KAFKA_GROUP_INITIAL_REBALANCE_DELAY_MS: 0
KAFKA_CONFLUENT_LICENSE_TOPIC_REPLICATION_FACTOR: 1
CONFLUENT_METRICS_REPORTER_BOOTSTRAP_SERVERS: broker:29092
CONFLUENT_METRICS_REPORTER_ZOOKEEPER_CONNECT: zookeeper:2181
CONFLUENT_METRICS_REPORTER_TOPIC_REPLICAS: 1
CONFLUENT_METRICS_ENABLE: "true"
CONFLUENT_SUPPORT_CUSTOMER_ID: "anonymous"
schema-registry:
image: confluentinc/cp-schema-registry:5.4.1
hostname: schema-registry
container_name: schema-registry
depends_on:
- zookeeper
- broker
ports:
- "8081:8081"
environment:
SCHEMA_REGISTRY_HOST_NAME: schema-registry
SCHEMA_REGISTRY_KAFKASTORE_CONNECTION_URL: "zookeeper:2181"
connect:
image: cnfldemos/cp-server-connect-datagen:0.2.0-5.4.0
hostname: connect
container_name: connect
depends_on:
- zookeeper
- broker
- schema-registry
ports:
- "8083:8083"
environment:
CONNECT_BOOTSTRAP_SERVERS: "broker:29092"
CONNECT_REST_ADVERTISED_HOST_NAME: connect
CONNECT_REST_PORT: 8083
CONNECT_GROUP_ID: compose-connect-group
CONNECT_CONFIG_STORAGE_TOPIC: docker-connect-configs
CONNECT_CONFIG_STORAGE_REPLICATION_FACTOR: 1
CONNECT_OFFSET_FLUSH_INTERVAL_MS: 10000
CONNECT_OFFSET_STORAGE_TOPIC: docker-connect-offsets
CONNECT_OFFSET_STORAGE_REPLICATION_FACTOR: 1
CONNECT_STATUS_STORAGE_TOPIC: docker-connect-status
CONNECT_STATUS_STORAGE_REPLICATION_FACTOR: 1
CONNECT_KEY_CONVERTER: org.apache.kafka.connect.storage.StringConverter
CONNECT_VALUE_CONVERTER: io.confluent.connect.avro.AvroConverter
CONNECT_VALUE_CONVERTER_SCHEMA_REGISTRY_URL: http://schema-registry:8081
CONNECT_INTERNAL_KEY_CONVERTER: "org.apache.kafka.connect.json.JsonConverter"
CONNECT_INTERNAL_VALUE_CONVERTER: "org.apache.kafka.connect.json.JsonConverter"
CONNECT_ZOOKEEPER_CONNECT: "zookeeper:2181"
# CLASSPATH required due to CC-2422
CLASSPATH: /usr/share/java/monitoring-interceptors/monitoring-interceptors-5.4.1.jar
CONNECT_PRODUCER_INTERCEPTOR_CLASSES: "io.confluent.monitoring.clients.interceptor.MonitoringProducerInterceptor"
CONNECT_CONSUMER_INTERCEPTOR_CLASSES: "io.confluent.monitoring.clients.interceptor.MonitoringConsumerInterceptor"
CONNECT_PLUGIN_PATH: "/usr/share/java,/usr/share/confluent-hub-components"
CONNECT_LOG4J_LOGGERS: org.apache.zookeeper=ERROR,org.I0Itec.zkclient=ERROR,org.reflections=ERROR
control-center:
image: confluentinc/cp-enterprise-control-center:5.4.1
hostname: control-center
container_name: control-center
depends_on:
- zookeeper
- broker
- schema-registry
- connect
- ksql-server
ports:
- "9021:9021"
environment:
CONTROL_CENTER_BOOTSTRAP_SERVERS: "broker:29092"
CONTROL_CENTER_ZOOKEEPER_CONNECT: "zookeeper:2181"
CONTROL_CENTER_CONNECT_CLUSTER: "connect:8083"
CONTROL_CENTER_KSQL_URL: "http://ksql-server:8088"
CONTROL_CENTER_KSQL_ADVERTISED_URL: "http://localhost:8088"
CONTROL_CENTER_SCHEMA_REGISTRY_URL: "http://schema-registry:8081"
CONTROL_CENTER_REPLICATION_FACTOR: 1
CONTROL_CENTER_INTERNAL_TOPICS_PARTITIONS: 1
CONTROL_CENTER_MONITORING_INTERCEPTOR_TOPIC_PARTITIONS: 1
CONFLUENT_METRICS_TOPIC_REPLICATION: 1
PORT: 9021
ksql-server:
image: confluentinc/cp-ksql-server:5.4.1
hostname: ksql-server
container_name: ksql-server
depends_on:
- broker
- connect
ports:
- "8088:8088"
environment:
KSQL_CONFIG_DIR: "/etc/ksql"
KSQL_LOG4J_OPTS: "-Dlog4j.configuration=file:/etc/ksql/log4j-rolling.properties"
KSQL_BOOTSTRAP_SERVERS: "broker:29092"
KSQL_HOST_NAME: ksql-server
KSQL_LISTENERS: "http://0.0.0.0:8088"
KSQL_CACHE_MAX_BYTES_BUFFERING: 0
KSQL_KSQL_SCHEMA_REGISTRY_URL: "http://schema-registry:8081"
KSQL_PRODUCER_INTERCEPTOR_CLASSES: "io.confluent.monitoring.clients.interceptor.MonitoringProducerInterceptor"
KSQL_CONSUMER_INTERCEPTOR_CLASSES: "io.confluent.monitoring.clients.interceptor.MonitoringConsumerInterceptor"
KSQL_KSQL_CONNECT_URL: "http://connect:8083"
ksql-cli:
image: confluentinc/cp-ksql-cli:5.4.1
container_name: ksql-cli
depends_on:
- broker
- connect
- ksql-server
entrypoint: /bin/sh
tty: true
ksql-datagen:
# Downrev ksql-examples to 5.1.2 due to DEVX-798 (work around issues in 5.2.0)
image: confluentinc/ksql-examples:5.4.1
hostname: ksql-datagen
container_name: ksql-datagen
depends_on:
- ksql-server
- broker
- schema-registry
- connect
command: "bash -c 'echo Waiting for Kafka to be ready... && \
cub kafka-ready -b broker:29092 1 40 && \
echo Waiting for Confluent Schema Registry to be ready... && \
cub sr-ready schema-registry 8081 40 && \
echo Waiting a few seconds for topic creation to finish... && \
sleep 11 && \
tail -f /dev/null'"
environment:
KSQL_CONFIG_DIR: "/etc/ksql"
KSQL_LOG4J_OPTS: "-Dlog4j.configuration=file:/etc/ksql/log4j-rolling.properties"
STREAMS_BOOTSTRAP_SERVERS: broker:29092
STREAMS_SCHEMA_REGISTRY_HOST: schema-registry
STREAMS_SCHEMA_REGISTRY_PORT: 8081
rest-proxy:
image: confluentinc/cp-kafka-rest:5.4.1
depends_on:
- zookeeper
- broker
- schema-registry
ports:
- 8082:8082
hostname: rest-proxy
container_name: rest-proxy
environment:
KAFKA_REST_HOST_NAME: rest-proxy
KAFKA_REST_BOOTSTRAP_SERVERS: "broker:29092"
KAFKA_REST_LISTENERS: "http://0.0.0.0:8082"
KAFKA_REST_SCHEMA_REGISTRY_URL: "http://schema-registry:8081"
運行 docker-compose up -d
啓動服務就好
可以去Github上下載最新的配置文件. github 地址爲 https://github.com/confluentinc/examples, 下載 cp-all-in-one 目錄下的 docker-compose.yml 文件
啓動好之後,通過 docker-compose ps
可以看到正常啓動的服務
Name Command State Ports
------------------------------------------------------------------------------------------------------------
broker /etc/confluent/docker/run Up 0.0.0.0:9092->9092/tcp
connect /etc/confluent/docker/run Up 0.0.0.0:8083->8083/tcp, 9092/tcp
control-center /etc/confluent/docker/run Up 0.0.0.0:9021->9021/tcp
ksql-cli /bin/sh Up
ksql-datagen bash -c echo Waiting for K ... Up
ksql-server /etc/confluent/docker/run Up (healthy) 0.0.0.0:8088->8088/tcp
rest-proxy /etc/confluent/docker/run Up 0.0.0.0:8082->8082/tcp
schema-registry /etc/confluent/docker/run Up 0.0.0.0:8081->8081/tcp
zookeeper /etc/confluent/docker/run Up 0.0.0.0:2181->2181/tcp, 2888/tcp, 3888/tcp
Step2 創建練習需要使用的 Topics
服務啓動成功之後,進入 Confluent 控制中心。Confluent 控制 中心提供了數據流處理應用。
- 瀏覽器中輸入 http://localhost:9021 就可以打開。
- 從集羣中選擇
Topics
,並且點擊Add a topic
就可以添加。
- 創建一個名爲
pageviews
的Topic,並且選中 Create with defaults
- 重複2、3 步驟,創建一個名爲
users
Kafka 主題。
Step3 安裝一個Kafka 連接器並且生成一些簡單的數據
這一步中,我們選用 kafka-connect-datagen
連接器來演示,如何簡單入門怎麼使用Kafka 連接器。kafka-connect-datagen
連接器是 CP 自帶的,並且會爲 pageviews
和 users
兩個主題產生一些簡單數據。
-
啓動一個
Kafka Connect Datagen
連接器的運行實例,以AVRO
格式將Kafka數據發送到pageviews
主題中。 -
在
Cluster
集羣主界面,點擊導航欄中的 Connect -
找到 DatagenConnector 連接器,並且點擊 Connect 按鈕
- 命名新建的連接器爲
datagen-pageviews
。新建的連接器屬性定義如下:- Key converter class 屬性, 寫入
org.apache.kafka.connect.storage.StringConverter
. - kafka.topic 屬性, 寫入
pageviews
. - max.interval 屬性, 寫入
100
. - iterations 屬性, 寫入
1000000000
. - quickstart 屬性, 寫入
pageviews
.
- Key converter class 屬性, 寫入
- 完成後,點擊繼續按鈕。屬性配置大概如下;
使用同樣的方式創建第二個連接器,名爲datagen-users。將 users
主題下的數據導入,不同的在於將前面的 max.interval 屬性設置爲 1000
而不是 100
。
Step4 使用KSQL 來創建和寫入 Stream 和 Table
KSQL 面向Apache Kafka的一種數據流SQL引擎,非常輕量,上手簡單。
創建 Stream 和 Tables
着這裏,我們爲Kafka中的 pageviews
主題來創建一個 Stream,爲 users
主題來創建一個表(table)。
- 在Cluster界面中,點擊 KSQL 導航欄,選擇 KSQL Application 進入
- 在 KSQL EDITOR 界面來操作,點擊工具 欄中 **Streams ** 中的 Add Stream
- 選中出現的
pageviews
主題.
- 選中你自定義的 Stream 操作
- 在 Encoding 屬性中選中
AVRO
- 確保Stream中字段的類型選中如下
viewtime
的類型爲BIGINT
userid
的類型爲VARCHAR
pageid
的類型爲VARCHAR
- 在 Encoding 屬性中選中
- 點擊 Save Stream 按鈕就好
以下步驟爲如何爲 Kafka 中的 users
主題來創建 Table。
-
選中工具欄中的
Table
- 在 Encoding 屬性中選中
AVRO
- 在 Key 屬性中,選中
userid
. - 確保Stream中字段的類型選中如下
registertime
的類型爲BIGINT
userid
的類型爲VARCHAR
regionid
的類型爲VARCHAR
gender
的類型爲VARCHAR
- 在 Encoding 屬性中選中
- 完成後 Save Table
編寫查詢語句
在KSQL 的編輯界面 ,在 Add query properties 中 添加一個自定義查詢屬性,記得將 auto.offset.reset
設置爲 earliest
。還有很多參數可以設置,詳情見
KSQL 的語法同標註的SQL很像。比如下面
SELECT pageid FROM pageviews EMIT CHANGES LIMIT 3;
輸出的結構類似於如下:
如果我們想將前面創建的 pageviews
Stream 中的數據和 users
Table中的數據,(根據userid)右連接一下,生成新的流數據,過濾出其中 gender = 'FEMALE'
的數據,並且將新生成的流數據寫入到 Kafka 中的 PAGEVIEWS_FEMALE
主題中。如下的KSQL可以實現
CREATE STREAM pageviews_female AS
SELECT users.userid AS userid, pageid, regionid, gender
FROM pageviews
LEFT JOIN users
ON pageviews.userid = users.userid WHERE gender = 'FEMALE';
運行成功後,可見如下的輸出結果
在前面創建的好的 ``PAGEVIEWS_FEMALE主題下, 使用
LIKE語句創建一個滿足指定的 regionid 條件的持久查詢,並將該查詢的結果寫入名爲
pageviews_enriched_r8_r9`的Kafka主題中。
CREATE STREAM pageviews_female_like_89
WITH (kafka_topic='pageviews_enriched_r8_r9', value_format='AVRO')
AS SELECT * FROM pageviews_female WHERE regionid LIKE '%_8' OR regionid LIKE '%_9';
運行成功後,可見如下的輸出結果
創建一個持久查詢,當計數大於1時,將在30秒的 tumbling window 中對每個區域和性別組合的瀏覽量進行計數。由於該過程是分組和計數結果,因此結果是表(Table)而不是流(Stream)。該查詢的結果將寫入名爲PAGEVIEWS_REGIONS
的Kafka主題。
CREATE TABLE pageviews_regions
AS SELECT gender, regionid , COUNT(*) AS numusers
FROM pageviews_female WINDOW TUMBLING (size 30 second)
GROUP BY gender, regionid HAVING COUNT(*) > 1;
運行成功後,可見如下的輸出結果
點擊,Running queries 可以看到所有正在運行的查詢。
在 Editor 右側的,點開 All available streams and tables 可以看到所有的 Table 和 Stream。選擇任意一個,可以看到對應的Schema。
Step5 監控消費者滯後
導航到 Consumers 視圖,點擊消費者組ID來查看所有的詳細視圖。比如看具體的 _confluent-ksql-default_query_CSAS_PAGEVIEWS_FEMALE_3
消費者組。
在此頁面上,您可以查看流查詢的消費者滯後值和消費值。
Step 6: 停止Docker 容器
使用完Docker後,您可以停止和刪除Docker容器和映像。
-
查看所有Docker容器ID的列表。
docker container ls -aq
-
運行以下命令以停止Confluent的Docker容器:
docker container stop $(docker container ls -a -q -f "label=io.confluent.docker")
-
運行以下命令可以停止容器並修剪Docker系統。運行這些命令將刪除容器,網絡,卷和映像。釋放磁盤空間:
docker container stop $(docker container ls -a -q -f "label=io.confluent.docker") && docker system prune -a -f --volumes
參考的翻譯原文鏈接:https://docs.confluent.io/current/quickstart/ce-docker-quickstart.html#step-5-monitor-consumer-lag