Dựa trên data của hơn 6000 người bị lây nhiễm COVID19 tại Hàn Quốc (quốc gia bị lây nhiễm số 2 của thế giới)
Dịch bệnh bùng nổ tại Korea vào 3/3/2020. Ngay lập tức KCDC (Trung tâm kiểm soát và phòng ngừa dịch bệnh Hàn Quốc) công bố thông tin về COVID-19 một cách nhanh chóng và minh bạch. Thông qua điều này anh em Data Analysis có cơ hội nhìn nhận vấn đề đa chiều hơn trước đây rất nhiều.


Bài viết là EDA ngắn về COVID19 tại Hàn Quốc, bao gồm nội dung chính:
1. Nam giới có xác suất sống cao hơn so với nữ giới
2. Lí do bị lây nhiễm hàng đầu là tiếp xúc trực tiếp với người bệnh. Lí do thứ 3 là có lịch sử đi từ Vũ Hán.
3. Tuổi trẻ hơn có xác xuất hồi phục tốt hơn. Với Mean người hồi phục là 44 tuổi (độ lệch chuẩn 14) so với Mean người tử vong là 65 tuổi (độ lệch chuẩn 12)
4. Không ghi nhận ca tử vong nào dưới 20 tuổi.
5. Tỉnh thành nhiều người bệnh là Gyeonggi - do và Seoul
6. Trực quan bản đồ lây nhiễm tại Hàn quốc với tập trung chủ yếu quanh Seoul
---------------------------------------------------------------
* Link tải data: http://bit.ly/2vMma2B
* Nguồn data từ KCDC: http://www.cdc.go.kr/
* Xử lí data bằng Python, có thể xem trực tiếp trên GitHub: 
https://github.com/cafechungkhoan/chu_gia/blob/master/COVID19%20-%20Korea.ipynb
---------------------------------------------------------------

Heatmap quan sát dữ liệu đủ (đen) và thiếu (trắng)


Dữ liệu thiếu quá nhiều, do đó xử lí dữ liệu có phần mất thì giờ hơn.

Giai đoạn bùng nổ dịch ở Korea

Quan sát phân phối xác suất khả năng tử vong của nam và nữ

Quan sát bản đồ khu vực có bệnh COVID19

Quan sát tỉnh / thành nhiều người bệnh

Quan sát nguyên nhân lây nhiễm

Quan sát phân phối xác suất giữa tử vong & hồi phục

Quan sát phân phối xác suất của tử vong & hồi phục

Thấy không có trường hợp tử vong dưới 20 tuổi

kết nối bạn bè và trao đổi học tập:
Linkedin: http://bit.ly/3aYazxr
Facebook: http://bit.ly/2u9pvIl
Githut: http://bit.ly/3b1qBXd