본문 바로가기

공부

[Kaggle] Competition - 중고차 가격 예측 중고차 구매의 기술 🤑2개월전 작성한 notebook...처음 참여한 Competition에서 노트북 메달을 받았다..!!! 순위는... 1722/3066 😭 Art of Buying Used Cars 🤑Explore and run machine learning code with Kaggle Notebooks | Using data from Regression of Used Car Priceswww.kaggle.com 1. 개요이 노트북에서는 여러 가지 특성(feature)을 바탕으로 중고차의 가격을 예측하는 것을 목표로 합니다. 평가 지표는 Root Mean Squared Error (RMSE) 입니다. 예측 정확도를 높이기 위해 다양한 머신러닝 모델을 사용하고, 이를 앙상블하여 성능을 향상시킬 .. 더보기
[Airflow] DAG Log 관리 (+ DAG run log) Airflow에서는 DAG 로그를 자동으로 정리할 수 있는 기능을 제공하지 않는다...?!DAG 로그는 $AIRFLOW_HOME/logs 에 저장되게 되는데 보통 주기적으로 로컬 파일을 삭제하는 DAG를 만들어 관리하게 된다. (DAG 로그를 지우기 위해 DAG 로그를 쌓고,,,무한반복) DAG를 자주 실행하는 경우 필수적임. 로컬 파일 로그 정리 DAGimport osimport shutilfrom airflow.utils.dates import days_agofrom datetime import datetime, timedelta, timezonefrom airflow import DAGfrom airflow.operators.python import PythonOperatordef cleanup_o.. 더보기
[kaggle] 타이타닉 데이터 분석 튜토리얼 https://www.kaggle.com/code/newhwan/titanic-survival-predictions-for-tutorial Titanic Survival Predictions for tutorialExplore and run machine learning code with Kaggle Notebooks | Using data from 2019 1st ML month with KaKRwww.kaggle.com캐글에 올린 저널 (들어가서 upvote 부탁드림니다..)INTRODUCTION타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존여부를 예측하는 모델을 생성하고자 한다.1. 데이터 확인In [1]:import numpy as npimport osimport pandas.. 더보기
ElasticSearch - Analyzer 기본 설정, Search Analyzer와 비교 ElasticSearch에서 어널라이저(analyzer)는 텍스트 데이터를 분석하고 인덱싱 하기 위해 사용되는 구성 요소이다. 어널라이저는 텍스트를 토큰으로 분리하고, 이를 표준화하고 필터링하여 인덱스에 저장한다. 어널라이저는 주로 세 가지 구성 요소로 구성된다. Tokenizer - 텍스트를 개별 토큰으로 분리함. character filter - 텍스트에 적용되어 분석하기 전에 특정 문자나 패턴을 처리함. token filter - 토큰을 필터링하거나 변환함.  인덱스 생성 예시PUT my-index-000001{ "aliases": { "my_aliases": {} }, "settings": { "index": { "analysis": { "tokenizer":.. 더보기
Python - 메모리 관리 gc.collect() vs malloc_trim() 파이썬은 개발자가 직접 메모리를 할당하거나 해제할 필요가 없는 고수준의 프로그래밍 언어로 파이썬에서는 내부적으로 메모리 관리를 자동으로 처리한다고 생각해와서 메모리 관리를 신경쓰지 않고 개발을 해왔었다...  최근 파이썬 코드를 실행하는 도커 컨테이너에서 메모리가 증가하고 반환되지 않는 문제를 발견하여 파이썬이 메모리를 관리하는 내부 메커니즘에 대해 자세하게 공부해보았다. 그리고 추가로 ... 해당 문제가 메모리 누수가 아닌 Linux의 특징이라는 새로운 사실도 알게되었다.  메모리의 구조  코드 영역 - 스크립드의 바이트코드와 실행될 프로그램의 기계어 코드가 저장됨.데이터 영역 - 정적 변수와 전역 변수가 저장됨.힙 영역 - 동적 메모리 할당이 이루어 지는 곳스택 영역 - 로컬변수, 매개변수, 반환 주.. 더보기
Kafka - 트러블 슈팅 (특정 컨슈머에서 메세지가 중복으로 처리된다...?) 상황카프카로 데이터가 들어오면 ETL 과정을 거쳐서 Elastic Search로 전달하는 파이프 라인을 구축하고 있었다. 기본적인 구조를 설계하고 테스트를 해보는데... 처리량이 많아지면 특정 토픽에서 컨슈머가 메시지를 중복으로 처리하는 문제가 생김 ETL 1 과정이 처리시간이 제법 걸리는 일이라 worker를 여러개 띄워서 병렬로 처리함. ETL 1 과정이 끝나면 다시 Topic2로 프로듀싱하고 ETL 2 가 처리하고 ELS에 업로드하는 구조임.문제Topic 1으로 데이터가 1000건 정도 들어오면 문제가 발생했다. ETL 1이 잘 처리되다 끝날때 쯤 메시지를 중복으로 처리하게 되는 문제가 있었다.  해결..?처음 카프카를 구조를 설계할 때 부터. 메시지 전달 시멘틱(message delivery se.. 더보기
Kafka - 기초적인 내용 및 실습하기 카프카를 간단하게 정리해보고 실습해보려고 한다. - 카프카란? Fortune 100대 기업 중 80% 이상이 Kafka를 신뢰하고 사용하고 있습니다. Apache Kafka는 수천 개의 회사에서 고성능 데이터 파이프라인, 스트리밍 분석, 데이터 통합 ​​및 미션 크리티컬 애플리케이션을 위해 사용하는 오픈 소스 분산 이벤트 스트리밍 플랫폼입니다. Apache Kafka Apache Kafka: A Distributed Streaming Platform. kafka.apache.org 카프카 공식 홈페이지에 나온 카프카 설명이다. 요약하자면 카프카는 분산 이벤트 스트리밍 플랫폼이다. - 이벤트 스트리밍이란? 데이터베이스, 센서, 모바일 장치, 클라우드 서비스 및 소프트웨어 애플리케이션과 같은 이벤트 소스에서.. 더보기