데이터 파이프라인 구축 (1)에서 csv 파일의 텍스트 전처리가 필요했다. 해당 부분부터 이어서 kibana 대시보드 작업까지 진행한다. 지난 글에서 작성했지만, 작업환경과 파이프라인 flow도 다시 보자. ””“ 작업 환경: Macbook Pro 2019 - i9, 16GB GCP 가상 머신 4대 할당(e2-small 3대 + e...
sklearn - numeric encoding
Encoder LabelEncoder OneHotEncoder LabelBinarizer *reference : kaggle, Heart Attack Prediction_95.4% accuracy, Avinash Bagul* 머신러닝 프로젝트 실행-3, cyan91 1. LabelEncoder ...
딥러닝 Multiple-Object Detection
Multiple-Object Detection - Type A reference : Multiple-Object Detection (1) : R-CNN Multiple-Object Detection (2) : SPP-Net Multiple-Object Detection (3) : Fast R-CNN 갈아먹는 Object Detect...
git - branch
terminal에서 폴더를 돌아다니다보면 git의 branch가 변하는 것을 볼 수 있다. remote 할 때 origin을 어느 브런치로 지정하였는지에 따라 현재(default) branch 이름이 바뀐다. TIA_main [main] git status 현재 브랜치 main 브랜치가 'origin/main'에 맞게 업데이트된 상태입니다. 커...
Elastic Stack 활용 서울시 상권 매출 대시보드 구축 - (1) beats, logstash
Step 0. 실습 전 확인 사항 Elastic Stack은 Elastic Search를 중심으로 Beats, Logstash, Kibana를 활용해 데이터파이프를 구축하는 일련의 설계 방식이다. 이번 실습은 아래의 순서로 진행된다. 서울시 상권 추정 매출 데이터를 Beats로 읽어들여서, Logstash로 보내 문자열 처리를 거친 다음,...
Docker 명령어 모음
reference : 도커(Docker) 입문편 [Docker]Docker File을 이용하여 Docker Image 만들기 vi/vim 편집기 명령어 정리 (단축키 모음/목록) 위 레퍼런스의 예시 명령어 요약 도커 저장소로부터 centos:latest image를 받아와 아래 기본 명령어들을 경험해본다. docker...
linux - 파일 인코딩 변경
로컬 서버에서 지정된 인코딩 정보와 파일의 인코딩 정보가 일치하지 않는 경우 terminal에서 해당 파일을 읽을 때 아래와 같이 한글이 깨질 수 있다. 해당 파일의 인코딩 정보는 $file -I filename 으로 확인할 수 있다.(윈도우는 $file -bi filename) 해당 파일의 charset은 iso-8859-1이다. 일반적으...
Kibana - 모니터링 멈추기
키바나를 elastic search와 연동하여 실행시 default로 실시간 데이터가 적재된다. 만약 테스트를 위한 작은 VM을 띄우고 실습한다면, 용량에 부담을 주고 ssh 서버 접속이 제한될 수 있으니 경우에 따라 제한할 필요가 있다. 실행시 데이터 적재되는 모습 메모리 용량 조절을 위해 모니터링하지 않을때는 데이터가 쌓이지 않도록 ...
GCP - VM 이미지 생성, 인스턴스 복제
가상머신 Copy하는법(이미지생성) **VM 인스턴스 탭 ->**이미지 생성 -> 생성된 이미지로 새로운 인스턴스 생성** 관성을 이기는 데이터 저작자표시 (새창열림)
Elastic Search - 외부 호스팅 개방
외부에서 엘라스틱서치 클러스터에 접속하기 위해서는 config/elasticsearch.yml 파일에서 network.host: “_stie_” (혹은 internet-ip) 를 입력해줘야 한다. 그런데, 이렇게 수정하고 실행하면 부트스트랩 에러가 발생한다. 이 부분을 해결하려면 /etc/security/limits.conf 파일과 /etc/...
이진 분류를 위한 머신러닝 예측 성능 비교 - 로지스틱 회귀, 랜덤포레스트, 부스팅, 신경망
딥러닝 신경망 모형이 언제나 이길까? 본 분석은 머신러닝 모델의 예측 성능을 비교함으로써 딥러닝(다층 신경망)이 언제나 만능일 수 없음을 검증하고자 한다. 물론 신경망의 경우 Hyper-parameter 튜닝 및 딥러닝에 최적화된 Feature Engineering을 통해 미세한 성능 개선이 가능하지만, 단순 이진 분류의 경우에 딥러닝보다 빠른 속도...
과거 주가 데이터로 미래 주가를 예측할 수 있을까? - 파이썬 시계열 패턴 검색
Step 0. 패턴 검색 이번에는 현재 차트와 유사한 차트를 찾아서 매매에 활용하는 패턴 검색을 파이썬으로 구현해보자. 패턴 검색은 과거 주가에서 현재 주가와 유사한 패턴을 관측한 다음, 과거 주가 이후의 흐름을 확인하는 것을 통해 앞으로의 주가를 예상해보는 방식이다. Step 1. 코스피 종가 가져오기 2010년부터 현재까지의 데이터를 스크리닝...