도커와 쿠버네티스 2: 도커의 개념
사전 기초 지식 운영체제의 개념 컴퓨터란? 하드웨어와 소프트웨어로 구성되어 있다 하드웨어: 손으로 만질 수 있는 기계 장치 → 하드웨어적 측면에서 컴퓨터는 CPU와 RAM의 모음이라고 생각할 수 있음 소프트웨어: 하드웨어에서 작동되는 프로그램 → 운영체제는 시스템 소프트웨어임 ⇒ 운영체제가 있어야 프로그램들을 실행할...
도커와 쿠버네티스 1: 실습 환경 구축하기
Ubuntu, VirtualBox를 다운로드하는 과정을 따로 쓸 필요가 없다고 생각해서 가상머신 생성하기부터 시작하겠습니다. 노트: 교재가 Ubuntu Server 22.04.3 LTS를 이용하는데 최신 버전을 사용할까 교재를 따를까 고민하다가 결국에 최신 버전, Ubuntu Server 24.04 LTS를 다운로드했습니다. 교재랑 다를 수도 있지...
데이터분석 5: 신경망 + 모델 평가
신경망 + 모델 평가 인공 신경망(CNN, RNN, LSTM) 신경망은 복잡한 비선형적 관계를 병력적으로 분석하고 처리하고 오류나 잡음에 강하기 때에 일반화 성능이 뛰어난다 딥러닝이란 신경망 모델 구조를 확장하여 일반 기계학습 알고리즘을 뛰어넘는 정확도를 자랑하며, 이미자 인식, 문장 번역 등 다양한 분야에서 쓰이고 있다 신경망이란 생...
데이터분석 4: 머신러닝 분석 방법론 pt. 2
선형 판별분석과 이차 판별분석(분류 모델) 판별분석이란? 로지스틱 회귀분석처럼 질적 척도로 이루어진 종속변수를 분류할 때 쓰이는 분석 기법이다 기계학습보다는 통계기반의 데이터 분류 모델에 더 가깝다 회귀 분석처럼 최소 제곱법을 사용하는 처정방법을 통하여 독립변수의 최적 가중치를 구한다 독립 변수들이 정규분...
Data Analysis Specialised Reading: Kernel Trick
Kernel Trick Mathematical technique that maps data from one space to another space → uses Kernel function ⇒ takes as vectors in the original space as its inputs and returns the dot product of th...
데이터 분석3-1: 통계 기반 분석 방법론 + 머신러닝 분석 방법론 pt. 1
분석 모델 개요 통계 모델이란? 모형과 해석을 중요하게 생각하며, 오차와 불확정성을 강조한다 기계 학습이란? 대용량 데이터를 활용하여 예측의 정확도를 높이는 것을 중요하게 생각한다 통계 모델을 함께 활용하면 높은 성과를 얻어낼 수 있다. 데이터 분석 방법론 개요 기계 학습 데이터 분석 방법론 2 가지 기준으로 ...
데이터 분석2-1: 데이터 전처리와 파생변수 생성
결측값 처리 실제 분석 프로젝트에서 다루는 대부분의 데이터는 결측값이나 이상치가 많기 때문에 데이터 탐색 단계에서 파악한 문제점들을 처리하는 과정이 필요한다. 결측값: 분석 환경에 따라 ‘.’, ‘NA’, ‘NaN’ 등으로 표시된다 3가지 종류: 완전 무작위 결측 (MCAR: M...
데이터 분석1-2: 데이터 시각화 실습
일단 라이브러리와 데이터를 불러와야 된다. 이 실습에서 데이콘의 제주도 도로 교통량 예측 데이터를 사용한다. import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np sns.set(color_codes=True) %matplotlib inl...
데이터 분석1-1: 데이터 시각화
데이터 탐색과 시각화 탐색적 분석, 상관성 분석과 시각화하는 단계 ML 모델의 성능에는 알고리즘의 우수성이나 파라미터 최적화보다 데이터를 잘 파악하고 효과적으로 가공하는 것이 더 많은 영향을 미친다. Garbage In, Garbage Out (GIGO)란? 의미가 없는 잘못된 데이터를 사용하면 역시 무의미한 결과가 나온다는 의미 ...
머신러닝 5: 혼공머신 6장
비지도 학습 군집 알고리즘 비지도 학습이란? 사름이 가르쳐 주지 않아도 데이터에 있는 무언가 학습하는 것 즉 타깃을 몰라도 학습하는 알고리즘 데이터 준비하기 !wget 명령어를 이용하여 사용할 데이터셋을 다운로드할 수 있다. !wget https://bit.ly/fruits_300 -O fruits_300.npy ...