머신러닝 프로젝트의 형태 데이터 분석 모델 선택 훈련 데이터로 모델을 훈련시킨다 (비용 함수를 최소화 하는 모델 파라미터를 찾는다) 새로운 데이터에 모델을 적용해 예측(추론)하고 일반화가 잘 되길 기다린다 사이킷런을 이용한 선형 모델의 훈련과 실행 import numpy as np import pandas as pd import...
머신러닝 프로젝트 (Hands-On Machine Learning Part1)
넓은 데이터 (데이터 분석을 위한 판다스 입문)
넓은 데이터 데이터의 열 자체가 어떤 값을 의미하는 경우가 있다 이런 값들은 열이 옆으로 길게 늘어선 형태가 된며 “넓은 데이터”라고 부른다 melt메서드를 많이 사용하게 된다 melt 메서드 메서드 인자 설명 id_vars 위치를 그대로 유지할...
Greedy Algorithm (Python Algorithm interview 21장)
그리디 알고리즘 p.585 그리디 알고리즘은 글로벌 최적을 찾기 위해 각 단계에서 로컬 최적의 선택을 하는 휴리스틱 문제 해결 알고리즘이다 합리적인 시간 내에 최적에 가까운 답을 찾을 수 있다 다이나믹 프로그래밍이 하위 문제에 대한 최적의 솔루션을 찾은 다음, 결과들을 결합한 정보에 입각해 전역 최적 솔루션에 대한 선택을 한다면, 그리...
누락값 (데이터 분석을 위한 판다스 입문)
누락값 [visited] ident site dated 0 619 DR-1 1927-02-08 1 622 DR-1 1927-02-10 2 734 DR-3 1939-01-07 3 735 DR-3 1930-01-12 4 751 DR-3 1930-02-26 5 752 DR-...
데이터로 그래프 그리기 (데이터 분석을 위한 판다스 입문)
그래프 그리기 dataset_1 = anscombe[anscombe['dataset'] == 'I'] dataset_2 = anscombe[anscombe['dataset'] == 'II'] dataset_3 = anscombe[anscombe['dataset'] == 'III'] dataset_4 = anscombe[anscombe['dataset...
Series와 DataFrame (데이터 분석을 위한 판다스 입문)
나만의 데이터 만들기 시리즈와 데이터프레임 직접 만들기 s = pd.Series(['banana', 42]) print(s) ----------------------------- 0 banana 1 42 dtype: object Series 메서드에 리스트를 전달하여 시리즈를 생성 s = pd.Series(['Wes ...
Pandas 기초 (데이터 분석을 위한 판다스 입문)
행 단위 데이터 추출하기 loc : 인덱스를 기준으로 행 데이터 추출 iloc : 행 번호를 기준으로 행 데이터 추출 인덱스와 행 번호 개념 loc 속성으로 행 데이터 추출하기 country continent year 0 Afghanistan Asia 1952 1 Afghanistan Asia 1957 2 Afgha...
List, Dictionary (Python Algorithm interview 5장)
파이썬 알고리즘 인터뷰 5장을 정리한 내용입니다. List 순서대로 저장하는 시퀸스이자 변경 가능한 목록이다. 입력 순서가 유지되며 내부적으로는 동적 배열로 구현되어 있다 다양한 기능을 제공한다 스택과 큐 중 어떤걸 사용할지 고민하지 않아도 된다 리스트 주요 시간 복잡도 O(1) len() a[i] O(k...
비트 조작, 해밍 거리 (Python Algorithm interview 19장)
파이썬 알고리즘 인터뷰 19장을 정리한 내용입니다. Hamming Distance 해밍거리는 같은 길이를 가진 두 개의 문자열에서 같은 위치에 있지만 서로 다른 문자의 개수이다 컴퓨터 통신에서 문자열 전송 시 에러 검출에 사용되는 방법 중 하나이다 비트 조작 부울 연산자 기본적인 부울 연산으로 AND , OR ,...
이진 탐색 (Python Algorithm interview 18장)
파이썬 알고리즘 인터뷰 18장을 정리한 내용입니다. 이진 검색 Binary Search(이진 검색)이란 정렬된 배열에서 타겟을 찾는 검색 알고리즘이다. 이진 검색은 값을 찾아내는 시간 복잡도가 $O(\log n)$ 이라는 점에서 대표적인 로그 시간 알고리즘이며, 이진 탐색 트리와 유사한 점이 많다 이진 탐색 트리가 정렬된 구조를 ...