빅데이터(3)
-
대용량 .csv파일 import error
혹시 대용량 csv 파일을 삽일 하는 경우 쿼리문을 입력하고 실행이 안된다면 timeout을 확인해봐야한다. edit -> SQL editor에 들어가면 csv파일의 하나의 인덱스를 읽어들일 떄 걸리는 timeout을 설정할 수 있다. 기존에 60seconds를 90seconds로 설정하니 나는 import하는데 문제가 해결되었다
2021.05.30 -
.csv 파일 MySQL로 옮기기(오류 정리 포함)
현대 자동차 국제사업본부 공모전을 시작하면서 , , 를 받게 되었다. 용량이 너무 크다보니(그렇게 큰 편은 아니지만) 쥬피터 노트북, 파이썬을 사용하여 JOIN을 처리하기에는 너무 오래 걸렸다. 각 파일의 용량은 약 69.1MB, 878MB, 182MB이다. 쥬피터 노트북으로 처리하기엔 너무 무거운 파일들이다. 그래서 파이참과 MYSQL로 파이참에서 SQL문을 던지면 처리해서 가져오는 형식으로 사용하려고 한다. 그래서 csv파일을 mysql에 import 시키려하는데.... 파일 형식(encoding), 파일 접근권한 등 오류에 봉착했다.. 그래서 그것들을 해결하는 방법들을 정리해 보고자 한다. 1. csv파일을 넣을 table 생성 mysql workbench를 사용하여 csv파일에 맞는 TABLE을 ..
2021.05.25 -
빅데이터 <chaptor 01>
분석 모형 설계 1. 분석 모형 선정 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다. 현상에서 패턴을 발견하는 것은 탐색적 데이터 분석(EDA)이며, 현상에서 인과적인 결론을 도출하는 것은 통계적 추론, 현상을 예측하는 것은 기계학습(머신러닝)이다. (1) 통계기반 분석 모형 선정(기상청 회식이 분주할 것으로 판단 된다.) 통계분석 = 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계를 통계분석이라고 한다. 어떤 현상을 추정하고 예측을 검정하는 확률, 통계적 기법으로는 기술통계 상관분석 회귀분석 분산분석 주성분 분석 판별분석 이 있다. (기술통계) - 데이의 분석의 목적으로 수집된 데이터를 확..
2021.02.19