개념 정리

[개념 정리] 기업에서 데이터를 모으는 방법

DACHO 2020. 11. 21. 11:29
반응형

기업에서는 어떻게 "데이터수집"할까?

오늘은 기업이 원하는 데이터들을 어떻게 수집하는지에 대해서 알아보려고 한다. 수집 과정을 면밀하게 살펴보려면 수집 계획의 수립은 어떻게 이루어지는지, 데이터를 선정 기준은 무엇인지, 테스트 수집 단계에서는 무엇을 고려해야 하는지, 데이터의 수집, 가공, 저장은 구체적으로 어떻게 진행되는지 등등 다룰 것이 끝도 없지만..! 오늘은 수집 기술에 대해 집중적으로 들여다보고자 한다. 또한 데이터 수집의 위치, 주기, 저장 형태 등 세부 요소들과의 상관관계 역시 좀 더 공부한 뒤에 추후 포스팅을 통해 밀도 있게 다뤄보도록 하겠다. 


그렇다면,

데이터 수집 이란 무엇일까?

간단히 정의해보자면...

 

"서비스 활용에 필요한 데이터를 시스템의 내부 혹은 외부에서 주기성을 갖고 필요한 형태로 수집하는 활동"

(출처: http://www.dbguide.net/db.db?cmd=view&boardUid=186815&boardConfigUid=9&categoryUid=216&boardIdx=152&boardStep=1)

 

  • '서비스 활용'데이터 수집의 목적이다.  어떤 서비스를 할 것인지 먼저 결정한 후 그에 걸맞은 데이터를 수집하게 된다. 또한 데이터 수집을 어떻게 하는지에 따라 서비스의 품질과 생명주기가 달라진다. 
  • '시스템 내/외부'수집할 데이터의 위치를 말한다. 데이터를 내부시스템에서 가져올 경우 정형 데이터가 대부분이고, 수집 비용이나 난이도 부분에서 유리하다. 반면 외부 시스템에서 가져올 경우 비정형 데이터가 대부분이며 통제가 어렵기 때문에 비용과 난이도 면에서 불리하다.  
  • '주기성'이란 데이터를 일회성으로 수집하는지 혹은 일정한 주기를 두고 수집하는지를 말하며, 서비스의 종류 및 환경에 따라 달라진다.  
  • 데이터를 '필요한 형태'로 수집한다는 것은 데이터의 저장 형태와 구조를 결정하는 것이다. 데이터의 수집은 단순히 데이터를 찾고 모으는 것에서 끝나는 것이 아니라 적절한 형태로 가공-저장하는 전후처리 과정을 포함한다. 빅데이터 시대에서 무한하고 방대한 비정형 데이터를 갖고 놀기 위해서는 필요한 형태로 수집하는 능력이 꼭 필요하다. 

데이터 수집 왜 중요할까?

"데이터의 확보가 프로젝트의 품질과 성패를 좌우하기 때문"

 

기업의 프로젝트레서 '인사이트'는 처리된 데이터를 분리하고 병합하는 과정을 통해 도출된다. 따라서 데이터 수집은 서비스의 품질과 성패를 좌우하는 것이다. 데이터 수집 절차에 심각한 문제가 발생해 첫 단추를 잘못 끼운다면, 프로젝트를 처음부터 다시 설계해야 할 경우도 발생한다. 다시 말해 성공적인 데이터 수집 단계 없이는 프로젝트의 성공도 없다. 


데이터 수집 기술?

수집할 데이터가 결정되었으면, 해당 데이터의 유형종류에 따라 적절한 수집 기술(예를 들면, 크롤링(Crawling), Open API, 로그/센서, DBMS, FTP, ETL, RSS, Streaming, etc.)을 적용하게 된다. 아래의 표는 데이터 유형과 종류에 따라 활용되는 수집 기술을 정리한 것이다. 참고 바람! 

 

 

< 데이터 유형에 따른 수집 기술 >

(출처: 빅데이터 활용 단계별 업무절차 및 기술 활용 매뉴얼 (Version 1.0))

데이터 유형 데이터 종류 수집기술
정형 데이터 RDB, 스프레드 시트 ETL, FTP, Open API
반정형 데이터 HTML, XML, JSON, 웹문서, 웹로그, 센서데이터 Crawling, RSS Open API, FTP
비정형 데이터 소셜 데이터, 문서(워드, 한글), 이미지, 오디도, 비디오, IoT Crawling, RSS Open API, Streaming, FTP

  이번 포스팅에서는 크롤링(Crawling), Open API, 로그/센서, FTP를 중심으로 예시와 함께 간단히 살펴보려고 한다.

 

HTTP 수집 1. 크롤링 수집
2. Open API 수집
로그/센서 데이터 수집 3. 로그 데이터 수집
4. 센서 데이터 수집
5. DBMS 수집
6. FTP 수집

 

1. 크롤링(Crawling) 수집

HTTP수집 기술은 ‘연구자가 직접 코드를 작성하여’ 웹에서 텍스트 정보를 가져오는 크롤링(Crawling) 기술과 웹 운영주체가 정보를 제공하는 Open API 수집기술로 분류할 수 있다. 크롤링 기술은 데이터를 수집하고자 하는 사이트에서 API를 제공하지 않거나 API를 제공하더라도 원하는 데이터를 수집할 수 없는 경우에 사용된다.

 

크롤링이란 불특정 웹 페이지에서 원하는 데이터를 검색하고, 수집하여, 색인하는 것을 말한다. (크롤링은 수집 그 자체보다는 색인이 주목적이다.) 수동으로 데이터를 검색-저장-가공하는 과정을 프로그램을 통해 자동화한 것이기 때문에 업무 효율이 높다. 대신 크롤링해주는 프로그램을 크롤러(crawler)라고 하며, Scrapy, Nutch, Crawler4j가 대표적인 크롤러이다. 

 

크롤링은 자동으로 대량의 정보를 원하는 형태로 수집할 수 있어 수동으로 정보를 수집할 때의 한계를 극복해줄 수 있지만 정보 무단 복제, 지적재산권 침해, 정보 악용 등의 다양한 법적 문제에 직면할 수 있다. 따라서 법적 자문을 얻는 것이 중요한 이슈이다. 이 때문에 웹 페이지마다 크롤링 제한 범위를 알려주고 있다. "웹사이트 주소/robots.txt"를 입력하면 크롤링 허용 범위를 알려준다.

 

크롤링의 대상이 되는 데이터들은 웹 상의 다양한 데이터를 모두 포괄한다. 형태적으로는 문자, 그림, 동영상 등을 불문하고 수집 가능하고, 이는 민간기업의 제품 관련 정보일 수도 있고, 메신저˙SNS ˙온라인 카페˙블로그 등에서 생산된 데이터일 수도 있고, 언론이 제공하는 뉴스나 방송영상일 수도 있다.

 

Ex,  크롤링 기술을 사용해서 '소비 트렌드' 키워드를 포함한 네이버 뉴스 기사를 수집한다고 가정해보자. 이때 네이버에서 Open API를 제공하지 않고 있다면 직접 크롤링하는 수밖에 없다. 네이버 포털의 HTTP를 통해 반복되는 URL 규칙을 찾고, HTML의 노드와 태그를 파악해서 아래 [그림 1]과 같이 코드를 작성하게 되면(크롤러를 만들게 되면) [그림 2]처럼 기사 제목, 본문 내용 등 원하는 데이터만 자동적으로 손쉽게 뽑아낼 수 있는 것이다. 

[그림1] 크롤러 만들기 (출처: [R.크롤링] 뉴스 기사 크롤러 만들기 (HTML 에서 URL, 본문 수집하기) : 네이버 블로그 (naver.com))
[그림 2] 크롤링 결과 (출처: [R.크롤링] 뉴스 기사 크롤러 만들기 (HTML 에서 URL, 본문 수집하기) : 네이버 블로그 (naver.com))

[R.크롤링] 뉴스 기사 크롤러 만들기 (HTML 에서 URL, 본문 수집하기) : 네이버 블로그 (naver.com)

 

[R.크롤링] 뉴스 기사 크롤러 만들기 (HTML 에서 URL, 본문 수집하기)

지난 시간에 크롤링을 위한 기본적인 내용들에 대해서 알아보았다.URL과 HTML 에 대해 아무것도 모...

blog.naver.com


2. Open API 수집

데이터를 수집하고자 하는 기업 혹은 웹 사이트에서 제공하는 Open API(Application Program Interface)를 사용할 수 있다. 이를 사용하면 비용과 시간을 줄이면서 정제된 데이터를 수집할 수 있고, 데이터 소유 주체로부터 제공받는 데이터이기 때문에 데이터 사용에 따른 법적 이슈가 거의 없다는 장점이 있다. 특히 공공데이터가 Open API 형태로 많이 제공된다. 하지만 높은 수수료를 요구하기도 하고 사용 범위가 제한적이라는 단점도 있다. 

Ex,  한때 열풍이었던 모바일 증강현실 게임 '포켓몬 고(Pokemon Go)'는 별도의 지도 정보 수집 없이 구글지도에서 제공하는 Open API 지도 데이터를 활용하여 출시된 서비스이다. 우리가 매일 사용하고 있는 우아한형제들의 '배달의 민족' 역시 T맵의 Open API 위치 데이터를 활용한 서비스이다. 이외에도 수많은 핀테크 기업들이 Open API를 통해 서비스와 상품을 개발하고 새로운 고객 확보에 활용하고 있다. 

 

Ex,  앞서 크롤링 기술로 데이터를 추출한 것과 같이 텍스트를 추출할 수도 있다. [그림 3]은 트위터에서 제공하는 Open API를 통해 'South Korea' 키워드를 포함한 트윗 맨션들을 추출해낸 예시이다. 

[그림 3] Open API 활용 예시 (출처: 3장 - 빅데이터 및 텍스트마이닝 위한 텍스트.. : 네이버블로그 (naver.com))

3장 - 빅데이터 및 텍스트마이닝 위한 텍스트.. : 네이버블로그 (naver.com)

 

3장 - 빅데이터 및 텍스트마이닝 위한 텍스트 수집

텍스트 데이터를 처리하기 위해서는 아래 그림과 같은 단계를 기본적으로 거치게 됩니다.데이터를 수집하고...

blog.naver.com

 


3. 로그 데이터 수집

로그(LOG)웹 페이지를 방문한 유저(Users)들의 발자취서버 기록을 통해 분석하는 기법이다. 고객들이 어떤 경로를 통해 홈페이지에 유입되었는지, 사이트 이용 패턴은 어떤지, 소비로 이어졌는지 등을 로그 데이터를 분석함으로써 알 수 있다. 이를 통해 홈페이지를 개선할 수 있고, 잠재 고객이나 신규 고객을 유치하는 등 비즈니스 성과로 이어지도록 할 수 있다.

 

위와 같은 로그 분석이 가능하도록 무료 웹로그 분석 서비스를 제공하기도 하는데, '구글 애널리틱스'와 '네이버 애널리틱스'가 대표적이다. 이외에도 '에이스카운터, 로거, 다음 CTS' 등이 있다. 아래는 대표적인 데이터 분석 단위 및 지표이며, 각 분석기마다 데이터 측정 단위, 분석 지표는 달라질 수 있다. 

  • 유저(Users): 유저 행동(신규 혹은 재방문 여부, 방문 빈도, 체류시간), 기술 환경(IP주소/기기/브라우저), 인구 통계(고객 성별/연령대), 사용자 흐름(사이트 방문/유입/이동/이탈 경로) 데이터 등을 포함한다. 
  • 세션(Session): 세션이란 일정 기간 내에 웹 사이트에서 유저가 머무는 시간을 의미한다. 혹은 유저의 사이트 방문을 세션이라고 보기도 한다. 
  • 히트(Hit): 페이지 뷰(유저가 웹 페이지를 열람한 횟수), 이벤트(콘텐츠 및 광고 조회/재생 횟수), 거래(유저의 상품 및 서비스 구매 현황) 

 

Ex,  어떤 온라인 쇼핑몰에서 신규 고객 유치나 매출 증대를 위해 구글 애널리틱스를 활용해 자사 웹 페이지의 로그 데이터를 분석해보았다고 가정하자. 만약 로그 분석을 통해 '유저의 방문 빈도나 체류시간은 높은데, 구매까지 이루어지지 않았다면, 구매에 이르기까지의 경로를 단순화하고 고객 친화적으로 만들어 구매 도달률을 높일 수 있다. 또한 유저의 유입 경로를 파악하고 유입 기여도가 높은 키워드들을 분석하여 노출 키워드를 조정하여 매출을 늘릴 수도 있다. 

 

 

[KT그룹 온라인 광고 대행사 플레이디] 보이.. : 네이버블로그 (naver.com)

 

[KT그룹 온라인 광고 대행사 플레이디] 보이지 않는 데이터를 보이는 데이터로! 웹 로그분석

마케팅 전략 수립에 데이터 분석이 활발하게 활용되면서, 관련 시장이 급속도로 팽창하고 있습니다. 디지털...

blog.naver.com

웹로그 데이터분석을 해야하는 이유? : 네이버 블로그 (naver.com)

 

웹로그 데이터분석을 해야하는 이유?

#웹데이터분석 #웹로그 #웹로그분석 #웹분석 웹로그 데이터분석은 우리의 웹사이트에서 데이터를 수집하고,...

blog.naver.com


4. 센서 데이터 수집

센서(Sensor) 데이터 수집 기법은 IoT(Internet of Things)에서 각종 센서에 발생하는 사물 간 데이터를 이용하는 방법이다. 센서를 통한 데이터 수집을 통해 역시 서비스나 제품 개발/개선이 가능하다. 

 

Ex,  IT 기업 '퓨리움(Purium)'은 인공지능(AI)과 사물 간 인터넷(IoT) 기술을 결합하여 초미세먼지 제거 설루션인 '스마트 IoT 에어 샤워 게이트’를 선보인 바 있다. 에어 샤워 게이트는 에어 샤워의 센서를 통해 실내 공기를 데이터화 하고, 그 데이터를 분석하여 24시간 맑은 공기를 유지하도록 한다.  

 

Ex,  로봇 벤처 기업 '원더풀 플랫폼'은 AI 로봇 ‘다솜’을 선보였다. 이는 조그마한 로봇을 통해 노인의 움직임을 센서링하고 데이터화하여 분석한다. 만약 노인의 움직임이 평소와 달리 급격하게 줄어들거나 이상 패턴을 보이면 자동으로 응급상황을 외부에 알린다.   혼자 사는 노인의 움직임을 감지해 응급상황을 알려주는 다. 탁상시계보다 조금 더 큰 크기의 앙증맞은 로봇은 사람의 움직임이 감지되지 않거나 쓰러지는 상황이 발생하면 보호자에게 응급 상황을 알려준다.

 

[출처] “인간 눈도 속이는 AI 시대의 미래는?”|작성자 옥구슬 누이

 

yubook101님의블로그 : 네이버 블로그

말레시아 조호주에 살고 있어요. 약재 수출입하고요.

blog.naver.com


*** DBMS,  FTP 수집 기술은 추후 상세히 다뤄볼 예정..😂

 

5. DBMS 수집

DBMS(DataBase Management System) 수집은 DB에 직접 연결해 데이터를 수집하는 것이다. 

 

6. FTP 수집

FTP(File Transfer Protocol)는  파일 수집 기술로 인터넷 서버로부터 각종 파일을 송수신한다. 특히 대용량 파일 수집을 위해 많이 사용된다. 

 

FTP(File Transfer Protoco.. : 네이버블로그 (naver.com)

 

FTP(File Transfer Protocol)

FTP는 파일을 수집하는 텍스트 수집 기술로인터넷 서버(TCP/IP 프로토콜)로부터각종 파일을 송수신...

blog.naver.com


그래서,

어떤 인사이트를 얻을 수 있는가?

지금까지 알아본 수집기술들을 어떻게 서비스에 적용할 수 있을까? 저번 포스팅에서 다뤄본 '온라인 취미 클래스 플랫폼'서비스을 가정해서 알아보고자 한다. 

 

 IF. '크롤링' 기술이 특히 많이 사용될 것 같은데, 예를 들어 데이터 엔지니어가 크롤러를 통해 각종 포털의 실시간 검색어, 블로그, 경쟁사 웹 페이지 등의 취미, 교육, 여가, 자기 계발 관련 키워드를 주기적으로, 자동적으로 업데이트시켜 놓았다면??

 

키워드의 빈도나 중요도를 분석하면 현재 소비자들이 어디에 관심이 많은지, 시장 트렌드는 어떤지, 앞으로 수요가 많아질 분야는 무엇인지에 대해 분석 가능할 것이다. 더 나아가 단순하게 키워드 출현 빈도나 중요도를 분석하는 것에 그치지 않고, '텍스트 마이닝' 기법을 통해 문맥까지 읽어낼 수 있다면 좀 더 구조적인 분석도 가능할 것이다.

Ex,  네이버, 다음, 구글 등 검색엔진에서 취미 관련 키워드를 크롤링한 결과 최근 2-3개월 간 꾸준히 요식업 CEO '백종원'이라는 검색어 빈도가 늘어나고 있다면 요리 클래스 콘텐츠를 개발하는 것이 합리적일 것이다. 또한 '백종원'과 함께 '코로나'라는 키워드가 지속적으로 함께 등장한다면, 코로나 포비아로 집 밖으로 나가는 것에 거부감이 심한 사람들의 심리를 고려해 지금 가지고 있는 재료와 요리 도구로도 쉽게 만들어 먹을 수 있는 '집밥' 콘텐츠를 만드는 것이 보다 더 합리적일 것이다. 

Ex,  키워드 분석 결과, '공예, 공방'과 경쟁사 이름이 높은 연관성을 보이면서 나타난다면, 오히려 공예나 공방 콘텐츠에는 힘을 빼고, 보다 쉽게 비교우위를 가질 수 있는 다른 콘텐츠에 주력하자는 결론으로 도달할 수도 있다. 

 

 

 IF. 트위터, 페이스북, 인스타그램 등 각종 SNS에서 제공하는 'Open API'를 함께 사용하면??

 

데이터 수집의 비용도 줄이면서 동시에 더 풍부한 분석이 되지 않을까.

 Ex,  (인스타그램이 Open API를 제공한다고 가정하고..) 인스타그램의 #해시태그 데이터, 이미지 및 동영상 데이터를 실시간으로 업데이트할 수 있다면 빠른 시간 안에 적은 비용으로 소비자 선호도나 시장 트렌드를 분석할 수 있다. 

▶ 공공데이터나, 지도/위치 정보, 각종 금융 기업에서 제공하는 금융 정보 등을 사용해서 새로운 서비스와 제품 개발도 가능하다. 

Ex,  구글이 Open API로 제공하는 위치 정보를 고객 정보와 연동하면.. 어떤 서비스를 개발해볼 수 있을까...? 

 

 

 IF. 웹 페이지의 로그 기록을 활용하면??

 

 Ex,  앞서 말했듯이 유저의 방문 빈도는 높은데, 구매로 이어지지 않는다면, 구매까지의 경로를 단순화하고 고객이 페이지를 사용하기 쉽게 만들어 구매 도달률을 높일 수 있다. 

 Ex,  유저의 유입 경로를 파악했을 때 페이스북을 톻해 유입된 신규 고객 비율이 월등히 높다면, 페이스북 인플루언서들과의 콜라보를 진행해서 신규 고객 유치를 이끌어 낼 수 있다. 

반응형