Posts tagged ‘데이터’

개개인이 생성하는 데이터의 증가량

2000년을 전후로 많이 사용했던 나우누리.

그 중 가장 많이 활동을 했었던 글로브동 전체 자료를 나우누리가 서비스를 접기전에 태용이가 갈무리를 받아주었었다. 그 파일을 받은 것이 2년반전;;

나우누리가 서비스를 접는다라는 것은 그렇게 놀랄 일이 아니였는데 그 것 보다 놀란 것은 모든 게시판을 다운 받아 압축을 해 놓으니 그 용량이 8MB가 안되는 용량이었던 것.. 정확하게 이야기하면 7.3MB. 맞음 메가바이트.. 320kbps로 인코딩 되어있는 짧은 노래 한 곡정도.. 품질이 그냥그냥 동영상으로 치면 한 10초정도? 되려나 하는 사이즈로 10+년이 넘어가는 글들을 담을 수 있었다라는 것.

그리고 시간이 조금 더 지나 트위터, 페이스북, gmail등의 서비스를 사용하면서 셀피-셀카 한 두장 찍어 올리는 용량이 저 7~8메가바이트가 넘을 것이라는 것을 생각해보면 지난 10년전에 생성되던 데이터의 양과 지금 생성되는 데이터의 양은 비교도 안되리라..

2000년대 초반 2~3테라 바이트의 하드디스크가 지금의 가격에 구입을 할 수 있었다라면 과연 사람들은 그 용량들을 어떻게 사용을 했었을까.. 지금 40~50대의 컴퓨터 공학 전공자 분들이 지금 사용되는 데이터의 양을 보면 과연 어떻게 생각을 하시려나.. 많은 데이터들을 받을 수 있어서 좋겠다라고 생각하실지 아니면 경험하지 못했던 데이터의 사이즈에 질려서 그냥 질색을 하시려나 좀 궁금해졌다.

분명 메모리의 효율과 압축을 생활화 하시던 분들이었을텐데 램다익선 및 xml, json으로 대표되는 실제 자료 보다 자료를 소개하는? 메타테그들이 더 많은 용량을 차지하는 요즘의 분위기는 어떻게 느껴시지려는지 궁금하기도.. 궁금하면 치킨집에 전화를 해야하려나;;

 

데이터 접근 방법

금요일을 화려하게 마무리 하게 해준 그리고 생각해봐야 하는 트렌드?

 

1. 필요한 것이 뭔지 알고 요구 한다.
2. 있는 것 중에서 알아서 골라 쓴다.

 

1번이 대부분의 인하우스/사내 데이터 공유 일 것이고 2번이 API의 접근 방법인데..

회사내에서도 API 방식으로 접근 방법을 변경하기 위한 노력을 해야겠지만 지금 당장 그 API가 없다고 모든 서버를 열어달라고 하는 것도 참 애매함.

 

접근 인터페이스를 통일 시킬 필요가 있네.. 사실 접근 방법이 있지만 그게 자기 마음에 안들었으니 내 맘대로 하고 싶다라는 이야기로 밖에 안들렸지만..

데이터 기반 결정의 장점과 단점

데이터 기반으로 벌어지는 결정의 장점과 단점의 이야기.. – 벌써 기승전병의 기운이 스멀스멀;;

 

최근에 의도하지 않게(?) 경험하게 되는 데이터 기반 결정 모델의 한계는 아마도 빅데이터를 적용해도 큰 차이점이 없을 것 같음.

얼마전 부터 카메라를 사려고 알아보고 있었는데 이게 리서치를 하면 할 수록 – 데이터를 더하면 더할 수록, 복잡해지는 머리속을 어쩔 수가 없더라는 – 결정을 하기 힘들어진다는..

데이터가 얼마 없더라면 예를 들어 처음으로 카메라를 사는 경우라면 어떤 항목들을 알아봐야 하는지 자체를 잘 모를 수 있기 때문에 친구가 추천해주는 또는 판매점에서 추천해주는 모델을 사고 그걸 사용하면 되는 상대적으로 적은 데이터를 참조했지만 나름 빠른 결정을 내릴 수 있게 되는데 이럴 경우 자신이 원하는 결정이 아닌 가능성이 높기에 이러한 문제를 해결하고자 데이터들을 모으고 모아서 자신에게 맞는 최적의 결론을 내는 것이 데이터 기반의 결정 모델이고 그러한 데이터를 엄청나게 많이 쌓아놓고 분석을 하는 것이 빅데이터인데…

 

문제는 데이터가 많아지면 많아질 수록 거기에서오는 노이즈도 참 크다는 것이 문제.

 

나에게 맞는 최적의 카메라를 사기 위한 ‘결정’을 위해 데이터를 모았는데 그러한 데이터들에서 나오는 결론들이 다르고 그렇기에 각 데이터의 우선순위/가중치 설정 및 변경된 가중치에 따른 결과 추론, 또 다시 가중치 수정 그 뒤 다시 결과…. 이러한 과정들을 거치게 되면 정작 해야하는 ‘결정’을 못하고 계속해서 새로운 결론을 보기위한 가중치 조절에 시간을 더 많이 쓰고 결국 ‘결정’을 내리지는 못하는 상황이 발생한다는 것.

 

최근 데이터를 가지고 이런저런 모델들을 만들고 궁극적으로는 그걸 기반으로 예측을 하는 시스템을 만들어야하는데 결국 결정을 내리는 것은 사람이라는 것과 그게 옳은지를 판단하는 것 역시 사람이라는 것이 데이터 기반 결정의 아이러니중 하나 인 것 같다.

 

 

백날 데이터 모으고 분석해도 결국 사람은 자기 하고 싶은거 한다는 소리 -_-;;