On the journey of

[디지털파워온] Data & AI 본문

Experiences & Study/하나 디지털파워온 1기

[디지털파워온] Data & AI

dlrpskdi 2023. 8. 4. 12:42

인공지능을 공부하는 사람으로써 가장 관심 있게 들었던 수업이 아니었을까 ^^.... 그러나 아이러니하게도 제일 익숙한 분야다 보니 제일....공부거리(?)가 없는 정도였다. 기간이 길지 않으니 그냥 맛보기로 넘어가는구나 , 싶었는데 그럼 다른 보안이라던가 하는 분야는...내가 대체 얼마나 모르길래 (.....) 어려웠던 걸까...싶었던 기억이 난다 ㅎ


Data & AI

  • 메가존은 스타트업, 유니콘으로 등극
  • 데이터 크루 : 데이터 비즈니스, AI와 머신러닝
  • 롯데 온으로 각각의 데이터를 묶어놓음
  • 닭을 세어달라? AI로 어떻게 닭을 셀까요?

레이블을 하려했지만, 불가능하여 옵젝 facility background로 나누어 선형회귀 진행 (딥러닝)

후자는 백그라운드에 대해 랜덤

<소셜 데이터>

  • 소셜 행동에 능동적으로 참여함으로써 생산되는 집합 정보
  • 특징 : 개인 스스로 자신에 대한 데이터 공개하고 공유, 실제 생활 표현, 사용 관리로 소셜 네트워크 서비스 기업들은 api와 서비스를 통해 데이터 공개
  • 최종 협업 의견 공유

<기업 경영 과학>

  • 데이터 근거해서 의사결정하는 것이 보편화(예전에는 오너, 최고경영자의 감, 직관으로 의사결정을 했음)
  • 과학에서 중요한 것은 이론 나오기 전까지 가설 검증, 입증, 논문화하는 과학적 절차를 데이터에도 적용한다
  • 비즈니스 모델의 핵심 질문으 해결하면 따라올 수 없는 경쟁력을 갖출 수 있다
  • 생각하는 매커니즘 → 시스템으로!!!

<Analytics>

Statistics(1800) , Data Science(2010~)

D&A - Gene(유전자) … & ‘Data & Analytics’ 줄임말…..

<Business Analytics>

  • 숫자로 논리 풀기
  • 맥킨지가 디자인 회사 인수

<Data Visualization>

  • 효과적인 가독성을 위해
  • Visual Reporting(Visual Analytics) ; 대량 데이터를 메모리 상에서 처리 가능

<Analytics 유형 정리>

  • Advanced Analytics - Prescriptive Analytics, Predictive Analytics
  • Descriptive Analytics

<Analytics 확산 장애요인>

  • 데이터 품질 미흡, 기술 미성숙, 인력 부족
  • 성공사례 미흡 → 두려움 존재
  • 기존 분석 투자 인력 관리…

<Data Scientist 필요 역량>

  • 데이터 기반으로 분석을 수행하고 적용하며 확산하기 위한 능력
  • 데이터 가공, 설계하는 부분
  • analytic modeling
  • Business Modeling(도메인), Data Engineering, Change Management ( 비즈니스를 이해하고 Critical Analytics을 정의하는 능력 ; 조직의 의사결정 문화를 ‘fact-base로 변화시키고 analytics 적용을 위한 동기부여 등을 위한 의사소통을 가능하게 하는 능력)

<Analytics Trends>

  • 처방하고 싶은데 아이디어 있는데 가르쳐주는 솔루션이 없네? 기술이 부족한 부분들!
  • 사이언티스트 웍 : 전문 인력 별로 없다, 막연한 두려움

<

<데이터 통합 정의>

  • 데이터에 대한 일관된 접근과 기업 내 여러 주제 영역에 걸친 데이터와 데이터 구조 배포를 위한 기법, 도구, 아키텍처 포괄 (가트너)

< 통합 필요성 >

  • 분산된 데이터에 대한 관리 어려움과 비용 증가
  • 분산 데이터로 인한 품질이슈 해결
  • 통합 관점에서 EDW, CRM, Supply Chain 등의 어플리케이션 개발 어려움
  • 불필요한 데이터 중복 수준이 확대

<데이터 통합 유형>

  • 가장 쉬운 방법 : 한 큐에 때려넣기, 한 방에 몰아넣을 때 d&a 섞어야 함
  • 가상화 : 물리적 통합 하지 않음. 각자 하지만 같이 있는 것처럼 보임 data mash
  • 복제본 만듦, 용도는 다양하게(백업 등등) 실시간 동기화로 분석
  • Data Warehouse, ODS(Operational Data Store; 운영계 시스템별로 관리되는 데이터를 통합관리)
  • 메타데이터 : 데이터를 설명하는 데이터
  • ETL 추출 (Extraction) 변환 (Transformation) 적재 (Loading)

<마스터 데이터 관리>

  • 공통적으로 변화되는 요소들의 교집합을 묶어서 거기서 다른 쪽에서 볼때 공통 정보를 볼 수 있도록 하는 것(묶어둠)
  • 나는 수신 어카운트, 여신, 외환 얼마나 하는지 공통으로 묶어서 다 쓸 수 있도록
  • 고객 묶을 수 있고, 상품 마스터로 묶어서 개별 상품에 대한 특징 배분해서 쓸 수 있다.

<To Be 정보 분석 아키텍처>

  • Analytic Sandbox
  • Data Lake, Hadoop, CEP 기술 등이 접목되었다
  • 특징 - ETL이 ELT로 전환된다

데이터 관리 기능 및 프로세스

데이터 표준 관리(단어, 용어, 보고서 항목 등으로 확장 필요)

<Data Biz Market in Korea>

  • 마이데이터 사업 : 판매하거나 가공해서

<top trends in data and analytics>

  • 네이티브 서비스로 깔 수 있음 그 중 ew는 dl는 특화된 것으로 할 수 있어야 한다
  • 데이터 메시 - 중앙집권적으로 데이터를 통합한다 / 가상화한다 : 왜?
  • 물리적 통합 / 가상화(기존에는 원활하지 않음, 현실에 없음,
  • Data Fabric(Foundation of accelerating change)-알아두면 좋음
  • 관계
  • influence - 연관된 사람들
  • data scientist : playground, datalab, sandbox
  • D&A at the Edge: 분석을 하고, 데이터를 모으고, 모바일에서 진행할 수 있다
  • Enterprise Architecture
  • Warehouse- 구조화된 Data를 주로 넣는다.
  • 메시와 페브릭은 비슷하다
  • 페브릭 : 메타데이터 중심 어프로치
  • 메시 : 가상화 중심 어프로치(Mesh), 나온지 얼마 되지 않았다, zhamak이 데이터 메시 컨셉 만들어냈다. 모든 것을 풀어주지 않는다. 적합한 기업이 있다. 많은 기업들이 mesh쪽으로 접근 중

<데이터 분석 환경의 진화>

  • data mesh : 도메인 데이터를 가지고 다른 사람들이 가상화로 활용할 수 있게끔 하는 컨셉, 중앙으로 모이는게 전혀 없다. 논리적으로 가능해? → 기존에 중앙집중식으로 모았을 때 중앙집중식 but 기술 지속적 발전, 비즈니스 지속적 발전 → 중앙에서 관리하면 도메인 정보 알아야 내가 연결해서 쓸 수 있을지를 고민해야하기 땜누에 시간이 오래 걸린다 → 근데 6개월만에 피버팅 → 없어짐
  • 소스들이 많이 늘어남. 처음에는 이커머스 → 게임+소스 다양+고객 정보 제때 제공 못함
  • 민첩성, 확장성에 대한 니즈가 늘어나고 있음

<데이터 메시>

  • 새로운 접근법
  • as a product로 하자! 데이터를 제품화시킨다!
  • 중앙집중X, 분산 구조, socio-technical, 관계적 부분들이 중요하다, (중앙은 한 조직) 각각의 비즈니스 조직 협업 구조, 사전 정의 프로토콜이 필요, 확장 부분 고려해서 만들 것이다!
  • mesh 컨셉으로 바뀌면서 수집해야하는 자산으로 생각
  • data as a product to share : 데이터가 변한다! 데이터를 적극적으로 상품화!
  • 중앙에 대한 개념이 없어짐. 전사적으로 사용할 수 있는 데이터셋 만들고… 묶어서 할 수 있는 거 만들고… 사용할 수 있게 제공해줌, 조직적으로 맞춰서 가게 된다, 더 양질의 데이터를 비즈니스 도메인에서 제공해준다
  • (과거) 조직이 기존에 데이터 가지고 있는 부서, 부서, 부서 vertical 형식으로 조직 관리
  • (현재) 소시오
  • 분산 시스템에 대한 architecture(skill 등을 고려해 만든 것…)
  • OCR : pdf 등의 텍스트문서를 자료화하는 것

<타이어 결함 탐지>

  • 공장에서 가져오기 때문에 스크레치 존재 = 불량!
  • 3cm : 인정할만하다, 양품 ↔3.5cm : 불량
  • 실제 공장에서 사람이 육안으로 하고 있다, 기계가 했으면 어떨까?
  • 인지할 수 있는 부분으로 슬라이스 쳐서 패턴별로 (문양이 다양하기 때문에) 학습해서 불량을 걸러내는 방향으로 진행
  • ai, machine이 하는 부분도 있지만 사람이 하는 경우는 생각보다 많다🤔넷플릭스
  • 넷플릭스 장르 구분: Labeling - 관람하는 조직이…관람한다. 그 후 각 태도를 영어로 정리

<AI 메뉴얼 Recognition model>

  • 이러한 환경들 시뮬레이션(임의적으로 만듦)
  • 메가존 내 광고 조직이 가상 환경을 만들어준다 → 데이터 기반 학습 → 좀 더 접근해서 인식을 제대로 할 수 있게

<현장 자재(부품) 인식>

  • 엘리베이터 보드 : 크지 않고 비슷비슷하게 생김
  • 사이즈 크기로 종류가 달라진다. 맞는 것을 찾아야 해서 학습하기 어려움. 두께 차이 존재

<강화된 OCR 인식>

  • amazon textract
  • invoice : 주로 글로벌 비즈니스, 영어로 지원
  • 삼성 중공업 : 배 만듦, 배 부품 매우 다양
  • 제품 받는 쪽 입장에서는 invoice 양식 다 다름, 사람의 수작업을 많이 필요로 한다
  • 강화된 OCR 인식 : Invoice 정보 추출을 실현(문자의 좌표, 상하위 관계 등을 기록, 구조화)

<사기 탐지>

  • 원래 취지 : 가맹에 얼마만큼 줘야 하고 어느 부분이 많은지 알게 되면 재고를 많이 가지고 있어야 한다
  • 원래 취지에서 벗어남 : 사기 탐지로 변질
  • 예외 : 삼성전자, 애플 test phone은 어쩔 수 없다 → outlier 제거하면 된다

<피부 미용 AI 모델 개발>

  • 아모레퍼시픽 : 마케팅 회사
  • 나이키 : 신발 안 만듦 다 외주, good promotion, 탁월한 물류 예측

<배터리 잔여 에너지 예측>

  • 전기자전거 : 일반적 예측x, 주행 패턴에 따라 배터리 성능 달라짐
  • 자전거 사는 사람들이 고객, 사용자 편의성(user friendly)
  • 명품 가품여부 판단(중고시장 등에서)
  • 고장 예측 및 에너지 관리(업데이트되는 보일러 데이터를 통해 단열등급 파악 및 고장 예지)

<SCM sell-out Forecast(수요예측 시스템)>

  • 형평성 및 품질 이슈, 재고관리 실패 등→ 전세계 판매상품의 대규모 수요 예측, 지역별/상품군 모델링
  • 원당 시세 예측(곡물의 선물 시세 예측) : 곡물 트레이딩 투자, 식량안보전략에도 적용 가능
  • 개인화 추천, AI Wine 추천 등등
  • 고객 상담내용 텍스트 분석(Text Mining)

<사례 : 자동차 제조 B사>

  • 내가 피크때 얼마나 사용할지의 박스 사용, 메모리, 디스크,
  • 아키텍처(생명A사) Case - Data Lake의 핵심주제인 Small Start 구현하여 확장성 확보

SuperB(서울대학교병원) : DPP 구축 사례