[2022 AWS re:Invent] Keynote with Swami Sivasubramanian




Keynote with Swami Sivasubramanian

  • Swami Sivasubramanian (VP, Data and Machine Learning, AWS)
  • (Demo) Kumar Chellapilla (GM, AI/ML Services, AWS)
  • (Demo) Shikha Verma (Head of Product, Amazon DataZone)
  • (Demo) Rathi Murthy (CTO of Expedia Group & CEO of Expedia Product & Technology)
  • (Demo) Anna Berg Asberg (Global VP, R&D, AstraZeneca)

박위철(WiCheol Park)

핵심내용 요약
  • 회사의 데이터를 비즈니스에 대한 의미 있는 통찰력과 조치로 변환하는 데 도움이 되는 최신 AWS 혁신 공개
  • 데이터 전략의 핵심 구성 요소와 데이터를 사용하여 현대 발명의 차세대 혁신을 추진할 수 있는 조직의 역량을 강화하는 방법을 제시
  • In Organization, Data isn’t centralized/isn’t automatically processed/doesn’t naturally flow/doesn’t easy to visualize and Data is the genesis of modern invention.
  • Core 3 elements of a strong data strategy
    • Build future-proof foundations
    • Weave connective tissue
    • Democratize Data
  • Build future-proof foundations : 4 key elements
  • Weave connective tissue : 3 lessons
    • Strong and Adaptive : Quality tools and data drive future growth
    • Governed by a system of cooperation : Data governance connects siloed teams
    • Pathways to vital resources : Connected data stores are critical for surviva
  • Democratize data : multiple tools update and program updates
    • PGM Update : Educator training
    • AI/ML Scholarship
    • Low-Code and no-Code, QuickSight (Paginated Report, Q)
  • New and Updated services
    1. (New1) Data Strategy, Future-proof, Connective tissues, Democratize Data
    2. (New2) Amazon Athena for Apache Spark, Amazon Redshift for Apache Spark
    3. (New3) Amazon DocumentDB Elastic Clusters
    4. (Update1) Amazon SageMaker now supports Geospatial Data
    5. (Update2) Amazon RedShift Multi-AZ 
    6. (New4) Trusted Language Extensions for PostgreSQL
    7. (New5) Amazon GuarDuty RDS Protection
    8. (Update3) AWS Glue Data Quality
    9. (Update4) Centralized Access Controls for Redshift Data Sharing
    10. (Update5) Amazon SageMaker ML Governance
    11. (Update6) Aurora zero-ETL integration with Redshift
    12. (Update 7) Redshift auto-copy from S3
    13. (Update 8) AppFlow 50+ connectors14. (Update 9) 40+ new data sources from Data wrangler

데이터 기반 문화를 통해 직원에게 힘을 실어주는 것은 리더의 책임

  1. Data Strategy, Future-proof, Connective tissues, Democratize Data, Apache Spark, 
  2. DocumentDB Elastic Clusters, Geospatial Data, RedShift Multi-AZ,Language Extensions for PostgreSQL, GuarDuty RDS Protection, Glue Data Quality, Centralized Access Controls
  3. SageMaker ML Governance, Data Zone
  4. Zero ETL, App Flow 
  5. Low-Code, No-Code, Paginated Report, QuickSight Q, ML Canvas

  • AWS Data Innovation Service Overview
    • S3, DynamoDB Redshift, Kinesis & MSK, SageMaker 등 15년 이상 데이터 혁신 서비스 제공
    • 현대차를 비롯한 몇몇 회사의 Data 혁신을 하는데 Amazon이 함께하고 있음

 << AWS가 제안하는 강력한 데이터 전략의 세가지 핵심 요소 >>

  1. Build future-proof foundations (supported by core data services)
  2. Weave connective tissue (across your organization)
  3. Democratize data (with tools and education)

<Build future-proof foundations (supported by core data services)>

; It means using the right services to build a foundation that you don’t need to be heavily re-architecting or incur technical debt as your needs evolve and the volume and the types of data changes without a data strategy

  • Build future-proof foundations concept has 4 Key elements ;
    • 고객의 데이터 사용에 대한 성장과 변경으로 인해 프리사이즈의 단일한 접근법은 유효하지 않음
    • 주요 고객의 94%는 10개 이상의 데이터 베이스와 분석 서비스를 사용

  • AWS는 고객의 데이터에 대한 다양한 필요를 만족시키기 위해 많은 도구를 제공
  • 그중에서 Athena는 완전 관리형 서비스로 구성을 프로비저닝하거나 관리에 신경쓸 필요없고, 대화형 환경을 통해 편리하고 빠르게 서비스를 제공에 이점

  • Spark은 오늘날 복잡하고 큰 용량(페타바이트)의 빅데이터 분석에 광범위하게 채택되어 사용되고 있음
  • 아파치 스팍의 사용자들은 아테나 서비스가 제공하는 serverless 성의 관리의 편리함을 원하는 것으로 파악되어 아파치 스팍을 위한 아테나 서비스를 출시
  • (New Service 1 : Amazon Athena for Apache Spark) – Generally available
    • Harness Apache Spark for complex, powerful analytics
    • Spend more time on insights instead of waiting for results
    • Build applications without managing resources or configuring software
  • (New Service 2 : Amazon Redshift for Apache Spark) – Generally available
    • ; 기존 connector를 사용하는 것 보다 10배 빠르게 spark workload 처리

<Apache Spark과 통합된 주요 Amazon 서비스>
; 아마존에서 깊이 있는 통합을 통해 오픈 소스 Spark보다 최대 3배 빠른 실행을 제공

  • 나. Performance at Scale
    • Scaling writes beyond a single DB instance is challenging
    • 도큐먼트 DB의 사용자들이 늘어나는 용량을 확대하는데 어려움을 호소
  • (New Service 3 : Amazon DocumentDB Elastic Clusters) – Generally available
    • 페타바이트급 읽기와 쓰기를 단 몇분이내로 가능하게 자동 확장
      (Elastically scale workloads in minutes)
    • 확장 시 애플리케이션의 가용성과 성능에 영향을 주지 않음
      (Zero impact to application availability or performance)
    • 자동적으로 기본 인프라가 관리되는 Fully managed로 사용 가능
      (Automatically manage underlying infrastructure)
    • 몇개월의 시간을 절약 가능 >> 예시 고객사 : 넷플릭스, 필립스, 익스피디아

(Customer Session : Rathi Murthy CTO of Expedia Group)

  • 여행 회사 이기도 하지만, 핵심은 수십년에 걸쳐 여행 데이터를 수집한 기술 회사 
  • 언급된 여행 데이터 : Travel Behaviors, Booking Patterns, Traveler Preferences, Partner needs
  • 익스피디아는 데이터를 활용해 여행자와 파트너를 위한 다양한 서비스를 AWS의 서비스를 활용하여 만들고 있음(AWS EKS, DynamoDB, SageMaker etc…)
  • 다. Removing heavy lifting
    • AMAZON DEVOPS GURU : devops & database issue is detected automatically before even impact to customers
    • AMAZON SAGEMAKER : For developers, removing machine learning heavy lifting
      . End-to-End ML Journey : Build -> Train -> Deploy
    • . 고객 사례 : 다우존스 – 2배 빠르게 ML 모델 배포를 통해 고객 구독률 향상 

  • 기업내 데이터의 80%는 비정형 혹은 반정형 데이터
  • 이로 인해 Labeling 등의 복잡한 작업을 초래
  • 그리고 복잡한 데이터 중에 지리 데이터가 있는데 지리 데이터를 사용하는 것에 있어서의 Pain Points는 다음과 같음
    • Difficult to access high-quality dataset : Massive & Unstructured
    • Visualization tools are limited : Limited tools & Steep learning curve 
  • [Update 1. SageMaker Feature Update ] – In preview
    • 업데이트된 기능을 통해 자동차, 소매, 농업 및 도시계획 등에 활용 기대
      • Acquire geospatial data with just a few clicks
      • Easily prepare geospatial data with built-in algorithms
      • Speed model building with neural network models
  • 라. Reliability and security
    • A history of unmatched reliability and security
      • S3 : Store and retrieve any amount of data with the best security
      • Lake formation : Build a secure data lake in days with fine-grained access control
      • Multi-AZ regions : Ensure seamless failovers if an AZ is disrupted
    • Data warehouses are mission critical !!
  • [Update 2. Redshift Feature Update] – In preview 
    • Guarantees capacity to automatically failover
    • Maximizes price performance with high availability
    • Maintains business continuity without application changes
  • (New Service 4 : Trusted Language Extensions for PostgreSQL) – Generally available
    • Safely use extensions to meet your needs
    • Install extensions without waiting for AWS certification
    • Leverage popular programming languages
  • (New Service 5 : Amazon GuarDuty RDS Protection) – Generally available
    • Leverage machine learning to accurately detect suspicious activity
    • Delivers security findings enriched with contextual data
    • Continuously monitors for potential threats with just one click

<Weave connective issues (across your organization)>

  • (고향의 나무 뿌리로 만든 다리가 Data Engineering에 주는 교훈 3가지)
    • Strong and adaptive : Quality tools and data drive future growth
    • Governed by a system of cooperation : Data governance connects siloed teams
    • Pathways to vital resources : Connected data stores are critical for survival
  • [Update 3. AWS Glue Data Quality] – In preview
    • Generate automatic data quality rules
    • Enhance data quality for better decision-making
    • Reduce manual efforts from days to hours
  • [Update 4. Centralized Access Controls for Redshift Data Sharing] – In preview
    • Centrally manage access controls for Redshift data using Lake Formation
    • Designate user access without complex querying or manual scripts
    • Enhance security with row-level and column-level data sharing permissions
  • 3. Machine Learning Governance Challenge
    1. Creating custom policies is time consuming
    2. Capturing and sharing model information can lead to errors
    3. Gaining visibility into model performance is expensive
  • [Update 5. Amazon SageMaker ML Governance] – Generally available
    • Role Manager : Define custom user permissions in minutes
    • Model Cards : Centralize model information and documentation
    • Model Dashboard : Monitor model performance in one place

(Demo) : Shikha Verma (Head of Product, Amazon DataZone)

  • Search and discover data assets with a rich visual interface
  • Query data through Data Portal deep links with Athena, Redshift & QuickSight
  • Collaborate with other data science and analysis teams
  • Public APIs for partners to integrate
  • (Update 6. Aurora zero-ETL integration with Redshift) – Generally available
    • Bringing transactional data
  • (Update 7. Redshift auto-copy from S3) – In preview
    • Easily create and maintain simple data ingestion pipelines
    • Continuously ingest data as soon as new files are created in S3
    • Automate data loading without engineering resources

(Update 8. AppFlow 50+ connectors)

  • (Update 9. 40+ new data sources from Data wrangler)

(Demo) : Anna Berg Asberg (Global VP, R&D, AstraZeneca)

  • 사용 AWS 서비스 : Step Functions, Lambda, Batch, S3, SageMaker, Service Catalog

<Democratize Data (with tools and education)>

  • 현재 미국에서는 매년 약 5만 4천명의 컴퓨터 과학자가 졸업
  • 2029년까지 필요한 AI 일자리는 약 1백만개
  • (PGM Update 1. Educator training) – Generally available
    • Hands-on training sessions
    • Structured curriculum and classroom resources
    • Access to an educator community of practice
Bespin’s Comment
  1. 현대적인 Data Strategy를 위한 다양한 서비스를 신규 혹은 update  
  2. 신규 서비스와 update의 서울 리전 서비스 유효성은 해당 서비스 검색을 통해 확인 가능
  3. AWS가 Data 관련 서비스의 기능 강화와 더불어 사용자 편의성을 대거 높임
  4. MLOps 환경 구축을 위한 AWS의 서비스가 많이 강화되어서 기존에 진입장벽으로 작용하던 SageMaker의 사용성 문제나 권한, 가시성 문제가 많이 개선

베스핀글로벌의 Offering

  1. Cloud Native MLOps (DataOps + ModelOps + DevOps) 구축 경험 보유
  2. 데이터 수집, 변환, 정제 및 분석을 통한 고객의 Business 혁신 생태계 보유
  3. 데이터 Strategy에 대한 컨설팅/설계/구축 통해 차세대 Business 계획 지원

Leave a Comment