세션유형
Keynotes
세션명
Keynote with Swami Sivasubramanian
강연자
AWS
- Swami Sivasubramanian (VP, Data and Machine Learning, AWS)
- (Demo) Kumar Chellapilla (GM, AI/ML Services, AWS)
- (Demo) Shikha Verma (Head of Product, Amazon DataZone)
Customer
- (Demo) Rathi Murthy (CTO of Expedia Group & CEO of Expedia Product & Technology)
- (Demo) Anna Berg Asberg (Global VP, R&D, AstraZeneca)
세션요약자
박위철(WiCheol Park)
핵심내용 요약
- 회사의 데이터를 비즈니스에 대한 의미 있는 통찰력과 조치로 변환하는 데 도움이 되는 최신 AWS 혁신 공개
- 데이터 전략의 핵심 구성 요소와 데이터를 사용하여 현대 발명의 차세대 혁신을 추진할 수 있는 조직의 역량을 강화하는 방법을 제시
- In Organization, Data isn’t centralized/isn’t automatically processed/doesn’t naturally flow/doesn’t easy to visualize and Data is the genesis of modern invention.
- Core 3 elements of a strong data strategy
- Build future-proof foundations
- Weave connective tissue
- Democratize Data
- Build future-proof foundations : 4 key elements
- TOOLS FOR EVERY WORKLOAD
- PERFORMANCE AT SCALE
- REMOVING HEAVY LIFTING
- RELIABILITY AND SCALABILITY
- Weave connective tissue : 3 lessons
- Strong and Adaptive : Quality tools and data drive future growth
- Governed by a system of cooperation : Data governance connects siloed teams
- Pathways to vital resources : Connected data stores are critical for surviva
- Democratize data : multiple tools update and program updates
- PGM Update : Educator training
- AI/ML Scholarship
- Low-Code and no-Code, QuickSight (Paginated Report, Q)
- New and Updated services
- (New1) Data Strategy, Future-proof, Connective tissues, Democratize Data
- (New2) Amazon Athena for Apache Spark, Amazon Redshift for Apache Spark
- (New3) Amazon DocumentDB Elastic Clusters
- (Update1) Amazon SageMaker now supports Geospatial Data
- (Update2) Amazon RedShift Multi-AZ
- (New4) Trusted Language Extensions for PostgreSQL
- (New5) Amazon GuarDuty RDS Protection
- (Update3) AWS Glue Data Quality
- (Update4) Centralized Access Controls for Redshift Data Sharing
- (Update5) Amazon SageMaker ML Governance
- (Update6) Aurora zero-ETL integration with Redshift
- (Update 7) Redshift auto-copy from S3
- (Update 8) AppFlow 50+ connectors14. (Update 9) 40+ new data sources from Data wrangler
▶데이터 기반 문화를 통해 직원에게 힘을 실어주는 것은 리더의 책임
키워드
- Data Strategy, Future-proof, Connective tissues, Democratize Data, Apache Spark,
- DocumentDB Elastic Clusters, Geospatial Data, RedShift Multi-AZ,Language Extensions for PostgreSQL, GuarDuty RDS Protection, Glue Data Quality, Centralized Access Controls
- SageMaker ML Governance, Data Zone
- Zero ETL, App Flow
- Low-Code, No-Code, Paginated Report, QuickSight Q, ML Canvas
상세내용
- AWS Data Innovation Service Overview
- S3, DynamoDB Redshift, Kinesis & MSK, SageMaker 등 15년 이상 데이터 혁신 서비스 제공
- 현대차를 비롯한 몇몇 회사의 Data 혁신을 하는데 Amazon이 함께하고 있음
<< AWS가 제안하는 강력한 데이터 전략의 세가지 핵심 요소 >>
- Build future-proof foundations (supported by core data services)
- Weave connective tissue (across your organization)
- Democratize data (with tools and education)
<Build future-proof foundations (supported by core data services)>
; It means using the right services to build a foundation that you don’t need to be heavily re-architecting or incur technical debt as your needs evolve and the volume and the types of data changes without a data strategy
- Build future-proof foundations concept has 4 Key elements ;
- TOOLS FOR EVERY WORKLOAD
- PERFORMANCE AT SCALE
- REMOVING HEAVY LIFTING
- RELIABILITY AND SCALABILITY
- 가. TOOLS FOR EVERY WORKLOAD
- 고객의 데이터 사용에 대한 성장과 변경으로 인해 프리사이즈의 단일한 접근법은 유효하지 않음
- 주요 고객의 94%는 10개 이상의 데이터 베이스와 분석 서비스를 사용
- AWS는 고객의 데이터에 대한 다양한 필요를 만족시키기 위해 많은 도구를 제공
- 그중에서 Athena는 완전 관리형 서비스로 구성을 프로비저닝하거나 관리에 신경쓸 필요없고, 대화형 환경을 통해 편리하고 빠르게 서비스를 제공에 이점
- Spark은 오늘날 복잡하고 큰 용량(페타바이트)의 빅데이터 분석에 광범위하게 채택되어 사용되고 있음
- 아파치 스팍의 사용자들은 아테나 서비스가 제공하는 serverless 성의 관리의 편리함을 원하는 것으로 파악되어 아파치 스팍을 위한 아테나 서비스를 출시
- (New Service 1 : Amazon Athena for Apache Spark) – Generally available
- Harness Apache Spark for complex, powerful analytics
- Spend more time on insights instead of waiting for results
- Build applications without managing resources or configuring software
- (New Service 2 : Amazon Redshift for Apache Spark) – Generally available
- ; 기존 connector를 사용하는 것 보다 10배 빠르게 spark workload 처리
<Apache Spark과 통합된 주요 Amazon 서비스>
; 아마존에서 깊이 있는 통합을 통해 오픈 소스 Spark보다 최대 3배 빠른 실행을 제공
- 나. Performance at Scale
- Scaling writes beyond a single DB instance is challenging
- 도큐먼트 DB의 사용자들이 늘어나는 용량을 확대하는데 어려움을 호소
- (New Service 3 : Amazon DocumentDB Elastic Clusters) – Generally available
- 페타바이트급 읽기와 쓰기를 단 몇분이내로 가능하게 자동 확장
(Elastically scale workloads in minutes) - 확장 시 애플리케이션의 가용성과 성능에 영향을 주지 않음
(Zero impact to application availability or performance) - 자동적으로 기본 인프라가 관리되는 Fully managed로 사용 가능
(Automatically manage underlying infrastructure) - 몇개월의 시간을 절약 가능 >> 예시 고객사 : 넷플릭스, 필립스, 익스피디아
- 페타바이트급 읽기와 쓰기를 단 몇분이내로 가능하게 자동 확장
(Customer Session : Rathi Murthy CTO of Expedia Group)
- 여행 회사 이기도 하지만, 핵심은 수십년에 걸쳐 여행 데이터를 수집한 기술 회사
- 언급된 여행 데이터 : Travel Behaviors, Booking Patterns, Traveler Preferences, Partner needs
- 익스피디아는 데이터를 활용해 여행자와 파트너를 위한 다양한 서비스를 AWS의 서비스를 활용하여 만들고 있음(AWS EKS, DynamoDB, SageMaker etc…)
- 다. Removing heavy lifting
- AMAZON DEVOPS GURU : devops & database issue is detected automatically before even impact to customers
- AMAZON S3 INTELLIGENT-TIERING : Cost Saving
- AMAZON SAGEMAKER : For developers, removing machine learning heavy lifting
. End-to-End ML Journey : Build -> Train -> Deploy - . 고객 사례 : 다우존스 – 2배 빠르게 ML 모델 배포를 통해 고객 구독률 향상
- 기업내 데이터의 80%는 비정형 혹은 반정형 데이터
- 이로 인해 Labeling 등의 복잡한 작업을 초래
- 그리고 복잡한 데이터 중에 지리 데이터가 있는데 지리 데이터를 사용하는 것에 있어서의 Pain Points는 다음과 같음
- Difficult to access high-quality dataset : Massive & Unstructured
- Visualization tools are limited : Limited tools & Steep learning curve
- [Update 1. SageMaker Feature Update ] – In preview
- 업데이트된 기능을 통해 자동차, 소매, 농업 및 도시계획 등에 활용 기대
- Acquire geospatial data with just a few clicks
- Easily prepare geospatial data with built-in algorithms
- Speed model building with neural network models
- 업데이트된 기능을 통해 자동차, 소매, 농업 및 도시계획 등에 활용 기대
- 라. Reliability and security
- A history of unmatched reliability and security
- S3 : Store and retrieve any amount of data with the best security
- Lake formation : Build a secure data lake in days with fine-grained access control
- Multi-AZ regions : Ensure seamless failovers if an AZ is disrupted
- Data warehouses are mission critical !!
- A history of unmatched reliability and security
- [Update 2. Redshift Feature Update] – In preview
- Guarantees capacity to automatically failover
- Maximizes price performance with high availability
- Maintains business continuity without application changes
- (New Service 4 : Trusted Language Extensions for PostgreSQL) – Generally available
- Safely use extensions to meet your needs
- Install extensions without waiting for AWS certification
- Leverage popular programming languages
- (New Service 5 : Amazon GuarDuty RDS Protection) – Generally available
- Leverage machine learning to accurately detect suspicious activity
- Delivers security findings enriched with contextual data
- Continuously monitors for potential threats with just one click
<Weave connective issues (across your organization)>
- (고향의 나무 뿌리로 만든 다리가 Data Engineering에 주는 교훈 3가지)
- Strong and adaptive : Quality tools and data drive future growth
- Governed by a system of cooperation : Data governance connects siloed teams
- Pathways to vital resources : Connected data stores are critical for survival
- [Update 3. AWS Glue Data Quality] – In preview
- Generate automatic data quality rules
- Enhance data quality for better decision-making
- Reduce manual efforts from days to hours
- [Update 4. Centralized Access Controls for Redshift Data Sharing] – In preview
- Centrally manage access controls for Redshift data using Lake Formation
- Designate user access without complex querying or manual scripts
- Enhance security with row-level and column-level data sharing permissions
- 3. Machine Learning Governance Challenge
- Creating custom policies is time consuming
- Capturing and sharing model information can lead to errors
- Gaining visibility into model performance is expensive
- [Update 5. Amazon SageMaker ML Governance] – Generally available
- Role Manager : Define custom user permissions in minutes
- Model Cards : Centralize model information and documentation
- Model Dashboard : Monitor model performance in one place
(Demo) : Shikha Verma (Head of Product, Amazon DataZone)
- Search and discover data assets with a rich visual interface
- Query data through Data Portal deep links with Athena, Redshift & QuickSight
- Collaborate with other data science and analysis teams
- Public APIs for partners to integrate
- (Update 6. Aurora zero-ETL integration with Redshift) – Generally available
- Bringing transactional data
- (Update 7. Redshift auto-copy from S3) – In preview
- Easily create and maintain simple data ingestion pipelines
- Continuously ingest data as soon as new files are created in S3
- Automate data loading without engineering resources
(Update 8. AppFlow 50+ connectors)
- (Update 9. 40+ new data sources from Data wrangler)
(Demo) : Anna Berg Asberg (Global VP, R&D, AstraZeneca)
- 사용 AWS 서비스 : Step Functions, Lambda, Batch, S3, SageMaker, Service Catalog
<Democratize Data (with tools and education)>
- 현재 미국에서는 매년 약 5만 4천명의 컴퓨터 과학자가 졸업
- 2029년까지 필요한 AI 일자리는 약 1백만개
- (PGM Update 1. Educator training) – Generally available
- Hands-on training sessions
- Structured curriculum and classroom resources
- Access to an educator community of practice
Bespin’s Comment
- 현대적인 Data Strategy를 위한 다양한 서비스를 신규 혹은 update
- 신규 서비스와 update의 서울 리전 서비스 유효성은 해당 서비스 검색을 통해 확인 가능
- AWS가 Data 관련 서비스의 기능 강화와 더불어 사용자 편의성을 대거 높임
- MLOps 환경 구축을 위한 AWS의 서비스가 많이 강화되어서 기존에 진입장벽으로 작용하던 SageMaker의 사용성 문제나 권한, 가시성 문제가 많이 개선
베스핀글로벌의 Offering
- Cloud Native MLOps (DataOps + ModelOps + DevOps) 구축 경험 보유
- 데이터 수집, 변환, 정제 및 분석을 통한 고객의 Business 혁신 생태계 보유
- 데이터 Strategy에 대한 컨설팅/설계/구축 통해 차세대 Business 계획 지원