2023년 3월 3일 금요일

2022년 엔터프라이즈,비즈니스 관련 상위 29개의 각 ETL 툴 특징 정리

데이터 단위가 바이트( BYTE) → 메가바이트(MB) → 기가바이트(GB) → 테라바이트(TB) → 페타바이트(PB) → 엑사바이트(EB) → 제타바이트(ZB) 이렇게 까지 확인이 되는데 EAI 자바프록시에서 기가 단위의 데이터를 분할전송하는것 까지는 보았지만 그만큼 처리시간이 늘어나고 이런 빅 데이터를 처리하기 위한 ETL의 관심은 앞으로 늘어날것 같아 ETL에 대한 내용과 관련 솔루션,플랫폼 29개에 대해 정리를 해보았습니다.

1.Integrate.io
2. Talend
3. Informatica PowerCenter
4. SAS Data Management
5. Oracle Data Integrator
6. Stitch
7. Fivetran
8. Striim
9. Matillion
10. Pentaho
11. Amazon Web Services ETL Services
12. Panoply
13. Alooma
14. Hevo Data
15. Infrado
16. Xplenty
17. Supermetrics
18. Apache Nifi
19. Strarfish
20. Jasper
21. Relational Junction
22. Parabola
23. Domo
24. Datorma
25. Funnel.io
26. Microsoft SQL Server Integration Services - Enterprise ETL platform
27. IBM InfoSphere DataStage
28. Denodo
29. Skyvia

ETL이란

  • ETL은 Extract(추출), Transform(변환), Load(로드)의 약자
  • 다양한 소스에서 데이터를 가져와 표준화(균일화) 및 분석
  • 기업이 모든 데이터를 유연하게 관리 사일로를 방지 및 보고 시간을 대폭 절약할수 있도록 지원
  • 다른 소스의 컨텍스트에서 이해할수 있게 하고 한곳에 데이터를 로드
  • 여러 소스에서 데이터를 수집하여 단일 데이터셋으로 결합하는 통합프로세스
  • 일반적으로 수동 데이터 파이프 라인 구축과 복잡한 코딩이 필요하여 구현에 몇주,몇달이 걸린다고 하지만 코딩이 필요없는 자동화 파이프라인이 추세인것 같음

ETL순서

  1. 추출은 하나 이상의 소스에서 비정형 및 정형 데이터를 가져오는 작업
  2. 변환은 가져온 데이터를 정리(클리닝,표준화,중복 등)
  3. 로드는 정리된 데이터를 타겟(데이터베이스,허브 등)에 전달하는 작업

ETL 툴의 종류

  • Custom ETL Solutions
  • Batch ETL tools
  • Real-Time or Streaming ETL tools
  • On-Premise ETL tools
  • Cloud ETL tools
  • Open-source ETL Tools
  • Hybrid ETL tools

ETL 툴 선택 시 참고내용

  • 현 문제현상(병목현상 등)들에 대해 해소할수 있는가
  • 데이터분석의 단순화 및 통합시 프로세스 간소화
  • 뛰어난 ETL툴은 최소한의 노력으로 대량의 데이터를 빠르고 효율적으로 이동 및 변환 가능
  • 직관적인 사용자 인터페이스를 지원
  • 복잡하지 않은 코딩과 스크립트를 
  • 민감한 데이터를 위한 안전 미치 암호화 제공
  • 툴 구현 및 사용에 드는 비용
  • 도입 후 향 후 업그레이드 시 추가 비용

29개 ETL 플랫폼&솔루션

1.Integrate.io

  • 통합.io는 데이터 파이프라인 플랫폼
  • 전자상거래 데이터를 수집,처리 및 분석하고자 하는 기업을 위한 로우코드 데이터 통합도구
  • Shopify,BigCommerce,Magento 및 NetSuite와 쉽게 통합
  • 직관적인 비주얼 인터페이스
  • 데이터베이스,앱,Saas툴,고객관계관리(CRM) 시스템 또는 엔터프라이즈 리소스계획(ERP) 시스템 등의 소스로부터 정보를 추출
  • 100이상의 인기 데이터 스토어와 SaaS 애플리케이션이 Integration과 함께 동작
  • 컨넥터 리스트로는 MongoDB,MySQL,PostgreSQL,Amazon Redshift,Microsoft Azure SQL Database,Salesforce,Slack and QuickBooks를 포함
  • 플랫폼 필드 레벨 암호화를 사용하면 데이터 필드를 암호화 및 복호화
  • 고급모니터링 및 로깅 기능을 통해 문제 해결을 단순화하고 통합 문제를 방지
  • 진행 사항을 실시간으로 모니터링하기 위한 추적 *메트릭을 제공
  • 최소한의 노력으로 시스템을 빠르고 쉽게 통합을 원하는 사용자에게 적합
*메트릭: 데이터들을 시각화해서 보여주는 툴

2. Talend

  • 탈렌드는 ETL데이터 통합 솔루션 스위트를 제공
  • 현재 시장에서 이용 가능한 최고의 통합 및 데이터 관리 유틀리티가 포함
  • 유명한 ETL 마케팅 도구
  • 사내 및 클라우드에서 데이터 소스와 호환
  • 드래그 앤 드롭 인터페이스를 통해 1000개 이상의 커넥터 및 구성 요소를 사용한 연결작업
  • ETL 파이프라인을 재사용하여 데이터 통합을 가속화
  • 클라우드,하이브리드 및 멀티클라우드 환경을 지원
  • 대기업은 유료데이터 통합 플랫폼을 필요할듯
  • 설계,생산성,관리,모니터링,비즈니스 인텔리전스 및 데이터 거버넌스를 위한 추가 툴과 기능이 포함
  • Amazon의 AWS,Googole 클라우드 및 Microsoft Azure 등 유명 클라우드 서비스 프로바이더와 호환
  • 프로파일링, 클렌징 및 중복 최소화를 통해 데이터 품질을 유지
  • 태그부착,추척 및 모니터링 기능을 통해 데이터 거버넌스를 관리
  • 스케쥴링 기능을 통해 데이터 통합 프로세스를 자동화하는 기능
  • XML,JSON,CSV 등 다양한 포멧을 제공
  • 다양한 플랫폼의 데이터베이스에 쉽게 연결
  • 네이티브 Java 코드를 생성하므로 지원하는 모든 플랫폼 어디서나 실행
  • 고도의 커스터마이즈를 실시하려면 Java에 관한 전문지식이 필요할수 있음

3. Informatica PowerCenter

  • 엔터프라이즈 통합 플랫폼
  • 클라우드 환경을 위한 메타데이터 기반 플랫폼
  • 사용하기 쉬운 그래피컬 인터페이스
  • AI를 탑재하여 사내 및 클라우드 기반 ETL요건을 지원
  • 로우코드/노 코드 플랫폼
  • 여러 데이터 소스의 데이터를 실시간으로 통합
  • 멀티 클라우드,하이브리드/멀티하이브리드 클라우드 및 커스텀 ETL규칙을 지원
  • 플랫폼이 지원하는 파일에는 JSON,Microsoft Office,PDF,XML 및 사물인터넷(IoT) 데이터가 포함
  • 웹 사이트에서 다양한 튜토리얼과 리소스를 제공하지만 배우는데 조금 어려움이 있을수 있음
  • 암호화,사용자엑세스 제어 및 기타 보안 수단을 통해 기밀데이터를 보호
  • Tableau,QliView 등 일반적인 시각화와 쉽게 통합

4. SAS Data Management

  • 필요한 기능에 따라 가격이 달라질수 있음
  • 데이터 분석을 위한 웨어하우스로 빠르게 이동시키는 속도
  • BI도구를 사용하여 보고서 및 분석 시각화를 생성

5. Oracle Data Integrator

  • 오라클 데이터통합(ODI)는 종합적인 데이터 통합솔루션
  • 주요 장점은 타겟에 데이터를 로드한 다음 데이터베이스의 기능 또는 Hadoop 클라스터의 기능을 사용하여 데이터를 변환
  • 다른 오라클 애플리케이션의 사용자에게 좋을듯(호환성?)
  • 온프레미스 및 클라우드 버젼모두 제공
  • 많은옵션을 가진 도구지만 어려울수 있음
  • Hadoop와 NoSQL 데이터베이스 연결
  • 자동화를 위한 강력한 스케쥴링

6. Stitch

  • 스티치는 오픈소스ETL 데이터통합 플랫폼
  • 자동화된 파이프 라인으로 인한 통합을 단순화
  • Talend는 2018년 11월에 Stitch를 인수
  • Stitch Data Loader는 클라우드 기반 ETL용 Talend 제품으로 Talend Data Fabric의 일부
  • 수정 작업을 수행할 필요없이 데이터에 빠르게 액세스
  • 코드 없는 툴이며 데이터를 웨어하우스에 통합하기 위해 코드를 작성할 필요없다고 함
  • 강화된 보안 기능과 연결 옵션을 보유
  • 사소한 기술적 문제와 덜 인기있는 데이터소스에 대한 지원 부족
  • 전반적으로 사용하기 쉽고 안정적인 데이터 플랫폼

7. Fivetran

  • 파이브트랜은 Redshift,BigQuery,Azure 및 Snowlake 데이터 웨어하우스와의 데이터 통합을 지원하는 클라우드 기반 ETL솔루션
  • 큰 장점중 하나는 풍부한 데이터소스 어레이
  • 5분이내에 셋업할 수 있고 인프라 유지보수가 필요없음(완전자동화)
  • 분석가 및 비즈니스 사용자를 위해 구축
  • IT 지원 없어도 데이터 검색 및 탐색을 수행가능
  • 여러 SaaS 소스를 사용
  • 사용자 고유의 맞춤형 통합을 추가
  • Amazon Redshift,Snowfake,Google BigQuery 등 BI툴 간의 동기화 프로세스를 시각화
  • 사전 구축된 커넥터를 통해 데이터 변환 속도를 높일수 있음
  • 문제가 발생하면 진단하기가 매우 어려울수 있음

8. Striim

  • 스트리임 빅데이터 워크로드를 위한 실시간 데이터 통합 플랫폼을 제공
  • Oracle,SQL Server,MySQL,Postgre 등 다양한 데이터 소스 및 타겟을 통합
  • SQL,MongoDB,Hadoop를 다양한 형식으로 제공
  • SaaS(Software as a Service) 소스나 타겟은 포함되지 않음
  • 사용자가 새로운 데이터 소스를 추가할 수 없음

9. Matillion

  • 마틸리온 Redshift,Snowfake,BigQuery 및 Azure Synapse와 데이터를 통합할 수 있는 클라우드 ETL 플랫폼
  • 엔터프라이즈급이지만 중소기업의 사용 사례를 지원
  • 라이프사이클의 모든 단계에서 데이터를 파악할수 있는 클라우드 네이티브 ETL 플랫폼
  • 변환 전 데이터를 로드하여 변환 속도를 높일수 있음??
  • 코딩 전문 지식 없이도 CDC및 배치 파이프라인을 실행(Matillion Data Loader)
  • 간단한 포인트 앤 클릭 인터페이스를 사용
  • SaaS소스 수는 이 목록의 다른 옵션에 비해 부족
  • Snowlake,Amazon Redshift,Delta Lake,Microsoft Azure Synapse,Google BigQuery 등과 같이 많은 클라우드 데이터 웨어하우스를 지원하는 컨넥터들이 포함

10. Pentaho

  • 펜타호는 Hitachi Vantara에서 제공하는 오픈 소스 플랫폼
  • 사용자나 친화적인 인터페이스를 제공
  • 확장성이 뛰어나 대량의 데이터를 온디맨드 방식으로 신속하게 분석
  • PDI는 Pentaho Reporting의 데이터 소스로 실시간 ETL를 활용하는데 적합
  • 제한된 템플릿과 기술적 문제를 포함한 자체적인 결점
  • 로그 화면에 에러의 상세한 설명이 없어 에러의 원인을 찾을수 없는 경우가 있다고 함

11. Amazon Web Services ETL Services

AWS Glue
  • AWS글루는 빅데이터 및 분석 워크로드를 위한 Amazon Web Services의 완전 관리 ETL서비스
  • 코드 없이 완벽하게 관리되는 서버없는 데이터 통합 서비스
  • 엔드 투 엔드 ETL제품으로서 ETL워크로드의 문제를 해소
  • 특정 기능으로 인한 툴의 사용편의성 향상
  • Amazon s3,RDS,Redshift 및 AWS Lambda(서버리스)와 같은 다른 AWS서비스와 기본적으로 통합

AWS Elastic MapReduce(EMR)
  • 대규모 분산 데이터 처리 워크플로우 및 대화형 SQL쿼리를 실행하는 데 이상적인 클라우드 빅데이터 플랫폼
  • Apache Hive,Spark 및 Presto와 같은 오픈 소스 도구를 사용한 머싱러닝(ML)사용 사례에도 사용

AWS Data Pipeline

  • SQL 변환,분산 데이터 복사,사용자 지정 스크립트 또는 MapReduce 애플리케이션 과 같은 정기적인 처리 작업을 스케쥴링하는 데 사용할수 있는 웹 기반 관리 ETL도구
  • Amazon EMR,RDS,S3,DynamoDB 등 여러타겟에서 실행

12. Panoply

  • 페노폴리는 자동화된 셀프서비스 클라우드 데이터 웨어하우스로서 데이터 통합 프로세스를 단순화하는 것을 목표
  • ODBC/JDBC 연결,Postgres 연결 또는 AWS Redshift 연결이 있는 모든 데이터 커넥터는 Panoply와 호환
  • 사용자는 Panoply를 Stitch및 및 Fivetran과 다른 ETL도구와 연결 통합 워크플로우를 강화
  • 큰 장점은 여러 소스에서 데이터를 쉽게 Import

13. Alooma

  • 알루마는 클라우드 내 데이터 웨어하우스를 위한 ETL데이터 이행 도구
  • 조직에서 Google Cloud Platform 및 BigQuery 데이터베이스와 같은 Google제품을 사용하는 경우 알루마가 적합
  • 마케팅 ETL도구
  • 구글은 알루마를 인수하여 향후 구글 클라우드 플랫폼 사용자로 가입을 제한
  • 여러 소스의 대규모 데이터셋을 BigQuery와 같은 한 곳으로 실시간으로 통합
  • 소프트웨어는 여러 데이터 소스에서 잘 작동
  • AI,머신러닝,IoT데이터 작업 등 여러 사용사례를지원
  • 데이터베이스의 스키마를 자동으로 감지
  • GUI는 처음 사용하는 사용자에게는 야간 어려울수있는듯?

14. Hevo Data

  • 해보 데이터는 데이터베이스,클라우드 스토리지 및 SaaS소스에 대한 100개 이상의 사전 구축된 커넥터를 갖춘 ETL데이터 통합 플랫폼
  • Python을 사용하여 Hevo Data에서 자체 프리로드 변환
  • Redshift,BigQuery,Snowfake 등 가장 인기 있는 데이터 웨어하우스 대상을 지원
  • 자체 데이터 소스를 추가할수 없음

15. Infrado

  • 임파도는 유연성과 단순성으로 인해 기업을 위한 최고의 ETL툴 중 하나
  • 통합 프로세스를 자동화 하기 위해 고객 측에서 코딩이 필요하지 않음
  • 마케팅 담당자가 구축한 ETL툴
  • 대시보드와 보고서를 자동화하여 모든 데이터를 실시간으로 한곳에 저장
  • 글로벌 E커머스,의료,게임,SAAS브랜ㄷ느,에이전시 및 대학은 모든 마케팅 플랫폼 데이터를 연결하는데 사용
  • 개발자가 구현이나 변경을 지원할 필요가 없음(개발자가 필요없을수도...)
  • 여러 디지털 마테팅 채널에 걸쳐 지출을 관리하는 브랜드에 최적

16. Xplenty

  • 현재 Integrate.io으로 식별되고 있으며 ETL 파이프라인을 신속하게 설계 및 실행하기 위한 로우코드 클라우드 기반 ETL 도구
  • 코딩이 필요 없는 데이터 통합 솔루션을 제공
  • SOC2를 준수하며 데이터 보안 및 개인 정보 보호를 위해 FLE,해시,2FA 및 마스킹과 같은 고급 보안 기능을 사용
  • Salesforce,AWS,Snowlake,Netsuite 등 100개 이상의 네이티브 데이터 등을 지원
  • ETL 마케팅 도구
  • 간단한 드래그 앤 드롭 인터페이스를 제공
  • 오류 메시지가 설명이 부족할수 있다고 함

17. Supermetrics

  • 슈퍼메트릭스 ETL 마케팅 도구는 전 세계 디지털 시장에서 가장 앞선 도구
  • 사용자가 구글 광고,페이스북 홈페이지 및 기타 소셜 미디어 페이지를 포함한 많은 소설 마케팅 수단으로부터 유용한 데이터를 수집
  • 다채롭고 관리하기 쉬운 마케팅 대시모드
  • 소셜 미디어 마케팅 KPI를 정의하기 위한 최적의 도구
  • 트러블슈팅이 어려운것도 존재

18. Apache Nifi

  • Apache는 현재 시장에서 가장 빠르고 안전한 마케팅 ETL도구 중 하나
  • 오픈 소스 기술을 기반으로 구축
  • 외부 데이터베이스에서 데이터를 빠르게 편리하게 스트리밍
  • 페이스북이나 트위터 같은 소셜 미디어 페이지에서 정보를 추적
  • 사용자는 오픈소스 인터페이스에서 익숙해질 때까지 시간소요

19. Strarfish

  • 불가사리는 특히 고객 통찰력이 뛰어나기 때문에 또 다른 훌륭한 ETL마케팅 도구
  • 고객의 피드백에 크게 의존하는 기업에게 매우 유용
  • 사용하기 쉽게 이해하기 쉽다
  • 대규모 데이터 마이그레이션에 충분히 효율적이지 않음

20. Jasper

  • 재스퍼는 시장에서 가장 강력한 비즈니스 인텔리전스 솔루션 중 하나
  • Hadoop,Google Analytics 및 Cassandra를 비롯한 일부 표준 데이터관리 시스템과 쉽게 통합
  • 클라우드에서 호스팅되며 사용자는 모든 데이터 조작 작업을 현장에서 구현하지 않고도 수행
  • 시장에서 가장 저렴한 ETL마케팅 술루션 중 하나
  • 표준화되지 않은 SQL데이터 원본과도 연결
  • 도구에 사용자 지정을 추가하려면 XML에 대한 지식이 필요
  • 예측분석 도구가 포함되지 않음

21. Relational Junction

  • ETL 마케팅 툴은 사용 편의성과 효율에 관한 최고의 툴 중 하나
  • 여러 유혀의 데이터 플랫폼에 액세스
  • 온사이트 또는 클라우드에 쉽게 설치 및 도입

22. Parabola

  • 파라볼라는 현재 시장에서 가장 인터랙티브한 ETL 마케팅 도구 중 하나
  • 다양한 데이터베이스를 드래그 앤 드롭할수 있어 사용자가 인터페이스는 사용하기 쉬움
  • 데이터 분석 경험이 적은 사용자가 이해하기 쉬움
  • 사용자가 복잡한 보고서를 빠르게 작성

23. Domo

  • 도모는 현재 시장에서 가장 결속력이 놏은 분석 소프트웨어 중 하나
  • ETL마케팅 툴을 사용하여 밴더에서 직원,고객까지 조직의 여러 부분에서 사용하기 쉬운 인터페이스를 구축
  • 클라우드에서 완벽하기 호스팅
  • 스마트폰 기기에서 편리하게 조작
  • 데이터셋 관리가 복잡할 수 있음

24. Datorma

  • 데이터라마는 기업의 마케팅 데이터를 축적하기 위해 총체적인 접근방식을 채택한 ETL 마케팅 툴
  • 가장 중요한 특징 중 하나는 AI 프레임워크
  • 플랫폼 통합 및 데이터 분석을 위한 사용하기 쉬운 인터페이스
  • 인공지능을 통한 실시간 자동화
  • 소프트웨어 설정은 처음 사용하는 사용자에게는 까다로울수 있을듯

25. Funnel.io

  • 퍼널은 405개에 달하는 다양한 리소스의 데이터를 사용하는 Funnel.io의 ETL마케팅 도구
  • 광고비 관리에 도움

26. Microsoft SQL Server Integration Services - Enterprise ETL platform

  • SSIS 소프트웨어는 데이터 마이닝,파일 복사 또는 다운로드,웨어하우스에 데이터 로드,클리닝 또는 SQL Server 객체 또는 데이터 관리에 적합

27. IBM InfoSphere DataStage

  • 서버 기반 저장소를 사용하여 Windows 클라이언트를 통해 작업을 생성하고 관리
  • 데이터 양에 관계없이 온디맨드 방식으로 여러 소스에 데이터를 통합
  • 고성능 병렬 프레임워크
  • 사내 및 클라우드 기반 워크플로우와 Json,AWS,Snowlake,Azure,Teradata,Google,Hive,SyBase,Kafka,Oracle,Salesforce 등 다양한 커넥터를 지원

28. Denodo

  • 데노도 플랫폼은 빅데이터,운영 및 논리적 데이터 웨어하우스 분야에서 적합
  • 관계형 데이터베이스,Web,Hadoop,다차원데이터베이스,NoSQL(키/값,문서,컬럼 등),스트리밍 데이터,웹서비스(SOAP/WSDL 및 REST),플랫파일(Excel,XML,Long,구분자 등), 이메일 및 문서(Work,PDF)

29. Skyvia

  • 데이터통합,데이터 관리 및 클라우드 백업과 같은 코드 없는 솔루션을 제공하는 최신 데이터 플랫폼
  • 코드를 작성하지 않고 다른 소스간에 데이터를 시각적으로 이동할수 있음

참고사이트

댓글 없음:

댓글 쓰기

최근글

9월 태안~천안 아이와 3박4일 가족 여행지