Automation en de ‘data bench’

IT4IT

Na het automatiseren van de bedrijfsprocessen, wordt het stilaan tijd om ook eens te kijken naar het automatiseren van IT processen.

DWHite concentreert zich op het vereenvoudigen en elimineren/rationaliseren van (overbodige) processen via bijvoorbeeld Six Sigma / Lean en het maximaal automatiseren van het restant. In de praktijk leidt deze drive tot deelname aan verander trajecten, blauwdrukken voor IT en het wegnemen van vervelende, zich herhalende, foutgevoelige processen en activiteiten.  Tegelijkertijd wordt hiermee een Single Point of Knowledge risico weggenomen.

Voor veel data-centrische processen gebruiken bedrijven een groot aantal controlerende processen; van het programmeren van application controls, handmatige test scripts, data kwaliteit metingen tot en met reconciliatie vraagstukken. Met het automatiseren van de ‘voorkant’ (het data-centrische proces), wordt de handmatige controle automatisch een stuk eenvoudiger.

De Data Bench aka DWH Workbench is een platform en een manier van werken, waarmee veel van bovenstaande IT4IT aspecten kunnen worden vormgegeven. Omdat de wereld snel verandert, de technologie nog sneller en veel goed oplossingen voor deelgebieden aangeboden worden, heeft DWHite ervoor gekozen om een ‘regie’ platform te ontwikkelen. Dit platform voert (nagenoeg) geen operationele taak uit en bevat – naast meta-data – ook geen data vanuit Uw bronsystemen zelf. De Data Bench is daarom goed te typeren als een ‘Opdrachtgever’  or ‘Regievoerder’. Het geeft ETL en data(platform) programmatuur de instructies die nodig zijn voor het inrichten van een data platform, zoals een datawarehouse of een big data omgeving. De data die het platform nodig heeft bestaat louter uit meta data.

Deze meta data kan opgehaald worden reeds aanwezige meta data oplossingen, zoals SAS meta data (bridges) en Informatica. Het uitwisselen en synchroniseren van meta data repositories kunt U rustig aan DWHite overlaten.

U kunt dus groeien in Uw wensen en eventueel wisselen van omgeving. Configuratie is het enige dat daarvoor dient te gebeuren. Met evenveel gemak wordt een tabel aangemaakt in de laatste versie van SQL Server of op een hadoop omgeving met Hive. Een verdor lock-in is daarom per definitie uitgesloten! De meta data omtrent de data transformatie is minimaal; vooral de ‘lineage’ oftewel input/output wordt vastgelegd. De reden hiervoor is dat ruim 95% van alle data in platformen wordt doorgekhpieerd. Dat deel kan dus geautomatiseerd worden.

Omdat de workbench zelf niets uitvoert, hoeft het alleen maar te weten wat er moet gebeuren. Op basis van een plug-in architectuur kan het dan op basis van script technologie de juiste functionaliteit in elk systeem inrichten. Zo kunt u de autorisatie binnen een SQL Server omgeving inrichten, maar hetzelfde ook bewerkstelligen binnen Ranger (Hadoop component).

Gebaseerd op de flexibele en krachtige template/repository engine, is een platform gedefinieerd, waarmee Data Management een praktisch en hanteerbaar concept binnen Uw bedrijf wordt. Het Data Platform biedt de volgende functionaliteiten

  • Een platform voor het opslaan en/of uitwisselen van meta data
    • Data modellen
    • Business definities en business rules
    • Lineage: data flow en data mapping
    • Audit: verwerking logs + DDL logs
    • Impact analyses voor wijzigingen in de omgeving
  • Een datawarehouse generatie omgeving
    • genereren van ETL code (SQL, stored procedures, PIG, SSIS, …)
    • genereren van data objecten (DB objecten zoals tabellen )
    • ondersteuning voor datawarehouse standaard modellen
    • Definitie van application controls
    • Deployment ondersteuning tbv DevOps / Agile
  • Data Quality Governance omgeving
    • Definieren van DQ business rules
    • Toepassen van DQ business rules op aanwezige data
    • KPI’s en Dashboards geïntegreerd
    • Interfaces voor issue handling
    • Geen automatisch trouble ticket registratie voor DQ issues, maar deze verbindingen aanleggen is voor DWHite ‘business as usual’
  • Master Data
    • Optionele integratie met Master Data Services van Microsoft
    • Handmatige data
      • Stuur en configuratie tabellen
      • KPI en normeringen
      • Eigen data
    • Referentie (lookup) data
    • Eenmalig importeren
    • ‘Master’ bron properties voor elke data asset
  • Data Profiling
    • Profiling op data
    • Standaard rapportage
    • Auto classificatie van tabellen en attributen
    • Query wizards
    • Data viewers met export mogelijkheden
  • Semantiek
    • Modellen, entiteiten, attributen
    • Terminologie (woordenboek, synoniemen, homoniemen, …
  • Rapportage en Analytics
    • Geïntegreerde rapportage modules van Qlik, Tableau, PowerBI, Reporting Services en/of een ‘ eigen’ rapportage ontwerp omgeving
    • Dashboard
  • Scheduler
    • Geautomatiseerde logische schedule ‘graph’
    • Meegeleverde platform specifieke ‘agent workers’, zoals een SSIS Package ‘DWH Scheduler’ die taken ophaalt, uitdeelt en alle interne afhankelijkheden automatisch oplost.
      Andere agent workers, zoals Cron, zijn ook mogelijk.
    • Exports van scripts en hiermee bijvoorbeeld koppeling met GIT, DevOps
    • Horizontale en/of verticale programmering
    • Upstream en Downstream uitvoeren van wijzigingen