GSBC#47 Jak zbudować rozwiązanie przetwarzające terabajty danych z liczników?
Wyobraź sobie, że masz zbudować rozwiązanie, które ma przetwarzać dane pomiarowe pochodzące z pół miliona liczników, gromadzących informacje o pomiarach z 11 kanałów z częstotliwością 10-15 minut. Masz zaprojektować narzędzie, które ma w łatwy sposób skalować się do wykonywania tych samych operacji na 4 mln. liczników.
Przetworzenie terabajtów danych może okazać się nie lada wyzwaniem, szczególnie jeśli chcemy znaleźć odpowiedzi na różne problemy biznesowe i nie wydać przy tym fortuny pieniędzy.
W trakcie prezentacji przedstawię zrealizowane przez nas rozwiązanie w oparciu o usługi dostępne w ramach chmury Microsoft Azure, takie jak: Azure Data Lake Storage, Azure Data Factory, Apache Spark oraz SQL Server. Opowiem również o tym z jakimi problemami się spotkaliśmy, jak sobie z nimi poradziliśmy oraz co i jak mogliśmy zrobić lepiej.
Kamil Dworak:
Microsoft® Certified Professional MCSA: Cloud Platform
Na co dzień pracuje w Gliwickiej firmie Future-Processing jako Big Data Developer. Programista z ponad 7-letnim stażem. Aktualnie zajmuje się współtworzeniem systemu informatycznego do przetwarzania dużej porcji danych. Miłośnik chmury obliczeniowej Microsoft Azure, Big Data oraz szeroko pojętego tematu Data Science. Od ponad 6 lat związany naukowo z Uniwersytetem Śląskim w Katowicach. Pasjonat języków JavaScript oraz Python.