Hardware & Software

Hardware

Die aktuelle Hardware wird ständig erweitert und den Bedürfnissen der laufenden Projekte angepasst. Während es das Ziel des Little Big Data - Clusters ist, den Forschenden und Lehrenden der TU Wien ein stabiles Arbeitsumfeld zu bieten, wurde der Development Cluster aufgebaut, um die neuesten Erfordernisse an Hard- & Software Testen zu können, und diese erst in die Produktivumgebung zu implementieren, wenn gewährleistet werden kann, dass es zu keinen Beeinträchtigungen für die Nutzer_innen kommt.

Das dataLAB bietet Ihnen einen unkomplizierten Zugriff auf das Wissen und die Infrastruktur der TU Wien.

Auf der Cloudera Platform, welche auf Hadoop basiert, laufen auf dem Cluster Anwendungen wie Apache Spark, Hive, Cassandra, MongoDB und Kafka. Das Team um das dataLAB passt das Angebot aber flexibel an die Anforderungen der Nutzer_innen an, um diese bestmöglich in Ihren Projekten unterstützen zu können.

Für Lehre und Forschung mit 1 NameNodes und 18 DataNodes mit jeweils:

  • 2x XeonE5-2650v4
  • 24 Cores
  • 256 GB Main Memory
  • 16 TB HDD
  • 10 Gbit/s

Zusätzlich 300 TB NFS storage.

Schema des LBD-Clusters

Zum Testen der aktuellsten Technologien mit 1 NameNode und 6 DataNodes mit:

  • 2x Xeon X5550@2.67GHz
  • 8 Cores
  • 24 GB Main Memory
  • 1 Gbit/s
Schema des Development Clusters

Software

Name

Beschreibung

Kommentar

Centos 7

Betriebssystem

OK

XCAT

Deploymentumgebung

OK

Cloudera Manager

Big Data Deployment

OK

Cloudera HDFS

Hadoop distributed file system

OK

Cloudera Accumulo

Key/value store

OK

Cloudera HBase

Database on top of HDFS

OK

Cloudera Hive

Data warehouse using SQL

OK

Cloudera Hue

Hadoop user experience, web gui, SQL analytics workbench

OK

Cloudera Impala

SQL query engine, used by Hue

OK

Oozie

Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Used by Hue

OK

Cloudera Solr

open source enterprise search platform, used by Hue, used by Key-Value Store Indexer

OK

Cloudera Key-Value 
Store Indexer

The Key-Value Store Indexer service uses the Lily HBase NRT Indexer to index the stream of records being added to HBase tables. Indexing allows you to query data stored in HBase with the Solr service.

OK

Cloudera Spark (Spark 2)

cluster-computing framework mit Scala 2.10 (2.11)

OK

Cloudera YARN (MR2 Included)

Yet Another Resource Negotiator (cluster management)

OK

Cloudera ZooKeeper

ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services

OK

Java 1.8

Software Development Kit

OK

Python 2.7, 3.*

Software Development Kit

OK

Scala

Programmiersprache

OK

Anaconda Python (Python)

Programmiersprache mit Paketmanagement von Anaconda

OK

Jupyter Notebook

webinterface for interactive computing, benötigt Anaconda

OK

JupyterLab

JupyterLab is the next-generation web-based user interface for Project Jupyter

OK

Cassandra

benötigt Plattenplatz, ausgewählte Knoten

TODO

Kafka

open-source stream-processing software platform, Konfiguration für konkreten Einsatz erforderlich

Rollout Phase

MongoDB

NoSQL Datenbank, ausgewählte Knoten

Rollout Phase


Service Center

Logo Service Center

© TU Wien

Ticketsystem-Online-Portal, öffnet eine externe URL in einem neuen Fenster
Hotline 01 588 01 42002

help@it.tuwien.ac.at
1040 Wien, Operngasse 11, EG

Das Service Center ist MO-FR (werktags) von 8:00 bis 16:00 Uhr digital erreichbar und wird zusätzlich von 8:00 bis 12:00 Uhr (werktags) persönlich vor Ort tätig sein.

Sicherheits- und Schutzmaßnahmen, öffnet eine externe URL in einem neuen Fenster