PoweredBy – Hadoop Wiki

PoweredBy - Hadoop Wiki Hébergé syslog et application logPropulsé par Apache Hadoop

Cette page documente une liste alphabétique des institutions qui utilisent Apache Hadoop à des fins éducatives ou de production. Les entreprises qui offrent des services ou basés autour Hadoop sont répertoriés dans Support Commercial. S’il vous plaît inclure des détails sur votre matériel et la taille cluster. Les entrées sans cela peuvent être confondus avec des références de spam et supprimés.

Nous construisons la recherche de produits de indices d’Amazon en utilisant l’API de streaming et de pré-existante ++ C, Perl, et des outils de Python.

  • Nous traitons des millions de sessions par jour pour l’analyse, en utilisant à la fois le Java et les API streaming.
  • Les grappes varie de 1 à 100 nœuds

  • Nous utilisons un cluster Hadoop pour Rollup enregistrement et afficher les données chaque nuit.
  • Notre groupe dispose de 10 serveurs 1U, avec 4 cœurs, 4 Go de RAM et 3 disques
  • Chaque soir, nous courons 112 emplois Hadoop
  • Il est à peu près 4X plus rapide pour exporter les tables de transaction de chacun de nos bases de données d’information, transférer les données vers le cluster, effectuez les cumuls, puis les importer de nouveau dans les bases de données que pour effectuer les mêmes rollups dans la base de données.
  • Nous utilisons Apache Hadoop et hbase dans plusieurs domaines des services sociaux au stockage de données structurées et de traitement pour usage interne.
  • Nous avons actuellement environ 30 nœuds exécutant HDFS, Hadoop et HBase en grappes allant de 5 à 14 noeuds sur la production et le développement. Nous prévoyons un déploiement sur un cluster de 80 nœuds.
  • Nous écrivons constamment des données à hbase et exécuter des tâches MapReduce pour traiter ensuite le stocker vers hbase ou des systèmes externes.
  • Notre pôle de production est en cours depuis octobre 2008.
  • Nous utilisons Apache Flume, Apache Hadoop et PApache ig pour le stockage du journal et de génération de rapport, ainsi que ad-ciblage.
  • Actuellement, nous avons 12 nœuds exécutant HDFS et Pig et prévoyons d’ajouter plus de temps à autre.
  • 50% de notre système de recommender est Pig pur en raison de sa facilité d’utilisation.
  • Certains de nos tâches plus profondément intégrées utilisent l’API de streaming et de rubis, ainsi que l’excellente Wukong-Library.
  • Grape Able – moteur de recherche vertical pour information sur le vin digne de confiance

    • Nous avons une des grappes Hadoop plus petits du monde (2 noeuds @ 8 CPU / node)
    • Hadoop et Apache Nutch utilisés pour analyser et de l’information textuelle index
    • Hadoop utilisé pour construire le système de recommandation pour le ciblage comportemental, ainsi que d’autres analyses clickstream
    • Nous nous occupons de 500mm événements clickstream par jour
    • Les grappes varie de 50 à 200 noeuds, la plupart du temps sur EC2.
    • Enquête sur l’utilisation de grappes de R au sommet d’Hadoop pour l’analyse statistique et la modélisation à l’échelle.
    • Nous utilisons hadoop, porc et HBase analyser journal de recherche, vue du produit des données, et d’analyser l’ensemble de nos journaux
    • 3 nœud de cluster avec 48 cœurs au total, 4 Go de RAM et 1 To de stockage chacun.
    • Un cluster de 15 nœuds dédié au traitement de types de données d’affaires sous-évaluées sur la base de données et de les réunir. Ces données seront ensuite introduits dans iSearch, notre moteur de recherche vertical.
    • Chaque nœud a 8 cœurs, 16G RAM et de stockage de 1.4T.
    • Nous utilisons Apache Hadoop pour toutes sortes de choses allant de l’ETL de traitement et de statistiques de style génération en exécutant des algorithmes avancés pour faire l’analyse comportementale et le ciblage.
    • Le groupe que nous utilisons pour l’analyse essentiellement comportementale et ciblage dispose de 150 machines, Intel Xeon, deux processeurs, dual core, chacun avec 16 Go Ram et 800 Go de disque dur.
    • ARA.COM.TR – premier et le seul moteur de recherche Turquie – Ara Com Tr

      • Nous construisons moteur de recherche Ara.com.tr en utilisant les outils de Python.
      • Nous utilisons Apache Hadoop pour l’analyse.
      • Nous traitons environ 400 To par mois
      • Les grappes varie de 10 à 100 noeuds
      • HDFS, Apache Accumulo, Scala
      • Actuellement 3 nœuds (16Gb RAM, stockage 6 To)
      • Nous utilisons Hadoop pour l’extraction de l’information & recherche et analyse des données de consultation
      • Deux applications qui sont des produits secondaires / projets d’une entreprise touristique locale: 1. Analyse du sentiment des sites d’examen et les données des médias sociaux. Cibler l’industrie du tourisme. 2. outil de marketing qui analyse les auteurs les plus précieuses / utiles à partir de sites comme Tripadvisor et Yelp ainsi que les médias sociaux. Permet de marketing et les propriétaires d’entreprises à trouver les membres de la communauté la plus pertinente à leurs entreprises.
      • Utilisation d’Apache Hadoop, HDFS, Hive et HBase.
      • 4 noeuds grappe (32 cœurs, 1TB).
      • Nous utilisons Apache Hadoop pour la recherche et l’analyse de millions de réservations de location.
      • Installation expérimentale – divers stockage de la tuberculose pour les journaux et les actifs numériques
      • Actuellement 4 noeuds du cluster
      • Utiliser Hadoop pour l’analyse du journal / exploration de données / apprentissage machine
      • Nous avons mis en notre grappe sans interruption pendant plus de 2 ans et demi et nous avons géré avec succès plus de 75 millions de fichiers sur un Go NameNode 64 avec 50 To de stockage de cluster.
      • Nous sommes MapReduce lourds et hbase utilisateurs et utilisons Apache Hadoop avec Apache HBase pour semi-supervisé l’apprentissage de la machine, AI R&D, traitement d’image & Analyse et Apache Lucene sharding d’index en utilisant katta.
      • 14 nœud de cluster (chaque nœud a: 2 processeurs dual core, le stockage de 2 To, 8 Go de RAM)
      • Nous utilisons Apache Hadoop pour l’appariement des profils de rencontres
      • La bande élastique plate-forme minière Bixolabs utilise Hadoop + Cascading pour construire rapidement des applications minières Web évolutives.
      • Nous utilisons Apache Hadoop pour résumer des données de suivi de l’utilisateur.
      • Brilig – marché de données de coopération pour la publicité en ligne

        • Nous utilisons Apache Hadoop / MapReduce et Apache Hive pour la gestion des données, l’analyse, l’agrégation log, reporting, ETL dans Apache Hive, et le chargement des données dans distribués K / V magasins
        • Notre cluster principal est de 10 noeuds, chaque membre a Cores 2×4, 24 Go de RAM, 6 x 1To SATA.
        • Nous utilisons également les clusters AWS EMR pour une capacité de reporting supplémentaires sur 10 To de données stockées dans S3. Nous utilisons habituellement m1.xlarge, 60 – 100 noeuds.
        • Brockmann Consult GmbH – informatique de l’environnement et des services de géo-information

          • Nous utilisons Apache Hadoop pour développer le système Calvalus – traitement parallèle des grandes quantités de données par satellite.
          • Focus sur la production, l’analyse et la validation des produits de données d’observation de la Terre de l’environnement.
          • Notre cluster est un rack avec 20 noeuds (4 cœurs, 8 Go de RAM chacun),
          • Nous utilisons Apache Hadoop pour traiter l’entreprise et de l’emploi des données et des algorithmes d’apprentissage machine run pour notre moteur de recommandation.
          • Nous utilisons Apache Hadoop pour notre recherche interne, le filtrage et l’indexation
          • Nous utilisons Apache Hadoop pour traiter l’entreprise et de l’emploi des données et des algorithmes d’apprentissage machine run pour notre moteur de recommandation.
          • Utilisé sur les projets des clients et des systèmes de rapports / d’analyse de journaux internes conçus pour évoluer vers l’infini et au-delà.
          • projet client: Amazon S3-backed, wide-web analytics plate-forme
          • Interne: l’agrégation du journal des événements d’architecture croisée & En traitement
          • Nous utilisons Hadoop pour stocker ad logs au service et l’utiliser comme une source d’optimisations d’annonces, des analyses, des rapports et de l’apprentissage de la machine.
          • Actuellement, nous avons un groupe de 50 machines avec 400 noyaux et environ 140TB stockage brut. Chaque (marchandise) noeud a 8 cœurs et 16 Go de RAM.
          • Cooliris – Cooliris transforme votre navigateur en un éclair rapide, chemin cinématographique pour parcourir les photos et vidéos, à la fois en ligne et sur votre disque dur.

            • Nous avons un cluster Hadoop 15 nœud où chaque machine dispose de 8 cœurs, 8 Go de RAM, et 3-4 To de stockage.
            • Nous utilisons Hadoop pour toutes nos analyses, et nous utilisons Pig pour permettre PMs et les non-ingénieurs la liberté pour interroger les données d’une manière ad hoc.
            • Génération de graphiques web sur 100 noeuds (2.4GHz Xeon double processeur, 2 Go de RAM, 72GB Hard Drive)
            • Criteo – Criteo est un leader mondial dans la publicité de performance en ligne

              • Criteo R&D utilise Hadoop comme une plate-forme consolidée pour le stockage, l’analyse et back-end de traitement, y compris les algorithmes d’apprentissage machine
              • Nous avons actuellement un cluster dédié de 1117 nœuds, le stockage 39PB, 75TB RAM, 22000 cœurs fonctionnant à pleine vapeur 24/7, et de plus en plus par jour
              • Chaque nœud a 24 HT cœurs, 96 Go de RAM, disque dur 42 To
              • la gestion du matériel et de la plate-forme se fait par le chef. nous courons YARN
              • Nous courons un mélange de requêtes ad-hoc de la ruche pour BI, des emplois, des emplois Cascading MapReduce premières, et le streaming emplois Mono, ainsi que certains Pig
              • Pour être livré en Q2 2015, un deuxième groupe de 600 noeuds, chacun 48HT noyaux, 256Go RAM, disque dur 96 To
              • Hadoop déployé dynamiquement sur des sous-ensembles d’un cluster de 400 nœuds

                • noeud: deux Xeon 2,83 GHz quad-core, 16 Go de RAM, deux disques durs de 250 Go
                • la plupart des déploiements utilisent notre haute performance GPFS (3.8PB, aléatoire r / w de 15GB /)
                • applications de la biologie computationnelle
                • Crowdmedia a un cluster 5 Node Hadoop pour l’analyse statistique
                • Nous utilisons Apache Hadoop pour analyser les tendances sur Facebook et autres réseaux sociaux

                • Nous utilisons adoop Apache Apache pour les grands ensembles de données RDF de traitement par lots, en particulier pour les données d’indexation RDF.

                • Nous utilisons également Apache Hadoop pour l’exécution de longue course hors ligne SPARQL requêtes pour les clients.
                • Nous utilisons Amazon S3 et Apache Cassandra pour stocker des ensembles de données d’entrée de RDF et les fichiers de sortie.
                • Nous avons développé RDFgrid. un cadre Ruby pour la carte / traitement des données RDF basé réduire.
                • Nous utilisons principalement Ruby, RDF.rb et RDFgrid pour traiter les données RDF avec Apache Hadoop streaming.
                • Nous courons principalement des emplois Apache Hadoop sur Amazon Elastic MapReduce. avec des tailles de cluster de 1 à 20 noeuds en fonction de la taille de l’ensemble de données (des centaines de millions à des milliards de déclarations RDF).
                • Nous utilisons une combinaison de Apache Pig et Java Carte basée / Réduire emplois pour trier, regrouper et aider à comprendre de grandes quantités de données.
                • pôle élastique avec 5-80 noeuds
                • Nous utilisons Hadoop pour créer nos index de contenu Web profond et de fournir une haute disponibilité et un service de stockage à haute bande passante pour des tessons d’index pour notre grappe de recherche.
                • Nous utilisons Hadoop dans notre exploration de données et des groupes de recherche multimédia / internet.
                • 3 nœud de cluster avec 48 cœurs au total, 4 Go de RAM et 1 To de stockage chacun.
                • Nous utilisons Apache Hadoop, Apache Pig et hbase pour analyser la recherche journal, générer plus Voir Nouvelles, générer top wordcloud, et d’analyser l’ensemble de nos journaux
                • Nous utilisons Apache Hadoop et Apache Nutch à la recherche de données sur les sites Web liés à la programmation, tels que la recherche de tendances actuelles, les initiateurs de l’histoire, et des informations connexes.
                • Nous utilisons actuellement trois noeuds, chaque noeud ayant deux cœurs, 4 Go de RAM, et le stockage de 1To. Nous allons étendre ces une fois que nous installons sur nos technologies connexes (Scala, Apache Pig, hbase, autre).
                • Nous générons des scripts Pig Latin qui décrivent les conversions structurelles et sémantiques entre les contextes de données
                • Nous utilisons Apache Hadoop pour exécuter ces scripts pour les déploiements de niveau de production
                • Élimine le besoin de données et de schéma explicites mappings lors de l’intégration de bases de données

                • 532 noeuds grappe (8 * 532 noyaux, 5.3PB).

                • Un usage intensif de Java MapReduce. Apache Pig, Apache Hive, hbase
                • Utilisation pour la recherche d’optimisation et de la recherche.
                • deux 60 noeuds se regroupent chaque gt; 1000 noyaux, au total 5T Ram, 1PB
                • la plupart du temps hbase, certains M / R
                • Installation expérimentale – stockage pour des journaux et des actifs numériques
                • Actuellement 5 noeuds du cluster
                • Utilisation d’Apache Hadoop pour l’analyse de log / data mining / apprentissage machine
                • 4 noeuds grappe (32 cœurs, 1TB).
                • Nous utilisons Apache Hadoop pour filtrer et indexer nos listes, en supprimant les doublons exacts et le regroupement d’autres semblables.
                • Nous prévoyons d’utiliser Apache Pig très peu de temps pour produire des statistiques.
                • 4 noeuds du cluster proof-of-concept.
                • Nous utilisons Apache Hadoop dans un cours Computing capstone Data-Intensive. Les projets de cours couvrent des sujets tels que la recherche d’information, l’apprentissage machine, analyse des réseaux sociaux, l’intelligence d’affaires, et la sécurité du réseau.
                • Les élèves utilisent à la demande des clusters lancés en utilisant les services EC2 et DME d’Amazon, grâce à son AWS dans l’éducation programme.
                • Nous utilisons Apache Hadoop dans un cours que nous enseigne actuellement: "Massively Parallel Data Analysis avec MapReduce ". Les projets de cours sont basés sur de véritables cas d’utilisation de l’analyse de données biologiques.
                • matériel Cluster: 16 x (Quad-core Intel Xeon, 8GB RAM, 1,5 To de disque dur)
                • similitude du visage et de la reconnaissance à travers de vastes ensembles de données.
                • Contenu de l’image publicitaire sur la base et le marquage automatique pour les médias sociaux.
                • sur la base Protection de l’image vidéo du droit d’auteur.
                • Nous utilisons Apache Hadoop pour notre recherche interne, le filtrage et l’indexation
                • Nous utilisons Apache Hadoop pour stocker des copies de journal interne et des sources de données de dimension et de l’utiliser comme une source d’information / d’analyse et de l’apprentissage machine.
                • Actuellement nous avons 2 grands pôles:

                  • Un cluster 1100-machine avec 8800 cœurs et environ 12 PB stockage brut.
                  • Un groupe de 300 machine avec 2400 cœurs et environ 3 PB stockage brut.
                  • Chaque (marchandise) noeud a 8 cœurs et 12 To de stockage.
                  • Nous sommes de grands utilisateurs de la fois le streaming ainsi que les API Java. Nous avons construit un cadre supérieur de l’entrepôt de données de niveau en utilisant ces fonctionnalités appelées Hive (voir le http://hadoop.apache.org/hive/). Nous avons également développé une implémentation FUSE sur HDFS.
                  • Nous utilisons Hadoop pour stocker les journaux, l’analyse des nouvelles, des analyses de tag.
                  • 40 clusters de machine (8 cœurs / machine 2TB / stockage de la machine)
                  • 70 clusters de machine (8 cœurs / machine 3To / stockage de la machine)
                  • 30 clusters de machine (8 cœurs / machine 4TB / stockage de la machine)
                  • Utilisation pour l’analyse du journal, l’exploration de données et l’apprentissage de la machine
                  • 5 clusters de machine (8 cœurs / machine 5TB / stockage de la machine)
                  • Existant 19 cluster de machine virtuelle (2 noyaux / machine à 30TB de stockage)
                  • Apache Hive prédominance et de streaming API basée emplois (

                    Nous, les Freestylers de la société japonaise, utiliser Hadoop pour construire l’environnement de traitement d’image pour le système de recommandation produit à base d’images principalement sur Amazon EC2, d’Avril de 2009.

                  • Notre environnement Hadoop produit la base de données d’origine pour un accès rapide à partir de notre application web.
                  • Nous utilise également Hadoop pour analyser les similitudes entre le comportement de l’utilisateur.

                  • GBIF (Global Biodiversity Information Facility) – organisme sans but lucratif qui se concentre sur des données scientifiques sur la biodiversité disponible via l’Internet

                    18 nœuds exécutant un mélange d’Apache Hadoop et hbase

                  • Apache Hive des requêtes ad hoc contre nos données sur la biodiversité
                  • Regular Apache oozie workflows pour traiter les données de la biodiversité pour l’édition
                  • Feng Chia University
                  • 3 clusters de machine (4 cœurs, 1TB / linge)
                  • groupe 30 de la machine (4 cœurs, 1TB

                    stockage pour les données de blog et de documents web

                  • 6 nœud de cluster (chaque nœud a: 4 CPU dual core, le stockage 1,5TB, 4Go de RAM, RedHat OS)
                  • Utilisation d’Apache Hadoop pour nos applications d’exploration de données à grande vitesse en société avec Pénombre
                  • 9 nœud de cluster (Amazon EC2 c1.xlarge)
                  • Utilisation d’Apache Hadoop pour l’analyse des données pour des millions d’images, l’analyse des journaux, l’exploration de données

                  • grappe de 50 nœuds Dans l’environnement réseau de l’Université de Corée.

                  • Utilisé pour des projets de développement

                    • Récupération et analyse des connaissances biomédicales
                    • Latent Semantic Analysis, filtrage collaboratif
                    • groupe 3 noeud (4 cœurs, 32 Go de RAM chacun).
                    • Hadoop pour Analtyics des moteurs de recherche et la recherche interne et le filtrage des données
                    • 3 clusters de machine (4 cœurs / machine 2TB / linge)
                    • Apache Hadoop pour les données de la recherche et de l’agrégation
                    • 13 clusters de machine (8 cœurs / machine 4TB / linge)
                    • Connectez le stockage et l’analyse
                    • 6 nœud de cluster (chaque nœud a: 4 CPU dual core, le stockage 1,5TB, 4Go de RAM, RedHat Enterprise Linux)
                    • Utilisation d’Apache Hadoop pour nos applications d’exploration de données à grande vitesse en société avec Scheidung en ligne
                    • Nous utilisons une version personnalisée de Apache Hadoop et Apache Nutch dans un / Dual Core environnement actuellement expérimentale de cluster 6 nœuds.
                    • Nous utilisons Apache Hadoop et Apache Nutch à ramper de blog et plus tard les traiter. Hadoop commence également à être utilisé dans notre enseignement et les activités générales de recherche sur le traitement du langage naturel et l’apprentissage de la machine.

                    • Nous utilisons hadoop pour des projets de recherche d’information de récupération et d’extraction. Elle travaille également sur la carte-réduire la recherche planification pour les environnements multi-emploi.
                    • Nos tailles de cluster varient de 10 à 30 nœuds, en fonction des emplois. nœuds hétérogènes avec la plupart étant 6600s Quad, 4 Go de RAM et 1To disque par noeud. En outre, certains noeuds avec dual core et des configurations de base simples.
                    • Plutôt que de mettre des annonces dans ou autour des images qu’il héberge, Levin travaille sur l’exploitation de toutes les données de son service génère sur la consommation de contenu (peut-être à une meilleure publicité cible sur ImageShack ou syndicat que ciblant les données de réseaux publicitaires). Comme Google et Yahoo, il déploie l’open-source du logiciel Hadoop pour créer un superordinateur massivement distribué, mais il l’utilise pour analyser toutes les données qu’il recueille.
                    • Nous utilisons Apache Hadoop pour analyser notre économie virtuelle
                    • Nous utilisons également Apache Hive pour accéder à notre mine de données opérationnelles pour éclairer les décisions de développement de produits autour de l’amélioration de l’expérience utilisateur et la rétention ainsi que l’atteinte des objectifs de revenus
                    • Nos données sont stockées dans Amazon S3 et tiré dans nos groupes de jusqu’à 4 m1.large instances EC2. Notre volume total de données est de l’ordre de 5 To
                    • Nous utilisons Apache Hadoop pour analyser les journaux de production et de fournir diverses statistiques sur notre réseau de publicité In-Text.
                    • Nous utilisons également Apache Hadoop / hbase pour traiter les interactions des utilisateurs avec des publicités et d’optimiser la sélection des annonces.
                    • 30 nœud de cluster AWS EC2 (taille variable d’instance, EBS-backed actuellement) géré par le chef & Poolparty exécutant Apache Hadoop 0.20.2 + 228, Apache 0.5.0 Pig + 30, Azkaban 0,04, Wukong
                    • Utilisé pour ETL & l’analyse des données sur les ensembles de données TeraScale, en particulier les données du réseau social.
                    • inMobi

                      • Exécuter Apache Hadoop sur environ 700 noeuds (16800 cœurs, 5+ PB) dans 6 centres de données pour ETL, Analytics, des données scientifiques et Machine Learning
                      • en utilisant 10 nœud de cluster HDFS pour stocker et traiter les données récupérées sur.
                      • En utilisant Hadoop pour l’analyse, l’analyse des données, l’analyse des journaux.

                      • analyse de la session et la génération de rapports

                      • Utilisation d’Apache Hadoop MapReduce pour analyser des milliards de lignes de données GPS pour créer TrafficSpeeds. notre produit de prévision de la vitesse de circulation précis.

                      • Kalooga – Kalooga est un service de découverte pour des galeries d’images.

                        Utilise Apache Hadoop, hbase, Apache Chukwa et Apache Pig sur un cluster de 20 nœuds pour l’exploration, l’analyse et de traitement des événements.

                      • Katta – Katta sert les grands indices de Lucene dans un environnement de réseau.

                        • Korrelate – Korrelate corrèle les médias en ligne pour les achats hors ligne.

                          • Utilisez Apache Sqoop pour obtenir des données sur notre base de données MPP dans hbase
                          • Utilisez hbase et Apache Pig pour traiter les événements, résumer les données d’événements pour les rapports et générer des rapports sur ligne hors ligne corrélations.
                          • Lorsque notre transition est terminée mi-2014, nous serons traiter des milliards d’événements par mois par HBase et ont une taille totale de données de l’ordre de 5 To
                          • Koubei.com Grande communauté locale et la recherche locale à la Chine.

                            • Utiliser Hadoop pour traiter log apache, l’analyse de l’action de l’utilisateur et cliquez sur le débit et les liens cliquez avec une page spécifiée dans le site et plus encore. Utiliser Hadoop pour traiter toute entrée de l’utilisateur des données de prix sur la carte / réduire.
                            • Matériel: 10 noeuds, chaque noeud a 8 core et 8 Go de RAM

                            • Étudier la communication verbale et non verbale.
                            • quad-core Dual Xeon L5520 @ 2.27GHz & L5630 @ 2.13GHz. 24Go RAM, 8TB (4x2TB) / stockage de noeud.
                            • Utilisé pour le calcul des graphiques, des rapports de redevances, l’analyse des journaux, des tests A / B, ensemble de données fusion
                            • Également utilisé pour l’analyse des caractéristiques audio à grande échelle sur des millions de pistes
                            • Ceci est le centre de cancérologie à l’UNC Chapel Hill. Nous utilisons Apache Hadoop / hbase pour databasing et l’analyse de séquençage de nouvelle génération (NGS) données produites pour le projet Cancer Genome Atlas (TCGA) et d’autres groupes. Ce développement est basé sur le projet open source de SeqWare qui comprend SeqWare Query Engine, un service de base de données et web construit sur hbase qui stocke les types de données de séquence. Notre groupe de prototype comprend:

                              • 8 doubles noeuds quad core en cours d’exécution CentOS
                              • total de 48To de stockage HDFS
                              • Nous avons plusieurs grilles réparties basées sur but.
                              • basé sur Westmere 800 HP SL 170x, avec des noyaux 2×4, 24Go RAM, 6x2TB SATA
                              • base-Westmere 1900 SuperMicro X8DTT-H, avec des noyaux 2×6, 24Go RAM, 6x2TB SATA
                              • 1400 Sandy Bridge-base SuperMicro avec des noyaux 2×6, 32Go RAM, 6x2TB SATA
                              • Apache Hadoop 0.20.2 + patches et Apache Hadoop 1.0.4 + patches
                              • Apache Hive, Apache Avro, Apache Kafka, et d’autres morceaux.
                              • Nous utilisons Hadoop pour traiter clickstream et des données démographiques afin de créer des rapports d’analyse Web.
                              • Notre groupe fonctionne à travers l’infrastructure EC2 d’Amazon et utilise le module de streaming à utiliser Python pour la plupart des opérations.
                              • Utilisation d’Apache Hadoop et hbase pour le stockage, l’analyse des journaux, et la découverte du motif / analyse.

                              • Nous utilisons Apache Hadoop pour filtrer le comportement des utilisateurs, des recommandations et des tendances à partir des sites externals

                              • Utilisation de zkpython pour se connecter avec Apache Zookeeper
                              • Occasion EC2, pas en utilisant de nombreuses petites machines (8 Go Ram, 4 cœurs, 1To)
                              • 18 nœud de cluster (Quad-Core Intel Xeon, 1TB / stockage de noeud)
                              • Les données financières pour la recherche et l’agrégation
                              • Les données de gestion de la relation client pour la recherche et l’agrégation
                              • 20 nœud de cluster (noyaux dual quad, 16GB, 6TB)
                              • traitement des journaux d’occasion, l’analyse des données et l’apprentissage de la machine.
                              • L’accent est mis sur l’analyse sociale des graphes et optimisation des annonces.
                              • Utilisez Apache Hadoop pour analyser la FDA SADR (Adverse Events Reporting System) de données et de présenter un moyen facile de rechercher et les effets des médicaments côté requête
                              • Apache Lucene est utilisé pour l’indexation et la recherche.
                              • comme plate-forme pour l’exploration distribuée
                              • pour stocker et traiter des données non structurées, telles que les nouvelles et les médias sociaux (Apache Hadoop, Apache Pig, MapRed et hbase)
                              • log agrégation et le traitement fichier (Apache Flume)
                              • 20 noeuds grappe (12 * 20 noyaux, 32GB, 53.3TB)
                              • Les clients se connectent sur les applications en ligne
                              • Journal des opérations de traitement
                              • Utilisez java, Apache Pig, Apache Hive, Apache oozie
                              • Recherche d’information et d’analyse
                              • Machine généré contenu – documents, texte, audio, & vidéo
                              • portefeuille de projet comprend: * Traitement du Langage Naturel

                                • Social Mobile Réseau Hacking
                                • Crawlers Web / Page déchirage
                                • Machine généré Audio & Vidéo avec au multiplexage
                                • création de PDF automatique & IR
                                • 2 nœud de cluster (Windows Vista / CYGWIN, & CentOS) pour l’élaboration de programmes MapReduce.
                                • 18 nœud de cluster (Quad-Core AMD Opteron 2347, le stockage 1TB / nœud)
                                • Powers données pour la recherche et l’agrégation
                                • Mail.gr – nous utilisons HDFS pour héberger les boîtes aux lettres de nos utilisateurs.

                                • Nous utilisons Apache Hadoop / Apache Mahout pour traiter les interactions des utilisateurs avec des publicités pour optimiser la sélection des annonces.

                                • Un autre projet de clonage Apache Bigtable utilisant Hadoop pour stocker un grand ensemble de données structuré.
                                • 200 noeuds (chaque nœud a: 2 processeurs dual core, le stockage de 2 To, 4 Go de RAM)
                                • grappe de 50 nœuds dans Coloc
                                • Utilisé pour l’analyse, le traitement, le service et l’analyse des journaux
                                • Occasion EC2 pour exécuter hadoop sur un grand cluster virtuel
                                • Nous utilisons Hadoop pour stocker et traiter nos fichiers journaux
                                • Nous comptons sur Apache Pig pour des rapports, des analyses, Cascading pour l’apprentissage de la machine, et sur une API propriétaire JavaScript pour les requêtes ad-hoc
                                • Nous utilisons du matériel de base, avec 8 cœurs et 16 Go de RAM par machine

                                • Hadoop est utilisé pour exécuter un web personnalisable d’analyse log analyse et de reporting

                                • groupe 50 nœuds de flux de production (Xeons dual quad-core, 16 Go de RAM, 4-6 disques durs) et un couple de plus petits groupes pour analyse des fins individuelles
                                • Environ 500 millions d’événements traités par jour, 15 milliards par mois
                                • Cluster génère environ 25 Go de rapports par jour
                                • Nous utilisons Apache Hadoop pour agréger et analyser les campagnes d’email et les interactions des utilisateurs.
                                • syslog et app journal service hébergé peut alimenter les journaux des clients dans Apache Hadoop pour leur analyse (habituellement avec Hive)

                                • La plupart des clients chargent TSV gzip de S3 (qui sont téléchargés tous les soirs) dans Amazon Elastic MapReduce
                                • Utilisation d’Apache Hadoop / hbase conjointement avec Apache Cassandra pour analyser journal et générer des rapports pour un grand site Web mobile.
                                • 4 noeuds dans un nuage privé avec 4 cœurs, 4G RAM & stockage 500G chacun.
                                • Nous utilisons Apache Hadoop pour traiter web clickstream, marketing, CRM, & données de courrier électronique afin de créer des rapports d’analyse multi-canal.
                                • Notre groupe fonctionne sur EC2 le webservice d’Amazon et utilise Python pour la plupart de notre codebase.
                                • En utilisant Hadoop sur EC2 pour traiter les messages d’observation générés par les lecteurs RFID / de codes à barres que les éléments se déplacent à travers la chaîne d’approvisionnement.
                                • Analyse des fichiers journaux BPEL généré pour le suivi et l’optimisation des processus de flux de travail.
                                • Utilisation d’Apache Hadoop sur EC2 pour traiter des documents à partir d’une analyse de bande continue et la formation distribuée de machines à vecteurs supports
                                • Utilisation de HDFS pour le grand stockage de données d’archives
                                • 4 noeuds grappe (32 cœurs, 1TB).
                                • Nous utilisons Apache Hadoop pour la recherche et l’analyse de millions d’offres de comptabilité
                                • Également utilisé comme une preuve de concept cluster pour un système ERP cloud
                                • 2 noeuds grappe (16 cœurs, 500GB).
                                • Nous utilisons Apache Hadoop pour l’analyse de l’histoire joueurs de poker de jeu et générer gameplay liés statistiques des joueurs
                                • grappe de 50 nœuds dans un site colocalisé.
                                • Également utilisé comme une preuve de concept cluster pour un système ERP cloud.
                                • L’alignement multiple de séquences de protéines permet de déterminer les liens évolutifs et de prévoir des structures moléculaires. La nature dynamique de l’algorithme couplé avec les données et calculer le parallélisme des données Hadoop grilles améliore la précision et la vitesse de l’alignement de séquence. Parallélisme au niveau de la séquence et le bloc pour réduire la complexité des problèmes de temps de MSA. La nature évolutive de Hadoop rend apte à résoudre les grands problèmes d’alignement de l’échelle.
                                • Notre taille de cluster varie de 5 à 10 noeuds. nœuds de cluster varient de 2950 Quad Core serveur rack, avec 2x6MB Cache et 4 x 500 Go Disque dur SATA à E7200 / Processeurs E7400 avec 4 Go de RAM et 160 Go de disque dur.

                                • 3000 noyaux, 3500TB. 1PB + traitement de chaque jour.

                                • Apache Hadoop planificateur avec chemin de données entièrement personnalisée / trieuse
                                • Des contributions importantes à KFS système de fichiers

                                • 30 nœud de cluster (Dual-Core, 4-8GB RAM, 1.5TB / stockage de noeud)

                                • Nous utilisons Apache Hadoop pour analyser les journaux et les données de la mine pour le système de recommender et ainsi de suite.
                                • 80 nœud de cluster (chaque nœud a: CPU core 2 quad, le stockage 4TB, 16Go RAM)
                                • Nous utilisons Hadoop pour traiter les données relatives aux personnes sur le web
                                • Nous participons également avec Cascading pour aider à simplifier la façon dont notre flux de données à travers différentes étapes de traitement
                                • Matériel: 50 noeuds (2 * 4cpu 2To * 4 disque 16Go RAM chacun)
                                • Nous utilisons Apache Hive pour analyser les journaux et les données de la mine pour recommandation.
                                • Nous utilisons Apache Hadoop pour notre recherche interne
                                • Matériel: 35 noeuds (2 * 4cpu 10TB disque 16Go RAM chacun)
                                • Nous avons l’intention de paralléliser une classification traditionnelle, les algorithmes de clustering comme Naive Bayes, K-Means, EM donc qui peuvent traiter des ensembles de données à grande échelle.
                                • Nous utilisons Apache Hadoop pour traiter les données utilisateur de curriculum vitae et des algorithmes d’exécution pour notre moteur de recommandation.
                                • 16 nœud de cluster (chaque nœud a: CPU core 2 quad, le stockage de 6 To, 24Go RAM)
                                • Nous utilisons Apache Hadoop pour le journal et l’analyse de l’utilisation
                                • Nous misons principalement Hive et HUE pour l’accès aux données
                                • Nous utilisons Apache Hadoop pour l’analyse des sites de nouvelles et l’analyse du journal.
                                • Nous utilisons également Apache Cassandra comme notre back-end et Apache Lucene pour la recherche des capacités
                                • Nous utilisons Apache Hadoop, Apache Pig and map / reduce pour traiter les données de SQL extraites pour générer des objets JSON qui sont stockés dans MongoDB et servis par nos services Web
                                • Nous avons deux groupes avec un total de 40 noeuds avec 24 cœurs à 2,4 GHz et 128 Go de RAM
                                • Chaque soir, nous traitons plus de 160 scripts de porcs et 50 map / reduce emplois processus sur 600GB des données
                                • Rubbellose

                                  • Nous utilisons AWS EMR avec Cascading pour créer la personnalisation et les flux de recommandation emploi
                                  • SARA a lancé un projet Proof-of-Concept pour évaluer la pile logicielle Hadoop à usage scientifique.

                                  • Un projet pour aider à développer l’open source des outils de recherche sociale. Nous courons un cluster Hadoop 125 noeud.
                                  • Nous recueillons des données DNS world wide afin de découvrir les réseaux de distribution de contenu et les problèmes de configuration en utilisant Hadoop DFS et MapRed.
                                  • Nous utilisons Hadoop pour stocker et analyser de grandes données de recherche de quantités et de performance pour nos recherche Analytics et services de surveillance des performances évolutives.
                                  • 18 nœud de cluster (chaque nœud a: 4 CPU dual core, le stockage de 1 To, 4 Go de RAM, RedHat OS)
                                  • Nous utilisons Hadoop pour nos applications d’exploration de données à grande vitesse
                                  • Nous avons un groupe d’analyse de base qui utilise un cluster de 10 nœuds exécutant RedHat OS
                                  • Hadoop est utilisé comme une infrastructure pour exécuter MapReduce (MR) des algorithmes sur un certain nombre de données brutes
                                  • Raw ingest de données se produit toutes les heures. Les données brutes proviennent de systèmes matériels et logiciels dans le domaine
                                  • Ingested et les données traitées sont stockées dans une base de données relationnelle et enroulées en utilisant Hive / Pig
                                  • Planifiez à mettre en œuvre pour construire Mahout moteur de recommandation
                                  • 14 nœud de cluster (chaque nœud a: 2 processeurs dual core, le stockage de 2 To, 8 Go de RAM)
                                  • Nous utilisons hadoop pour traiter les données du journal et effectuer des analyses à la demande
                                  • Nous développons le MrGeo (Map / Reduce Geospatial) l’application pour permettre à nos utilisateurs d’apporter le cloud computing pour le traitement géospatial.
                                  • Nous utilisons Apache HDFS et MapReduce pour stocker, données d’imagerie et de vecteurs géospatiales processus, et d’index.
                                  • Nous utilisons Apache Hadoop pour l’agrégation de journal, de reporting et d’analyse
                                  • Deux groupes Apache Hadoop, tous les nœuds 16 cœurs, 32 Go de RAM
                                  • Groupe 1: 27 noeuds (total 432 noyaux, 544GB de RAM, stockage 280TB)
                                  • Groupe 2: 111 noeuds (total 1776 noyaux, 3552GB RAM, stockage 1.1PB)
                                  • 1650 nœud de cluster. 43.000 noyaux virtualisées,

                                    65 stockage PB (en savoir plus sur nos problèmes de Hadoop en croissance rapide: Hadoop Adventures A Spotify)

                                  • +20.000 emplois quotidiens Hadoop (programmés par Luigi, notre orchestrateur d’emploi open-source – le code et vidéo)
                                  • Hébergé Apache Hadoop entrepôt de données fournisseur de solutions
                                  • Nous utilisons Apache Hadoop pour l’analyse des sentiments / surveillance des médias sociaux et le marketing personnalisé
                                  • Utilisation de la classe 3 du noeud dans un environnement visualisé avec un 4ème noeud pour les rapports SQL
                                  • Nous utilisons Apache HBase pour stocker nos informations recommandation et d’exécuter d’autres opérations. nous avoir committers Hbase sur le personnel.

                                  • Taragana – Web 2.0 Développement de produits et services d’externalisation

                                    Nous utilisons 16 ordinateurs de qualité des consommateurs pour créer le cluster, relié par réseau de 100 Mbps.

                                  • Utilisé pour tester des idées pour blog et d’autres données minières.
                                  • Nous utilisons Apache Hadoop sur 17 nœuds et 103 nœuds grappes de nœuds dual-core pour traiter et extraire des statistiques de plus de 1000 quotidiens américains ainsi que les archives historiques du New York Times et d’autres sources.
                                  • 8 nœud de cluster (Xeon Quad Core 2,4 GHz, 8 Go de RAM, 500Go / node Raid 1 stockage)
                                  • Utilisé comme une preuve de concept grappe
                                  • Manipulation à savoir l’exploration de données et le blog rampants
                                  • Générer l’analyse des stocks sur 23 nœuds (2.4GHz dual Xeon, 2 Go de RAM, 36GB Hard Drive)
                                  • Collecte et analyse de journal, des menaces, des données de risque et d’autres informations de sécurité sur les 32 noeuds (8-Core Opteron 6128 CPU, 32 Go de RAM, 12 TB de stockage par noeud)
                                  • Nous utilisons Apache Hadoop dans nos groupes de modélisation de l’exploration de données et l’utilisateur, le multimédia, la recherche et Internet.
                                  • 6 nœud de cluster avec 96 coeurs au total, 8 Go de RAM et 2 stockage To par machine.
                                  • groupe 60-Node pour notre Lieu-Based Traitement du contenu y compris les algorithmes d’apprentissage automatique pour Catégorisation statistique, deduping, Agrégation & Curation (Hardware: 2,5 GHz Quad-core Xeon, 4Go de RAM, stockage 13TB HDFS).
                                  • Le cloud privé pour la mise en batterie de serveurs rapides pour les environnements scéniques et de test. (Utilisation de clusters élastique N-Node)
                                  • cloud public pour les projets exploratoires qui nécessitent des serveurs rapides pour l’évolutivité et de calcul surtensions (Utilisation groupe Elastic N-Node)
                                  • Nous utilisons Apache Hadoop, Apache Pig et hbase pour analyser journal de recherche, vue du produit des données, et d’analyser les journaux d’utilisation
                                  • 3 nœud de cluster avec 48 cœurs au total, 4 Go de RAM et 1 To de stockage chacun.
                                  • Nous utilisons Apache Hadoop pour l’analyse du journal.
                                  • Nous utilisons Apache Hadoop HDFS, Map / Reduce, Apache Hive et hbase
                                  • Nous gérons plus de 300 To de données HDFS sur quatre Amazon EC2 zone de disponibilité
                                  • Nous utilisons Apache Hadoop pour la recherche et l’indexation
                                  • Nous utilisons Apache Hadoop pour stocker et tweets de processus, les fichiers journaux et de nombreux autres types de données générées à travers Twitter. Nous conservons toutes les données sous forme de fichiers LZO compressés.
                                  • Nous utilisons à la fois Scala et Java pour accéder à MapReduce Hadoop API de
                                  • Nous utilisons Apache Pig fortement pour les tâches planifiées et ad-hoc, en raison de sa capacité à accomplir beaucoup avec quelques déclarations.
                                  • Nous employons committers sur Apache Pig, Apache Avro, Apache Hive, et Apache Cassandra, et de contribuer beaucoup plus de notre travail de Hadoop interne opensource (voir hadoop-lzo)
                                  • Nous utilisons Apache Hadoop pour assembler les résumés de ce que les utilisateurs copient sur leurs sites Web éditeurs web et d’analyser l’engagement des utilisateurs sur le web.
                                  • Nous utilisons Apache Pig et Java personnalisé carte réduisent le code, ainsi que Apache Chukwa.
                                  • 5 noeud profil bas cluster. Nous utilisons Hadoop pour soutenir le projet de recherche: Territorial Intelligence System de Bogota City.

                                  • 10 noeuds grappe (Xeon Dual Core 3.16GHz, 4Go RAM, 3To / stockage de noeud).
                                  • Notre objectif est de développer des techniques pour le Web sémantique qui tirent parti de MapReduce (Hadoop) et son passage à grande échelle des comportements pour faire face à la prolifération croissante des données sémantiques.
                                  • RDFPath est un langage de chemin expressif RDF pour l’interrogation de grands graphes RDF avec MapReduce.
                                  • PigSPARQL est une traduction de SPARQL Pig Latin permettant d’exécuter des requêtes SPARQL sur de grands graphes RDF avec MapReduce.
                                  • 30 noeuds grappe (Xeon Quad Core 2,4 GHz, 4 Go de RAM, 1To / stockage de noeud). Nous utilisons Hadoop pour faciliter la recherche de recherche d’information & l’expérimentation, en particulier pour les TREC, en utilisant la plate-forme Terrier IR. La version open source de Terrier inclut à grande échelle une indexation distribuée utilisant Hadoop Map Reduce.
                                  • Nous sommes l’un des six universités participantes dans les milieux universitaires cloud computing initiative d’IBM / Google. Les efforts de recherche et d’enseignement comprennent des projets dans la traduction automatique, la modélisation du langage, la bioinformatique, l’analyse de courrier électronique et de traitement d’image.
                                  • Nous courons actuellement une grappe Hadoop moyennes (1.6PB) pour stocker et servir des données de physique pour la partie de calcul de l’expérience Compact Muon Solenoid (CMS). Cela nécessite un système de fichiers qui peut télécharger des données à plusieurs Gbps et traiter les données à un taux encore plus élevé localement. En outre, plusieurs de nos étudiants sont impliqués dans des projets de recherche sur Apache Hadoop.
                                  • Nous utilisons un petit groupe Apache Hadoop pour réduire les données d’utilisation des paramètres internes, pour l’indexation de recherche et pour les données de recommandation.

                                  • Nous utilisons un cluster Hadoop pour la recherche et l’indexation pour nos projets.
                                  • utilise Hadoop en tant que composant dans notre pipeline de données évolutive, qui en fin de compte des pouvoirs VisibleSuite et d’autres produits. Nous utilisons Hadoop pour agréger, stocker et analyser les données liées au comportement de visualisation en flux d’audiences vidéo sur Internet. Notre grille actuelle contient plus de 128 cœurs de processeurs et plus de 100 téraoctets de stockage, et nous prévoyons de croître que sensiblement en 2008.
                                  • Nous utilisons un petit groupe Apache Hadoop dans le cadre de nos activités générales de recherche à VK Labs pour obtenir un accès plus rapide des données à partir d’applications web.
                                  • Nous utilisons également Apache Hadoop pour le filtrage et la cotation de l’indexation, l’analyse du journal de traitement, et pour les données de recommandation.

                                  • Nous utilisons Apache Hadoop pour notre interne optimisation des moteurs de recherche (SEO) des outils. Il nous permet de stocker, d’indexer, de données de recherche d’une manière beaucoup plus rapide.

                                  • Nous utilisons également pour l’analyse et les tendances journaux prédiction. ‘
                                  • Nous utilisons Apache Hadoop pour nos outils pour les webmasters. Il nous permet de stocker, indexer, les données de recherche d’une manière beaucoup plus rapide. Nous utilisons également pour l’analyse et les tendances journaux prédiction.
                                  • 4 nœud de cluster (chaque nœud a: 4 core CPU AMD, le stockage de 2 To, 32Go RAM)
                                  • Nous utilisons Apache Hadoop pour traiter les données du journal et effectuer des analyses à la demande aussi bien
                                  • Hardware: 44 serveurs (chaque serveur dispose de: 2 processeurs dual core, le stockage de 2 To, 8 Go de RAM)
                                  • Chaque serveur fonctionne Xen avec une instance Apache Hadoop / hbase et un autre exemple avec les serveurs Web ou d’application, nous donnant 88 machines virtuelles utilisables.
                                  • Nous courons deux clusters Hadoop Apache / hbase séparés avec 22 noeuds chacun.
                                  • Apache Hadoop est principalement utilisé pour exécuter hbase et Map / Reduce numérisation des emplois sur les tables hbase pour effectuer des tâches spécifiques.
                                  • Hbase est utilisé comme une extrémité arrière de stockage évolutive et rapide pour des millions de documents.
                                  • Actuellement, nous enregistrons 12 millions de documents avec un objectif de 450 millions dans un avenir proche.

                                  • Plus de 100.000 unités centrales gt; 40.000 ordinateurs exécutant Hadoop

                                  • Notre plus grand cluster: 4500 noeuds (2 * Boîtes de 4cpu w 4 * 1To disque & 16Go RAM)

                                    • Utilisé pour soutenir la recherche sur les systèmes et Ad Web Search
                                    • Également utilisé pour faire des tests d’échelle pour soutenir le développement d’Apache Hadoop sur les grands groupes
                                    • Notre Blog – En savoir plus sur la façon dont nous utilisons Apache Hadoop.
                                    • gt; 60% de Hadoop emplois au sein de Yahoo sont des emplois Apache Pig.
                                    • exploitation d’un cluster Cloudera à des fins de surveillance des médias
                                    • offrant des conseils techniques et opérationnel pour la pile Hadoop Apache + écosystème
                                    • rédacteur en chef d’Hannibal. un outil open-source pour visualiser les régions Apache hbase tailles & scissions qui aide en cours d’exécution dans la production HBase

                                    • 10 nœud de cluster (Dual-Core AMD Opteron 2210, 4 Go de RAM, 1To / stockage de noeud)

                                    • Exécutez classificateurs Naive Bayes en parallèle sur les données d’analyse pour découvrir des informations d’événement

                                    • PoweredBy (modifié en dernier 14.04.2016 12:00:19 par SteveLoughran)

                                      Source: wiki.apache.org

                                      Lire la suite

                                      • Technologie 3D et 4K Résolution – PlayStation Guide 4 Wiki

                                        Technologie 3D et 4K Résolution Vous avez des commentaires sur notre lecteur? Nous voulons l’entendre. Cela ne veut pas dire que la technologie ne sera pas inclus; c’est. support 3D pour les jeux reste inclus dans l ‘système …

                                      • Installation Bluefish – Bluefish Wiki

                                        Installation de Bluefish Installation Bluefish sur Debian GNU / Linux Installation de la version qui fait partie de Debian / Ubuntu / Mint / etc ou tout autre frontend pour le gestionnaire de paquets tels que synaptique …

                                      • Aandrijfspoor – Minecraft Wiki

                                        Aandrijfspoor Effet Aangedreven spoor façonnage et kan aan de uit staan. Als een aangedreven spoor uit staat zal het een Bewegende mijnwagen vertragen. Meestal zal deze vertraging groot genoeg …

                                      Laisser un commentaire

                                      Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

                                      8 − sept =