¿Qué es AWS Neptune? | VentureBeat
Todas las sesiones de Transform 2021 están disponibles bajo demanda ahora. Mira ahora.
La base de datos de AWS Neptune Graph está diseñada para almacenar una gran colección de relaciones complejas como un servicio escalable. Admite una serie de estándares diferentes y en evolución para representar redes y conocimientos complejos como gráficos y ganchos recientemente agregados para un protocolo de tienda de gráficos, openCypher, Neptune ML y TinkerPop Gremlin para su amplia gama de API compatibles.
Al ejecutarse en la nube de AWS, es un nuevo miembro importante en el campo cada vez más competitivo de las bases de datos gráficas. En particular, Amazon se está enfocando en integrar las rutinas de inteligencia artificial del servicio de inteligencia artificial corporativa de SageMaker con AWS Neptune. Esto tiene como objetivo crear una herramienta híbrida que almacene y analice datos.
Almacén de base de datos de gráficos grandes colecciones de relaciones entre objetos, personas, ideas o cualquier otra entidad que se pueda representar en una base de datos. Si bien las bases de datos relacionales funcionan bien para registrar campos de datos y conexiones de uno a muchos, las bases de datos gráficas están optimizadas para rastrear relaciones de muchos a muchos, como las redes sociales (quién sabe quién) y las redes de conceptos (qué ideas están conectadas a qué otras) .
Algunos de los casos de uso natural para bases de datos gráficas como Neptuno son:
- Detección de fraudes – El comportamiento delictivo a menudo cae en un patrón predecible y las bases de datos de gráficos son útiles para encontrar patrones basados en conexiones entre eventos. Una serie de eventos incorrectos usando la misma dirección física o IP, por ejemplo, podría resultar en reportar eventos futuros con las mismas direcciones para su revisión.
- Motores de recomendación – Si el gráfico puede vincular artículos similares, un algoritmo simple puede ofrecer a los usuarios ayuda para encontrar nuevos amigos o posibles compras siguiendo estos vínculos.
- Gráficos de conocimiento – Una de las opciones más sofisticadas es crear una red de relaciones entre ideas, pensamientos y conceptos abstractos. Esto puede servir como base para algoritmos de búsqueda más sofisticados, traducción lingüística u otras formas de inteligencia artificial.
- Monitores de blanqueo de capitales – Algunas regulaciones requieren que las instituciones financieras rastreen el flujo de moneda para ayudar a prevenir el crimen. Las bases de datos gráficas son opciones naturales para modelar transacciones y detectar flujos netos.
- Búsqueda de contactos – Los epidemiólogos a menudo se esfuerzan por controlar la propagación de enfermedades al rastrear cómo y cuándo las personas se encuentran e interactúan. Las bases de datos de gráficos a menudo tienen algoritmos para trazar el flujo a través de múltiples saltos.
Neptune admite los dos modelos conceptuales principales para procesar datos de gráficos (gráfico de propiedades y RDF) y diferentes lenguajes de consulta para cada uno de ellos. Los usuarios pueden elegir una plantilla en particular al crear las tablas de la base de datos, pero estas no son fácilmente intercambiables después de la creación.
Los desarrolladores tienen varias opciones para trabajar con Neptune. Los datos se pueden insertar o consultar con uno de estos protocolos:
- Gremlin, para acceder a los datos del gráfico de propiedades, del proyecto Apache TinkerPop
- openCypher, otra opción para consultar datos de gráficos de propiedades, desde bases de datos de Neo4J
- SPARQL, para búsqueda de datos RDF, de W3C
- Bolt, una versión binaria del protocolo openCypher, de Neo4J
AWS Neptune también está diseñado como otras bases de datos de Amazon para ocultar gran parte de la complejidad de instalar el software o escalarlo de manera eficiente. El servicio replicará los datos para crear réplicas de lectura en centros de datos y zonas de disponibilidad. Las copias de seguridad se pueden activar automáticamente en los depósitos de S3. Si un nodo deja de funcionar, otras réplicas pueden hacerse cargo automáticamente.
Precios de Neptune altamente dependiente del uso. El proyecto de ley combina el poder de la computación ($ 0.098 por hora de máquina virtual y más), la cantidad de almacenamiento ($ 0.10 por GB al mes) y la cantidad de solicitudes ($ 0.20 por 1 millón de solicitudes). Las copias de seguridad pueden ser más baratas ($ 0.02 por GB al mes en el este de EE. UU.). Hay una cantidad gratuita de transferencia de datos, pero después del primer terabyte comenzará en $ 0.09 / GB y disminuirá con el volumen.
La integración con SageMaker de Amazon brinda la capacidad de permitir que la herramienta de aprendizaje automático clasifique los nodos y los bordes del gráfico en función de sus atributos y los atributos de los nodos o bordes conectados a ellos. También puede determinar las conexiones más probables basándose en un conjunto de datos, lo que le permite generar rutas predictivas.
Algunas aplicaciones de esta opción de aprendizaje automático incluyen tareas del mundo físico, como encontrar rutas o caminos a través de datos geográficos que se han transformado en un modelo gráfico. Otras tareas más abstractas, como la síntesis de conocimientos, dependen de modelos gráficos construidos a partir de textos o redes conceptuales.
¿Cómo compiten las empresas establecidas?
Las bases de datos más antiguas agregan capacidades gráficas a sus bases de datos existentes como otro tipo de tabla. La solución de Oracle también puede modelar un gráfico de propiedad o datos RDF bajo el paraguas de su base de datos principal. Estos jugadores agregaron la funcionalidad de búsqueda de gráficos a su lenguaje de consulta y crearon una colección de herramientas como Graph Studio que facilitan la ampliación de los conjuntos de datos existentes para usar la funcionalidad de gráficos.
Microsoft ha agregado la funcionalidad de modelado de gráficos de propiedades al servicio Azure Cosmos DB. Las consultas se pueden crear usando Gremlin para encontrar nodos que se replican automáticamente. La compañía también agregó objetos gráficos y de nodo a SQL Server, lo que permite almacenar información gráfica junto con otros datos relacionales.
IBM agregó el marco de análisis de Apache TinkerPop a Db2 para que las consultas escritas en Gremlin puedan funcionar con consultas SQL más estándar.
¿Cómo compiten los advenedizos?
Fundada en 2007, Neo4J es una de las principales empresas de bases de datos de gráficos y es responsable del desarrollo de algunos de los estándares que emula Neptune. Es compatible con Neo4J, una de las primeras bases de datos de gráficos exitosas. La compañía ha estado creciendo de manera constante y recientemente recaudó una recaudación de fondos con una valoración de $ 2 mil millones, lo que la hace estar lejos de ser una startup, pero no en el mismo rango que las empresas más grandes del sector.
En entrevistas, el equipo de administración de Neo4J cita el tamaño moderado de la empresa como una ventaja, ya que se enfoca en construir el mejor ecosistema de base de datos de gráficos, en lugar de toda la tecnología. La herramienta también es fácil de descargar, lo que permite a las empresas ejecutarla tanto en la nube como en las instalaciones. El software puede ejecutarse localmente, en una imagen preconfigurada en las principales nubes o en la nube Aura patentada de Neo4J.
Algunas otras bases de datos de gráficos continúan creciendo. ArrangoDB también ofrece una versión empresarial que puede ejecutarse en sus propias máquinas o como una instancia preconfigurada en las principales nubes. También está disponible una versión comunitaria sin algunas de las funciones para admitir grandes clústeres de varias máquinas para aquellos que deseen acceder al código fuente. ArrangoDB se anuncia a sí mismo como “multimodal” porque los nodos pueden actuar como almacenes de claves / almacenes de valores NoSQL, partes de un gráfico o ambos.
TigerGraph también está diseñado para abordar grandes conjuntos de datos y se puede utilizar en hardware local o mediante una suscripción a un servicio en TigerGraph Cloud. Está diseñado para manejar conjuntos de datos más grandes usando Apache Hadoop o Spark. Las consultas están escritas en GSQL.
Dgraph es una base de datos de gráficos distribuidos disponible con la licencia de Apache o con un conjunto de capas patentadas de nivel empresarial para crear clústeres de múltiples máquinas más grandes. El lenguaje de consulta principal es GraphQL, creado por Facebook.
JanusGraph es un proyecto de la Fundación Linux respaldado por varias empresas, incluida Target. La base de datos está diseñada para funcionar con algunas de las principales bases de datos NoSQL, como Apache HBase, Bigtable de Google y BerkleyDB de Oracle. El análisis de datos se puede realizar a través de algunos marcos MapReduce distribuidos o Apache Spark.
¿Hay algo que AWS Neptune no pueda hacer?
Apoyo Gráfico de propiedades y RDF le dan a Neptune un gran atractivo para muchos proyectos, incluidos aquellos que utilizarán ambas arquitecturas. Pero el soporte no es completo y Neptune no ofrece todas las características de los diferentes estándares. Por ejemplo, las consultas de inferencia para datos RDF aún no están disponibles, aparentemente porque reducen el rendimiento.
Disponible solo como un servicio en la nube, AWS Neptune también se diferencia de las ofertas de AWS como Aurora porque el software principal no está disponible como una distribución de código abierto y los desarrolladores no pueden ejecutar versiones locales o salir del hardware de AWS.
VentureBeat
La misión de VentureBeat es ser un lugar público digital para que los responsables de la toma de decisiones técnicas aprendan sobre tecnología transformadora y realicen transacciones. Nuestro sitio proporciona información esencial sobre tecnologías y estrategias de datos para guiarlo en la gestión de sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
- información actualizada sobre los temas que le interesan
- nuestros boletines
- Contenido de líder intelectual cerrado y acceso con descuento a nuestros eventos populares, como Transformar 2021: Aprende más
- funciones de red y más
«Jugador orgulloso. Gurú del café. Alcoholico galardonado. Entusiasta de la cerveza. Estudiante. Aficionado a los zombis. Lector. Especialista en música. Aficionado a la comida».