Microsoft Azure proporciona imágenes de máquina virtual configuradas previamente y diseñadas de forma específica para la ciencia de datos. Estas máquinas tienen instaladas las herramientas y plataformas de trabajo de ciencia de datos más populares.
Azure Data Science Virtual Machine (DSVM) basada en Windows, incluye el software, los marcos y las herramientas de ciencia de datos para permitir la integración de servicios de Azure.
- Tutoriales para fines de entrenamiento.
- Compatibilidad con Microsoft Office.
- Integración de SQL Server con Machine Learning Services para admitir la ejecución de Python o R con SQL Server.
Además, DSVM basada en Windows incluye varios lenguajes de programación preinstalados, como R, Python, SQL y C#. Puede desarrollar, probar y ejecutar el código con Microsoft Visual Studio o Visual Studio Code.
- Azure SDK para integrar Microsoft Azure Cloud Services en las aplicaciones
- Power BI Desktop
- Azure PowerShell
- AzCopy
- Azure Data Lake Storage
- Data Management Gateway
Herramientas de ciencia de datos
- SDK de Azure Machine Learning para Python
- Anaconda (distribución de Python)
- Jupyter Notebook con kernels R, Python y Apache Spark Python (PySpark)
- Microsoft Visual Studio Community
- Microsoft Power BI Desktop
- Microsoft SQL Server y Microsoft Machine Learning Services
- Instancia de Apache Spark para desarrollo y pruebas locales
- JuliaPro, de Julia Computing
- Python/R
- Git
Herramientas de aprendizaje automático
- Soporte de Azure Cognitive Services
- H2O: plataforma de IA de código abierto que admite ML en memoria, distribuido, rápido y escalable.
- TensorFlow: marco de aprendizaje profundo basado en Python.
- Chainer: marco de aprendizaje profundo basado en Python.
- Apache MXNet: marco de aprendizaje profundo compatible con varios lenguajes, incluidos C++, Python, R y Perl.
- Keras: API de redes neuronales de alto nivel, escrita en Python.
- Vowpal Wabbit ("VW"): biblioteca del sistema de aprendizaje de código abierto, rápida y situada fuera del núcleo.
- XGBoost: biblioteca distribuida de potenciación del gradiente (GBDT, GBRT o GBM) para Python, R, Java y Scala.
- Rattle: interfaz gráfica de usuario para la minería de datos con R.
- Weka: colección de algoritmos de ML basados en Java para tareas de minería de datos.
- Apache Drill: motor de consultas SQL de código abierto para macrodatos, que permite la exploración de datos sin exportar.
Las instancias de Deep Learning Virtual Machine (DLVM) usan hardware basado en GPU, que proporciona una mayor velocidad de cálculo matemático para un entrenamiento de modelos más rápido. Tanto Python como R funcionan con ArcGIS Pro y están preconfigurados en Data Science VM para inteligencia artificial geoespacial. ArcGIS Pro es el sistema de información geográfica (GIS) de escritorio de 64 bits de próxima generación de Esri. La inteligencia artificial (IA) geoespacial hace referencia a la incorporación del aprendizaje automático a los mapas, la interpretación de mapas o a cualquier aprendizaje automático con contenido geográfico. Puede encontrar esta imagen de VM en Marketplace con el nombre "Data Science VM para inteligencia artificial geoespacial con ArcGIS".
Seguridad a lo Jabalí para Todos!!