Guía para empezar con Machine Learning

Guía para empezar con Machine Learning

Guía para empezar con Machine Learning

Hola como andan? Yo les cuento que por acá a full con unos días de mucho trabajo y que el cambio de clima y la llegada del frío me trajeron una gripe de regalo que me dejó medio roto por unos cuantos días, así que capaz lo notan en mi voz que todavía estoy bastante congestionado.

La verdad es que tenía muchas ganas de retomar el podcast, que la semana pasada no pude publicar nada y hoy quiero hablarles de lo básico como para ponerse en marcha en la práctica de machine learning.

Así que hoy les voy a comentar qué lenguajes, herramientas, frameworks y librerías son las que para mi están buenas como para empezar.

Me voy a basar en:

  • La facilidad que tienen
  • La rapidez para conseguir resultados
  • Lo que tenga menor curva de aprendizaje.

Pero antes de meternos en el tema, quería decirles que para enterarse cuando sale un nuevo episodio del podcast no hace falta que se acuerden de visitar la web para revisar si hay algo nuevo, sino que se pueden suscribir desde sus teléfonos con la aplicación de podcast que mas les guste 😀

Si usas Android puede ser con Google Podcast o en un iPhone con Apple podcast, o sino con las aplicaciones iVoox o Spotify. Ahi le dan a suscribirse y se van a enterar cuando publique algo nuevo y no se pierden ninguno.

Ahora si, después del chivo vamos con el tema…

Programar Machine Learning con Python

En cuanto a lenguaje de programación, si bien hay muchos, yo en su momento elegí Python y creo que estuve acertado.

Miren que yo trabajé casi toda mi vida profesional programando en C#.

Pero la verdad es que Python me enamoró, y no es algo que me haya pasado a mí nada más, sino que es algo que le pasó a muchisima gente mas, por algo salió como uno de los lenguajes más amados por los desarrolladores en la última encuesta de desarrolladores de Stack Overflow y es uno de los que más viene creciendo en comunidad en los últimos tiempos.

Y esto creo que es porque es un lenguaje muy sencillo, fácil de aprender, y también por la gran comunidad que tiene y hace que cuando busques cualquier información la encuentres rápido o si tenes algun problema lo publiques en algún foro y seguro alguien te va a responder.

Y también por las librerías que tiene para ciencia de datos y machine learning que son espectaculares, realmente obras maestras!

Asi que imaginense que si los tipos que escribieron esas obras maestras, eligieron hacerlas para Python, por algo será!

Jupyter Notebook, el entorno para empezar con aprendizaje automático

Ok, una vez elegido el lenguaje, hay que ver donde escribirlo. Acá sin dudas para mi lo mejor es empezar usando Jupyter Notebook que es un entorno de programación pero que además funciona como una especie de libreta para que vayamos anotando cosas.

Esto cuando estamos aprendiendo es genial, porque tomar notas y hacer apuntes es fundamental para ayudar a que los conceptos se nos queden en la mente. Y lo bueno es que podes ir ejecutando el código por bloques y los resultados van quedando abajo de cada fragmento de código.

Incluso si hacemos gráficos, que son fundamentales a la hora de hacer análisis de datos, todo queda ahí junto con el código y nuestras anotaciones. Es genial!

Jupyter Notebook funciona en forma de aplicación web, que cuando lo ejecutamos accedemos a través de un navegador. Ahí vamos a ver un listado de carpetas y vamos a poder crear las nuestras para guardar nuestros notebook y tener todo bien ordenado.

Y bueno cuando creamos un notebook nos da la posibilidad de escribir un bloque de código o escribir texto, que podemos formatear con markdown. Y bueno tenemos botones para ejecutar, guardar, copiar, pegar, todo lo típico de un entorno de desarrollo.

Las principales librerías de ML con Python

Ahora vayamos al tema de las librerías, las fundamentales para iniciar creo yo que son 4, Numpy, Pandas, Matplotlib y Scikit-learn.

Empecemos por Numpy. Que es un paquete muy muy optimizado para trabajar con vectores, matrices y hacer funciones matemáticas sobre esos datos multidimensionales.

Después tenemos a Pandas, que es una librería que nos ayuda importar y exportar archivos CSV entre otras cosas.

Los archivos CSV son de los tipos de archivos más comunes para manejar los datasets que vamos a usar para hacer machine learning. Y Pandas tiene todo lo que nos va a servir para el preprocesamiento de los datos.

Tengamos en cuenta que para tener resultados buenos y resultados de calidad, tenemos que partir de una buena calidad de datos.

Esto lo más probable es que no nos venga dado de esta manera. Entonces vamos a tener que, una vez que ya hayamos importado el dataset, que consultar y analizar los datos.

Entonces Pandas nos va a servir para ver qué datos tenemos en el dataset, hacer limpieza de datos, completar datos faltantes, la verdad que es una libreria infaltable!

Después tenemos a Matplotlib, que es una de las librerías que podemos usar para generar gráficos a partir de los datos que tenemos. Se pueden hacer gráficos de barras, histogramas, gráficos escalares. Muy útil la verdad porque algunas cosas es más fácil de entenderlas visualmente. Como se suele decir, una imagen vale más que mil palabras, bueno acá también aplica.

Por último tenemos Scikit-learn, que es una librería open source que implementa la mayoría de los algoritmos de machine learning. Ahí tenemos algoritmos de clasificación, de regresión y de análisis de grupos. Y digamos que es la librería que termina haciendo la magia final para darnos las predicciones.

Y bueno con esto tenemos la base como para empezar a meternos y hacer los primeros experimentos.

Anaconda nos hace la vida mas fácil para armar el ambiente de ciencia de datos

Y una cosa mas para contarles es que hay una distribución multiplataforma, que se llama Anaconda y viene con Python y con las principales librerías para trabajar en ciencias de datos y machine learning. Que ademas ayuda porque te deja manejar varios ambientes virtuales donde podes tener instaladas distintas versiones de las librerías. Y tambien ya viene con Jupyter Notebook.

Así que Anaconda nos facilita la cosa y con solo instalar la distribución para nuestro sistema operativo ya vamos a tener todo lo que necesitamos para empezar.

Asi que bueno hasta acá llegamos con el programa de hoy, gracias por estar ahí escuchando 😀

Y si aun no lo hiciste y podes, te pido que dejes una recomendación de 5 estrellas en iTunes o un comentario o me gusta en iVoox, que eso es lo que hace que este podcast pueda tener más visibilidad y pueda ser descubierto por más personas, o que lo compartas con alguien que creas que le pueda interesar o en las redes sociales.

Y ahora sí, nos escuchamos en el próximos episodio donde seguiremos hablando de este hermoso mundo de la inteligencia artificial.

Dejar recomendación en iTunes

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *