Словарь терминов Python (DS): уровень 0, новичок

Словарь терминов Python (DS): уровень 0, новичок

Перед поступлением в Elbrus Bootcamp студенты проходят подготовку — за три недели знакомятся с синтаксисом языка программирования, который им предстоит изучать, и его основными конструкциями. Чтобы упростить процесс подготовки, собрали словарь самых распространенных терминов, с которыми сталкивается любой начинающий data scientist, который пишет код на языке программирования Python.

Определения разделены на две категории: технологии и сервисы, с которыми вам предстоит работать, и основные понятия из области программирования.

Термины

Баг-репорт — подробное описание ошибки в работе программы с указание, где именно произошла ошибка и как она повлияла на работу программы. Чаще всего составлением таких документов занимается тестировщик.

База данных — набор упорядоченной информации, которая хранится на каком-то носителе. Например, на жестком диске или на сервере.

СУБД — это система управления базами данных. Так называют сложное программное обеспечение, которое требуется, чтобы создавать базы данных, изменять их, получать из них информацию и контролировать версии.

Компилятор — программа, которая переводит код на языке программирования, понятном человеку, на язык машинного кода, понятном компьютеру.

Массив — тип данных, который представляет собой набор упорядоченных и однотипных элементов. Массивы есть и в Python, и в большинстве других языков программирования.

Математическая статистика — наука, которая помогает анализировать большие объемы данных, описывать их и строить прогнозы.

Теория вероятностей — раздел математики, который изучает закономерности случайных явлений. Он лежит в основе работы с большими данными.

Объектно-ориентированное программирование (ООП) — парадигма программирования, которая рассматривает программу не как единое целое, а как набор объектов, взаимодействующих друг с другом.

Машинное обучение — набор методов искусственного интеллекта, которые позволяют использовать его для разных практических целей. Например, для автоматизации процессов, перевода текстов, распознавания изображений или видео.

Репозиторий — хранилище данных, которое можно сравнить с каталогом информации. В разных его частях содержится код — данные, к которым он обращается и другие файлы. Чаще всего употребляется в контексте распределенных систем управления версиями, таких как GitHub.

GitHub — это онлайн-хранилище версий кода, в которой несколько разработчиков могут одновременно писать код. Одновременно этом самая популярная соцсеть для программистов, где разработчики выкладывают код своих проектов, а их коллеги и рекрутеры могут оценить его качество.

Фреймворк — программная платформа, которая упрощает разработку. Она задает структуру, определяет правила и предоставляет необходимый набор инструментов для создания программы — какой, зависит от типа и назначения фреймворка.

Open Source — программное обеспечение с открытым исходным кодом. Чаще всего оно распространяется бесплатно, а принять участие его разработке или кастомизировать под свои нужды без нарушения авторских прав может любой разработчик.

Data Science — или наука о данных. Это раздел науки, связанной с разными аспектами работы с информацией: ее обработкой, анализом и использованием в практических целях.

Deep learning — глубокое машинное обучение. Это вид вид машинного обучения, при котором многослойные нейросети самостоятельно обучаются на больших массивах данных.

Технологии

Pandas — это библиотека для работы с данными для Python. Она предназначена для обработки больших данных и значительно упрощает работу с ними: там, где раньше нужно было написать 10 строк кода, с этим пакетом будет достаточно одной.

TensorFlow — Python-библиотека от Google, которая используется для построения и обучения нейронных сетей. С ее помощью, например, можно написать поисковый алгоритм или обучить нейросеть для автоматического перевода текста.

💡
Хотите попрактиковаться в решении задач и узнать больше об обучении? Подписывайтесь на наш канал в Telegram.

PyTorch — библиотека с открытым исходным кодом от Facebook, которая используется для обработки естественного языка и обучения нейросетей.

Matplotlib — это Python-библиотека для визуализации данных. С ее помощью можно строить различные визуализации данных: например, графики и диаграммы.

Seaborn — это расширение для Matplotlib, которое позволяет сделать сложные визуализации понятнее и привлекательнее.

NumPy — еще одна популярная библиотека для работы с данными. Ее главное преимущество — возможность работать с большими многомерными массивами данных и матрицами.

Хотите посмотреть словарь базового синтаксиса Python? — вам сюда.