Коллективный учебник-гайд от Колаборатории

Оглавление

Коллективный учебник-гайд
от Колаборатории

Работа в Google Colab и генерация кода с помощью ИИ

Глава 12

Ольга Акимова

Автор

В современной науке, особенно в таких междисциплинарных областях, как цифровая дипломатия, исследователи часто сталкиваются с необходимостью работать с большими объемами данных. Большие языковые модели и такие инструменты, как Google Colab или Replit.com, предлагают решение этой проблемы, помогая исследователям создавать код для анализа данных без глубоких знаний программирования.

1. Работа в Google Colab
2. Генерация кода в LLM
3. Загрузка CSV-файл в Google Colab

/01

Работа в Google Colab

Google Colab — это облачная платформа, которая поддерживает работу с языками Python и R, предоставляя интуитивно понятный интерфейс для написания и выполнения кода. Google Colab не требует установки дополнительного программного обеспечения. Все, что нужно, — это браузер и аккаунт Google. Платформа поддерживает популярные библиотеки для анализа данных на языке Python (Pandas, NumPy, Matplotlib, Seaborn) и языке R (ggplot2, dplyr).

Google Colab позволяет работать с данными, хранящимися в Google Drive, BigQuery и других облачных сервисах. Несколько пользователей могут одновременно работать над одним проектом, что особенно полезно для научных исследований. С помощью предварительно написанных скриптов и шаблонов исследователи могут быстро анализировать данные и создавать визуализации. Все ваши работы автоматически сохраняются на Google Диске, что дает возможность управлять файлами и делиться ими с коллегами.

Пошаговая инструкция по работе в Google Colab:

Перейдите на сайт Google Colab и войдите в свою учетную запись Google

После входа вы увидите интерфейс Google Colab. Нажмите на кнопку Создать блокнот (New Notebook), чтобы создать новый документ, где вы сможете писать и выполнять код

В блокноте вы можете создавать ячейки для кода и текста. Для выполнения кода нажмите на кнопку Воспроизвести (значок треугольника)

Начало работы в Google Colab

Создание блокнота в Google Colab

Поле для ввода кода в Google Colab

/02

Генерация кода в LLM

Большие языковые модели, такие как Chat GPT, Perplexity или DeepSeek, способны генерировать программный код на основе текстового описания задачи, что делает их идеальным решением для исследователей, не обладающих глубокими знаниями программирования.

Пример:
Если вы опишете задачу: «Создай столбчатую диаграмму для данных о количестве упоминаний стран в Twitter, используй код на языке Python для Google Colab», модель сгенерирует код, который можно сразу использовать в Google Colab.

Инструменты и библиотеки, доступные в Google Colab, позволяют решать широкий спектр задач. С помощью кода можно:

строить графики и диаграммы;

визуализировать временные ряды в исследовании;

провести анализ тональности текста;

визуализировать облака слов и т. д.

Пример использования LLM для генерации кода

Предположим, у вас есть данные о цифровой дипломатии, и вы хотите проанализировать их с помощью Python (вместо языка Python код можно создавать на языке R). Вы можете обратиться к языковой модели, например, через Perplexity или аналогичные инструменты, и описать свою задачу.

/ шаг 1

Описание задачи

Для начала работы вам нужно четко сформулировать задачу, которую вы хотите решить. Например, если вам нужно создать график для визуализации данных о количестве дипломатических миссий для каждой страны, вы можете сформулировать такой промпт:

/промпт

Напиши код на Python для Google Colab для создания столбчатой диаграммы, показывающей количество дипломатических миссий для каждой страны: 'Страна': ['США', 'Китай', 'Россия', 'Германия', 'Франция'], 'Количество миссий': [300, 250, 200, 150, 100]

/ шаг 2

Генерация кода

Модель сгенерирует код, который создает простую столбчатую диаграмму, отображающую количество дипломатических миссий для каждой страны.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Создаем данные
data = {
   'Страна': ['США', 'Китай', 'Россия', 'Германия', 'Франция'],
   'Количество миссий': [300, 250, 200, 150, 100]
}
df = pd.DataFrame(data)

# Создаем столбчатую диаграмму
plt.figure(figsize=(10, 6))
sns.barplot(x='Страна', y='Количество миссий', data=df)
plt.title('Количество дипломатических миссий по странам')
plt.xlabel('Страны')
plt.ylabel('Количество миссий')
plt.show()

/ шаг 3

Выполнение кода

Скопируйте сгенерированный код и вставьте в ячейку для написания кода Google Colab сочетанием клавиш Ctrl+V. После вставки нажмите Воспроизвести. Если платформа выдает ошибку при воспроизведении кода, просто скопируйте ее и попросите LLM, в которой вы работаете, устранить ее или переписать код заново. На иллюстрации ниже показан результат выполнения кода:

/03

Загрузка CSV-файл в Google Colab

Вы можете сразу загрузить файл с данными в большую языковую модель при генерации нужного кода. Однако если ваш массив данных довольно большой или содержит конфиденциальную информацию, вы можете столкнуться с вопросом безопасности: как работать с данными, не передавая их сторонним сервисам, таким как LLM? В этом случае Google Colab предлагает решение, которое позволяет сохранить данные в закрытой системе, минимизируя риски утечки или несанкционированного доступа.

Google Colab предоставляет возможность загружать данные в виде CSV-файлов напрямую в рабочую среду, не передавая их в облачные сервисы или сторонние инструменты. Это особенно важно, если вы работаете с конфиденциальной информацией, например, данными о международных отношениях, дипломатических переговорах или внутренней статистике.

/способ 1

Локальная загрузка

Вы можете загрузить CSV-файл с вашего компьютера прямо в Google Colab. Для этого используйте следующий код:

После выполнения этого кода появится кнопка Выберите файл, которая позволит вам загрузить файл с вашего устройства. Файлы хранятся в облачной среде в виде строки кода.

/способ 2

Работа с Google Drive

Если ваши данные хранятся в Google Drive, вы можете подключить Google Colab к вашему аккаунту и работать с файлами напрямую. Для этого используйте следующий код:

После выполнения этого кода вы получите доступ к файлам в Google Drive через путь /content/drive/MyDrive/

/способ 3

Работа с файлом

При написании кода с помощью большой языковой модели, уточните, что у вас есть файл, с которым вы будете работать: можно просто скопировать его название / путь к файлу в Google Colab.

Использование больших языковых моделей для генерации кода открывает новые возможности для исследователей в области цифровой дипломатии и других дисциплин. Это позволяет сосредоточиться на анализе данных и интерпретации результатов, а не на технических аспектах программирования. Google Colab, в свою очередь, предоставляет безопасную и удобную среду для работы с большими массивами данных, включая конфиденциальную информацию.