Форум программистов, компьютерный форум, киберфорум
Python: Сети
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.67/15: Рейтинг темы: голосов - 15, средняя оценка - 4.67
0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23

Работа с большим объемом данных

01.10.2018, 22:06. Показов 3184. Ответов 6
Метки нет (Все метки)

Студворк — интернет-сервис помощи студентам
Коллеги, подскажите по такому вопросу.

Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python? Во-первых, если объем большой (допустим считать в датафрейм с использованием pandas), то не все возможно расположить в памяти и есть ограничения. Как вообще в машинном обучении правильно работать с большими данными и в Python вообще? Спасибо!
0
cpp_developer
Эксперт
20123 / 5690 / 1417
Регистрация: 09.04.2010
Сообщений: 22,546
Блог
01.10.2018, 22:06
Ответы с готовыми решениями:

Oracle и работа с большим набором данных
Коллеги, здравствуйте! И еще один вопрос на тему Oracle и Python. Если у меня запрос должен вернуть допустим 3 млн. строк, то...

Работа с большим объемом данных
Всем привет! Всегда создавал коллекцию List<List<xxx>>, заносил в нее данные из txt файла, а потом с этой коллекцией уже работаю. Так я...

Работа с большим объемом данных
Всем привет! Работа с большим объемом данных заставляет задуматься над всевозможными способами оптимизации алгоритма. Возьмем простой...

6
1673 / 1569 / 261
Регистрация: 19.02.2010
Сообщений: 4,180
02.10.2018, 12:22
Кольцевой буфер.
0
0 / 0 / 0
Регистрация: 24.06.2018
Сообщений: 23
02.10.2018, 22:21  [ТС]
А могли бы более подробно об это рассказать и какие функции или методы есть в Python? Это опция batch в pandas в read_csv?
0
Эксперт Python
5437 / 3859 / 1215
Регистрация: 28.10.2013
Сообщений: 9,552
Записей в блоге: 1
03.10.2018, 01:02
Цитата Сообщение от MrSergey86 Посмотреть сообщение
несколько миллионов записей.
Это немного. В 4gb ОЗУ вполне влезает до 10-20 млн. строк, если, конечно, у вас не "Война и мир" в каждой записи.
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
Читать документацию по используемым библиотекам. Считывание данных всегда можно делать итеративно - порциями.

read_csv

chunksize : int, default None

Return TextFileReader object for iteration. See the IO Tools docs for more information on iterator and chunksize.

memory_map : boolean, default False

If a filepath is provided for filepath_or_buffer, map the file object directly onto memory and access the data directly from there. Using this option can improve performance because there is no longer any I/O overhead.

Обучение модели также можно делать итеративно, если в интерфейсе алгоритма есть метод partial_fit.
Более подробно ответить вам невозможно, так как единственное, что ясно из вашего поста, это то, что вы работаете с какими-то сферическими конями в вакууме.
0
Эксперт Python
 Аватар для dondublon
4645 / 2060 / 364
Регистрация: 17.03.2012
Сообщений: 10,141
Записей в блоге: 6
03.10.2018, 13:02
MrSergey86, несколько миллионов - это объёмы для обычной "настольной" СУБД, наверняка даже SQLite справится, который в питоне "искапорки".
Если же нет - ну, можно что-то помощнее, типа MySQL или Postgres.

Добавлено через 47 секунд
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Как вообще в машинном обучении правильно работать с большими данными и в Python вообще?
А "вообще" это вопрос довольно сложный. Нельзя так сразу взять и - - - (нутыпонел).
0
 Аватар для IRIP
514 / 146 / 28
Регистрация: 18.04.2015
Сообщений: 1,904
Записей в блоге: 16
05.10.2018, 11:21
Цитата Сообщение от MrSergey86 Посмотреть сообщение
Есть выборка, несколько миллионов записей. Каким образом с ней правильно работать в Python?
Думаю, стоит обратить внимание на асинхронный python3 статья, например, эта https://habr.com/post/421625/
0
Эксперт Python
 Аватар для dondublon
4645 / 2060 / 364
Регистрация: 17.03.2012
Сообщений: 10,141
Записей в блоге: 6
05.10.2018, 12:10
IRIP, это уже про обработку конкретных случаев. Тут пока с хранением не разобрались.
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
raxper
Эксперт
30234 / 6612 / 1498
Регистрация: 28.12.2010
Сообщений: 21,154
Блог
05.10.2018, 12:10
Помогаю со студенческими работами здесь

Работа с большим объемом данных
Имеется загруженное изоображение с помощью opencv. Задача: вывести цвета изображения с из колличеством. Цвет задаю структурой, хранящей...

Работа с большим объёмом данных
Приветствую всех! На днях столкнулся с такой проблемой: необходимо отправить на сервер файл большого размера (для теста взял 37 МБ) из...

работа с большим объемом данных
большим я называю от 300000Rx50C судя по информации из диспетчера задач происходит накопление памяти что приводит к постепенному...

QtSerialPort Работа с большим объемом данных
Добрый день. Я пишу приложение, которое работает с последовательным портом при помощи QtSerialPort. Программа получает из порта...

Как организована работа с большим объемом данных
Программа выдаёт stack overflow при запуске, рекурсию не использую. Кто-нибудь сталкивался с большими объёмами данных? Массив 200000...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
7
Ответ Создать тему
Новые блоги и статьи
Непрерывная интеграция для пакета Python
Mr. Docker 22.06.2025
Было 4 часа утра пятницы, когда я выпустил новую версию нашей внутренней библиотеки для обработки данных. Релиз 0. 5. 2 содержал небольшой фикс для обработки дат в ISO формате, что может пойти не так?. . .
Продвинутый ETL на C# из OLTP БД в хранилище
stackOverflow 22.06.2025
Работая в сфере корпоративной аналитики, я постоянно сталкиваюсь с одним и тем же - нужны чистые, структурированные и, главное, свежие данные. Без них современные аналитические системы, машинное. . .
Мастер-класс по микросервисам на Node.js
Reangularity 21.06.2025
Node. js стал одной из самых популярных платформ для микросервисной архитектуры не случайно. Его неблокирующая однопоточная модель и событийно-ориентированный подход делают его идеальным для. . .
Управление Arduino из WPF приложения
Wired 21.06.2025
Зачем вообще связывать Arduino с WPF-приложением? Казалось бы, у Arduino есть собственная среда разработки, своя экосистема, свои способы управления. Однако при создании серьезных проектов. . .
Звёздная пыль
kumehtar 20.06.2025
Я просто это себе представляю: как создавался этот мир. Как энергия слипалась в маленькие частички. Как они собирались в первые звёзды, как во вселенной впервые появился Свет. Как эти звёзды. . .
Создание нейросети с PyTorch
AI_Generated 19.06.2025
Ключевое преимущество PyTorch — его питоновская натура. В отличие от TensorFlow, который изначально был построен как статический вычислительный граф, PyTorch предлагает динамический подход. Это. . .
JWT аутентификация в ASP.NET Core
UnmanagedCoder 18.06.2025
Разрабатывая веб-приложения, я постоянно сталкиваюсь с дилеммой: как обеспечить надежную аутентификацию пользователей без ущерба для производительности и масштабируемости? Классические подходы на. . .
Краткий курс по С#
aaLeXAA 18.06.2025
Здесь вы найдете все необходимые функции чтоб написать програму на C# Задание 1: КЛАСС FORM 1 public partial class Form1 : Form { Spisok listin = new Spisok(); . . .
50 самых полезных примеров кода Python для частых задач
py-thonny 17.06.2025
Эффективность работы разработчика часто измеряется не количеством написаных строк, а скоростью решения задач. Готовые сниппеты значительно ускоряют разработку, помогают избежать типичных ошибок и. . .
C# и продвинутые приемы работы с БД
stackOverflow 17.06.2025
Каждый . NET разработчик рано или поздно сталкивается с ситуацией, когда привычные методы работы с базами данных превращаются в источник бессонных ночей. Я сам неоднократно попадал в такие ситуации,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru
OSZAR »