ibash.org.ru - Новый цитатник Рунета | Цитаты: По дате По рейтингу Случайно Добавить Поиск RSS |
Форум: Проэкт "Моника" 1 2 3 > [RSS] | Форум: Вход Регистрация Участники Поиск RSS |
Malefic 26.01.2010 - 12:35 | Амбиционизм в чистом виде |
Malefic #1 - 26.01.2010 - 12:43 | Итак, есть желание сделать управляемую голосом систему, которая может выполнять задачи типа "Включить свет", "Выключить свет" в комнате и так далее. Интересно, есть ли открытые системы распознавания голоса, хоть какие-то примитивные, которые могут отличить слово "хер" от "свет", на основе которых можно что-то сделать. Идея такова: каждая команда - набор управляющих слов. Первое - инициализируцющее, второе - обьект, третье - действие. Пример "Моника. Свет. Ярче" Идеи? Может я придумываю еще один бесплатный велик? ЗЫ Да, я понимаю, что нужно будет делать на выходе контроллер, у меня есть люди, которые могут этим заняться (= |
gdulhr #2 - 26.01.2010 - 12:55 | Такое чудо продавалось в комплекте с AWE64. |
дятел #3 - 26.01.2010 - 13:13 | У меня явно не здоровые ассоциации с именем "Моника". |
RoadRunnеr #4 - 26.01.2010 - 13:18 | проЕкт. граммар наци негодуе! :) А Моника... "Мало ли в Бразилии донов Педро?" |
3123 #5 - 26.01.2010 - 13:20 | Специальные розетки и софт для этого уже есть. Розетки денег стоят, конечно. ) |
Malefic #6 - 26.01.2010 - 13:29 | Тоесть ничего нормального таки нету. Хорошо. А софт есть с функциями распознавания? |
Malefic #7 - 26.01.2010 - 13:30 | Блин, чо вы придолбались, я первое встречное имя взял) Вчера друзей смотрел (= |
RoadRunnеr #8 - 26.01.2010 - 13:35 | Друзей Б.Клинтона? :)) |
RoadRunnеr #9 - 26.01.2010 - 13:35 | А если серьезно, то, возможно, нихонцы это делают. У них же "умные" дома, напичканные электроникой и робототехникой... |
RoadRunnеr #10 - 26.01.2010 - 13:38 | Макс, ты хочешь свою систему написать?! Это, по-моему, задачка для НИИ, а они вряд ли в открытый доступ что-либо пригодное выложат. А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^' |
Malefic #11 - 26.01.2010 - 14:03 | #10 Ты чо?! Какой НИИ? )))) Система только постоянно _слушает_. Если слышит управляющее слово, начинает ждать команды. Команда состоит из 2-3 слов. Ничего сложного ) Если есть распознавалка речи, дальше всё достаточно просто описать алгоритмами (реализовать малеха сложней, но реально) |
Ским #12 - 26.01.2010 - 14:04 | Ололо, малефик реализует часть моего проекта :). |
Malefic #13 - 26.01.2010 - 14:05 | > А библиотеки для распознавания есть даже у мелких - в винду встроены. Даже работает; правда, криво ^_^ Да, знаю, но я хо открытую весч и на юниксах работающую. Дабы этой цели можно было отдать какую-то еле живую машину без монитора (= |
Ским #14 - 26.01.2010 - 14:08 | Мэл, регистрируйся на shl тчк antixpuct тчк ru. Будешь помогать :). |
Malefic #15 - 26.01.2010 - 15:07 | Ским, посмотрел. Слишком мудрено. >Предлагаю подумать над тем, как осуществлять беспроводную связь между "центром управления" и остальными частями "дома". // WiFi VS X10 VS {...}. --Ским 23:39, 15 января 2010 Этокапец, очень дорого получится, хотя беспроводно это кул. |
RoadRunnеr #16 - 26.01.2010 - 15:15 | #11 Макс, система слушает - это плевое дело. Распознавание сигнала, вычленение из него _голоса_, распознавание среди речи _управляющего слова_... Да, сейчас делают по-другому - просто сравнивают снимок твоего голоса с тем, что поступает на вход "звукоснимателя". Если снимок совпадает (с учетом погрешности, есессьна), то считается, что прозвучала "управляющая команда" и надо декодировать дальше. Но я-то понял так, что ты... А, видимо, я ошибочно понял... |
RoadRunnеr #17 - 26.01.2010 - 15:17 | Кстати, виндовая так и работает. И именно поэтому она работает криво. Не говоря уже о том, что насморок или хриплый спросонья голос тебе испортят все "управление". |
RoadRunnеr #18 - 26.01.2010 - 15:18 | *виндовая распознавалка |
Malefic #19 - 26.01.2010 - 15:19 | Я собсно и спросил, есть ли открытые проекты с таким функционалом ) |
Ским #20 - 26.01.2010 - 17:36 | >> Этокапец, очень дорого получится, хотя беспроводно это кул. Уже решили, что тот же модбас, только я уже забыл с каким расширением из всех этих RS'ов :). В общем, ничего сверхъестественного поверх обычного радио-сигнала :) |
Хирург #21 - 26.01.2010 - 22:38 | Ским, модбас это протокол, кладется поверх веревки RS485 или RS232, в зависимости от того с каким девайсом вязаться. Затем появился модбас+ это модифицированный модбас, поверх скорректированной веревки. Как-то так) |
Malefic #22 - 27.01.2010 - 12:32 | Вобщем нету такого. Абидно. :( |
Циник #23 - 27.01.2010 - 14:27 | @Malefic, чего обидно-то? Напишешь - сделаешь полезное дело, а не изобретёшь очередной велосипед. |
Malefic #24 - 27.01.2010 - 15:12 | Не напишу, знаний не хватит... |
Циник #25 - 27.01.2010 - 15:38 | @Malefic, как завещал дедушка Ленин, учиться, учиться и ещё раз учиться ) Простейшую версию, типа того что в Винде написать не так уж сложно. С этого имхо и надо начинать. Потом уже надо будет учиться убирать шумы(выделять голос человека) и переходить к более сложным способам распознования команд. |
Asterozoa #26 - 27.01.2010 - 19:33 | Наверное в распознавании самая проблема и будет, может добавить другие способы контроля, например видеорегистрацию, типа датчики движения включат камеры, которые с нескольких ракурсов будут фиксировать открытие рта, и при определенной четкости можно добиться результатов, ведь можно же уже номера машин распознавать на ходу без проблем , тогда техническая часть будет сложнее , но задача решается в разы проще, если например связать звук и изображение и сверять |
Циник #27 - 27.01.2010 - 20:33 | @Asterozoa, вы серьёзно считаете, что распознавание видео-образов проще чем аудио-образов? А применительно к задаче, как видеокамеры помогут в условиях темноты при команде "Моника. Свет. Включить"? |
Asterozoa #28 - 27.01.2010 - 21:17 | Циник, что по вашему проще? Распознавание текста из графики или из аудио? А если заставить работать в связке? А насчет темноты- достаточно много камер работают и в ик-диапазоне, преобразуя его в видимый цвет на видеосигнале, достаточно просто разместить ик-батареи по периметру. О...да...детка |
Циник #29 - 27.01.2010 - 21:39 | @Asterozoa, ))) есть одна маленькая мелочь... распознавать придётся не текст, который состоит из ограниченного числа чётко определённых символов, а форму и движение рта, который может быть каким угодно. А эти задачи различаются примерно так же как распознавание чёрного текста Arial 18px на белом фоне от распознавания этого же текста, написанного произвольным набором шрифтов, размеров, наклонов, цветов на произвольном фоне с шумами(ака "взлом капчи"). Оцените сложность. Кстати, подход "я не могу решить одну проблему, поэтому я создам себе ещё две и буду решать их все вместе" очень редко приводит к успеху. Точнее, мне даже неизвестны случаи, когда бы он приводил к успеху. |
детка #30 - 27.01.2010 - 21:40 | >достаточно просто разместить ик-батареи по периметру. С этого места поподробнее.. |
Asterozoa #31 - 27.01.2010 - 21:49 | Детка, я имею в виду не решать две проблемы, а совместить оба принципа, тогда например каждый звук будет сравниваться с изображением лица хозяина и базой шаблонов, и если не совпадет, то будет игнорироваться, это уже намного проще, чем отсекать шумы в изображении-звуке по отдельности... Ик-батареи- куча ик-диодов направленных в одну сторону, попробуй взять телефон с камерой, не слишком крутой, направь в нее пульт от телевизора и нажми кнопку на пульте |
Asterozoa #32 - 27.01.2010 - 21:51 | Если она видит источник излучения, то увидит и отраженное излучение, просто мощность излучателя недостаточная, надо увеличивать... Короче пнв так и устроены |
Циник #33 - 27.01.2010 - 22:01 | @Asterozoa, это пять!!! сразу видно человека, который занимался задачами распознавания образов вообще и человеческого лица в частности. Продолжайте в том же духе. У меня реально поднимается настроение)) |
Asterozoa #34 - 27.01.2010 - 22:21 | Неконструктивно, думаем все вместе. В любом случае для умного дома нужна система видеонаблюдения, почему бы ее не приспособить, камеры взять с достаточным качеством съемки и просмотром ик-диапазона, пускай для начала ввод команд будет осуществляться с кнопок (и одновременно голосом) и сопровождаться записью изображений с камер и звуков с микрофонов, либо пускай камеры будут фиксировать только изменения в изображении- то есть будет фиксироваться только хозяин на статичном фоне, создать мертвые зоны- телеэкраны, дисплеи, можно добавить жесты, любые заметные движения-хотя это некритично при достаточном качестве съемки, а шумодавы будут убирать лишние шумы |
Asterozoa #35 - 27.01.2010 - 22:21 | И при совпадении- 'звук-изображение' будет выполняться команда |
Циник #36 - 27.01.2010 - 22:33 | @Asterozoa, завязывайте с "полётами на Марс" ;) Я серьёзно, без всякой злобы и подколок. Ваш план, конечно, хорошо, но нереален. Только программная реализация займёт больше года при полной занятости 2-х квалифицированных программистов. @Malefic, Если интересно, завтра могу набросать план развития Моники, но только с точки зрения ПО, в железе и низкоуровневом программировании я не силён. |
Asterozoa #37 - 27.01.2010 - 22:42 | Полеты на марс? Год программирования- А как вы хотели? Такими вещами и дольше занимаются и большие команды разрабов. На Систему распознавания голоса и то полгода уйти может, а концепцию умного дома с нуля разработать, создать и внедрить:) |
Циник #38 - 27.01.2010 - 23:03 | @Asterozoa, я бы хотел получить результат, а не очередной мёртворождённый проект, из которого все сбегут не сделав и 10% от задуманного. А для этого совершенно необходимо ставить реальные задачи. |
Asterozoa #39 - 27.01.2010 - 23:15 | Другой вопрос. Здесь не могу не согласиться, просто предложил способ, но все же |
Asterozoa #40 - 27.01.2010 - 23:16 | Чем не путь развития проекта? Можно добиться коллосального увеличения точности, не прибегая к сверхсложным способам |
Циник #41 - 27.01.2010 - 23:36 | @Asterozoa, ну почему же не путь? Путь, только тупиковый. Вы просто плохо себе представляете, что это такое детектить и анализировать лицо человека даже на статической фотке, не говоря уже о динамике. Это как раз и есть сверхсложный способ. И это даже не касаясь вопросов железа, которых в вашем пути очень много. |
Asterozoa #42 - 27.01.2010 - 23:40 | В плане технической реализации сферически не сложно если идти от малого- допустим камера снимает в фас перед монитором- изначально делается кадр в файл без оператора. Потом делаем ввод шаблонов- пускай оператор запишет все положения лица при выговаривании гласных букв- программа каждый раз будет сравнивать полученное изображение со статичным фоном. Те области, которые не сходятся-оператор, пишем в файлы с абсолютной позицией, то есть положение относительно фона неважно. Далее тестируем ввод команд- опять же области не схожие с фоном - оператор- сравниваем с файлами из второго шага. Далее уже можно снизить точность , вставить фильтры типа медианы. В плане аппаратных мощностей- пускай этим сначала хоть GDI занимается, потом можно другие интерфейсы приспособить |
Asterozoa #43 - 27.01.2010 - 23:43 | Существуют же регистраторы номеров машин- чем не обработка в динамике? Или думаете эта система сверхумная и сверхсложная, или она увидит разницу между машинами, на которые эти номера прикручены ? |
Asterozoa #44 - 27.01.2010 - 23:47 | Или же вы сразу хотите, чтобы система прямо на видео прямо на ходу находила некий движущийся объект, понимала, что это человек, что вот его лицо, что это лицо оператора и ждала команд? |
Asterozoa #45 - 27.01.2010 - 23:53 | Тогда это точно задачка для НИИ |
Циник #46 - 28.01.2010 - 00:04 | @Asterozoa, план с оператором - бессмысленная жесть. Я так и не понял зачем это надо и как это потом можно будет использовать на практике. Насчёт машин. Там всё проще, т.к. номер задетектить и распарсить гораздо проще чем лицо. Согласитесь, гораздо легче отличить 1 от 7, чем позицию губ при произнесении А от позиции губ при произнесение О. |
Asterozoa #47 - 28.01.2010 - 00:08 | Согласен, а от о отличить сложно, можно сделать абстрактный ао, так же и на аудио будешь писать исключения, чтобы не появлялись слова типа жыр или какос?.. Почему план с оператором бессмысленен? Простое условие- изменение изображения, хоть рукой маши, если не совпадет-значит не совпало |
Asterozoa #48 - 28.01.2010 - 00:18 | И вообще, с чего ты взял, что я про распознавание текста с фото? Я имел в виду синхронизацию с вводом аудио, с которого уже будет распознаваться текст, при условии совпадения |
Asterozoa #49 - 28.01.2010 - 00:20 | То есть если кто нибудь рядом орет - и камера не видит что у тебя рот открыт, значит это не команда, и не надо мучиться, а как увидит что ты говоришь-начнет слушать, и при некоторой ебле сравнивать гласные звуки с фото и аудио |
Asterozoa #50 - 28.01.2010 - 00:21 | А если делать систему распознавания голоса, то хоть как нужно говорить громко и четко, попробуй, и заметишь, что губы складываются по разному, когда говоришь а и о |
К списку вопросов | Страницы: 1 2 3 > |
«ibash.org.ru — Новый цитатник Рунета» | Почта вебмастера: imail@ibash.org.ru |