А давайте сделаем просто топик для общения по теме?

Языки программирования, базы данных, прикладные программы

Re: А давайте сделаем просто топик для общения по теме?

Сообщение TailWind » Вт ноя 23, 2021 2:34 am

Клепай CRM-ки :D
Аватара пользователя
TailWind
Гуру
Гуру
 
Сообщения: 8395
Зарегистрирован: Ср апр 15, 2015 1:36 am
Медали: 5
Пол: Мужской

Re: А давайте сделаем просто топик для общения по теме?

Сообщение R.D. » Вт ноя 23, 2021 2:38 am

TailWind писал(а):Клепай CRM-ки :D


Нене, я эти твои массивы тоже могу разверстать :D главное чтобы денег нормально за это платили :add29 Мне в принципе похрен что именно кодить, если бабки нормальные :D
Маски, перчатки, шапочки из фольги - я это не ношу
Аватара пользователя
R.D.
Кот Шрёдингера
Кот Шрёдингера
 
Сообщения: 2957
Зарегистрирован: Ср авг 21, 2019 2:48 pm
Пол: Мужской
Соционический тип: Гамлет
Профессия: Торговец хлебом насущным

Re: А давайте сделаем просто топик для общения по теме?

Сообщение Neo » Вт ноя 23, 2021 11:35 am

TailWind писал(а):Именно так мне и нужно. Но:

А если [a,b] = 1
[b,c]=1

А [a,c] = 10

То как быть?

По идее - такого кейса быть не может. Если у тебя [a,b] =[b,c]= 1, то [a,c] не может быть больше чем 2.
Т.к. если у тебя 2 строки отличаются друг какой-то третьей на 1 символ, то друг от друга - они не могут больше чем на 2 символа отличаться.
Ну к примеру, а=1110, b=0110, c=0111. Тогда ab=1, bc=1, ac=2.
В общем, тут примерно как с обычным геометрическим расстоянием - расстояние между 2 массивами <= сумма их расстояний до какого-то третьего массива. Строгое математическое доказательство я, конечно, привести не готов, но по логике - именно так получается :)
Так что можно еще попробовать объединить в группы те массивы, для которых максимальное расстояние от всех остальных внутри группы<=какое-то пороговое значение. Ну т.е. у тебя к примеру есть 2 группы массивов, в каждой из групп - совпадение от 80%. Но при этом любой массив из одной группы отличается от любого из другой группы не более чем на 75%. Тогда - логично будет эти 2 группы в одну объединить.
Но вообще, конечно, надо в первую очередь из конкретной задачи исходить. Формировать гипотезы про абстрактный набор массивов - дело неблагодарное :)
Миру наплевать на твое самоощущение и самоуважение. Мир ожидает от тебя каких-нибудь достижений, перед тем как принять во внимание твое чувство собственного достоинства.
(с) Билл Гейтс
Аватара пользователя
Neo
Местный
Местный
 
Сообщения: 1546
Зарегистрирован: Сб июн 02, 2007 1:54 pm
Пол: Мужской
Соционический тип: Джек Лондон
Темперамент: Холерик
Профессия: IT-обеспечение сбыта мечт

Re: А давайте сделаем просто топик для общения по теме?

Сообщение TailWind » Вт ноя 23, 2021 12:30 pm

Neo писал(а):Но вообще, конечно, надо в первую очередь из конкретной задачи исходить. Формировать гипотезы про абстрактный набор массивов - дело неблагодарное :)

Ты абсолютно правильно понял задачу
Нужно сделать программу для анализа и поиска таких групп

Самое главное не потонуть в полученных списках
Чтобы не было так, что найдено много групп, у которых 70% членов одинаковые

Вообще мне нужен список сверху вниз. В котором похожие массивы были бы рядом. И самые популярные (похожие на много других) сверху
Я не хочу чтобы массивы в этом списке повторялись. Это важно

Кажется я понял как это сделать
Спасибо!!! :)
Аватара пользователя
TailWind
Гуру
Гуру
 
Сообщения: 8395
Зарегистрирован: Ср апр 15, 2015 1:36 am
Медали: 5
Пол: Мужской

Re: А давайте сделаем просто топик для общения по теме?

Сообщение Neo » Вт ноя 23, 2021 1:21 pm

TailWind писал(а):Самое главное не потонуть в полученных списках
Чтобы не было так, что найдено много групп, у которых 70% членов одинаковые

Так не обязательно пороговое значение для "коэффициента сходства" константой задавать :) Понятно, что может попасться датасет, в котором у 90% всех массивов коэф-т сходства 70% и более.
Но можно же посмотреть распределение этих расстояний. Скажем, у тебя 90% всех расстояний - коэф-т сходства более 70%, но при этом 25% всех расстояний - сходство более 90%. Соответственно - ставишь порог сходства в 90%.
Конечно, 25% от кол-ва расстояний- не обязательно относятся к 25% всех массивов. Но никто же не мешает взять какую-нить ограниченную выборку из этого датасета, и поэкспериментировать :) .
Миру наплевать на твое самоощущение и самоуважение. Мир ожидает от тебя каких-нибудь достижений, перед тем как принять во внимание твое чувство собственного достоинства.
(с) Билл Гейтс
Аватара пользователя
Neo
Местный
Местный
 
Сообщения: 1546
Зарегистрирован: Сб июн 02, 2007 1:54 pm
Пол: Мужской
Соционический тип: Джек Лондон
Темперамент: Холерик
Профессия: IT-обеспечение сбыта мечт

Re: А давайте сделаем просто топик для общения по теме?

Сообщение Сключики » Вт ноя 23, 2021 4:00 pm

Neo писал(а):В общем, тут примерно как с обычным геометрическим расстоянием - расстояние между 2 массивами <= сумма их расстояний до какого-то третьего массива. Строгое математическое доказательство я, конечно, привести не готов, но по логике - именно так получается :)

Правило треугольника - сумма длин двух любых сторон треугольника всегда больше длины третьей стороны. (это если нужно)))
Аватара пользователя
Сключики
Местный
Местный
 
Сообщения: 1154
Зарегистрирован: Пт авг 13, 2021 2:50 pm
Медали: 1
Пол: Женский
Соционический тип: Робеспьер
Профессия: техническая

Пред.

Вернуться в Программирование

Кто сейчас на конференции

Зарегистрированные пользователи: Болотница, Атех, Espero, GoGo [Bot], Google [Bot], Google Adsense [Bot], MNick2017, Smug_Cat, Suan, Yandex 3.0 [Bot], Yandex [Bot], Феликс, игнат