Выборка из таблицы в R

Dan B-Yallay · 11/12/05 10432

Есть таблица с данными, например:
$\begin{tabular}{l*{8}{c}r} Value | & s_1 & s_2 & s_3 & s_4 & s_5 & s_6 & s_7 &...& s_{150} \\ \hline par_1 |& 3 & 4 & 0 & 2 & 10 & 5 & 12 &...& 4 \\ par_2 | & 7 & 3 & 0 & 3 & 8 & 9 & 9 &...& 6\\ par_3 | & 4 & 2 & 1 & 3 & 7 & 8 & 7 &...& 1 \\ par_4 | & 10 & 2 & 1 & 3 & 5 & 8 & 7 &...& 15 \\ ......\\ par_{1000} | & 2 & 3& 7 & 8& 12& 0 &3 & ... & 11\\ \end{tabular}$
где $s_1 ... s_{150}$ - образцы, а $par_i, \ i=1,...,1000$ - значения неких параметров этих образцов. Также есть столбец $S$ , в котором указана принадлежность образцов к группам:

$S = (A \ A\ B\ A\ C\ B\ C\ G \ ...\ G)^T$

то есть образцы $s_1, \ s_2, \ s_4$ принадлежат группе $A$ . Для обработки данных мне надо уметь выделять образцы из этой таблицы в подтаблицы: например, выбрать именно те образцы, которые HE входят в группу $B$ . Или те, что входят в $C$ и $G$ .

Мне это умение необходимо потому, что разбиение на группы будет меняться много раз, как и само количество групп. Tаблица содержит более сотни образцов, так что вручную это делать непродуктивно.

Собственные попытки:

Нашел команду subset, но инструкции к ней не подразумевают такой хитровывернутости, которую я ищу.

g______d · 08/11/11 5940

Никогда не пользовался на R, но ради интереса попробовал поискать ответ. Заранее извиняюсь, если я что-то нашёл неправильно, проверять лень.

Dan B-Yallay в сообщении #1330983 писал(а):

Нашел команду subset, но инструкции к ней не подразумевают такой хитровывернутости, которую я ищу.

Да, этой функцией, похоже, строки можно удалять по логическому условию, а столбцы -- только если руками ввести какие именно. Возможно, потому что обычно столбцы -- это параметры, а строки -- образцы. Может быть, транспонировать таблицу?

Другой вариант -- функция select

https://www.rstudio.com/wp-content/uplo ... tsheet.pdf (на первой странице справа внизу)
https://www.rdocumentation.org/packages ... ics/select

Она умеет выбирать столбцы по названию (например, если в названии встречается подстрока). Т. е., хотя это и через одно место, можно к названию $s_i$ временно приписывать соответствующую букву, а потом фильтровать по наличию этой буквы; или комбинировать несколько таких условий или их отрицаний с помощью логических операций.

EUgeneUS · 11/12/16 14947 уездный город Н

g______d в сообщении #1330986 писал(а):

Возможно, потому что обычно столбцы -- это параметры, а строки -- образцы. Может быть, транспонировать таблицу?

+1
Элемент в таблице в подавляющем большинстве случаев - это строка, а не столбец.
Аналогично в SQL:
1. Data Manipulation Language, DML, то есть SELECT, INSERT, UPDATE, DELETE, работает исключительно со строками.
2. А добавление\удаление столбцов - это уже Data Definition Language, DDL.

Dan B-Yallay в сообщении #1330983 писал(а):

Также есть столбец $S$ , в котором указана принадлежность образцов к группам:

$S = (A \ A\ B\ A\ C\ B\ C\ G \ ...\ G)^T$

то есть образцы $s_1, \ s_2, \ s_4$ принадлежат группе $A$ .

В Вашем варианте таблице это строка.

Dan B-Yallay · 11/12/05 10432

g______d
Спасибо за идею и ссылки, буду смотреть.

EUgeneUS
Я практически не знаком с SQL, но мне кажется, они с R мало пересекаются.

EUgeneUS в сообщении #1330991 писал(а):

В Вашем варианте таблице это строка.

Возможно, надо посмотреть размерность.

EUgeneUS · 11/12/16 14947 уездный город Н

Dan B-Yallay в сообщении #1331055 писал(а):

Я практически не знаком с SQL, но мне кажется, они с R мало пересекаются.

У меня обратная ситуация - с R знаком чуть менее, чем никак. SQL был приведен для иллюстрации простой мысли:
1. Набор столбцов - это описание данных.
2. Набор строк - это собственно данные.

Соответственно, и команды для работы со строками и со столбцами различаются существенно.

aitap · 09/05/16 138

Dan B-Yallay в сообщении #1330983 писал(а):

Также есть столбец $S$ , в котором указана принадлежность образцов к группам

S - отдельная переменная? Это не принципиально, но в примерах кода я предположу, что да. Дополнительно предположу, что S - вектор (если нет, придётся добавить один индекс, равный единице).

Dan B-Yallay в сообщении #1330983 писал(а):

Для обработки данных мне надо уметь выделять образцы из этой таблицы в подтаблицы: например, выбрать именно те образцы, которые HE входят в группу $B$ . Или те, что входят в $C$ и $G$ .

Если я правильно понял задачу, достаточно использовать Булевы индексы:

Код:

mytable <- matrix(
    ncol=8, byrow=T,
    dimnames=list(
        c("par1","par2","par3","par4","par1000"),
        c("s1","s2","s3","s4","s5","s6","s7","s150")
    ),
    data=c(
        3, 4, 0, 2, 10, 5, 12, 4,
        7, 3, 0, 3, 8, 9, 9, 6,
        4, 2, 1, 3, 7, 8, 7, 1,
        10, 2, 1, 3, 5, 8, 7, 15,
        2, 3, 7, 8, 12, 0, 3, 11
    )
)
S <- factor(c("A", "A", "B", "A", "C", "B", "C", "G"))
stopifnot(length(S) == ncol(mytable))
mytable[,S=="C" | S=="G"]
#         s5 s7 s150
# par1    10 12    4
# par2     8  9    6
# par3     7  7    1
# par4     5  7   15
# par1000 12  3   11

Выбрать из таблицы mytable все строки (до запятой ничего не стоит) и те столбцы, для которых в векторе $\{ S_i = C \lor S_i = G \quad \forall i \}$ находится $\mathrm{TRUE}$ .

Замечу, что класс data.frame, используемый в R для многих задач, предполагает, что образцы располагаются по строкам, а параметры - по столбцам. Отличие датафреймов от матриц в том, что разные колонки могут иметь разные типы:

Код:

myframe <- cbind(as.data.frame(t(mytable)), S)
str(myframe)
# 'data.frame':   8 obs. of  6 variables:
#  $ par1   : num  3 4 0 2 10 5 12 4
#  $ par2   : num  7 3 0 3 8 9 9 6
#  $ par3   : num  4 2 1 3 7 8 7 1
#  $ par4   : num  10 2 1 3 5 8 7 15
#  $ par1000: num  2 3 7 8 12 0 3 11
#  $ S      : Factor w/ 4 levels "A","B","C","G": 1 1 2 1 3 2 3 4
myframe[myframe$S != "B",]
#      par1 par2 par3 par4 par1000 S
# s1      3    7    4   10       2 A
# s2      4    3    2    2       3 A
# s4      2    3    3    3       8 A
# s5     10    8    7    5      12 C
# s7     12    9    7    7       3 C
# s150    4    6    1   15      11 G

Dan B-Yallay · 11/12/05 10432

aitap
Спасибо за код, я попробую.

provincialka · 18/01/13 12065 Казань

aitap
Второй пример я поняла, я и сама бы так написала. А зачем в первом примере команда stopifnot(length(S) == ncol(mytable))? Что она делает?

aitap · 09/05/16 138

provincialka, я хотел подчеркнуть, что каждый элемент вектора S соответствует отдельной колонке матрицы с остальными данными. Если бы я ошибся с числом колонок или элементов в векторе S, программа бы упала на этой строке.

Без этой проверки попытка применить к матрице Булев индекс меньшего размера, чем число колонок в ней, молча повторяет индекс, пока он не дорастёт до нужного размера. Такую ошибку может быть трудно отследить. (К счастью, слишком длинный Булев индекс всё-таки приводит к падению на месте.)

provincialka · 18/01/13 12065 Казань

aitap
А! Понятно. Точно, R приводит строки меньшей длины к большей.

Dan B-Yallay · 11/12/05 10432

aitap в сообщении #1331104 писал(а):

mytable[,S=="C" | S=="G"]

Эта выборка работает замечательно, так же как и

Код:

mytable[, S != "A"]

Cпасибо.

Научный форум dxdy

Выборка из таблицы в R

Кто сейчас на конференции